Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
패러다임의 변화가 빅데이터의 전부- 결과보다는 과정속에서 기회가 만들어져
1. 10 인터뷰 정보통신신문 2013년 1월 31일
국내 빅데이터 리더 그루터 권영길 대표
패러다임의 변화가 빅데이터의 전부
결과보다는 과정속에서 기회가 만들어져
수 있다. 보는 관점의 변화이기 때문이 새로운 가치를 발견할 수 있는
2012년 IT업계의 화두는 단연 'Big Data'였다. 연초부터 매스컴을 통해 부각된 이 단 따라서 빅데이터를 데이터 자 다. 기존 데이터 속성에 관한 관 기회를 가지게 된 것이다.
어는 관련 업계 및 전공 여부를 떠나서 국민 모두가 한 번쯤은 들어봤을 정도로 인구에 체로 보는 오류에서 벗어나야 점(Volume, Variety, Veloc- 빅데이터란 그처럼 방대한 곳
회자되었다.
한다고 본다. 기존에도 대용량 ity)에서 이러한 데이터를 다루 에서 무엇인가를 찾는 과정이
빅데이터를 어떻게 정의하느냐에 따라서 활용도나 미래의 가치여부가 달라지기 때문
에 국내 빅데이터 업계의 선두주자인 그루터를 만나서 현황을 들어봤다. 의 데이터는 많이 존재했고, 이 고 해결하기 위한 기술, 패러다 다. 무엇을 찾아야 한다는 목적
를 처리할 수 있는 (예를 들면) 임의 변화가 바로 빅데이터인 의식을 가지고 찾는 것이 아니
슈퍼 컴퓨터도 있었다. 그러나 것이다. 다. 즉, 무엇인가를 찾는데 찾는
스토리지나 컴퓨팅 리소스의 부 unknown-unknown. 뭘 만 것이 무엇이다라고 할 수 없으
족, 비용 및 엔지니어의 부족, 들어야 하는지, 어떤 BI/DW를 면서 찾고 있는 것이다. 그러므
관련 기술의 부족으로 기업이 만들어야 하는지 모른다. 하지 로 결과물이 나올 수도 못 나올
중요하게 여겨지는 데이터를 주 만 뭔가 하고 싶은 건 있다. 플 수도 있다.
로 처리하는데 그쳤다. ROI(투 랫폼은 데이터를 보고 프로세싱 실패가 눈에 보임에도 불구하
자대비 수익)에 대한 압박으로 하면서 최후에 만들고 싶었던 고 진행하는 이유는 실패가 제
자유로운 분석 환경 구축이 어 것은 무엇이었다고 진행하는 그 로가 아니기 때문이다. A의 방
려웠던 한계를 가지고 있었다. 환경을 만들어주는 것이다. 법론이 아니면 B라는 방법론으
고가의 장비를 통해서 ROI가 빅데이터 이전의 환경은 데이 로 찾아가면 되기 때문이다. 이
나오지 않기 때문에 데이터를 터들의 가치를 느끼지 못해서 런 과정속에서 내재화가 쌓이게
버리고 재부팅하는 상황이 반복 마치 버려진 쓰레기장으로 표현 된다. 이 내재화가 바로 경쟁력
이다.
따라서 빅데이터는 아웃소싱
를 만들어 나가는 등 사회전반 으로 처리할 수 있는 것이 아니
빅데이터가 화두다. 왜 이런
현상이 벌어졌다고 보는가? 적으로 변화를 이끌어 나가면 빅데이터는 다. 그 내재화는 단순한 기술적
서 ‘데이터 중심의 시대(Era of 내재화가 아니라 데이터를 프로
시스템 환경의 변화와 스마트 기업의 내부와 외부 데이터를 사용한다.
Data)가 출현했다’라고 하며, 세싱하는 전 과정에 대한 내재
폰, SNS 등의 발달로 인해 데이 분석 주기와 피드백 주기가 짧다.
이런 현상 또는 기술을 빅데이 화를 말하기 때문이다.
터의 폭발이 이뤄진 것이 첫 번
터라는 용어에 담아서 표현하 데이터를 보면서 의미를 찾아가는 방식을 가진다.
째 이유일 것이다. 또한, 내부
고 있다. Hadoop에 대하여..
정보 뿐만 아니라 외부 데이터
실제 빅데이터를 이해하는
를 통합하여 인사이트를 얻어
빅데이터를 정의한다면 데는 Hadoop 보다는 Hadoop
마케팅의 도구로 사용하고자 하
빅데이터라는 용어는 여러 가 될 수 밖에 없었다. 이런 시스템 하고 싶다. 지금까지는 데이터 ecosystem을 이해해야 한다.
는 기업의 수요가 이런 현상을
지로 정의할 수 있겠지만 간단 환경에서는 아무도 빅데이터라 를 분석하지 않고 버림으로 그 Hadoop 자체는 수십 ~ 수
가져왔다고 생각한다.
하게는 전통적인 DB나 시스템 는 용어를 쓰지 않았다. 냥 사장되었다. 대다수가 쓰레 천 대의 분산된 x86 장비에 대
기술적으로는 2000년대 중
환경에서 처리하기 힘들 정도의 빅데이터라는 용어는 클라우 기로 보고 있는 그 환경이 누군 용량의 파일을 저장할 수 있
반부터 오픈소스를 중심으로 불
큰 데이터를 저장, 분석, 처리하 드 컴퓨팅 기술 자체가 마케팅 가에게는 새로운 가치를 발견하 는 기능을 제공하는 분산파일
붙기 시작했던 클라우드 컴퓨팅
여 가치 있는 정보로 만들어내 과 만나 탄생한 것으로 본다. 빅 게 되는 보고가 될 수 있다. 그리 시스템 기능(HDFS, Hadoop
기술로 인해 기존처럼 비싼 장
는 과정 또는 시스템이라고 할 데이터의 핵심은 데이터를 바라 고 실제 환경의 변화로 인해서 Distributed File System)과
비와 비용을 들이는 엔터프라이
저장된 파일의 데이터를 분산
즈 시스템을 사용하지 않고도
된 서버의 CPU, Memory 자
대량의 데이터를 저장하고 분석
원을 이용하여 쉽고 빠르게 분
할 수 있는 새로운 패러다임이
석할 수 있는 컴퓨팅 플랫폼인
온 것이다.
MapReduce 플랫폼으로 구성
여기에 구글을 비롯해 야후,
되어 있다.
페이스북 등과 같은 인터넷 서
Hadoop 솔루션만으로도 분
비스 기업을 중심으로 데이터
석용 플랫폼이 성공리에 도입
처리 기술들이 공유되고 이런
되고 사용했으나, 이 솔루션을
기술들이 오픈소스로 공개되면
다시 오픈 소스로 배포하면서
서 빅데이터라는 개념을 구체화
Hadoop ecosystem으로 확장
시켰다. 이들의 기업가치가 전
되었다.
통적인 기업의 가치를 뛰어 넘
Hadoop 에코 시스템은 Ha-
고 이런 서비스들이 생활을 변
doop 코어인 파일 시스템, 컴퓨
화시켜나가고, 커뮤니케이션을
빅데이터 처리 흐름 팅 플랫폼뿐만 아니라 로그 수
이끌어 내고, 사용자 간의 관계
2. 정보통신신문 2013년 1월 31일 인터뷰 11
빅데이터를 염두에 두는 곳에 학문적인 측면이나 인재양성
조언을 한다면 에 대한 측면으로 대학에 바라는 점
일단 한 번 시도를 해보라고 이 있다면
권하고 싶다. 빅데이터 기술이 정규 교육을 받았다면 기본적
필요한지 아닌지를 내부 기술자 으로 일정 수준의 지식은 구비
를 통해서 알아봐야 한다. 필요 되었다고 본다. 물론 더 높은 지
성을 느끼면 기술 내재화를 갖 식을 배양하면 좋을 것이다.
추는 과정을 가지면 된다. 그러나 지식보다 더 중요한
중요한 것은 어떻게 기술 내 것은 앞서 언급했듯이 많은 경
재화를 시킬 것이냐에 대한 생 험이 필요하다는 것이다.
각을 가지고 있느냐다. 빅데이 살아있는 데이터를 통해 다양
터는 아직 엔터프라이즈 급의 한 실험과 경험을 할 수 있는 것
솔루션이 아니다. 지금 당장은 은 대학 생활이 줄 수 있는 큰 기
아웃소싱을 할 수도 없지만, 한 회라고 본다. 이런 토대를 마련
다고 해도 적절한 아키텍처, 프 했으면 좋겠다.
로그램, 운영에 대한 부분은 해 또한 심층적인 연구도 같이
결할 수 없다. 분석이 인사이트 수반됐으면 좋겠다. 해외 트렌
를 제공하지 않기 때문이다. 결 드의 변화 과정을 꾸준하고 잘
하둡 에코 시스템 국 자체 운영을 해야 한다. 살펴볼 수 있는 기회를 가지고
안정적인 자체 기술 내재화를 있는 것은 학문 연구자들의 더
집, 머신 러닝, 워크 플로우 엔 이라고는 얘기할 수 없다. 배워 급으로 넘어가고 있지만 국내는 갖게 되는 것이 가장 좋다. 기 큰 강점이라고 생각한다.
진, NoSQL, Script 언어 등 데 서 적용하기 어려운 것은 기술 아직 Hadoop 솔루션도 잘 못 획하고, 리소스를 산정하고 펑 빅데이터뿐만 아니라 빠르게
이터 분석에 필요한 대부분의 이 계속 발전하기 때문이다. 쓰고 있는 현황이다. 물론 격차 션을 만드는 것은 가능할 것이 발전하는 기술의 경우, 현업에
기능을 갖추고 있으며 이들 솔 이런 환경이라서 인재 발굴이 를 인정해야 하지만 우리가 신 다. 변수가 많기 때문에 어려움 종사하는 기술 연구진의 경우
루션이 대부분 오픈 소스화 되 어렵다. 빅데이터는 지식과 많 가치를 창출해내지 못했을 경우 을 겪을 때는 전문 업체의 컨설 쉽게 따라가거나 흡수하기가 쉽
어 있어 기술력만 있으면 누구 은 경험을 통한 아키텍처의 내 기술적으로 종속되는 상황으로 팅을 통해서 내재화를 갖으라고 지 않다. 이런 부분에서 다양한
나 빅데이터 플랫폼을 갖출 수 재화를 필요로 하는 기술인데 전락하게 될 것이다. 권한다. 분업체계가 있었으면 좋겠다.
있는 기반을 제공하고 있는 것 이런 경험을 할 수 있는 환경이
이 특징이다. 많지 않다. 단순히 지식으로만
적용이 가능하다면 어쩌면 정규
빅데이터 시장의 현재는? 교육을 받은 사람을 바로 투입
2~3년 전만 해도 신(新) 영역 시키면 된다. 그러나 빅데이터
의 개척으로 볼 수 있었으나, 이 는 지식으로만 적용할 수 있는
제는 대세로 봐야 한다. 따라서 것이 아니다. 지식은 기본이고
관련 기술은 하루가 다르게 발 그 위에 경험이 뒷받침되어야
전할 것이다. 다만, 근본적인 기 하는 분야이기 때문이다.
술은 Hadoop을 중심으로 한 글 조직문화의 폐쇄성도 빅데
로벌 표준을 기반으로 하기 때 이터의 빠른 적용을 어렵게 하
문에 큰 차이는 없다고 본다. 결 고 있다. 데이터를 해결하기 위
국 얼마나 많은 경험과 이를 기 한 기술적 방법론을 찾기 때문
반으로 문제 해결력이나 편의성 에 적용을 시키려면 그에 맞도
을 제공하느냐에 차이가 있다고 록 조직문화가 바뀌어야 한다.
본다. 그래야 적용이 가능해진다. 그
서비스 툴의 경우는 표준화가 러나 여전히 데이터를 통제하여
되어 있지 않기 때문에 해외 업 독점하고 폐쇄적으로 운영하려
체로는 클라우데라, 호튼웍스, 는 조직문화가 아직은 많다. H/
국내에서는 우리 그루터 같은 W나 S/W, Network의 발달로 ■ 그루터는
업체들이 하나씩 만들어 나가 인해 짧은 시간에도 방대한 데 감동과 즐거움의 가치를 만들기 위해 새로운 희망과 성장을, 무한한 가능성을, 세상의 모든 이야기
고 있다. 이터가 발생되는 현실에서 데이 를 함께 하자는 모토로 설립되어 2007년 국내 최초로 Hadoop을 실제 적용시킨 이래 빅데이터 연구
그루터도 클라우몬이나 쿠바, 터의 통제는 어렵다고 봐야 한 에 돌입하여 국내 빅데이터 산업을 이끌고 왔다.
씨날 등의 엔터프라이즈 환경에 다. 이제는 그 많은 데이터를 어
서 사용할 수 있는 솔루션과 플 떻게 분석해서 활용할 것인가를 ■ 주요 기술로는
랫폼, 분석 서비스를 개발했다. 고민했으면 한다. 빅데이터 처리 기반 기술을 담당하는 하둡 에코시스템을 통합 관리하고 분석 작업을 할 수 있는
●
개발된 툴들이 한 단계 업그레 또한 기업 관리 입장에서는 모니터링 솔루션인 클라우몬
이드가 된다면 엔터프라이즈 환 아직도 많은 투자가 필요하다고 빅데이터 처리 플랫폼인 쿠바
●
경에서도 더 쉽고 빠르게 처리 인식되고, 그 안에서 발생 및 파 그루터 빅데이터 플랫폼 위에 응용 구축한 소셜분석 서비스인 씨날 등이 있다.
●
할 수 있는 솔루션이 나올 것으 생되는 기회들을 미미하게 여기
로 믿는다. 는 상황도 어려운 점이다. 추후 이들 솔루션을 지속 발전시켜 엔터프라이즈 환경에서도 더 쉽고 빠르게 처리할 수 있는 솔루션
그 모든 것 보다도 걱정스러 과 분석플랫폼을 제공하여 기업의 SLA 요구 수준까지 맞춰 빅데이터의 상용화를 목표로 하고 있다.
어려운 점은 없는가? 운 점은 해외 솔루션이 빠르게
기본적으로 빅데이터를 배우 성장 가속도를 달리고 있는 와 ■ 그루터 권영길 대표는
고 적용시키는 시간이 오래 걸 중에 기술 격차를 좁히지 못하 “짧은 시간의 경험으로 내재화하기는 힘든 기술이기 때문에 장기간에 걸쳐 함께 경험해나가면서 배
린다. 그루터도 7년째 이 분야를 는 상황이 발생했을 경우다. 외 울 수 있는 영원한 개발자를 꿈꾸는 인재들이 그루터와 함께하기를 바란다”고 전했다.
진행하고 있지만 아직도 완성형 국은 이미 엔터프라이즈 솔루션