SlideShare a Scribd company logo
1 of 2
10 인터뷰                                                                                                      정보통신신문 2013년 1월 31일



         국내 빅데이터 리더 그루터 권영길 대표



패러다임의 변화가 빅데이터의 전부
결과보다는 과정속에서 기회가 만들어져


                                                           수 있다.                보는 관점의 변화이기 때문이              새로운 가치를 발견할 수 있는
   2012년 IT업계의 화두는 단연 'Big Data'였다. 연초부터 매스컴을 통해 부각된 이 단    따라서 빅데이터를 데이터 자     다. 기존 데이터 속성에 관한 관           기회를 가지게 된 것이다.
 어는 관련 업계 및 전공 여부를 떠나서 국민 모두가 한 번쯤은 들어봤을 정도로 인구에           체로 보는 오류에서 벗어나야      점(Volume, Variety, Veloc-     빅데이터란 그처럼 방대한 곳
 회자되었다.
                                                           한다고 본다. 기존에도 대용량     ity)에서 이러한 데이터를 다루           에서 무엇인가를 찾는 과정이
   빅데이터를 어떻게 정의하느냐에 따라서 활용도나 미래의 가치여부가 달라지기 때문
 에 국내 빅데이터 업계의 선두주자인 그루터를 만나서 현황을 들어봤다.                    의 데이터는 많이 존재했고, 이    고 해결하기 위한 기술, 패러다            다. 무엇을 찾아야 한다는 목적
                                                           를 처리할 수 있는 (예를 들면)   임의 변화가 바로 빅데이터인              의식을 가지고 찾는 것이 아니
                                                           슈퍼 컴퓨터도 있었다. 그러나     것이다.                         다. 즉, 무엇인가를 찾는데 찾는
                                                           스토리지나 컴퓨팅 리소스의 부       unknown-unknown. 뭘 만       것이 무엇이다라고 할 수 없으
                                                           족, 비용 및 엔지니어의 부족,    들어야 하는지, 어떤 BI/DW를           면서 찾고 있는 것이다. 그러므
                                                           관련 기술의 부족으로 기업이      만들어야 하는지 모른다. 하지             로 결과물이 나올 수도 못 나올
                                                           중요하게 여겨지는 데이터를 주     만 뭔가 하고 싶은 건 있다. 플           수도 있다.
                                                           로 처리하는데 그쳤다. ROI(투   랫폼은 데이터를 보고 프로세싱              실패가 눈에 보임에도 불구하
                                                           자대비 수익)에 대한 압박으로     하면서 최후에 만들고 싶었던              고 진행하는 이유는 실패가 제
                                                           자유로운 분석 환경 구축이 어     것은 무엇이었다고 진행하는 그             로가 아니기 때문이다. A의 방
                                                           려웠던 한계를 가지고 있었다.     환경을 만들어주는 것이다.               법론이 아니면 B라는 방법론으
                                                           고가의 장비를 통해서 ROI가       빅데이터 이전의 환경은 데이            로 찾아가면 되기 때문이다. 이
                                                           나오지 않기 때문에 데이터를      터들의 가치를 느끼지 못해서              런 과정속에서 내재화가 쌓이게
                                                           버리고 재부팅하는 상황이 반복     마치 버려진 쓰레기장으로 표현             된다. 이 내재화가 바로 경쟁력
                                                                                                             이다.
                                                                                                              따라서 빅데이터는 아웃소싱
                              를 만들어 나가는 등 사회전반                                                               으로 처리할 수 있는 것이 아니
    빅데이터가 화두다. 왜 이런
현상이 벌어졌다고 보는가?                적으로 변화를 이끌어 나가면                            빅데이터는                               다. 그 내재화는 단순한 기술적
                              서 ‘데이터 중심의 시대(Era of                                                           내재화가 아니라 데이터를 프로
 시스템 환경의 변화와 스마트                                                기업의 내부와 외부 데이터를 사용한다.
                              Data)가 출현했다’라고 하며,                                                             세싱하는 전 과정에 대한 내재
폰, SNS 등의 발달로 인해 데이                                               분석 주기와 피드백 주기가 짧다.
                              이런 현상 또는 기술을 빅데이                                                               화를 말하기 때문이다.
터의 폭발이 이뤄진 것이 첫 번
                              터라는 용어에 담아서 표현하                 데이터를 보면서 의미를 찾아가는 방식을 가진다.
째 이유일 것이다. 또한, 내부
                              고 있다.                                                                              Hadoop에 대하여..
정보 뿐만 아니라 외부 데이터
                                                                                                               실제 빅데이터를 이해하는
를 통합하여 인사이트를 얻어
                                 빅데이터를 정의한다면                                                                 데는 Hadoop 보다는 Hadoop
마케팅의 도구로 사용하고자 하
                               빅데이터라는 용어는 여러 가             될 수 밖에 없었다. 이런 시스템   하고 싶다. 지금까지는 데이터             ecosystem을 이해해야 한다.
는 기업의 수요가 이런 현상을
                              지로 정의할 수 있겠지만 간단             환경에서는 아무도 빅데이터라      를 분석하지 않고 버림으로 그               Hadoop 자체는 수십 ~ 수
가져왔다고 생각한다.
                              하게는 전통적인 DB나 시스템             는 용어를 쓰지 않았다.        냥 사장되었다. 대다수가 쓰레             천 대의 분산된 x86 장비에 대
 기술적으로는 2000년대 중
                              환경에서 처리하기 힘들 정도의              빅데이터라는 용어는 클라우      기로 보고 있는 그 환경이 누군            용량의 파일을 저장할 수 있
반부터 오픈소스를 중심으로 불
                              큰 데이터를 저장, 분석, 처리하           드 컴퓨팅 기술 자체가 마케팅     가에게는 새로운 가치를 발견하             는 기능을 제공하는 분산파일
붙기 시작했던 클라우드 컴퓨팅
                              여 가치 있는 정보로 만들어내             과 만나 탄생한 것으로 본다. 빅   게 되는 보고가 될 수 있다. 그리          시스템 기능(HDFS, Hadoop
기술로 인해 기존처럼 비싼 장
                              는 과정 또는 시스템이라고 할             데이터의 핵심은 데이터를 바라     고 실제 환경의 변화로 인해서             Distributed File System)과
비와 비용을 들이는 엔터프라이
                                                                                                             저장된 파일의 데이터를 분산
즈 시스템을 사용하지 않고도
                                                                                                             된 서버의 CPU, Memory 자
대량의 데이터를 저장하고 분석
                                                                                                             원을 이용하여 쉽고 빠르게 분
할 수 있는 새로운 패러다임이
                                                                                                             석할 수 있는 컴퓨팅 플랫폼인
온 것이다.
                                                                                                             MapReduce 플랫폼으로 구성
 여기에 구글을 비롯해 야후,
                                                                                                             되어 있다.
페이스북 등과 같은 인터넷 서
                                                                                                               Hadoop 솔루션만으로도 분
비스 기업을 중심으로 데이터
                                                                                                             석용 플랫폼이 성공리에 도입
처리 기술들이 공유되고 이런
                                                                                                             되고 사용했으나, 이 솔루션을
기술들이 오픈소스로 공개되면
                                                                                                             다시 오픈 소스로 배포하면서
서 빅데이터라는 개념을 구체화
                                                                                                             Hadoop ecosystem으로 확장
시켰다. 이들의 기업가치가 전
                                                                                                             되었다.
통적인 기업의 가치를 뛰어 넘
                                                                                                               Hadoop 에코 시스템은 Ha-
고 이런 서비스들이 생활을 변
                                                                                                             doop 코어인 파일 시스템, 컴퓨
화시켜나가고, 커뮤니케이션을
                              빅데이터 처리 흐름                                                                     팅 플랫폼뿐만 아니라 로그 수
이끌어 내고, 사용자 간의 관계
정보통신신문 2013년 1월 31일                                                                        인터뷰        11
                                                                         빅데이터를 염두에 두는 곳에      학문적인 측면이나 인재양성
                                                                      조언을 한다면              에 대한 측면으로 대학에 바라는 점
                                                                       일단 한 번 시도를 해보라고     이 있다면
                                                                      권하고 싶다. 빅데이터 기술이      정규 교육을 받았다면 기본적
                                                                      필요한지 아닌지를 내부 기술자     으로 일정 수준의 지식은 구비
                                                                      를 통해서 알아봐야 한다. 필요    되었다고 본다. 물론 더 높은 지
                                                                      성을 느끼면 기술 내재화를 갖     식을 배양하면 좋을 것이다.
                                                                      추는 과정을 가지면 된다.        그러나 지식보다 더 중요한
                                                                       중요한 것은 어떻게 기술 내     것은 앞서 언급했듯이 많은 경
                                                                      재화를 시킬 것이냐에 대한 생     험이 필요하다는 것이다.
                                                                      각을 가지고 있느냐다. 빅데이      살아있는 데이터를 통해 다양
                                                                      터는 아직 엔터프라이즈 급의      한 실험과 경험을 할 수 있는 것
                                                                      솔루션이 아니다. 지금 당장은     은 대학 생활이 줄 수 있는 큰 기
                                                                      아웃소싱을 할 수도 없지만, 한    회라고 본다. 이런 토대를 마련
                                                                      다고 해도 적절한 아키텍처, 프    했으면 좋겠다.
                                                                      로그램, 운영에 대한 부분은 해     또한 심층적인 연구도 같이
                                                                      결할 수 없다. 분석이 인사이트    수반됐으면 좋겠다. 해외 트렌
                                                                      를 제공하지 않기 때문이다. 결    드의 변화 과정을 꾸준하고 잘
하둡 에코 시스템                                                             국 자체 운영을 해야 한다.      살펴볼 수 있는 기회를 가지고
                                                                       안정적인 자체 기술 내재화를     있는 것은 학문 연구자들의 더
집, 머신 러닝, 워크 플로우 엔        이라고는 얘기할 수 없다. 배워      급으로 넘어가고 있지만 국내는     갖게 되는 것이 가장 좋다. 기    큰 강점이라고 생각한다.
진, NoSQL, Script 언어 등 데   서 적용하기 어려운 것은 기술       아직 Hadoop 솔루션도 잘 못   획하고, 리소스를 산정하고 펑      빅데이터뿐만 아니라 빠르게
이터 분석에 필요한 대부분의           이 계속 발전하기 때문이다.        쓰고 있는 현황이다. 물론 격차    션을 만드는 것은 가능할 것이     발전하는 기술의 경우, 현업에
기능을 갖추고 있으며 이들 솔           이런 환경이라서 인재 발굴이       를 인정해야 하지만 우리가 신     다. 변수가 많기 때문에 어려움    종사하는 기술 연구진의 경우
루션이 대부분 오픈 소스화 되          어렵다. 빅데이터는 지식과 많       가치를 창출해내지 못했을 경우     을 겪을 때는 전문 업체의 컨설    쉽게 따라가거나 흡수하기가 쉽
어 있어 기술력만 있으면 누구          은 경험을 통한 아키텍처의 내       기술적으로 종속되는 상황으로      팅을 통해서 내재화를 갖으라고     지 않다. 이런 부분에서 다양한
나 빅데이터 플랫폼을 갖출 수          재화를 필요로 하는 기술인데        전락하게 될 것이다.          권한다.                 분업체계가 있었으면 좋겠다.
있는 기반을 제공하고 있는 것          이런 경험을 할 수 있는 환경이
이 특징이다.                   많지 않다. 단순히 지식으로만
                          적용이 가능하다면 어쩌면 정규
   빅데이터 시장의 현재는?          교육을 받은 사람을 바로 투입
 2~3년 전만 해도 신(新) 영역       시키면 된다. 그러나 빅데이터
의 개척으로 볼 수 있었으나, 이        는 지식으로만 적용할 수 있는
제는 대세로 봐야 한다. 따라서         것이 아니다. 지식은 기본이고
관련 기술은 하루가 다르게 발          그 위에 경험이 뒷받침되어야
전할 것이다. 다만, 근본적인 기        하는 분야이기 때문이다.
술은 Hadoop을 중심으로 한 글        조직문화의 폐쇄성도 빅데
로벌 표준을 기반으로 하기 때          이터의 빠른 적용을 어렵게 하
문에 큰 차이는 없다고 본다. 결        고 있다. 데이터를 해결하기 위
국 얼마나 많은 경험과 이를 기         한 기술적 방법론을 찾기 때문
반으로 문제 해결력이나 편의성          에 적용을 시키려면 그에 맞도
을 제공하느냐에 차이가 있다고          록 조직문화가 바뀌어야 한다.
본다.                       그래야 적용이 가능해진다. 그
 서비스 툴의 경우는 표준화가          러나 여전히 데이터를 통제하여
되어 있지 않기 때문에 해외 업         독점하고 폐쇄적으로 운영하려
체로는 클라우데라, 호튼웍스,          는 조직문화가 아직은 많다. H/
국내에서는 우리 그루터 같은           W나 S/W, Network의 발달로    ■ 그루터는
업체들이 하나씩 만들어 나가           인해 짧은 시간에도 방대한 데         감동과 즐거움의 가치를 만들기 위해 새로운 희망과 성장을, 무한한 가능성을, 세상의 모든 이야기
고 있다.                     이터가 발생되는 현실에서 데이        를 함께 하자는 모토로 설립되어 2007년 국내 최초로 Hadoop을 실제 적용시킨 이래 빅데이터 연구
 그루터도 클라우몬이나 쿠바,          터의 통제는 어렵다고 봐야 한        에 돌입하여 국내 빅데이터 산업을 이끌고 왔다.
씨날 등의 엔터프라이즈 환경에          다. 이제는 그 많은 데이터를 어
서 사용할 수 있는 솔루션과 플         떻게 분석해서 활용할 것인가를        ■ 주요 기술로는
랫폼, 분석 서비스를 개발했다.         고민했으면 한다.                 빅데이터 처리 기반 기술을 담당하는 하둡 에코시스템을 통합 관리하고 분석 작업을 할 수 있는
                                                    ● 



개발된 툴들이 한 단계 업그레           또한 기업 관리 입장에서는           모니터링 솔루션인 클라우몬
이드가 된다면 엔터프라이즈 환          아직도 많은 투자가 필요하다고          빅데이터 처리 플랫폼인 쿠바
                                                    ●



경에서도 더 쉽고 빠르게 처리          인식되고, 그 안에서 발생 및 파        그루터 빅데이터 플랫폼 위에 응용 구축한 소셜분석 서비스인 씨날 등이 있다.
                                                    ●



할 수 있는 솔루션이 나올 것으         생되는 기회들을 미미하게 여기
로 믿는다.                    는 상황도 어려운 점이다.           추후 이들 솔루션을 지속 발전시켜 엔터프라이즈 환경에서도 더 쉽고 빠르게 처리할 수 있는 솔루션
                           그 모든 것 보다도 걱정스러        과 분석플랫폼을 제공하여 기업의 SLA 요구 수준까지 맞춰 빅데이터의 상용화를 목표로 하고 있다.
   어려운 점은 없는가?            운 점은 해외 솔루션이 빠르게
 기본적으로 빅데이터를 배우           성장 가속도를 달리고 있는 와        ■ 그루터 권영길 대표는
고 적용시키는 시간이 오래 걸          중에 기술 격차를 좁히지 못하         “짧은 시간의 경험으로 내재화하기는 힘든 기술이기 때문에 장기간에 걸쳐 함께 경험해나가면서 배
린다. 그루터도 7년째 이 분야를        는 상황이 발생했을 경우다. 외       울 수 있는 영원한 개발자를 꿈꾸는 인재들이 그루터와 함께하기를 바란다”고 전했다.
진행하고 있지만 아직도 완성형          국은 이미 엔터프라이즈 솔루션

More Related Content

More from Gruter

Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoGruter
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Gruter
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Gruter
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014Gruter
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Gruter
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopGruter
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Gruter
 
Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료Gruter
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Gruter
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter
 
Tajo case study bay area hug 20131105
Tajo case study bay area hug 20131105Tajo case study bay area hug 20131105
Tajo case study bay area hug 20131105Gruter
 
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special EventApache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special EventGruter
 

More from Gruter (20)

Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
 
Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
Tajo case study bay area hug 20131105
Tajo case study bay area hug 20131105Tajo case study bay area hug 20131105
Tajo case study bay area hug 20131105
 
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special EventApache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
Apache Tajo - Bay Area HUG Nov. 2013 LinkedIn Special Event
 

패러다임의 변화가 빅데이터의 전부- 결과보다는 과정속에서 기회가 만들어져

  • 1. 10 인터뷰 정보통신신문 2013년 1월 31일 국내 빅데이터 리더 그루터 권영길 대표 패러다임의 변화가 빅데이터의 전부 결과보다는 과정속에서 기회가 만들어져 수 있다. 보는 관점의 변화이기 때문이 새로운 가치를 발견할 수 있는 2012년 IT업계의 화두는 단연 'Big Data'였다. 연초부터 매스컴을 통해 부각된 이 단 따라서 빅데이터를 데이터 자 다. 기존 데이터 속성에 관한 관 기회를 가지게 된 것이다. 어는 관련 업계 및 전공 여부를 떠나서 국민 모두가 한 번쯤은 들어봤을 정도로 인구에 체로 보는 오류에서 벗어나야 점(Volume, Variety, Veloc- 빅데이터란 그처럼 방대한 곳 회자되었다. 한다고 본다. 기존에도 대용량 ity)에서 이러한 데이터를 다루 에서 무엇인가를 찾는 과정이 빅데이터를 어떻게 정의하느냐에 따라서 활용도나 미래의 가치여부가 달라지기 때문 에 국내 빅데이터 업계의 선두주자인 그루터를 만나서 현황을 들어봤다. 의 데이터는 많이 존재했고, 이 고 해결하기 위한 기술, 패러다 다. 무엇을 찾아야 한다는 목적 를 처리할 수 있는 (예를 들면) 임의 변화가 바로 빅데이터인 의식을 가지고 찾는 것이 아니 슈퍼 컴퓨터도 있었다. 그러나 것이다. 다. 즉, 무엇인가를 찾는데 찾는 스토리지나 컴퓨팅 리소스의 부 unknown-unknown. 뭘 만 것이 무엇이다라고 할 수 없으 족, 비용 및 엔지니어의 부족, 들어야 하는지, 어떤 BI/DW를 면서 찾고 있는 것이다. 그러므 관련 기술의 부족으로 기업이 만들어야 하는지 모른다. 하지 로 결과물이 나올 수도 못 나올 중요하게 여겨지는 데이터를 주 만 뭔가 하고 싶은 건 있다. 플 수도 있다. 로 처리하는데 그쳤다. ROI(투 랫폼은 데이터를 보고 프로세싱 실패가 눈에 보임에도 불구하 자대비 수익)에 대한 압박으로 하면서 최후에 만들고 싶었던 고 진행하는 이유는 실패가 제 자유로운 분석 환경 구축이 어 것은 무엇이었다고 진행하는 그 로가 아니기 때문이다. A의 방 려웠던 한계를 가지고 있었다. 환경을 만들어주는 것이다. 법론이 아니면 B라는 방법론으 고가의 장비를 통해서 ROI가 빅데이터 이전의 환경은 데이 로 찾아가면 되기 때문이다. 이 나오지 않기 때문에 데이터를 터들의 가치를 느끼지 못해서 런 과정속에서 내재화가 쌓이게 버리고 재부팅하는 상황이 반복 마치 버려진 쓰레기장으로 표현 된다. 이 내재화가 바로 경쟁력 이다. 따라서 빅데이터는 아웃소싱 를 만들어 나가는 등 사회전반 으로 처리할 수 있는 것이 아니 빅데이터가 화두다. 왜 이런 현상이 벌어졌다고 보는가? 적으로 변화를 이끌어 나가면 빅데이터는 다. 그 내재화는 단순한 기술적 서 ‘데이터 중심의 시대(Era of 내재화가 아니라 데이터를 프로 시스템 환경의 변화와 스마트 기업의 내부와 외부 데이터를 사용한다. Data)가 출현했다’라고 하며, 세싱하는 전 과정에 대한 내재 폰, SNS 등의 발달로 인해 데이 분석 주기와 피드백 주기가 짧다. 이런 현상 또는 기술을 빅데이 화를 말하기 때문이다. 터의 폭발이 이뤄진 것이 첫 번 터라는 용어에 담아서 표현하 데이터를 보면서 의미를 찾아가는 방식을 가진다. 째 이유일 것이다. 또한, 내부 고 있다. Hadoop에 대하여.. 정보 뿐만 아니라 외부 데이터 실제 빅데이터를 이해하는 를 통합하여 인사이트를 얻어 빅데이터를 정의한다면 데는 Hadoop 보다는 Hadoop 마케팅의 도구로 사용하고자 하 빅데이터라는 용어는 여러 가 될 수 밖에 없었다. 이런 시스템 하고 싶다. 지금까지는 데이터 ecosystem을 이해해야 한다. 는 기업의 수요가 이런 현상을 지로 정의할 수 있겠지만 간단 환경에서는 아무도 빅데이터라 를 분석하지 않고 버림으로 그 Hadoop 자체는 수십 ~ 수 가져왔다고 생각한다. 하게는 전통적인 DB나 시스템 는 용어를 쓰지 않았다. 냥 사장되었다. 대다수가 쓰레 천 대의 분산된 x86 장비에 대 기술적으로는 2000년대 중 환경에서 처리하기 힘들 정도의 빅데이터라는 용어는 클라우 기로 보고 있는 그 환경이 누군 용량의 파일을 저장할 수 있 반부터 오픈소스를 중심으로 불 큰 데이터를 저장, 분석, 처리하 드 컴퓨팅 기술 자체가 마케팅 가에게는 새로운 가치를 발견하 는 기능을 제공하는 분산파일 붙기 시작했던 클라우드 컴퓨팅 여 가치 있는 정보로 만들어내 과 만나 탄생한 것으로 본다. 빅 게 되는 보고가 될 수 있다. 그리 시스템 기능(HDFS, Hadoop 기술로 인해 기존처럼 비싼 장 는 과정 또는 시스템이라고 할 데이터의 핵심은 데이터를 바라 고 실제 환경의 변화로 인해서 Distributed File System)과 비와 비용을 들이는 엔터프라이 저장된 파일의 데이터를 분산 즈 시스템을 사용하지 않고도 된 서버의 CPU, Memory 자 대량의 데이터를 저장하고 분석 원을 이용하여 쉽고 빠르게 분 할 수 있는 새로운 패러다임이 석할 수 있는 컴퓨팅 플랫폼인 온 것이다. MapReduce 플랫폼으로 구성 여기에 구글을 비롯해 야후, 되어 있다. 페이스북 등과 같은 인터넷 서 Hadoop 솔루션만으로도 분 비스 기업을 중심으로 데이터 석용 플랫폼이 성공리에 도입 처리 기술들이 공유되고 이런 되고 사용했으나, 이 솔루션을 기술들이 오픈소스로 공개되면 다시 오픈 소스로 배포하면서 서 빅데이터라는 개념을 구체화 Hadoop ecosystem으로 확장 시켰다. 이들의 기업가치가 전 되었다. 통적인 기업의 가치를 뛰어 넘 Hadoop 에코 시스템은 Ha- 고 이런 서비스들이 생활을 변 doop 코어인 파일 시스템, 컴퓨 화시켜나가고, 커뮤니케이션을 빅데이터 처리 흐름 팅 플랫폼뿐만 아니라 로그 수 이끌어 내고, 사용자 간의 관계
  • 2. 정보통신신문 2013년 1월 31일 인터뷰 11 빅데이터를 염두에 두는 곳에 학문적인 측면이나 인재양성 조언을 한다면 에 대한 측면으로 대학에 바라는 점 일단 한 번 시도를 해보라고 이 있다면 권하고 싶다. 빅데이터 기술이 정규 교육을 받았다면 기본적 필요한지 아닌지를 내부 기술자 으로 일정 수준의 지식은 구비 를 통해서 알아봐야 한다. 필요 되었다고 본다. 물론 더 높은 지 성을 느끼면 기술 내재화를 갖 식을 배양하면 좋을 것이다. 추는 과정을 가지면 된다. 그러나 지식보다 더 중요한 중요한 것은 어떻게 기술 내 것은 앞서 언급했듯이 많은 경 재화를 시킬 것이냐에 대한 생 험이 필요하다는 것이다. 각을 가지고 있느냐다. 빅데이 살아있는 데이터를 통해 다양 터는 아직 엔터프라이즈 급의 한 실험과 경험을 할 수 있는 것 솔루션이 아니다. 지금 당장은 은 대학 생활이 줄 수 있는 큰 기 아웃소싱을 할 수도 없지만, 한 회라고 본다. 이런 토대를 마련 다고 해도 적절한 아키텍처, 프 했으면 좋겠다. 로그램, 운영에 대한 부분은 해 또한 심층적인 연구도 같이 결할 수 없다. 분석이 인사이트 수반됐으면 좋겠다. 해외 트렌 를 제공하지 않기 때문이다. 결 드의 변화 과정을 꾸준하고 잘 하둡 에코 시스템 국 자체 운영을 해야 한다. 살펴볼 수 있는 기회를 가지고 안정적인 자체 기술 내재화를 있는 것은 학문 연구자들의 더 집, 머신 러닝, 워크 플로우 엔 이라고는 얘기할 수 없다. 배워 급으로 넘어가고 있지만 국내는 갖게 되는 것이 가장 좋다. 기 큰 강점이라고 생각한다. 진, NoSQL, Script 언어 등 데 서 적용하기 어려운 것은 기술 아직 Hadoop 솔루션도 잘 못 획하고, 리소스를 산정하고 펑 빅데이터뿐만 아니라 빠르게 이터 분석에 필요한 대부분의 이 계속 발전하기 때문이다. 쓰고 있는 현황이다. 물론 격차 션을 만드는 것은 가능할 것이 발전하는 기술의 경우, 현업에 기능을 갖추고 있으며 이들 솔 이런 환경이라서 인재 발굴이 를 인정해야 하지만 우리가 신 다. 변수가 많기 때문에 어려움 종사하는 기술 연구진의 경우 루션이 대부분 오픈 소스화 되 어렵다. 빅데이터는 지식과 많 가치를 창출해내지 못했을 경우 을 겪을 때는 전문 업체의 컨설 쉽게 따라가거나 흡수하기가 쉽 어 있어 기술력만 있으면 누구 은 경험을 통한 아키텍처의 내 기술적으로 종속되는 상황으로 팅을 통해서 내재화를 갖으라고 지 않다. 이런 부분에서 다양한 나 빅데이터 플랫폼을 갖출 수 재화를 필요로 하는 기술인데 전락하게 될 것이다. 권한다. 분업체계가 있었으면 좋겠다. 있는 기반을 제공하고 있는 것 이런 경험을 할 수 있는 환경이 이 특징이다. 많지 않다. 단순히 지식으로만 적용이 가능하다면 어쩌면 정규 빅데이터 시장의 현재는? 교육을 받은 사람을 바로 투입 2~3년 전만 해도 신(新) 영역 시키면 된다. 그러나 빅데이터 의 개척으로 볼 수 있었으나, 이 는 지식으로만 적용할 수 있는 제는 대세로 봐야 한다. 따라서 것이 아니다. 지식은 기본이고 관련 기술은 하루가 다르게 발 그 위에 경험이 뒷받침되어야 전할 것이다. 다만, 근본적인 기 하는 분야이기 때문이다. 술은 Hadoop을 중심으로 한 글 조직문화의 폐쇄성도 빅데 로벌 표준을 기반으로 하기 때 이터의 빠른 적용을 어렵게 하 문에 큰 차이는 없다고 본다. 결 고 있다. 데이터를 해결하기 위 국 얼마나 많은 경험과 이를 기 한 기술적 방법론을 찾기 때문 반으로 문제 해결력이나 편의성 에 적용을 시키려면 그에 맞도 을 제공하느냐에 차이가 있다고 록 조직문화가 바뀌어야 한다. 본다. 그래야 적용이 가능해진다. 그 서비스 툴의 경우는 표준화가 러나 여전히 데이터를 통제하여 되어 있지 않기 때문에 해외 업 독점하고 폐쇄적으로 운영하려 체로는 클라우데라, 호튼웍스, 는 조직문화가 아직은 많다. H/ 국내에서는 우리 그루터 같은 W나 S/W, Network의 발달로 ■ 그루터는 업체들이 하나씩 만들어 나가 인해 짧은 시간에도 방대한 데 감동과 즐거움의 가치를 만들기 위해 새로운 희망과 성장을, 무한한 가능성을, 세상의 모든 이야기 고 있다. 이터가 발생되는 현실에서 데이 를 함께 하자는 모토로 설립되어 2007년 국내 최초로 Hadoop을 실제 적용시킨 이래 빅데이터 연구 그루터도 클라우몬이나 쿠바, 터의 통제는 어렵다고 봐야 한 에 돌입하여 국내 빅데이터 산업을 이끌고 왔다. 씨날 등의 엔터프라이즈 환경에 다. 이제는 그 많은 데이터를 어 서 사용할 수 있는 솔루션과 플 떻게 분석해서 활용할 것인가를 ■ 주요 기술로는 랫폼, 분석 서비스를 개발했다. 고민했으면 한다. 빅데이터 처리 기반 기술을 담당하는 하둡 에코시스템을 통합 관리하고 분석 작업을 할 수 있는 ● 개발된 툴들이 한 단계 업그레 또한 기업 관리 입장에서는 모니터링 솔루션인 클라우몬 이드가 된다면 엔터프라이즈 환 아직도 많은 투자가 필요하다고 빅데이터 처리 플랫폼인 쿠바 ● 경에서도 더 쉽고 빠르게 처리 인식되고, 그 안에서 발생 및 파 그루터 빅데이터 플랫폼 위에 응용 구축한 소셜분석 서비스인 씨날 등이 있다. ● 할 수 있는 솔루션이 나올 것으 생되는 기회들을 미미하게 여기 로 믿는다. 는 상황도 어려운 점이다. 추후 이들 솔루션을 지속 발전시켜 엔터프라이즈 환경에서도 더 쉽고 빠르게 처리할 수 있는 솔루션 그 모든 것 보다도 걱정스러 과 분석플랫폼을 제공하여 기업의 SLA 요구 수준까지 맞춰 빅데이터의 상용화를 목표로 하고 있다. 어려운 점은 없는가? 운 점은 해외 솔루션이 빠르게 기본적으로 빅데이터를 배우 성장 가속도를 달리고 있는 와 ■ 그루터 권영길 대표는 고 적용시키는 시간이 오래 걸 중에 기술 격차를 좁히지 못하 “짧은 시간의 경험으로 내재화하기는 힘든 기술이기 때문에 장기간에 걸쳐 함께 경험해나가면서 배 린다. 그루터도 7년째 이 분야를 는 상황이 발생했을 경우다. 외 울 수 있는 영원한 개발자를 꿈꾸는 인재들이 그루터와 함께하기를 바란다”고 전했다. 진행하고 있지만 아직도 완성형 국은 이미 엔터프라이즈 솔루션