Alphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and Spark
Introduction to Hadoop, Big Data, Training, Use Cases
1. HiPIC
하둡 빅데이터 및 사례 소개
Jongwook Woo
CSULA
(항공운송업 포함)
대한항공
Seoul, Korea
Nov 8 2014
우종욱 (Jongwook Woo, PhD)
High-Performance Information Computing Center (HiPIC)
Cloudera Academic Partner and Grants Awardee of Amazon AWS
California State University Los Angeles
2. High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론
3. High Performance Information Computing Center
Jongwook Woo
CSULA
Me
이름: 우종욱
경력:
2012년 -
– Certified Cloudera Instructor: R&D, Consulting, Training
2012년 - : 클라우데라 CAP 파트너, 클라우데라 교육
1998년부터 헐리우드등지의 많은 회사 컨설팅
– 주로 J2EE 미들웨어를 이용한 eBusiness applications 구축
– FAST, Lucene/Solr, Sphinx 검색엔진을 이용한 정보추출, 정보통합
– Warner Bros (Matrix online game), E!, citysearch.com, ARM 등
2008여년 부터 하둡 빅데이타에 관심
2001년 공학박사: USC 컴퓨터 사이언스, 컴퓨터 엔지니어링
4. High Performance Information Computing Center
Jongwook Woo
CSULA
Me
경력 (계속): 대한민국에 빅데이터 기술전도중
2014년 서울:
– Hadoop 및 그 Ecosystems 교육
• 데이터분석가/과학자 교육
• 하둡 개발자, 관리자, HBase 교육
• 하둡 Spark 교육
2013년 여름 이글루시큐리티 자문:
– 하루에 30GB – 100GB씩 생성되는 보안관련 로그 파일들을
빠르게 데이타 검색하는 시스템 R&D
• Hadoop, Solr, Java, Cloudera 이용
2013년 9월 중순: 삼성 첨단 기술 연수원
– 3일간 Hadoop 및 그 Ecosystems 교육
2009년 이래 국내 대학교/연구소에 하둡소개
– 세계적인 빅 데이타 이슈에 선도적인 선도적연구및 교육을
위한 하둡 빅데이터 기술 소개
5. High Performance Information Computing Center
Jongwook Woo
CSULA
Experience in Big Data
Grants
Received MicroSoft Windows Azure Educator Grant (Oct 2013
- July 2014)
Received Amazon AWS in Education Research Grant (July
2012 - July 2014)
Received Amazon AWS in Education Coursework Grants (July
2012 - July 2013, Jan 2011 - Dec 2011
Partnership
Received Academic Education Partnership with Cloudera since
June 2012
6. High Performance Information Computing Center
Jongwook Woo
CSULA
Experience in Big Data
Certificate
Certified Cloudera Hadoop Instructor
Certified Cloudera Hadoop Developer / Administrator / Hbase /
Spark
Certificate of Achievement in the Big Data University Training
Course, “Hadoop Fundamentals I”, July 8 2012
Certificate of 10gen Training Course, “M101: MongoDB
Development”, (Dec 24 2012)
Blog and Github for Hadoop and its ecosystems
http://dal-cloudcomputing.blogspot.com/
– Hadoop, AWS, Cloudera
https://github.com/hipic
– Hadoop, Cloudera, Solr on Cloudera, Hadoop Streaming,
RHadoop
https://github.com/dalgual
7. High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론
8. High Performance Information Computing Center
Jongwook Woo
CSULA
빅데이터의 시대
Google
“We don’t have a better algorithm
than others but we have more data
than others”
9. High Performance Information Computing Center
Jongwook Woo
CSULA
빅데이터의 시대
빅데이타 시대
소셜미디아, 스마트폰, 센서네트워크 등으로 인하여
데이타의 증가
– 각 회사마다 하루에 몇십 테라 바이트씩 데이타 생성
– 생성된 데이타는 비구조화 또는 반구조화 데이타
– 빅데이타라 불림
빅데이타의 큰 두가지 문제점
데이타 저장
– 기존의 RDBMS, 데이터 웨어 하우스 를 이용시 너무 비쌈
데이타 처리
– 기존의 순차 연산 이용시 너무 느리거나 처리 불가
10. High Performance Information Computing Center
Jongwook Woo
CSULA
빅데이터의 시대
빅데이타의 큰 두가지 문제점 해결?
구글의 해법
– 구글의 GFS (Google Distributed File Systems)
– 구글 맵리듀스 병렬처리 시스템
Apache Hadoop
– 구글 시스템에 힌트를 얻은 아파치코뮤니티에서
HDFS (Hadoop Distributed File Systems) 와 하둡
맵리듀스 시스템 두개를 핵심으로 한 하둡
프로젝트
– Cloudera, Hortonworks, IBM등에서 하둡과 그 Eco
시스템 관리 및 컨설팅 제공
11. High Performance Information Computing Center
Jongwook Woo
CSULA
What is Hadoop?
11
하둡의 창시자:
Doug Cutting
Chief Architect at Cloudera
12. High Performance Information Computing Center
Jongwook Woo
CSULA
Definition: Big Data
Inexpensive frameworks that can
store a large scale data and
process it faster in parallel
Hadoop
–Inexpensive Super Computer
–You can build and run your applications
13. CM
HDFS HDFS HDFS
HDFS HDFS HDFS
HIVE ZooKeeper Impala
Agent CDH Agent CDH Agent CDH
High Performance Information Computing Center
Jongwook Woo
CSULA
Hadoop CDH: Logical Diagram
Web Browser to control Cloudera Manager
Server
HTTP(S)
Agent CDH Agent CDH Agent CDH
Agent CDH Agent CDH Agent CDH
...
...
...
14. Big Data Market Potential is BIG
High Performance Information Computing Center
Jongwook Woo
CSULA
하둡이라는 새로운 툴
14
Source: BofA Merrill Lynch Global Research March 2012
Hardware
$21B Services
$42B
Software
$34B
Complementary
Database
$35B
Hadoop
$14B
14
19. High Performance Information Computing Center
Jongwook Woo
CSULA
Definition: Big Data
다시한번
빅데이터
데이터를 가지고 미래 가치를 예측하는것
– No!
• 빅데이터의 한 응용사례, 우리가 늘 해오던
일일뿐
– 기존의 컴퓨터, DW, DB등으로
빅데이터는 하둡이라는 수퍼컴퓨터를
이용하려는 새로운 접근법
20. High Performance Information Computing Center
Jongwook Woo
CSULA
Legacy Example
In late 2007, the New York Times
wanted to make available over the web
its entire archive of articles,
11 million in all, dating back to 1851.
four-terabyte pile of images in TIFF format.
needed to translate that four-terabyte pile of TIFFs
into more web-friendly PDF files.
– not a particularly complicated but large computing chore,
• requiring a whole lot of computer processing time.
21. High Performance Information Computing Center
Jongwook Woo
CSULA
Legacy Example (Cont’d)
In late 2007, the New York Times
wanted to make available over the web
its entire archive of articles,
a software programmer at the Times, Derek Gottfrid,
– playing around with Amazon Web Services, Elastic
Compute Cloud (EC2),
• uploaded the four terabytes of TIFF data into Amazon's
Simple Storage System (S3)
• In less than 24 hours, 11 millions PDFs, all stored
neatly in S3 and ready to be served up to visitors to the
Times site.
The total cost for the computing job? $240
– 10 cents per computer-hour times 100 computers times 24 hours
22. High Performance Information Computing Center
Jongwook Woo
CSULA
HuffPost | AOL
Two Machine Learning Use Cases
Comment Moderation
Evaluate All New HuffPost User Comments
Every Day
Identify Abusive / Aggressive Comments
Auto Delete / Publish ~25% Comments Every
Day
Article Classification
Tag Articles for Advertising
E.g.: scary, salacious, …
23. High Performance Information Computing Center
Jongwook Woo
CSULA
Major US Airlines
국제 항공 운송협회(IATA) 발표한 수치
2014년 수익: 200억 달러
– 2013년 이익에서 50% 증가
10년전: 가장 큰 미국의 항공사들 절반 가량이 파산
– 업계가 연간 100억 달러를 잃고 있었음
Why it is possible?
대규모 합병으로 인한 항공사의 감소
– 좌석에 대한 수요 증폭
– 연료가격은 2008년 정점 이후 다소 완화
– 대침체/공항(Great Recession)로 항공사의 근로자 임금 상승
억제
However, Main Reason: Big Data
데이터 저장 및 분석 기술의 새로운 방법인 하둡 이용
판매 증진과 마진 증가
24. High Performance Information Computing Center
Jongwook Woo
CSULA
Major US Airlines (계속)
항공사들의 수익 개선 3가지 접근법
전통적 접근
–센서 데이터를 확보하여 유지보수 최적화
–날씨 예측을 이용한 연료 조절
• 상업 비행 시대 초기부터 항공사들이
기본적으로 개선해 왔었던 부분
빅데이터 이용
문제점 및 요구사항
기존 웹 분석 툴은 너무 고가
웹 클릭 성향 (Click Stream) 분석의 필요성
보다 오래된 웹 클릭 데이터 저장 및 접근성 필요
25. High Performance Information Computing Center
Jongwook Woo
CSULA
Major US Airlines (계속)
빅데이터 저장 및 분석
하둡으로 빅데이터 저장
–비정형 데이터를 하둡에 저장
• 고객의 감성 데이터
–소셜 미디어 (페이스북, 트위터 등)와
여행 웹사이트 (Kayak, Travelocity
등)에서 수집
• 전자 상거래 행위 데이터
–웹 클릭 스트림 데이터
26. High Performance Information Computing Center
Jongwook Woo
CSULA
빅데이터 저장 및 분석 (계속)
하둡으로 빅데이터 분석
온라인 예약 웹 분석
– 하둡의 빅데이터 마이닝 알고리즘으로 빅데이터 분석
고객요구사항을 식별하고 확보
– 항공사 차별화 전략에 큰 기회
하둡 맵리듀스로 다양한 변수간 상관관계 분석
– 티켓가격,
– 수화물 요금,
– 기본 경로,
– 장비 고장 및 지연,
– 기내 식품 구매 및 엔터테이먼트 등
결국:
데이터 분석으로 저비용 고효율 달성
27. High Performance Information Computing Center
Jongwook Woo
CSULA
Major US Airlines (계속)
사용 소프트웨어 및 접근
Cloudera의 CDH사용
저가로 데이터 분석 및 접근성 달성
2배 이상의 오랜 데이터 저장 가능
– 4 년 vs 기존의 기술로는 2년
–Tape나 RDB보다 데이터 접근성 향상
참고: Web Click Stream
어떤 페이지에 손님이 방문했는지,
무엇을 클릭했는지,
티켓을 구매하거나
웹사이트를 떠나기 전 얼마나 머물렀는지
추적하고 기록할 수 있음
28. High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론
29. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 설치
http://hadoop.apache.org
하둡 다운로드 받아서 설치
노드별 설치 구성
– 노드별 몇날 몇일 걸림
노드 갯수 증가시
– 설치 몇날 몇달 걸림
노드 상태, 서비스 상태, 리소스 상태 확인
– 너무 어려움
에코시스템 설치?
– 설치 몇날 몇달 걸림
백업, 데이터 회복, 데이터 audit?
30. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 엔터프라이즈 배포판
Linux
Redhat, Ubuntu, SuSE
Hadoop
Cloudera
–CDH
• Hadoop에 대쉬보드, 시각화, 관리, 구성 등
기능 제공
Hortonworks
–Yahoo에서 분사
–HDP
MapR
– C 언어로 구성
– 정통 Hadoop과 별개로 시작됨
31. 예: 클라우데라 배포판 하둡 (CDH) 설치
http://www.cloudera.com/downloads/
High Performance Information Computing Center
Jongwook Woo
CSULA
무료배포판
– 클라우데라 매니저를 이용하여 30분내 하둡
클러스터 설치
– 노드 갯수 증가시 몇분만에 노드들 추가
– 노드 상태, 서비스 상태, 리소스 상태 확인
– 에코시스템 설치
• 자동설치
EDH: 유료판
– 기술지원
– 백업, 데이터 회복, 데이터 audit/lineage
32. High Performance Information Computing Center
Jongwook Woo
CSULA
클라우데라 하둡 및 CDH 소개
상세 소개: Hadoop 역사, 하둡 코아,
에코시스템, 클라우데라 매니저,
내비게이터 등 설명
http://www.slideshare.net/cloudera/cloude
ra-sessions-afternoon-getting-started-1
간략 소개: 하둡 코아 설명
http://www.slideshare.net/bigdatasyd/intro
duction-to-hadoop-12275253
33. High Performance Information Computing Center
Jongwook Woo
CSULA
클라우데라 하둡 및 CDH 소개
클라우데라 주최 : 하둡 빅데이터
스트라타 컨퍼런스 2014
http://strataconf.com/stratany2014
뉴욕: Oct 15-17 2014
https://www.facebook.com/jongwook.woo/
media_set?set=a.4822613060696.107374
1834.1757567060&type=1&pnref=story
클라우데라는 하둡/빅데이터 세계에서
선두
34. High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론
35. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 교육이 왜 필요한가
R&D및 가치 창출을 위한 새로운
수퍼컴퓨터
새로운 알고리즘 응용분야 개발을 통한
가치 창출
–추천 시스템
–상권 분석, 판매분석, 고객 분석
–반도체
• Semiconductor/Chip Design Data Analysis
–영화, 게임, 보안
• 로그데이터 분석
–Image, Audio 처리
• 머쉰러닝, 그래프 알고리즘
36. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 교육이 왜 필요한가
새로운 가치 창조, R&D시 필요
미국을 필두로 공학, 과학, 기업등에서
하둡 빅데이터 교육의 중요성 인지
–데이타 마이닝 및 분석 분야 뿐아니라
대용량 데이터가 있는 모든 분야
기업마다 Hadoop Cluster 소유해야 함
–저렴한 수퍼 컴퓨터
그러나,
아무도 하둡을 가르쳐 주지 않는다
누구에게 교육 받을 것인가?
37. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 교육 어떻게 시작할 것인가?
기술자들의 Self-study 한계
시간상의 한계: more than a year to be an expert
Don’t know the detail
Miss many important topics
2014년 우리는 전문가, 국제경쟁 시대에 살고 있음
– 80년대 대학 강의실이 아님
교육비 절약?
기업 생산성 감소
38. 하둡 교육 어떻게 시작할 것인가? (계속)
High Performance Information Computing Center
Jongwook Woo
CSULA
IT분야의 각자교육의 한계 인식 필요
실리콘 밸리등 산업계에서 IT기술을 선도함
교육비 절약으로 빅데이터 산업에 뒤쳐짐
산업계 Training program
Cloudera를 선두로 Hortonworks, MapR
=> 이미 잘 만들어진 교재, 장비 및 실습재료 있음
39. High Performance Information Computing Center
Jongwook Woo
CSULA
하둡 교육 어떻게 시작할 것인가?
교육 과목 및 개설시 요구사항
하둡 관련 과목
– About Hadoop, Hbase, Hive/Pig, Data Analysis,
Spark, Data Mining etc
• 하둡 개발자
• 하둡 시스템관리자
• 하둡 데이터 분석가/과학자
• 하둡 HBase
• 하둡 Spark
Theory Guy양성이 아닌 실무자 양성을 위한 실습용
장비/코드 예제 필요
40. High Performance Information Computing Center
Jongwook Woo
CSULA
Big Data 교육
클라우데라 빅데이터 교육 사례
Cloudera 교육 파트너쉽을 바탕으로
한 클라우데라의 교육재료로 빅데이타
교육제공
전세계에 실무에 바로 투입가능한
하둡 전문가 양성
41. Cloudera Dominates Hadoop Training
2% 1% 2% 0%1%
High Performance Information Computing Center
Jongwook Woo
CSULA
Worldwide
Over 50,000 People Trained on Hadoop
41
• All scheduled classes
• Jan-June 2014
Cloudera is 84%
(437/523)
84%
10%
Cloudera
Hortonworks
MapR
IBM
Oracle
Pivotal
Intel
41
42. Training Hadoop and Ecosystems
Cloudera visits to interview Jongwook Woo
High Performance Information Computing Center
Jongwook Woo
CSULA
43. Training Hadoop and Ecosystems
High Performance Information Computing Center
Jongwook Woo
CSULA
클라우데라 빅데이터 교육을 위한 교육
프로그램 디렉터 와 함께
44. High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론
50. High Performance Information Computing Center
Jongwook Woo
CSULA
결론
아파치 하둡을 이용하여 빅데이타를 저장
및 처리하는 새로운 접근법이 미국을
필두로 하여 전세계에서 각광을 받고있음
기존의 컴퓨터를 하둡시스템으로
연결하여 저렴한 수퍼컴퓨터를 가질수
있음
빅데이터 접근법중 하둡이 가장 각광
51. High Performance Information Computing Center
Jongwook Woo
CSULA
결론
빅데이타 분석및 처리하는 하둡 개발자,
관리자, HBase, 데이타 분석/사이언스,
Spark가 각광을 받고 있음
그러나 산업계에서 필요로 하는 인력들을
각자 또는 이론 교육하고 있음
52. High Performance Information Computing Center
Jongwook Woo
CSULA
결론 (계속)
하둡은 현재및 미래의 가치
기업실무에서의 Training 은 너무 중요함
빅데이타 강의를 이수하면 산업계를
통틀어 빅데이타 전문가될수 있음, 전세계
선두가 될수있는 기회, 지금 시작해야 함
엔터프라이즈 하둡 설치 및 교육으로
실무에 바로 응용
#1인 클라우데라 교육및 솔루션, Why
Not?
54. High Performance Information Computing Center
Jongwook Woo
CSULA
참고문헌
Big Data and Data Intensive Computing on
Networks, Jongwook Woo,
http://www.slideshare.net/dalgual/big-datakisti2013updated
하둡, http://hadoop.apache.org
클라우데라, http://www.cloudera.com
호톤웤스, http://www.hortonworks.com
맵알, http://www.mapr.com
나가시노 전투,
http://blog.naver.com/banc1004/220036584826
사르후 전투,
http://lyuen.egloos.com/viewer/5683795