영화배우 클러스터링 Flow Diagram
4. 시각화 및 데이터베이스화
Result
DB
1. 다음 영화에서
샘플 영화 웹 문서 수집
2. 대량의 샘플 웹 문서에서
영화배우 장르 행렬 추출
3. 클러스터링 연산
Map/Reduce
Hama
Crawling
HDFS
출현 빈도 행렬 추출
● 영화 사이트에서 수집 된 문서에서
배우의 장르 출현 빈도 행렬을 추출
Action
Drama
Fantasy
Horor
..
actorID
3
0
o
3
..
..
..
..
..
추출 작업엔 왜 Map/Reduce?
● Lightweight programming - 시스템의 물리적 구조를 몰라도 쉽게 데
이터를 분산 처리 할 수 있다.
● Shared nothing architecture - 데이터 분산 처리 효과
○ 이것은 큰 장점이면서, 동시에 하나의 제약 사항.
Data-Intensive!
클러스터링은 왜 Hama?
● Map/Reduce는 여러 개의 Job을 반복하는 형태의 Iterative
Map/Reduce 처리해야 한다. 한마디로 느림.
● Hama는 모델 자체가 Iterative 알고리즘에 최적화되어 하나의 Job으
로 처리… 즉, 빠름빠름~.
Computational-Intensive!
* 대부분의 통계적 연산, 기계 학습 등의 과학 연산은 Iterative.
Hama vs. Mahout (MapReduce)
* 대용량 처리에서는 x100 ~ x1,000 빠름
See http://wiki.apache.org/hama/Benchmarks#K-Means_Clustering
오늘 날의 빅데이터 솔루션 동향
현재 제안된
빅데이터 분석 솔루션들
Flume, Sqoop, Pig,
Hive, Impala, Tez,
Presto, …, etc.
Crawling
,or Gathering
Map/Reduce
HDFS
오늘 날의 빅데이터 솔루션 동향
엄밀히 얘기하면,
수집, 추출, 가공, 적재 분야
왜?
Flume, Sqoop, Pig,
Hive, Impala, Tez,
Presto, …, etc.
Crawling
,or Gathering
Map/Reduce
HDFS
오늘 날의 빅데이터 솔루션 동향
엄밀히 얘기하면,
수집, 추출, 가공, 적재 분야
기존 DW or OLAP 분석
시스템
Flume, Sqoop, Pig,
Hive, Impala, Tez,
Presto, …, etc.
Crawling
,or Gathering
Map/Reduce
HDFS
기존 시장에 좀 더 쉽게 접
근하려고 …
ETL tools on Hadoop
오늘 날의 빅데이터 솔루션 동향
반면 오픈소스-파는:
Beyond Map/Reduce!
Flume, Sqoop, Pig,
Hive, Impala, Tez,
Presto, …, etc.
Crawling
,or Gathering
이를 뛰어 넘어,
분석 그 자체에 집중
Spark, Hama, Storm,
Graphlab, …, etc.
Map/Reduce
HDFS
결론
● Map/Reduce 기반은 대부분 ETL 도구
○ Extraction - (Filtering) Transform - Load
● Map/Reduce Alternatives 는 성능을 개선하여 분석 그 자체에 집중
하고 있음
○ 스톰: 실시간 처리
○ Spark, Graphlab, 하마: Iterative 과학 연산 처리
● ~ 2013년: 빅 데이터 분석을 위한 전-처리 단계 고도화
○ 이제 데이터 관리 및 추출을 넘어 분석으로..