구글의 분산데이터 처리

D a v i d Chapter4 – 구글의 분산데이터처리

Content ,[object Object],[object Object],[object Object],[object Object]

MapReduce – 분산처리를 위한 기반 기술

MapReduce 란 ? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce 의 흐름 데이터 데이터 데이터 Map Map Map Reduce Reduce

MapReduce 의 흐름 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Map 과 Reduce 의 역할 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Map 과 Reduce 의 역할 Map Map Reduce Reduce 키 1 값 1 키 2 값 2 키 A 값 X 키 B 값 Y 키 B 값 Z A = X B = Y, Z Map 은 새로운 키로 값을 생성 / Reduce 는 같은 키의 값을 통합한다

Map 과 Reduce 의 구체적 사례 벚꽃학교의 페이지 단풍학교의 페이지 docID = 1 docID = 2 역 인데스 302 단풍 301 벚꽃 203 페이지 201 의 101 학교 WordID 단어 0 2 302 0 1 301 3 2 3 1 203 2 2 2 1 201 1 2 1 1 101 위치 docID WordID 단풍학교의 페이지 2 벚꽃학교의 페이지 1 값 ( 텍스트 ) 키 (docID)

Shuffle – Map 의 출력을 정리 하여 같은 키 값 모음 1:2 201 1:1 101 1:3 203 1:0 301 값 (docID) 키 (wordID) 2:0 302 2:1 101 2:3 203 2:2 201 값 (docID) 키 (wordID) 2:0 302 1:0 301 1:3 2:3 203 1:2 2:2 201 1:1 2:1 101 값 (docID: 위치 ) 의 리스트 키 (wordID)

Reduce 를 이용한 처리 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],302 = 2:0 301 = 1:0 203 = 1:3, 2:3 201 = 1:2, 2:2 101 = 1:1, 2:1 값 (wordID = docID : 위치 , …)

프로그래밍 언어를 이용한 처리 Map(“1”, “ 벚꽃나무학교 페이지” ) -> [ (“301”, “1:0”), (“101”, “1:1”), (“201”, “1:2”), (“203”, “1:3”), Map(“2”, “ 단풍나무학교 페이지” ) -> [ (“302”, “2:0”), (“101”, “2:1”), (“201”, “2:2”), (“203”, “2:3”), # 1 번째 맵 # 2 번째 맵 # 일련의 Reduce Reduce(“101”, [“1:1”, “2:1”]) -> “101 = 1:1, 2:1” Reduce(“201”, [“1:2”, “2:2”]) -> “201 = 1:2, 2:2” ………………… ..

MapReduce 로 할 수 있는 일 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce 로 할 수 있는 일 ,[object Object],12:01 uesr1 로그인 12:15 uesr2 로그인 12:15 uesr1 로그아웃 . . . 키 : user1 12:01 user1 로그인 12:15 uesr1 로그아웃 키 : user2 12:05 user2 로그인 . . .

워커에 의한 공동 작업 GFS GFS Map Map Reduce Reduce 마스터 # MapReduce 전체 모습 워커 워커 MapReduce 전체 동작을 관리 마스터의 요구에 따라 Map, Reduce 실행

3 단계 처리 과정 (Map) 입력 워커 분할 함수 중간 파일 키 1 값 1 키 2 값 2 … Map 키 A 값 키 B 값 키 C 값 … 키 A 값 키 B 값 키 C 값 키 D 값 . . . ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

3 단계 처리 과정 (Shuffle) 중간 파일 워커 셔 플 키 A 값 키 B 값 키 C 값 키 D 값 . . . . . . . . . . . . . . . 키 B 값 키 A 값 . . . 키 B 값 키 A 값

3 단계 처리 과정 (Shuffle) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

3 단계 처리 과정 (Reduce) 워커 . . . . . . . . . . . . 키 B 값 키 A 값 . . . 키 B 값 키 A 값 Reduce 출 력

3 단계 처리 과정 (Reduce) ,[object Object],[object Object],[object Object],[object Object],[object Object]

고속화에 필요한 아이디어 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

고속화에 필요한 아이디어 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

실행하는 과정에는 단계가 있다 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],MapReduce 의 과정 정리

MapReduce 의 장애 대책 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Sawzall – 분산처리용 프로그래밍 언어 G o o g l e

Sawzall ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Sawzall 의 흐름 데이터 데이터 데이터 필터 필터 필터 어그리게이터

구글의 분산데이터 처리

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie 구글의 분산데이터 처리

Ähnlich wie 구글의 분산데이터 처리 (20)

Mehr von juhyun

Mehr von juhyun (20)

구글의 분산데이터 처리