SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Spring Data
                     for HADOOP
                         오대헌




12년	 5월	 8일	 화요일
목차
                   •   Spring Data
                   •   Maven Artifacts
                   •   NoSQL
                   •   HADOOP
                   •   Map Reduce
                   •   Hadoop 구성

                   •   Spring + Hadoop
                   •   Start
                   •   DBaaS



12년	 5월	 8일	 화요일
1. Spring Data   Relation dB
                                     - JPA
                                     - JDBC Extensions

                                    Big Data
                                     - Apache Hadoop

                                    Data-grid
                                     - GemFire

                                    Key value Stroes
                                     - Redis
                                     - Riak

                                    Document Stores
                                     - MongoDB

                                    Graph DB
                                    - Neo4j

                                    Column Stores
                                    - HBase

                                    Blob -stores
                                    - Blob

                                    Common infrastrusture
                                     - Commons
                                     - Griails Mapping




12년	 5월	 8일	 화요일
2. Maven Artifacts




12년	 5월	 8일	 화요일
3. NoSQL
                        소셜 웹 시대로 접어들면서 DB read와
                        Update가 많이 일어남.

                        관계형 DB로는 한계가 있음

                        카산드라와 hadoop 기반의 HBase 가 인기
                        있다.

                        분산 스토리지와 RESTful API를 통한 데이
                        터 접근은 복잡성으로 인한 개발비용 줄
                        임

                        아무때나 사용하는 것 보다는 Update가
                        빈번히 일어날때 효과적


                        RDB에 익숙한 사람은 MongoDB가 M/R 작
                        업이 익숙한 사람은 Hadoop

                        scalability가 걱정인 사람은 카산드라 사
                        용이 좋음




                           참고 : Channy’s Blog(http://blog.creation.net/459)
12년	 5월	 8일	 화요일
4. HADOOP
                          분산처리
                          구글의 맵 리듀스
                          야후의 더그 거팅 제작
                          병렬처리 방식




12년	 5월	 8일	 화요일
5. Map Reduce
                          M/R방식


                          1.   User Program은 효율적인 병렬/분산처리가 가능하도록 파일을 일정한 크
                               기를 가지는 M 개의 조각으로 쪼갠다.
                          2.   User Program에는 Master이라는 특별한 프로세스가 존재한다. Master은
                               worker에게 M map과 R reduce를 할당하며, 각 worker의 상태를 관리한
                               다.
                          3.   worker은 할당된 문서를 읽어들인다음 유저정의 Map 함수를 이용해서
                               key/value 형태로 데이터를 읽어들인다. Map함수는 만들어진 key/value
                               를 buffer 메모리에 저장한다. 이 경우 key는 파일명이 될 것이고, value는
                               {단어,count}가 될 것이다.
                          4.   buffer 메모리(혹은 파일)에 있는 key/value는 주기적으로 지역파일에 쓴
                               다. 이 파일은 master에 의해서 관리되며, reduce worker에 할당이 된다.
                          5.   reduce worker이 master로 부터 신호를받았다면, map worker에 의해서
                               지역파일에 씌여진 buffer 데이터를 가져온다. master와 reduce worker와
                               의 통신은 remote procedure call등을 이용할 수 있을 것이다. 중간파일을
                               전부 읽어들였다면, 동일 key값을 이용해서, value와 관련된 필요한 계산을
                               하면 된다. 하나의 reduce작업에 다양한 종류의 key들이 존재하기 때문에,
                               sort가 된후 작업이 되어질 필요가 있다. 이러한 작업은 상당히 많은 메모리
                               를 차지하게 되는데, 이럴경우 다른 프로그램에 소트를 맡기도록 한다.
                          6.   reduce worker에서 소트를 해서 유일한 key를 만들어 낼 수 있게 되는데,
                               이때 사용자 정의된 Reduce 함수를 이용해서, value에 대한 연산을 하면 된
                               다. 연산후 결과는 output 파일로 씌여지게 된다 output 파일로 씌여지게 된
                               다.
                          7.   모든 작업이 완료되었다면, reduce worker은 프로그램 리턴값을 User




12년	 5월	 8일	 화요일
6. Hadoop 구성




12년	 5월	 8일	 화요일
7. Spring + Hadoop




12년	 5월	 8일	 화요일
8. Start




                   http://www.ibm.com/developerworks/kr/library/l-hadoop-1/




12년	 5월	 8일	 화요일
9. DBaaS




12년	 5월	 8일	 화요일
Q&A


12년	 5월	 8일	 화요일

Weitere ähnliche Inhalte

Was ist angesagt?

Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum DNA
 
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
Channy Yun
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
 

Was ist angesagt? (20)

Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
HDFS Overview
HDFS OverviewHDFS Overview
HDFS Overview
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoop
 
about hadoop yes
about hadoop yesabout hadoop yes
about hadoop yes
 
Hadoop overview
Hadoop overviewHadoop overview
Hadoop overview
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
Apache sqoop
Apache sqoopApache sqoop
Apache sqoop
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 

Andere mochten auch

Direct contact or open condensers
Direct contact or open condensersDirect contact or open condensers
Direct contact or open condensers
Sam
 

Andere mochten auch (15)

hadoop setting yes
hadoop setting yeshadoop setting yes
hadoop setting yes
 
1. hadoop 소개
1. hadoop 소개1. hadoop 소개
1. hadoop 소개
 
Hadoopcluster install in_centos_virtualbox
Hadoopcluster install in_centos_virtualboxHadoopcluster install in_centos_virtualbox
Hadoopcluster install in_centos_virtualbox
 
9 o-4 c-4
9 o-4 c-49 o-4 c-4
9 o-4 c-4
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
 
Direct contact or open condensers
Direct contact or open condensersDirect contact or open condensers
Direct contact or open condensers
 
Process Optimization for Small-Scale LNG Plants
Process Optimization for Small-Scale LNG PlantsProcess Optimization for Small-Scale LNG Plants
Process Optimization for Small-Scale LNG Plants
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
09. 조선산업 특강 (현대중공업 하수 상무)
09. 조선산업 특강 (현대중공업 하수 상무)09. 조선산업 특강 (현대중공업 하수 상무)
09. 조선산업 특강 (현대중공업 하수 상무)
 
텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)텐서플로 걸음마 (TensorFlow Tutorial)
텐서플로 걸음마 (TensorFlow Tutorial)
 
Steam Condensers
Steam CondensersSteam Condensers
Steam Condensers
 
Condenser and its types
Condenser and its types Condenser and its types
Condenser and its types
 
텐서플로우 기초 이해하기
텐서플로우 기초 이해하기 텐서플로우 기초 이해하기
텐서플로우 기초 이해하기
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
STUDY OF CONDENSER AND ITS DIFFERENT TYPES
STUDY OF CONDENSER  AND ITS DIFFERENT TYPESSTUDY OF CONDENSER  AND ITS DIFFERENT TYPES
STUDY OF CONDENSER AND ITS DIFFERENT TYPES
 

Ähnlich wie Bog data 설명

Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Channy Yun
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
Jayoung Lim
 
Mongodb 특징 분석
Mongodb 특징 분석Mongodb 특징 분석
Mongodb 특징 분석
Daeyong Shin
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
Wooseung Kim
 

Ähnlich wie Bog data 설명 (20)

Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)
 
2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)
2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)
2013.02.02 지앤선 테크니컬 세미나 - 하둡으로 배우는 대용량 데이터 분산처리 기술(이현남)
 
Hadoop administration
Hadoop administrationHadoop administration
Hadoop administration
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
NoSQL
NoSQLNoSQL
NoSQL
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
Apache Spark
Apache SparkApache Spark
Apache Spark
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습
 
BigData Overview
BigData OverviewBigData Overview
BigData Overview
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
하둡-rhive
하둡-rhive하둡-rhive
하둡-rhive
 
Mongodb 특징 분석
Mongodb 특징 분석Mongodb 특징 분석
Mongodb 특징 분석
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
빅데이터 플랫폼 진화 공개용
빅데이터 플랫폼 진화 공개용빅데이터 플랫폼 진화 공개용
빅데이터 플랫폼 진화 공개용
 

Bog data 설명

  • 1. Spring Data for HADOOP 오대헌 12년 5월 8일 화요일
  • 2. 목차 • Spring Data • Maven Artifacts • NoSQL • HADOOP • Map Reduce • Hadoop 구성 • Spring + Hadoop • Start • DBaaS 12년 5월 8일 화요일
  • 3. 1. Spring Data Relation dB - JPA - JDBC Extensions Big Data - Apache Hadoop Data-grid - GemFire Key value Stroes - Redis - Riak Document Stores - MongoDB Graph DB - Neo4j Column Stores - HBase Blob -stores - Blob Common infrastrusture - Commons - Griails Mapping 12년 5월 8일 화요일
  • 4. 2. Maven Artifacts 12년 5월 8일 화요일
  • 5. 3. NoSQL 소셜 웹 시대로 접어들면서 DB read와 Update가 많이 일어남. 관계형 DB로는 한계가 있음 카산드라와 hadoop 기반의 HBase 가 인기 있다. 분산 스토리지와 RESTful API를 통한 데이 터 접근은 복잡성으로 인한 개발비용 줄 임 아무때나 사용하는 것 보다는 Update가 빈번히 일어날때 효과적 RDB에 익숙한 사람은 MongoDB가 M/R 작 업이 익숙한 사람은 Hadoop scalability가 걱정인 사람은 카산드라 사 용이 좋음 참고 : Channy’s Blog(http://blog.creation.net/459) 12년 5월 8일 화요일
  • 6. 4. HADOOP 분산처리 구글의 맵 리듀스 야후의 더그 거팅 제작 병렬처리 방식 12년 5월 8일 화요일
  • 7. 5. Map Reduce M/R방식 1. User Program은 효율적인 병렬/분산처리가 가능하도록 파일을 일정한 크 기를 가지는 M 개의 조각으로 쪼갠다. 2. User Program에는 Master이라는 특별한 프로세스가 존재한다. Master은 worker에게 M map과 R reduce를 할당하며, 각 worker의 상태를 관리한 다. 3. worker은 할당된 문서를 읽어들인다음 유저정의 Map 함수를 이용해서 key/value 형태로 데이터를 읽어들인다. Map함수는 만들어진 key/value 를 buffer 메모리에 저장한다. 이 경우 key는 파일명이 될 것이고, value는 {단어,count}가 될 것이다. 4. buffer 메모리(혹은 파일)에 있는 key/value는 주기적으로 지역파일에 쓴 다. 이 파일은 master에 의해서 관리되며, reduce worker에 할당이 된다. 5. reduce worker이 master로 부터 신호를받았다면, map worker에 의해서 지역파일에 씌여진 buffer 데이터를 가져온다. master와 reduce worker와 의 통신은 remote procedure call등을 이용할 수 있을 것이다. 중간파일을 전부 읽어들였다면, 동일 key값을 이용해서, value와 관련된 필요한 계산을 하면 된다. 하나의 reduce작업에 다양한 종류의 key들이 존재하기 때문에, sort가 된후 작업이 되어질 필요가 있다. 이러한 작업은 상당히 많은 메모리 를 차지하게 되는데, 이럴경우 다른 프로그램에 소트를 맡기도록 한다. 6. reduce worker에서 소트를 해서 유일한 key를 만들어 낼 수 있게 되는데, 이때 사용자 정의된 Reduce 함수를 이용해서, value에 대한 연산을 하면 된 다. 연산후 결과는 output 파일로 씌여지게 된다 output 파일로 씌여지게 된 다. 7. 모든 작업이 완료되었다면, reduce worker은 프로그램 리턴값을 User 12년 5월 8일 화요일
  • 8. 6. Hadoop 구성 12년 5월 8일 화요일
  • 9. 7. Spring + Hadoop 12년 5월 8일 화요일
  • 10. 8. Start http://www.ibm.com/developerworks/kr/library/l-hadoop-1/ 12년 5월 8일 화요일
  • 11. 9. DBaaS 12년 5월 8일 화요일
  • 12. Q&A 12년 5월 8일 화요일