SlideShare a Scribd company logo
1 of 23
Download to read offline
클라우드 기반
시맨틱 웹 검색 서비스
   개발 사례
            윤석찬

  다음커뮤니케이션 · 서울대 BikeLab
      channy@daumcorp.com
     http://channy.creation.net
클라우드 +   시맨틱 + 웹 검색
          WTF?
What’s Semantic Web?




•   RDF “statements” consist of
    resources (= nodes)                      = subject
       which have properties                 = predicate
       which have values (= nodes,strings)   = object
      resource                  value
                   property
Web 3.0 Buzz
시맨틱 웹의 현황
• 시맨틱 웹이 죽은 이유
 – 어렵다
     • HTML과 XML에 비해 콘텐츠 생산이 어려움
     • 이상적 표준론자와 학자들의 전유물로 인식
     • 웹 개발자를 위한 쉬운 표준과 개발 도구 부재


 – 킬러앱이 없다
     • 매력적인 웹 서비스 및 웹 애플리케이션 부재
     • 포털, 검색, 동영상, 소셜네트웍과 연계 부재


• 시맨틱 웹의 현실
 –   특정 도메인에서만 이용: 콘텐츠, 의료, 문헌, 특허 정보 등
 –   RSS, 오픈 API, 마이크로포맷 등 구조적 데이터 저작 가능
 –   RDF 기반 데이터웹(LinkedData)로 재도약 준비 중
 –   여전히 어렵고 킬러앱이 없다!
시맨틱 검색 서비스의 출현
• 국내
 – 네이트는 시맨틱 검색을 기반으로 10%까지 점유율 상승.
 – 네이버 역시 시맨틱 웹 기반 영화 검색 서비스 베타 제공
• 국외
 –   Microsoft Bing은 Powerset을 인수 및 점유율 상승.
 –   구글은 Squared라는 구조화 서비스 베타 서비스 시작.
 –   Wolfram Research에서 DB 기반 검색 서비스 베타 서비스 시작.
 –   LinkedData의 급격한 성장.
What’s Linked Data?




     . In October 2007, datasets consisted of over two
     billion RDF triples, which were interlinked by over
     two million RDF links. By September 2010 this had
     grown to 25 billion RDF triples, interlinked by
     around 395 million RDF links.
                http://en.wikipedia.org/wiki/Linked_Data
검색 기술 비교 및 변화

  기존 웹 검색 엔진        방법          시맨틱 웹 검색
   외부 웹 문서 및                링크드데이터(LinkedData) 및
                    대상
   사내 콘텐츠 DB                   사내 콘텐츠 DB
 웹 크롤러를 통해 수집       수집             RDF 수집
 랭킹에 따라 문서 인덱스      저장      관계에 따라 RDF Triple 변환
    IR 알고리즘         결과          SPAQL 쿼리 응답
키워드 기반 랭킹 기반 검색     서비스       그래프 기반 의미 검색
    Google(1조)     데이터 용량      LinkedData(250억)
 Google, 네이버, 다음   대표 기업          Bing, Hakia

 – 검색은 정보 수집, 저장, 서비스 모든 면에서 주기적으로 대용량 처리
   능력이 필요하며, 웹 기반 데이터가 기하 급수적으로 늘어나면서 클
   라우드 플랫폼이 절실히 요구 되고 있음.

 – 2009년을 기점으로 시맨틱 웹 데이터 처리가 이슈가 되면서, 기존 검
   색 엔진과 마찬가지로 클라우드 컴퓨팅 기반 분산 플랫폼이 필요.
But, 기존 시맨틱 웹 처리 방법

               1. 모델 만들기
                 개념과 관계 속성에 대한 정의
                 최대한 현실에 부합하는 모델을
                  만들며 확장 유연성

               2.RDF 처리
                 대개 기존 DB에서 변환
                 RDF, Triple, N-Triple 형태 저장
                 처리 시간이 길다!

               3. SPARQL 질의
                 원하는 답을 얻기 위한 추론
                 응답 시간이 길다!
RDF Store
            DB   Memory   File
1. MapReduce 이용한 RDF 처리
2. MapReduce를 이용한 AnswerSet 만들기




c.f. 기존 SPARQL 처리 속도
3. Key/Value DB 이용
• 키워드 확장용 Answer Set 저장 가능
  – “Subject Property” 기반 검색어   e.g “이효리 나이” ⇒ Daum 스마트앤서




  – “Subject Property sameAs Subject” 방식 확장
     • “이효리 나이 같은 가수”
• 의미 검색 서비스에 용이
              – Update Heavy job
              – Real-time incremental
                Update




http://research.yahoo.com/Web_Information_Management/YCSB
시스템 구성도

                                         - 클라우드 인스턴스 동적 처리
                                         - MR Job Scheduler
            Music
             Music People Movie
                           Movie
             DB     People DB
              DB     DB     DB                 Map/Reduce
                      DB
                                                                            RDF
                                                                            RDF
               Search Service                                   Hadoop             M/R
                                                                                     -Incremental
                                                                                      Update
                                                                            N3
                                                                            N3

                                                {"Name": "Cheeso",
 Internet                          REST APIs    "Rank": 7}          NoSQL           M/R
                                                 {"Name": "Cheeso",
                                                 "Rank": 7}
                                                   {"Name": "Cheeso",
                                                   "Rank": 7}
                                                                                  - 사용자 쿼리 분석기
                                                                                  - 동적 생성
                                                            Hbase
                                                                        Answer
                                                                         Answer
              Search Service                              Cassandra       Set
                                                                           Set
                                                        iCube                     Storage
                Front-end                               Cloud                      Clould
1) iCube 기반 MapReduce jobs
2) 의미 검색 서비스   12월 베타 오픈 예정
• 기존 서비스와 차별점
 – 콘텐츠 검색은 주제 중심으로만 제공함
 – 속성 중심의 질의어 확장을 통한 검색 제공에 한계


• 의미 검색 서비스 특징
 – 사용자에게 친숙한 질의어 확장을 통한 콘텐츠 의미 검색
 – 기존 스마트 앤서에 대한 보강 데이터 확보
 – 클라우드 플랫폼을 이용 영화/인물/음악을 기반한 RDF
   Triple/Answer Set 등 5억~10억 규모 데이터 실시간 처리 처리
   • 기존 방식: Database에서 질의별 속성만 추출 작업
Why Cloud in Search?


 1. 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하
 여 크롤링 및 인덱싱 작업을 비주기적으로 시행.


 2. UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으
 로 테스트 가능


 3. Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용.


 4. 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진
 및 처리 시스템 필요
Daum내 Hadoop 이용 사례
• 사용자 스팸 필터링
 – 문서 내부 단어 및 사용자 프로필을 기반한 스팸 필터링
                         Document Set
     Document
      Feature
                                 Map                      Reduce
                        (User ID, Doc Features)       (User ID, Doc Features List)
     Extraction

    Filtering with               Map
                          (User ID, User Profiles)
                                                          Reduce
     User Profile                                     (User ID, User Profiles)
                                             +                                   +
                                                           Spam Users
                                                                 Data Node

            Spam User                  Job Tracker
               DB                   + 2nd Name Node
                                       nd
                                                                 Data Node


                                                                 Data Node
            Document                   Name Node
               DB
                                                                 Data Node


 –처리 성능 : Blog 10일치 Data (32.7GB) : 4대 CPU 32개 : 11분 42초
• 각종 통계 처리
 – 검색 및 쇼핑 광고 로그 분석 (Hadoop 이용)




 – 검색 및 쇼핑 광고 매출 통계 분석 (Hive 이용)
Reference

   • http://search.daum.net
   • http://dna.daum.net
   • http://bike.snu.ac.kr
   • http://www.icubecloud.com
   • http://nexr.co.kr

More Related Content

Viewers also liked

크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술
크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술
크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술webscikorea
 
네이버 시맨틱 영화 검색
네이버 시맨틱 영화 검색네이버 시맨틱 영화 검색
네이버 시맨틱 영화 검색webscikorea
 
Industrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologyIndustrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologySaltlux Inc.
 
시맨틱 웹과 링크드데이터
시맨틱 웹과 링크드데이터시맨틱 웹과 링크드데이터
시맨틱 웹과 링크드데이터Haklae Kim
 
프라이머 피치 V3
프라이머 피치 V3프라이머 피치 V3
프라이머 피치 V3Woojoo Lee
 
온톨로지 & 규칙 추론 시스템
온톨로지 & 규칙 추론 시스템온톨로지 & 규칙 추론 시스템
온톨로지 & 규칙 추론 시스템Sang-Kyun Kim
 
RDF 개념 및 구문 소개
RDF 개념 및 구문 소개RDF 개념 및 구문 소개
RDF 개념 및 구문 소개Dongbum Kim
 
온톨로지 개념 및 표현언어
온톨로지 개념 및 표현언어온톨로지 개념 및 표현언어
온톨로지 개념 및 표현언어Dongbum Kim
 
사물인터넷 노트1 _사물인터넷소개
사물인터넷 노트1 _사물인터넷소개사물인터넷 노트1 _사물인터넷소개
사물인터넷 노트1 _사물인터넷소개Dong Hwa Jeong
 

Viewers also liked (9)

크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술
크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술
크리에이티브 커먼즈 라이선스와 시맨틱 웹 기술
 
네이버 시맨틱 영화 검색
네이버 시맨틱 영화 검색네이버 시맨틱 영화 검색
네이버 시맨틱 영화 검색
 
Industrials Use cases for Semantic Technology
Industrials Use cases for Semantic TechnologyIndustrials Use cases for Semantic Technology
Industrials Use cases for Semantic Technology
 
시맨틱 웹과 링크드데이터
시맨틱 웹과 링크드데이터시맨틱 웹과 링크드데이터
시맨틱 웹과 링크드데이터
 
프라이머 피치 V3
프라이머 피치 V3프라이머 피치 V3
프라이머 피치 V3
 
온톨로지 & 규칙 추론 시스템
온톨로지 & 규칙 추론 시스템온톨로지 & 규칙 추론 시스템
온톨로지 & 규칙 추론 시스템
 
RDF 개념 및 구문 소개
RDF 개념 및 구문 소개RDF 개념 및 구문 소개
RDF 개념 및 구문 소개
 
온톨로지 개념 및 표현언어
온톨로지 개념 및 표현언어온톨로지 개념 및 표현언어
온톨로지 개념 및 표현언어
 
사물인터넷 노트1 _사물인터넷소개
사물인터넷 노트1 _사물인터넷소개사물인터넷 노트1 _사물인터넷소개
사물인터넷 노트1 _사물인터넷소개
 

Similar to 클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화Kenneth Ceyer
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기BESPIN GLOBAL
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기Nak Joo Kwon
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석Amazon Web Services Korea
 
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처hoondong kim
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어eva
 
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)Amazon Web Services Korea
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
 

Similar to 클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010) (20)

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기AWS 활용한 Data Lake 구성하기
AWS 활용한 Data Lake 구성하기
 
I'm Traveling
I'm TravelingI'm Traveling
I'm Traveling
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
 
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어서비스 발견을 위한 패턴언어
서비스 발견을 위한 패턴언어
 
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
AWS CLOUD 2018- Amazon Neptune, 신규 그래프 데이터베이스 서비스 (김상필 솔루션즈 아키텍트)
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
 

More from Channy Yun

Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Channy Yun
 
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019Channy Yun
 
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Channy Yun
 
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Channy Yun
 
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...Channy Yun
 
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...Channy Yun
 
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)Channy Yun
 
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업Channy Yun
 
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업Channy Yun
 
한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자Channy Yun
 
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)Channy Yun
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
 
Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy Yun
 
Microservices architecture examples
Microservices architecture examplesMicroservices architecture examples
Microservices architecture examplesChanny Yun
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)Channy Yun
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)Channy Yun
 
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Channy Yun
 
Webware - from Document to Operating System
Webware - from Document to Operating System Webware - from Document to Operating System
Webware - from Document to Operating System Channy Yun
 
Daum APIs: A to Z - API Meetup 2014
Daum APIs: A to Z  - API Meetup 2014Daum APIs: A to Z  - API Meetup 2014
Daum APIs: A to Z - API Meetup 2014Channy Yun
 
제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드Channy Yun
 

More from Channy Yun (20)

Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)
 
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
인공지능이 이끌어가는 아마존의 리테일 혁신 - 윤석찬 (AWS) :: 메조미디어 옥토콘(OCTOCON) 2019
 
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트 Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
Chaos Engineering on Microservices - 윤석찬, AWS 테크에반젤리스트
 
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트) Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
Kubernates를 위한 Chaos Engineering in Action :: 윤석찬 (AWS 테크에반젤리스트)
 
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
ICGIS 2018 - Cloud-powered Machine Learnings on Geospactial Services (Channy ...
 
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...
 
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
KubeMonkey를 통한 Chaos Engineering 실전 운영하기 - 윤석찬 (AWS 테크에반젤리스트)
 
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Game Day in Action for Chaos Engineering - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
 
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) ::  한국 카오스엔지니어링 밋업
Chaos Engineering 시작하기 - 윤석찬 (AWS 테크에반젤리스트) :: 한국 카오스엔지니어링 밋업
 
한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자한국 웹20주년 기념 소책자
한국 웹20주년 기념 소책자
 
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
차니의 IT 이야기 #2- 개발자 경력 관리 조언 (윤석찬)
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유Channy의 좌충우돌 스타트업 경험기 - 나인포유
Channy의 좌충우돌 스타트업 경험기 - 나인포유
 
Microservices architecture examples
Microservices architecture examplesMicroservices architecture examples
Microservices architecture examples
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
 
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
Mozilla Firefox OS, its Technical Platform and Future - ISET 2014
 
Webware - from Document to Operating System
Webware - from Document to Operating System Webware - from Document to Operating System
Webware - from Document to Operating System
 
Daum APIs: A to Z - API Meetup 2014
Daum APIs: A to Z  - API Meetup 2014Daum APIs: A to Z  - API Meetup 2014
Daum APIs: A to Z - API Meetup 2014
 
제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드제주 다음 스페이스.1 셀프 투어 가이드
제주 다음 스페이스.1 셀프 투어 가이드
 

클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)

  • 1. 클라우드 기반 시맨틱 웹 검색 서비스 개발 사례 윤석찬 다음커뮤니케이션 · 서울대 BikeLab channy@daumcorp.com http://channy.creation.net
  • 2. 클라우드 + 시맨틱 + 웹 검색 WTF?
  • 3. What’s Semantic Web? • RDF “statements” consist of resources (= nodes) = subject which have properties = predicate which have values (= nodes,strings) = object resource value property
  • 5. 시맨틱 웹의 현황 • 시맨틱 웹이 죽은 이유 – 어렵다 • HTML과 XML에 비해 콘텐츠 생산이 어려움 • 이상적 표준론자와 학자들의 전유물로 인식 • 웹 개발자를 위한 쉬운 표준과 개발 도구 부재 – 킬러앱이 없다 • 매력적인 웹 서비스 및 웹 애플리케이션 부재 • 포털, 검색, 동영상, 소셜네트웍과 연계 부재 • 시맨틱 웹의 현실 – 특정 도메인에서만 이용: 콘텐츠, 의료, 문헌, 특허 정보 등 – RSS, 오픈 API, 마이크로포맷 등 구조적 데이터 저작 가능 – RDF 기반 데이터웹(LinkedData)로 재도약 준비 중 – 여전히 어렵고 킬러앱이 없다!
  • 6. 시맨틱 검색 서비스의 출현 • 국내 – 네이트는 시맨틱 검색을 기반으로 10%까지 점유율 상승. – 네이버 역시 시맨틱 웹 기반 영화 검색 서비스 베타 제공
  • 7. • 국외 – Microsoft Bing은 Powerset을 인수 및 점유율 상승. – 구글은 Squared라는 구조화 서비스 베타 서비스 시작. – Wolfram Research에서 DB 기반 검색 서비스 베타 서비스 시작. – LinkedData의 급격한 성장.
  • 8. What’s Linked Data? . In October 2007, datasets consisted of over two billion RDF triples, which were interlinked by over two million RDF links. By September 2010 this had grown to 25 billion RDF triples, interlinked by around 395 million RDF links. http://en.wikipedia.org/wiki/Linked_Data
  • 9. 검색 기술 비교 및 변화 기존 웹 검색 엔진 방법 시맨틱 웹 검색 외부 웹 문서 및 링크드데이터(LinkedData) 및 대상 사내 콘텐츠 DB 사내 콘텐츠 DB 웹 크롤러를 통해 수집 수집 RDF 수집 랭킹에 따라 문서 인덱스 저장 관계에 따라 RDF Triple 변환 IR 알고리즘 결과 SPAQL 쿼리 응답 키워드 기반 랭킹 기반 검색 서비스 그래프 기반 의미 검색 Google(1조) 데이터 용량 LinkedData(250억) Google, 네이버, 다음 대표 기업 Bing, Hakia – 검색은 정보 수집, 저장, 서비스 모든 면에서 주기적으로 대용량 처리 능력이 필요하며, 웹 기반 데이터가 기하 급수적으로 늘어나면서 클 라우드 플랫폼이 절실히 요구 되고 있음. – 2009년을 기점으로 시맨틱 웹 데이터 처리가 이슈가 되면서, 기존 검 색 엔진과 마찬가지로 클라우드 컴퓨팅 기반 분산 플랫폼이 필요.
  • 10. But, 기존 시맨틱 웹 처리 방법 1. 모델 만들기 개념과 관계 속성에 대한 정의 최대한 현실에 부합하는 모델을 만들며 확장 유연성 2.RDF 처리 대개 기존 DB에서 변환 RDF, Triple, N-Triple 형태 저장 처리 시간이 길다! 3. SPARQL 질의 원하는 답을 얻기 위한 추론 응답 시간이 길다!
  • 11. RDF Store DB Memory File
  • 13. 2. MapReduce를 이용한 AnswerSet 만들기 c.f. 기존 SPARQL 처리 속도
  • 14. 3. Key/Value DB 이용 • 키워드 확장용 Answer Set 저장 가능 – “Subject Property” 기반 검색어 e.g “이효리 나이” ⇒ Daum 스마트앤서 – “Subject Property sameAs Subject” 방식 확장 • “이효리 나이 같은 가수”
  • 15. • 의미 검색 서비스에 용이 – Update Heavy job – Real-time incremental Update http://research.yahoo.com/Web_Information_Management/YCSB
  • 16. 시스템 구성도 - 클라우드 인스턴스 동적 처리 - MR Job Scheduler Music Music People Movie Movie DB People DB DB DB DB Map/Reduce DB RDF RDF Search Service Hadoop M/R -Incremental Update N3 N3 {"Name": "Cheeso", Internet REST APIs "Rank": 7} NoSQL M/R {"Name": "Cheeso", "Rank": 7} {"Name": "Cheeso", "Rank": 7} - 사용자 쿼리 분석기 - 동적 생성 Hbase Answer Answer Search Service Cassandra Set Set iCube Storage Front-end Cloud Clould
  • 17. 1) iCube 기반 MapReduce jobs
  • 18. 2) 의미 검색 서비스 12월 베타 오픈 예정
  • 19. • 기존 서비스와 차별점 – 콘텐츠 검색은 주제 중심으로만 제공함 – 속성 중심의 질의어 확장을 통한 검색 제공에 한계 • 의미 검색 서비스 특징 – 사용자에게 친숙한 질의어 확장을 통한 콘텐츠 의미 검색 – 기존 스마트 앤서에 대한 보강 데이터 확보 – 클라우드 플랫폼을 이용 영화/인물/음악을 기반한 RDF Triple/Answer Set 등 5억~10억 규모 데이터 실시간 처리 처리 • 기존 방식: Database에서 질의별 속성만 추출 작업
  • 20. Why Cloud in Search? 1. 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하 여 크롤링 및 인덱싱 작업을 비주기적으로 시행. 2. UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으 로 테스트 가능 3. Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용. 4. 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진 및 처리 시스템 필요
  • 21. Daum내 Hadoop 이용 사례 • 사용자 스팸 필터링 – 문서 내부 단어 및 사용자 프로필을 기반한 스팸 필터링 Document Set Document Feature Map Reduce (User ID, Doc Features) (User ID, Doc Features List) Extraction Filtering with Map (User ID, User Profiles) Reduce User Profile (User ID, User Profiles) + + Spam Users Data Node Spam User Job Tracker DB + 2nd Name Node nd Data Node Data Node Document Name Node DB Data Node –처리 성능 : Blog 10일치 Data (32.7GB) : 4대 CPU 32개 : 11분 42초
  • 22. • 각종 통계 처리 – 검색 및 쇼핑 광고 로그 분석 (Hadoop 이용) – 검색 및 쇼핑 광고 매출 통계 분석 (Hive 이용)
  • 23. Reference • http://search.daum.net • http://dna.daum.net • http://bike.snu.ac.kr • http://www.icubecloud.com • http://nexr.co.kr