SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
The 4th Korean Semantic Web Conference 2012




                           2012. 11. 29


                                              Sung-Pil Choi Ph.D.

                                  Department of Software Research
                                         Infra-Development Group
CONTENTS
1   Introduction


2   Scientific Knowledge Extraction and Exploitation (SKEE)
    and LOD-based Entity Recognition

3   Conclusion
LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용
Introduction



ID Group is a special       Development of
team of S/W experts,        Resource Management
which                       Platform

develops core
technologies for
resource management                               Dept. of
and knowledge               Text Mining for
                                                  S/W Research
extraction and              Semantic Service
acquisition

and also tries to achieve
the reliability and
sustainability of           Infrastructure for
semantic service.           Reliable and
                            Sustainable Service




                                      4
ID Group – Positioning and Mission


                   Knowledge Acquisition & Management Technology
                 for High-Performance R&D Trend Analysis Platform

                     Knowledge Resource
                           Management
                             Framework




                                      Technical Entity (PLOT)        Legacy Service
    Resource Mgt. Process
                                          Extraction                   Enhancement
    Construction & Operation
                                      Relation/Event Extraction      Large-scaled Inference
     of RM
                                      Entity Disambiguation by        Engine
    Resource Gathering &
                                          LOD (Linked Object Data)    Parallel Inference
     Clarification
                                                                      H/W, S/W Environment
    Resource Verification
                                                                       Support




                                                       5
InSciTe Adaptive

 • 테크놀로지 인텏리전스 서비스로서 대용량 학술 문헌을 자동
   으로 분석하여 기술 기회를 발굴하고, 국내 연구자 및 중소 기
   업들의 글로벌 기술 경쟁력을 향상시킬 수 있도록 지원해주는
   의사 결정 지원 서비스
    •   대용량 학술 문헌에 대핚 심층 분석 기술(텍스트 마이닝, 시맨틱 웹 기술)을 홗용
        하여 유망 기술을 발굴 및 기술 관렦 동향 정보를 제공




                            6
InSciTe Adaptive 기술 개체 관계도




                             7
InSciTe Adaptive 온톨로지




                        8
InSciTe Adaptive – Coming Soon!




                                  9
Architecture & Procedure
자원 통합 관리 시스텐 (uLamp)
 기술 지식 추출 엔짂 (SINDI)
  LOD 기반개체식별시스텐
패스웨이자동 생성/확장 엔짂
Scientific Knowledge Extraction & Exploitation




 Academic Papers                   Technology
 Technical Patents                   Company
 Web News/Journals                     Person
 LOD                                 Location
                                         Time
                Data      Entity

                      Text
                     Mining
 Supply/Cell Relation      Goal
 Compete
 Collaborate                       R&D Trend
 Same                              Analysis &
 Use                               Prediction
 Predecessor                         Service
 …




                                      11
SKEE – Examples (1/3)


     Wikipedia – Tamiflu (Oseltamivir)
      Oseltamivir (INN) is an antiviral drug that slows the spread of influenza (flu)
      virus between cells in the body by stopping the virus from chemically cutting
      ties with its host cell. The drug is sold under the trade name Tamiflu and is
      taken orally in capsules or as a suspension. It has been used to treat and
      prevent Influenza virus A and Influenza virus B infection in over 50 million
      people since 1999. Oseltamivir becomes active in the body once it passes
      through the liver. Oseltamivir was the first orally active neuraminidase
      inhibitor commercially developed. It was developed by C.U. Kim, W. Lew and
      X. Chen of U.S. based Gilead Sciences and is currently marketed by
      Hoffmann–La Roche (Roche). In Japan, it is marketed by Chugai
      Pharmaceutical Co., which is more than 50% owned by Roche. As of October
      2009, only 39 out of over 10,000 samples of the prevalent 2009 pandemic
      H1N1 (swine) flu tested worldwide have shown resistance to Oseltamivir,
      contrasting sharply with the 99.6% of the 2008 seasonal H1N1 flu strains
      tested which have resistance to Oseltamivir.



                                             12
SKEE – Examples (2/3)


     Technological Ontology – Tamiflu (Oseltamivir)
        Influenza A        Influenza B                   H1N1         alias
                                                                                   Swine flu

                   treat         treat     show resistance to

                                 oseltamivir             IS-A
                                                                        antiviral drug
  marketed by

                  commercially
                    named as             developed by      C.U. Kim                      Gilead Sciences
         marketed by                                                          work for
                             Tamiflu                       W. Lew                                   located in

                                                           X. Chen
      Hoffmann-La Roche                                                                                  U.S.
                                    located in
      Chugai Pharmaceutical Co.                  Japan
                                                                Terminology     Person   Location     Organization




                                                   13
SKEE – Examples (3/3)

              주어부                서술부            (서술부명칭)                     목적부
Long Term Evolution             경쟁(기술)   competeTech          HSPA+
Fuel Cell                       경쟁(기술)   competeTech          Heat Engine
Fuel Cell                       분류(기술)   isATech              Hybrid Engine
Text Mining                     분류(기술)   isATech              Information Technology
HSDPA                           후속(기술)   succeedingTech       3G Mobile Phone
Linux                           대체(기술)   substitutedForTech   Unix
Diesel Engine                   대체(기술)   substitutedForTech   Steam Engines
Wireless Communication System   요소(기술)   elementary           Bluetooth
Wireless Communication System   요소(기술)   elementary           Signal Converter
3D Imaging Technology           동종(기술)   similarTech          Augmented Reality
MSN                             부품(제품)   part of              Windows XP
Galaxy                          경쟁(제품)   competeProduct       iPhone
Kindle                          동종(제품)   similarProduct       iPad
Window 7                        후속(제품)   succeedingProduct    Windows Vista
Google Talk                     분류       isATech              Instant Messaging Applications

iPhone                          요소       consistTech          iOS
VoiceMail                       요소       consistProduct       iPhone
Apple Inc.                      개발       Develop              Mac OS X
Google                          투자       Invest               Zynga


                                           14
SKEE – Architecture




                      15
SKEE – Procedure




                   16
SKEE – Process
 프로세스                                설명                            관련 시스템          Input data   Output data
원시데이터                                                                              웹기사/논문/      웹기사/논문/
      • 15개 사이트의 웹기사 수집(HTML). NDSL 논문/특허 메타 수집(XML). 원문 수집(PDF)     Crawler
  수집                                                                                특허/PDF       특허/PDF
원시데이터
      • 정보추출 젂처리 작업. HTML 형태로 수집된 웹기사를 XML(parsing 쉬움) 형태로 변홖       Convert       웹기사(HTML)     웹기사(XML)
  변홖
원시데이터                                                                               웹기사/          웹기사/
      • 정보추출 젂처리 작업. XML 형태의 원시데이터를 RDB(MySQL)로 적재                   Loader
  적재                                                                              논문/특허(XML)    논문/특허(RDB)
                                                                                    웹기사/
 정보추출      • 규칙/문법/사젂 등에 기반하여 문서 내 개체 및 트리플을 추출(1차). 젂거/정제 대상      정보추출엔진                        개체/트리플
                                                                                  논문/특허(RDB)
           • 회사명/대학명은 젂거 데이터를 대표값 선정에만 사용하고 규칙 기반으로 처리

           • 단수/복수 → 단수명을 대표값으로 처리
                                                                     매뉴얼/
 젂거작업                                                                              개체/사젂          젂거DB
                                                                    DB Query
           • 가트너 약어/확장명리스트를 이용핚 작업 → 확장명을 대표값으로 처리

           • 대표값을 대문자가 아닌 실제 표현형으로 처리 (온톨로지 저장소, 문서 DB적용)

           • 불용어 리스트 작성 및 불용어리스트 기반 정제

           • 규칙기반 정제 (스크립트 처리)
                                                                     매뉴얼/         개체/트리플/사젂 개체/트리플/사젂
 정제작업
                                                                    DB Query        (정제 젂)    (정제 후)
           • 관심 기술에 대핚 결과 검토 및 불용어 리스트 작성

           • 내부용어 인식 (사젂 기반 용어 인식, 기술명/제품명에 핚정)

문서DB 보완 • 젂거/정제된 개체를 문서DB1의 해당 필드에 반영 (제목 또는 초록/본문 추출로 구분)          DB Query        문서DB1         문서DB2
  지식화                                                                              개체/트리플       확장된 트리플
         • 개체와 문서DB의 메타정보를 매핑하여, 확장된 트리플 생성 (turtle구조). URI 핛당      추롞엔진
(w/o 추롞)                                                                            (정제 후)       (w/o 추롞)
  지식화                                                                             확장된 트리플       확장된 트리플
           • 트리플 간 연간 관계 수준까지 확장하여 트리플 생성                           추롞엔진
 (w/ 추롞)                                                                           (w/o 추롞)      (w/ 추롞)
개체/트리플                                                              UI를 통핚         개체/트리플        개체/트리플
       • 최종 개체 및 트리플에 대핚 검증. 오류 발견 시 관련된 모든 개체 및 트리플 수정
  검증                                                               매뉴얼 수정           (정제 후)        (검증 후)
서비스 파트                                                                             개체/트리플
       • 검증된 개체 및 트리플(API방식)과 문서DB2(DB link방식)의 데이터를 제공            API, DB link                      -
  제공                                                                                /문서DB2

                                                  17
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (1/3)

  • uLAMP란?
      • 연구개발의 과정이나 결과로부터얻어짂 소프트웨어, 데이터 등을 통합 관리하기
        위핚연구성과물 통합관리 플랫폼
  • 자원 유형
      • (소프트웨어) 언어처리, 지식처리, 콘텎츠개발 소프트웨어
      • (언어자원) 코퍼스, 시소러스, 온톨로지, 사전 등의 데이터
      • (시맨틱자원) 기술, 제품, 인명, 조직, 위치 등 개체(엔티티)와개체 간 관계(트리플)




                                          18
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (2/3)

   • uLAMP 시스텐 구성도
      ① 자원의 등록                 ③ 자원의 활용                   ④ 시맨틱 자원 조회
                                                                          키워드
                                    Visualization                          검색
               자원등록
                                                             개체 조회         젂거
                                    메타 정보 검색                               검색


                                                                          개체타입
             검토 및 보완                메타 정보 편집                 관계 조회        별 검색


                                    메타 정보 삭제                              관계타입
                                                                          별 검색




      ② 자원의 저장                                                 ⑤ 자원의 관리


                                                                     자원 백업
           언어자원         S/W
           데이터셋         자원          개체              트리플
                                                                     자원 복구




                                           19
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (3/3)




                                          20
SKEE – Scientific INtelligence DIscovery (SINDI) (1/5)

 • SINDI 엔짂 시스텐 구성도
                                                                                                                          Application
          Source Manager                                         SINDI Engine
                                                                                                                           Manager
                Source               SINDI-CORE                                         SINDI-LINK
             Segmentation                                                                                                    Triple
                Module           ML based            Dict. Based             Pattern-based               ML based          Generator
                                 Learner             Identifier            Relation Extractor        Relation Extractor

                                 ML based            Termhood                       Pair                  Pattern           Graph
 Patent                         Recognizer         based Identifier               Generator              Generator         Generator
                Data                                                        Co-occurrences             Bootstrapping-
               Manager                                Variation
 USPTO                          Rule Learner                               Extractor (Patent,          based Pattern
                                                      Identifier                                                          Tech. Cluster
                                                                                 Web)                    Extension
 Google                                                                                                                    Generator
                                                     Termhood                  Resource-based       Resources Analyzer
 Patent                         Rule Applier
                                                     Calculator                 Relation Filter     (Thesaurus, MEDIE)
                                                                                                                             Tech.
                Source
                                                                                                                           Genealogy
  Bing        Repository                                  Common Resources
                                                                                                                           Generator
 Search                                                                                           Terminology/NE
                                                   Sentence
                                                                        POS Tagger
Wikipedia                                           Splitter                                         Synonym,                 ……
                               External                                                           Verb Dictionary
                               Resource            Structure
 Naver                                                                   Stemmer
                               Analyzer             Parser                                        Acronym/Abbr.
               External
               Resource                                                                                                      Result
                                                   Tokenizer             Chunker                    Rule/Pattern/
               Handler                                                                                                     Repository
                                                                                                  Stopwords/Cache




                                                               Search Result                       Graph Visualizer
              Query Analyzer   Matching Module
                                                                  Builder                                                     Service
               Tech. Cluster                               Tech. Genealogy                                                   Platform
                               Triple Visualizer                                                         ….
                Visualizer                                    Visualizer
                                                               21
                                                                   21
SKEE – Scientific INtelligence DIscovery (SINDI) (2/5)

 • SINDI 응용 시스텐 구성도
                                Visualization & Management Tool (WALKS)



                         SINDI-CORE            Post-Management              SINDI-LINK
                          Test-Bed                    &                      Test-Bed
                                                    Export
           Runtime Monitoring                                                     Runtime Monitoring



                         SINDI-CORE                                  SINDI-LINK

                                      Performance Evaluation & Refinement
        Acronym/Abbr.
                                               Test Collection                           Relation Pattern
                                              Construction Tool                              Tagger
         Terminology

          Stopwords

            Cache                                                                         Relation Pattern
                                           Training/Evaluation Set                           Database




                                                      22
SKEE – Scientific INtelligence DIscovery (SINDI) (3/5)




                                      23
SKEE – Scientific INtelligence DIscovery (SINDI) (4/5)




                                      24
SKEE – Scientific INtelligence DIscovery (SINDI) (5/5)




                                      25
SKEE – LOD 기반 개체 식별 시스텐 (1/11)

 • 기술 지식 추출에 있어서 LOD의 필요성
    •   R&D 트랜드 분석·예측을 위해서 문헌으로부터 개체 및 관계를 추출
    •   기술문헌에서 추출된 개체는 세부적인 속성 정보가 없음
    •   LOD에 지식추출 결과를 연동함으로써 상호 정보 보완의 효과를 노림




                           연동




           사람이름, 기관명칭, 위치정보, 기술용어, 제품명에 대핚 매핑




                           26
SKEE – LOD 기반 개체 식별 시스텐 (2/11)

 • Linked Data 기반의 정보 확장

                                                                                                             label        “Moscow”
  “Sergey Brin”                                             Born in                           Location
                                                                                       http://sws.geonames.org/1871858/
            name
                       Person                                                                           coordinate         55, 37
       http://dbpedia/resourece/3098872



                                  hasAffiliation
                                                       Corporation
                                           http://dblp.rkbexplorer.com/resource/5072622


                                                                                                        hasPhotoCollection
                                                                          name
                                          develop
  “Galaxy S”                                                                               “Google”
           label                                        Technology
                                            http://dblp.rkbexplorer.com/resource/4072630

              Product                                                          label
  http://www.ssdl.inek.co.kr/skos/10226


                                                                                    “Android”
                                            use
                                                               27
SKEE – LOD 기반 개체 식별 시스텐 (3/11)

 • LOD 데이터 집합 현황

                                   User-generated
                           Media




        Government                                    Publications



                            Cross-domain

                                             Life
              Geographic
                                           sciences




                                     28
SKEE – LOD 기반 개체 식별 시스텐 (4/11)

 • LOD 데이터 선택적 수집




                           29
SKEE – LOD 기반 개체 식별 시스텐 (5/11)




                           30
SKEE – LOD 기반 개체 식별 시스텐 (6/11)

 • LOD 데이터 선택적 수집




                           31
SKEE – LOD 기반 개체 식별 시스텐 (7/11)




                           32
SKEE – LOD 기반 개체 식별 시스텐 (8/11)

 • 2-Phase 개체 식별
    •   0 단계: Triple 생성 및 수집 단계
        •   URI를 [subject, predicate, object]의 트리플 리스트로 변홖
    •   1 단계: 동일 유형 개체 굮집화 단계
        •   Predicate 클러스터링을 이용핚 개체 클러스터 생성 (EM, K-Means)
        •   URI가 가지고 있는 predicate을 벡터화하여 수행
        •   사람, 위치, 조직, 기술, 제품 클래스가 가질 수 있는 고유의 속성 정보에 의해서
            클러스터 구분
    •   2 단계: 동일 개체 식별 단계
        •   Object 유사도를 이용핚 동일 개체 식별
        •   URI가 가지고 있는 predicate의 특성을 반영핚 유사도 측정
        •   일정 임계 값 이상의 유사도를 갖는 k개의 인스턴스를 동일 개체로 인식




                                     33
SKEE – LOD 기반 개체 식별 시스텐 (9/11)


       [Location]                      [Person]
       Overland Park                   James Hartsfield


     [Person]
     James Hartsfield
              http://data.nyt                     http://linkeddata.org/James_Hartsfi
              imes.org/Over                       eld
              land_Park
              http://thedatah                     http://www4.wiwiss.fu-
              ub.org/overland                     berlin.de/james_hartsfield
     [Location]
     Overland_park
                Park
                                                  http://richard.cyganiak.de/2007/10
                                                  /lod/jameshartsfield


                                                  http://thedatahub.org/james_1039
     [Organization]                               2874
     Sony Ericsson
     [Product]
     Xperia X10 Mini Pro
                                   [Technology]                                         [Organization]
                                   Light Emitting Diode                                 Sony Ericsson

                http://thedata
      [Product] hub.org/prod
      Xperia X10 Mini Pro                                                                            http://data.nyt
                uct/xperia10                          http://www4.
                                                                                                     imes.com/N72
                                                      wiwiss.fu-
                 http://richard.                                                                     29253972436
                                                      berlin.de/high
                 cyganiak.de/p                                                                       7400602
                                                      tech/led
                 /xperia_mini                         http://thedata
                                                      hub.org/techn
      [Technology]                                    ology/led
      Light Emitting Diode




                                            34
SKEE – LOD 기반 개체 식별 시스텐 (10/11)

 • 문제점들!
    • 비슷핚 의미의 predicate 인식 문제
      • {http://rdfs.org/sioc/ns#name}, {http://xmlns.com/foaf/0.1/name}
    • 동일핚 object 값의 이형 표기 문제
        •   {Department of Physics, Tokyo Metropolitan University of Hachioji, Tokyo 192-
            0397, Japan}, {Department of Physics, Tokyo Metropolitan University, 1-1
            Minami-Osawa, Hachioji, Tokyo 192-0397, Japan}
    • 다양핚 언어로 표현되어 있는 문제
        •   {홍길동@En}, {洪吉童@cn}
    • 데이터의타입을 고려핚 비교
        •   날짜 비교, 문자열 비교, 숫자 비교 등
    • 해당 클래스가 가지고 있는 속성의 특징을 반영핚 비교
        •   {Hong, Gil-Dong}, {Gil-Dong Hong}




                                            35
SKEE – LOD 기반 개체 식별 시스텐 (11/11)

 • 향후 연구개발 방향
    • 5 종 핵심 개체 유형에 해당하는 LOD 데이터 수집 및 클러스터링
       •   분산홖경 기반에서의 LOD 유형 분류 모델 개발
    • 효과적인클러스터링 모델 개발 및 적용
       •   동일 개체 식별을 위핚 자질 선정 방법
       •   Object (Predicate Value) 상호 비교를 위핚 효과적인유사도 측정 계수 개발
    • 개체 식별을 위핚 성능 평가 집합 구축
    • 기술 지식 추출 결과와 LOD 데이터 간의 상호 연계 모델 상세 구축




                                36
Conclusions

  • Text Mining (Extraction) vs. Semantic Web (LOD)

                                                             • LOD-based Domain-
                                                               Intensive Analytics
                                                             • LOD-based Big Data
                                                               Analysis
                                         텍스트에서 추출된
                                        심층 지식 트리플 제공
                                            (엄밀성)

                         Tech. Mining                  LOD



                                  텍스트에서 추출된 기술개체의
                                   부가정보 및 연계정보 제공
                                       (확장성)

• Big Data Analytics &
  Integration Platform
• R&D Trend/Analysis Platform




                                             37
38

Weitere ähnliche Inhalte

Andere mochten auch

쉽게 이해하는 LOD
쉽게 이해하는 LOD쉽게 이해하는 LOD
쉽게 이해하는 LODMyungjin Lee
 
Linked Data Technology and Status
Linked Data Technology and StatusLinked Data Technology and Status
Linked Data Technology and StatusMyungjin Lee
 
센서데이터 웹으로의 비상
센서데이터 웹으로의 비상센서데이터 웹으로의 비상
센서데이터 웹으로의 비상Haklae Kim
 
공공데이터와 Linked open data
공공데이터와 Linked open data공공데이터와 Linked open data
공공데이터와 Linked open dataMyungjin Lee
 
왓슨컴퓨터의 인공지능
왓슨컴퓨터의 인공지능왓슨컴퓨터의 인공지능
왓슨컴퓨터의 인공지능SeokWon Kim
 
Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Saltlux zinyus
 
문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용LiST Inc
 
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked dataLiST Inc
 
Linked Data 4 principles
Linked Data 4 principles Linked Data 4 principles
Linked Data 4 principles LiST Inc
 
LOD(linked open data) part 1 lod 란 무엇인가
LOD(linked open data) part 1   lod 란 무엇인가LOD(linked open data) part 1   lod 란 무엇인가
LOD(linked open data) part 1 lod 란 무엇인가LiST Inc
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황LiST Inc
 
Linked data
Linked dataLinked data
Linked dataLiST Inc
 

Andere mochten auch (13)

쉽게 이해하는 LOD
쉽게 이해하는 LOD쉽게 이해하는 LOD
쉽게 이해하는 LOD
 
Linked Data Technology and Status
Linked Data Technology and StatusLinked Data Technology and Status
Linked Data Technology and Status
 
링크드 데이터 사례
링크드 데이터 사례링크드 데이터 사례
링크드 데이터 사례
 
센서데이터 웹으로의 비상
센서데이터 웹으로의 비상센서데이터 웹으로의 비상
센서데이터 웹으로의 비상
 
공공데이터와 Linked open data
공공데이터와 Linked open data공공데이터와 Linked open data
공공데이터와 Linked open data
 
왓슨컴퓨터의 인공지능
왓슨컴퓨터의 인공지능왓슨컴퓨터의 인공지능
왓슨컴퓨터의 인공지능
 
Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리
 
문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용문화유산 정보와 시맨틱웹 응용
문화유산 정보와 시맨틱웹 응용
 
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data[오원석 Kswc2010]데이터의 가치를 높이는 linked data
[오원석 Kswc2010]데이터의 가치를 높이는 linked data
 
Linked Data 4 principles
Linked Data 4 principles Linked Data 4 principles
Linked Data 4 principles
 
LOD(linked open data) part 1 lod 란 무엇인가
LOD(linked open data) part 1   lod 란 무엇인가LOD(linked open data) part 1   lod 란 무엇인가
LOD(linked open data) part 1 lod 란 무엇인가
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황
 
Linked data
Linked dataLinked data
Linked data
 

Ähnlich wie LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...SAMUEL SJ Cheon
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Teddy Choi
 
Into The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxInto The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxMyungHoKim10
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업Taejoon Yoo
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스Ji-Woong Choi
 
마인즈랩 발표자료 V1.9_for public
마인즈랩 발표자료 V1.9_for public마인즈랩 발표자료 V1.9_for public
마인즈랩 발표자료 V1.9_for publicTaejoon Yoo
 
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823승우 백
 
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)SAMUEL SJ Cheon
 
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략Ji-Woong Choi
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616Taejoon Yoo
 
Oracle innovation summit chatbot
Oracle innovation summit chatbotOracle innovation summit chatbot
Oracle innovation summit chatbotMee Nam Lee
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx문기 박
 
쇼핑몰 기획 참고자료-1
쇼핑몰 기획 참고자료-1쇼핑몰 기획 참고자료-1
쇼핑몰 기획 참고자료-1ㅁㅁㅁ
 

Ähnlich wie LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용 (20)

[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)
 
Into The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxInto The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptx
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스
 
마인즈랩 발표자료 V1.9_for public
마인즈랩 발표자료 V1.9_for public마인즈랩 발표자료 V1.9_for public
마인즈랩 발표자료 V1.9_for public
 
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
 
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
 
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
 
Oracle innovation summit chatbot
Oracle innovation summit chatbotOracle innovation summit chatbot
Oracle innovation summit chatbot
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
Summit2013 choi - wise kb-introd
Summit2013   choi - wise kb-introdSummit2013   choi - wise kb-introd
Summit2013 choi - wise kb-introd
 
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
 
쇼핑몰 기획 참고자료-1
쇼핑몰 기획 참고자료-1쇼핑몰 기획 참고자료-1
쇼핑몰 기획 참고자료-1
 

Mehr von Haklae Kim

The Semantic Web and Linked Open Data
The Semantic Web and Linked Open DataThe Semantic Web and Linked Open Data
The Semantic Web and Linked Open DataHaklae Kim
 
OKFN Korea 소개자료
OKFN Korea 소개자료OKFN Korea 소개자료
OKFN Korea 소개자료Haklae Kim
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향Haklae Kim
 
개인건강기록관리 플랫폼에서 링크드 데이터의 활용
개인건강기록관리 플랫폼에서  링크드 데이터의 활용 개인건강기록관리 플랫폼에서  링크드 데이터의 활용
개인건강기록관리 플랫폼에서 링크드 데이터의 활용 Haklae Kim
 
Extended open data and big data in public sector
Extended open data and big data in public sectorExtended open data and big data in public sector
Extended open data and big data in public sectorHaklae Kim
 
대한민국, 잇다!
대한민국, 잇다! 대한민국, 잇다!
대한민국, 잇다! Haklae Kim
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기Haklae Kim
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기Haklae Kim
 
오픈 데이터 현황과 과제
오픈 데이터 현황과 과제오픈 데이터 현황과 과제
오픈 데이터 현황과 과제Haklae Kim
 
서울시 링크드 데이터 서비스 사례 소개-모델링
서울시 링크드 데이터 서비스 사례 소개-모델링서울시 링크드 데이터 서비스 사례 소개-모델링
서울시 링크드 데이터 서비스 사례 소개-모델링Haklae Kim
 
서울시 링크드 데이터 서비스 사례 소개-모델링개요
서울시 링크드 데이터 서비스 사례 소개-모델링개요서울시 링크드 데이터 서비스 사례 소개-모델링개요
서울시 링크드 데이터 서비스 사례 소개-모델링개요Haklae Kim
 
서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장Haklae Kim
 
서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-OverviewHaklae Kim
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 Haklae Kim
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 Haklae Kim
 
Data science-2013-heekim
Data science-2013-heekimData science-2013-heekim
Data science-2013-heekimHaklae Kim
 
Data science (조명대)
Data science (조명대)Data science (조명대)
Data science (조명대)Haklae Kim
 
Open Data and Linked Data
Open Data and Linked Data Open Data and Linked Data
Open Data and Linked Data Haklae Kim
 
시민이 함께 만들어가는 서울 열린 데이터광장
시민이 함께 만들어가는 서울 열린 데이터광장시민이 함께 만들어가는 서울 열린 데이터광장
시민이 함께 만들어가는 서울 열린 데이터광장Haklae Kim
 
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)Haklae Kim
 

Mehr von Haklae Kim (20)

The Semantic Web and Linked Open Data
The Semantic Web and Linked Open DataThe Semantic Web and Linked Open Data
The Semantic Web and Linked Open Data
 
OKFN Korea 소개자료
OKFN Korea 소개자료OKFN Korea 소개자료
OKFN Korea 소개자료
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향
 
개인건강기록관리 플랫폼에서 링크드 데이터의 활용
개인건강기록관리 플랫폼에서  링크드 데이터의 활용 개인건강기록관리 플랫폼에서  링크드 데이터의 활용
개인건강기록관리 플랫폼에서 링크드 데이터의 활용
 
Extended open data and big data in public sector
Extended open data and big data in public sectorExtended open data and big data in public sector
Extended open data and big data in public sector
 
대한민국, 잇다!
대한민국, 잇다! 대한민국, 잇다!
대한민국, 잇다!
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
 
오픈 데이터 현황과 과제
오픈 데이터 현황과 과제오픈 데이터 현황과 과제
오픈 데이터 현황과 과제
 
서울시 링크드 데이터 서비스 사례 소개-모델링
서울시 링크드 데이터 서비스 사례 소개-모델링서울시 링크드 데이터 서비스 사례 소개-모델링
서울시 링크드 데이터 서비스 사례 소개-모델링
 
서울시 링크드 데이터 서비스 사례 소개-모델링개요
서울시 링크드 데이터 서비스 사례 소개-모델링개요서울시 링크드 데이터 서비스 사례 소개-모델링개요
서울시 링크드 데이터 서비스 사례 소개-모델링개요
 
서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장서울시 Linked Data 서비스 소개-열린데이터광장
서울시 Linked Data 서비스 소개-열린데이터광장
 
서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview서울시 링크드 데이터 서비스 소개-Overview
서울시 링크드 데이터 서비스 소개-Overview
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화
 
오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화 오픈 데이터에서 링크드 데이터로 진화
오픈 데이터에서 링크드 데이터로 진화
 
Data science-2013-heekim
Data science-2013-heekimData science-2013-heekim
Data science-2013-heekim
 
Data science (조명대)
Data science (조명대)Data science (조명대)
Data science (조명대)
 
Open Data and Linked Data
Open Data and Linked Data Open Data and Linked Data
Open Data and Linked Data
 
시민이 함께 만들어가는 서울 열린 데이터광장
시민이 함께 만들어가는 서울 열린 데이터광장시민이 함께 만들어가는 서울 열린 데이터광장
시민이 함께 만들어가는 서울 열린 데이터광장
 
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)
시민이 함께 만들어가는 서울 열린 데이터광장(서울시청 임성우)
 

LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

  • 1. The 4th Korean Semantic Web Conference 2012 2012. 11. 29 Sung-Pil Choi Ph.D. Department of Software Research Infra-Development Group
  • 2. CONTENTS 1 Introduction 2 Scientific Knowledge Extraction and Exploitation (SKEE) and LOD-based Entity Recognition 3 Conclusion
  • 4. Introduction ID Group is a special Development of team of S/W experts, Resource Management which Platform develops core technologies for resource management Dept. of and knowledge Text Mining for S/W Research extraction and Semantic Service acquisition and also tries to achieve the reliability and sustainability of Infrastructure for semantic service. Reliable and Sustainable Service 4
  • 5. ID Group – Positioning and Mission Knowledge Acquisition & Management Technology for High-Performance R&D Trend Analysis Platform Knowledge Resource Management Framework  Technical Entity (PLOT)  Legacy Service  Resource Mgt. Process Extraction Enhancement  Construction & Operation  Relation/Event Extraction  Large-scaled Inference of RM  Entity Disambiguation by Engine  Resource Gathering & LOD (Linked Object Data)  Parallel Inference Clarification  H/W, S/W Environment  Resource Verification Support 5
  • 6. InSciTe Adaptive • 테크놀로지 인텏리전스 서비스로서 대용량 학술 문헌을 자동 으로 분석하여 기술 기회를 발굴하고, 국내 연구자 및 중소 기 업들의 글로벌 기술 경쟁력을 향상시킬 수 있도록 지원해주는 의사 결정 지원 서비스 • 대용량 학술 문헌에 대핚 심층 분석 기술(텍스트 마이닝, 시맨틱 웹 기술)을 홗용 하여 유망 기술을 발굴 및 기술 관렦 동향 정보를 제공 6
  • 7. InSciTe Adaptive 기술 개체 관계도 7
  • 9. InSciTe Adaptive – Coming Soon! 9
  • 10. Architecture & Procedure 자원 통합 관리 시스텐 (uLamp) 기술 지식 추출 엔짂 (SINDI) LOD 기반개체식별시스텐 패스웨이자동 생성/확장 엔짂
  • 11. Scientific Knowledge Extraction & Exploitation Academic Papers Technology Technical Patents Company Web News/Journals Person LOD Location Time Data Entity Text Mining Supply/Cell Relation Goal Compete Collaborate R&D Trend Same Analysis & Use Prediction Predecessor Service … 11
  • 12. SKEE – Examples (1/3)  Wikipedia – Tamiflu (Oseltamivir) Oseltamivir (INN) is an antiviral drug that slows the spread of influenza (flu) virus between cells in the body by stopping the virus from chemically cutting ties with its host cell. The drug is sold under the trade name Tamiflu and is taken orally in capsules or as a suspension. It has been used to treat and prevent Influenza virus A and Influenza virus B infection in over 50 million people since 1999. Oseltamivir becomes active in the body once it passes through the liver. Oseltamivir was the first orally active neuraminidase inhibitor commercially developed. It was developed by C.U. Kim, W. Lew and X. Chen of U.S. based Gilead Sciences and is currently marketed by Hoffmann–La Roche (Roche). In Japan, it is marketed by Chugai Pharmaceutical Co., which is more than 50% owned by Roche. As of October 2009, only 39 out of over 10,000 samples of the prevalent 2009 pandemic H1N1 (swine) flu tested worldwide have shown resistance to Oseltamivir, contrasting sharply with the 99.6% of the 2008 seasonal H1N1 flu strains tested which have resistance to Oseltamivir. 12
  • 13. SKEE – Examples (2/3)  Technological Ontology – Tamiflu (Oseltamivir) Influenza A Influenza B H1N1 alias Swine flu treat treat show resistance to oseltamivir IS-A antiviral drug marketed by commercially named as developed by C.U. Kim Gilead Sciences marketed by work for Tamiflu W. Lew located in X. Chen Hoffmann-La Roche U.S. located in Chugai Pharmaceutical Co. Japan Terminology Person Location Organization 13
  • 14. SKEE – Examples (3/3) 주어부 서술부 (서술부명칭) 목적부 Long Term Evolution 경쟁(기술) competeTech HSPA+ Fuel Cell 경쟁(기술) competeTech Heat Engine Fuel Cell 분류(기술) isATech Hybrid Engine Text Mining 분류(기술) isATech Information Technology HSDPA 후속(기술) succeedingTech 3G Mobile Phone Linux 대체(기술) substitutedForTech Unix Diesel Engine 대체(기술) substitutedForTech Steam Engines Wireless Communication System 요소(기술) elementary Bluetooth Wireless Communication System 요소(기술) elementary Signal Converter 3D Imaging Technology 동종(기술) similarTech Augmented Reality MSN 부품(제품) part of Windows XP Galaxy 경쟁(제품) competeProduct iPhone Kindle 동종(제품) similarProduct iPad Window 7 후속(제품) succeedingProduct Windows Vista Google Talk 분류 isATech Instant Messaging Applications iPhone 요소 consistTech iOS VoiceMail 요소 consistProduct iPhone Apple Inc. 개발 Develop Mac OS X Google 투자 Invest Zynga 14
  • 17. SKEE – Process 프로세스 설명 관련 시스템 Input data Output data 원시데이터 웹기사/논문/ 웹기사/논문/ • 15개 사이트의 웹기사 수집(HTML). NDSL 논문/특허 메타 수집(XML). 원문 수집(PDF) Crawler 수집 특허/PDF 특허/PDF 원시데이터 • 정보추출 젂처리 작업. HTML 형태로 수집된 웹기사를 XML(parsing 쉬움) 형태로 변홖 Convert 웹기사(HTML) 웹기사(XML) 변홖 원시데이터 웹기사/ 웹기사/ • 정보추출 젂처리 작업. XML 형태의 원시데이터를 RDB(MySQL)로 적재 Loader 적재 논문/특허(XML) 논문/특허(RDB) 웹기사/ 정보추출 • 규칙/문법/사젂 등에 기반하여 문서 내 개체 및 트리플을 추출(1차). 젂거/정제 대상 정보추출엔진 개체/트리플 논문/특허(RDB) • 회사명/대학명은 젂거 데이터를 대표값 선정에만 사용하고 규칙 기반으로 처리 • 단수/복수 → 단수명을 대표값으로 처리 매뉴얼/ 젂거작업 개체/사젂 젂거DB DB Query • 가트너 약어/확장명리스트를 이용핚 작업 → 확장명을 대표값으로 처리 • 대표값을 대문자가 아닌 실제 표현형으로 처리 (온톨로지 저장소, 문서 DB적용) • 불용어 리스트 작성 및 불용어리스트 기반 정제 • 규칙기반 정제 (스크립트 처리) 매뉴얼/ 개체/트리플/사젂 개체/트리플/사젂 정제작업 DB Query (정제 젂) (정제 후) • 관심 기술에 대핚 결과 검토 및 불용어 리스트 작성 • 내부용어 인식 (사젂 기반 용어 인식, 기술명/제품명에 핚정) 문서DB 보완 • 젂거/정제된 개체를 문서DB1의 해당 필드에 반영 (제목 또는 초록/본문 추출로 구분) DB Query 문서DB1 문서DB2 지식화 개체/트리플 확장된 트리플 • 개체와 문서DB의 메타정보를 매핑하여, 확장된 트리플 생성 (turtle구조). URI 핛당 추롞엔진 (w/o 추롞) (정제 후) (w/o 추롞) 지식화 확장된 트리플 확장된 트리플 • 트리플 간 연간 관계 수준까지 확장하여 트리플 생성 추롞엔진 (w/ 추롞) (w/o 추롞) (w/ 추롞) 개체/트리플 UI를 통핚 개체/트리플 개체/트리플 • 최종 개체 및 트리플에 대핚 검증. 오류 발견 시 관련된 모든 개체 및 트리플 수정 검증 매뉴얼 수정 (정제 후) (검증 후) 서비스 파트 개체/트리플 • 검증된 개체 및 트리플(API방식)과 문서DB2(DB link방식)의 데이터를 제공 API, DB link - 제공 /문서DB2 17
  • 18. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (1/3) • uLAMP란? • 연구개발의 과정이나 결과로부터얻어짂 소프트웨어, 데이터 등을 통합 관리하기 위핚연구성과물 통합관리 플랫폼 • 자원 유형 • (소프트웨어) 언어처리, 지식처리, 콘텎츠개발 소프트웨어 • (언어자원) 코퍼스, 시소러스, 온톨로지, 사전 등의 데이터 • (시맨틱자원) 기술, 제품, 인명, 조직, 위치 등 개체(엔티티)와개체 간 관계(트리플) 18
  • 19. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (2/3) • uLAMP 시스텐 구성도 ① 자원의 등록 ③ 자원의 활용 ④ 시맨틱 자원 조회 키워드 Visualization 검색 자원등록 개체 조회 젂거 메타 정보 검색 검색 개체타입 검토 및 보완 메타 정보 편집 관계 조회 별 검색 메타 정보 삭제 관계타입 별 검색 ② 자원의 저장 ⑤ 자원의 관리 자원 백업 언어자원 S/W 데이터셋 자원 개체 트리플 자원 복구 19
  • 20. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (3/3) 20
  • 21. SKEE – Scientific INtelligence DIscovery (SINDI) (1/5) • SINDI 엔짂 시스텐 구성도 Application Source Manager SINDI Engine Manager Source SINDI-CORE SINDI-LINK Segmentation Triple Module ML based Dict. Based Pattern-based ML based Generator Learner Identifier Relation Extractor Relation Extractor ML based Termhood Pair Pattern Graph Patent Recognizer based Identifier Generator Generator Generator Data Co-occurrences Bootstrapping- Manager Variation USPTO Rule Learner Extractor (Patent, based Pattern Identifier Tech. Cluster Web) Extension Google Generator Termhood Resource-based Resources Analyzer Patent Rule Applier Calculator Relation Filter (Thesaurus, MEDIE) Tech. Source Genealogy Bing Repository Common Resources Generator Search Terminology/NE Sentence POS Tagger Wikipedia Splitter Synonym, …… External Verb Dictionary Resource Structure Naver Stemmer Analyzer Parser Acronym/Abbr. External Resource Result Tokenizer Chunker Rule/Pattern/ Handler Repository Stopwords/Cache Search Result Graph Visualizer Query Analyzer Matching Module Builder Service Tech. Cluster Tech. Genealogy Platform Triple Visualizer …. Visualizer Visualizer 21 21
  • 22. SKEE – Scientific INtelligence DIscovery (SINDI) (2/5) • SINDI 응용 시스텐 구성도 Visualization & Management Tool (WALKS) SINDI-CORE Post-Management SINDI-LINK Test-Bed & Test-Bed Export Runtime Monitoring Runtime Monitoring SINDI-CORE SINDI-LINK Performance Evaluation & Refinement Acronym/Abbr. Test Collection Relation Pattern Construction Tool Tagger Terminology Stopwords Cache Relation Pattern Training/Evaluation Set Database 22
  • 23. SKEE – Scientific INtelligence DIscovery (SINDI) (3/5) 23
  • 24. SKEE – Scientific INtelligence DIscovery (SINDI) (4/5) 24
  • 25. SKEE – Scientific INtelligence DIscovery (SINDI) (5/5) 25
  • 26. SKEE – LOD 기반 개체 식별 시스텐 (1/11) • 기술 지식 추출에 있어서 LOD의 필요성 • R&D 트랜드 분석·예측을 위해서 문헌으로부터 개체 및 관계를 추출 • 기술문헌에서 추출된 개체는 세부적인 속성 정보가 없음 • LOD에 지식추출 결과를 연동함으로써 상호 정보 보완의 효과를 노림 연동 사람이름, 기관명칭, 위치정보, 기술용어, 제품명에 대핚 매핑 26
  • 27. SKEE – LOD 기반 개체 식별 시스텐 (2/11) • Linked Data 기반의 정보 확장 label “Moscow” “Sergey Brin” Born in Location http://sws.geonames.org/1871858/ name Person coordinate 55, 37 http://dbpedia/resourece/3098872 hasAffiliation Corporation http://dblp.rkbexplorer.com/resource/5072622 hasPhotoCollection name develop “Galaxy S” “Google” label Technology http://dblp.rkbexplorer.com/resource/4072630 Product label http://www.ssdl.inek.co.kr/skos/10226 “Android” use 27
  • 28. SKEE – LOD 기반 개체 식별 시스텐 (3/11) • LOD 데이터 집합 현황 User-generated Media Government Publications Cross-domain Life Geographic sciences 28
  • 29. SKEE – LOD 기반 개체 식별 시스텐 (4/11) • LOD 데이터 선택적 수집 29
  • 30. SKEE – LOD 기반 개체 식별 시스텐 (5/11) 30
  • 31. SKEE – LOD 기반 개체 식별 시스텐 (6/11) • LOD 데이터 선택적 수집 31
  • 32. SKEE – LOD 기반 개체 식별 시스텐 (7/11) 32
  • 33. SKEE – LOD 기반 개체 식별 시스텐 (8/11) • 2-Phase 개체 식별 • 0 단계: Triple 생성 및 수집 단계 • URI를 [subject, predicate, object]의 트리플 리스트로 변홖 • 1 단계: 동일 유형 개체 굮집화 단계 • Predicate 클러스터링을 이용핚 개체 클러스터 생성 (EM, K-Means) • URI가 가지고 있는 predicate을 벡터화하여 수행 • 사람, 위치, 조직, 기술, 제품 클래스가 가질 수 있는 고유의 속성 정보에 의해서 클러스터 구분 • 2 단계: 동일 개체 식별 단계 • Object 유사도를 이용핚 동일 개체 식별 • URI가 가지고 있는 predicate의 특성을 반영핚 유사도 측정 • 일정 임계 값 이상의 유사도를 갖는 k개의 인스턴스를 동일 개체로 인식 33
  • 34. SKEE – LOD 기반 개체 식별 시스텐 (9/11) [Location] [Person] Overland Park James Hartsfield [Person] James Hartsfield http://data.nyt http://linkeddata.org/James_Hartsfi imes.org/Over eld land_Park http://thedatah http://www4.wiwiss.fu- ub.org/overland berlin.de/james_hartsfield [Location] Overland_park Park http://richard.cyganiak.de/2007/10 /lod/jameshartsfield http://thedatahub.org/james_1039 [Organization] 2874 Sony Ericsson [Product] Xperia X10 Mini Pro [Technology] [Organization] Light Emitting Diode Sony Ericsson http://thedata [Product] hub.org/prod Xperia X10 Mini Pro http://data.nyt uct/xperia10 http://www4. imes.com/N72 wiwiss.fu- http://richard. 29253972436 berlin.de/high cyganiak.de/p 7400602 tech/led /xperia_mini http://thedata hub.org/techn [Technology] ology/led Light Emitting Diode 34
  • 35. SKEE – LOD 기반 개체 식별 시스텐 (10/11) • 문제점들! • 비슷핚 의미의 predicate 인식 문제 • {http://rdfs.org/sioc/ns#name}, {http://xmlns.com/foaf/0.1/name} • 동일핚 object 값의 이형 표기 문제 • {Department of Physics, Tokyo Metropolitan University of Hachioji, Tokyo 192- 0397, Japan}, {Department of Physics, Tokyo Metropolitan University, 1-1 Minami-Osawa, Hachioji, Tokyo 192-0397, Japan} • 다양핚 언어로 표현되어 있는 문제 • {홍길동@En}, {洪吉童@cn} • 데이터의타입을 고려핚 비교 • 날짜 비교, 문자열 비교, 숫자 비교 등 • 해당 클래스가 가지고 있는 속성의 특징을 반영핚 비교 • {Hong, Gil-Dong}, {Gil-Dong Hong} 35
  • 36. SKEE – LOD 기반 개체 식별 시스텐 (11/11) • 향후 연구개발 방향 • 5 종 핵심 개체 유형에 해당하는 LOD 데이터 수집 및 클러스터링 • 분산홖경 기반에서의 LOD 유형 분류 모델 개발 • 효과적인클러스터링 모델 개발 및 적용 • 동일 개체 식별을 위핚 자질 선정 방법 • Object (Predicate Value) 상호 비교를 위핚 효과적인유사도 측정 계수 개발 • 개체 식별을 위핚 성능 평가 집합 구축 • 기술 지식 추출 결과와 LOD 데이터 간의 상호 연계 모델 상세 구축 36
  • 37. Conclusions • Text Mining (Extraction) vs. Semantic Web (LOD) • LOD-based Domain- Intensive Analytics • LOD-based Big Data Analysis 텍스트에서 추출된 심층 지식 트리플 제공 (엄밀성) Tech. Mining LOD 텍스트에서 추출된 기술개체의 부가정보 및 연계정보 제공 (확장성) • Big Data Analytics & Integration Platform • R&D Trend/Analysis Platform 37
  • 38. 38