Na0onal 
Research 
University 
Higher 
School 
of 
Economics 
Big Data und intelligente Datenanalyse 
Impulsvortrag BDK-Fachforum 09.09.2014 
09 
September 
2014 
“ Pak Poisk” 
Daniel Hladky 
Semantic Web Lab at HSE/W3C 
Vorstand Ontos AG 
Täglich werden 2.5 Trillionen Bytes 
an Daten produziert
Daten 
und 
Analyse 
2 
Structured data 
sources like CSV, 
XLS, RDBMS 
Unstructured text 
document sources 
like HTML 
Smart Data 
Integration based 
on Linked Data 
Data storages 
RDBMS 
BI, Reporting, 
Analisys 
TextMining 
RDF 
Store
3 
Herausforderungen 
(Semi-) Strukturierte und unstrukturierte Daten 
Datenanalyse Web, Deep Web (External) 
Herausforderungen (Auszug) 
• Data Crawling (web, deep 
web…) 
• Aggregation 
• Daten verstehen, extrahieren 
• Daten integrieren 
• Daten speichern (flexibel) 
• Daten auswerten, analysieren 
Semantic 
Knowledge Base
Wissen 
aus 
Text 
generieren 
4 
Läsungsansätze – NLP/HLT 
1. Manuelles Annotieren 
Mittels Vokabular (Taxonomie/Ontologie) 
2. Extraktion mittels Hintergrundwissen 
Dictionary, LOD, etc 
Bsp.: DBpedia Spotlight 
3. Regelbasierte Extraktion 
Formale Sprache Jape/Jape+ 
Bsp.: OntosMiner, GATE, UIMA 
4. Künstliche Intelligenz, statistische 
Verfahren, maschinelles Lernen 
Latent Semantic Analysis, Vector Space Model, 
TF-IDF 
Bsp.: Eventos 
5. Kombination 1-4
Triplifizierung, 
No-­‐SQL 
/ 
RDF 
Store 
No-SQL / RDF 
Vorteile 
• Flexibilität (Schema less) 
• Standard -> RDF / SPARQL 
• Semantische Suche 
• Triplifizierung RDBMS nach RDF 
Nachteil(e) 
• Performance (Noch) 
• (Noch) Keine Out-of-the-box BI 
5 
Tools 
RDF Store
Datenintegra0on 
/ 
Linking 
and 
Fusion 
Entity “A” Entity “B” 
6 
Properties of A 
Properties of B
Das 
Gleiche 
? 
Ein 
Beispiel… 
7 
Fuzzy string comparison methods 
Scores: 
Best Match „0.89“ vs Worst Match „0.138“ 
VSM 
– 
TFIDF 
= 
0.92 
Vector Space Model
Praxisbeispiel 
“Special 
Troops, 
Russland” 
PAK 
POISK
9 
Pak 
Poisk 
-­‐ 
Portal
10 
Pak 
Poisk 
-­‐ 
Visualisierungen
Pak 
Poisk 
-­‐ 
Timeline 
Analyse 
11
12 
Ausblick 
-­‐ 
LiDaKrA
Danke 
13
Daniel Hladky 
Research 
Interest 
Linked 
(Open) 
Data 
for 
Government 
& 
Enterprises 
NLP, 
Seman0c 
Web, 
Business 
Impact 
of 
Linked 
Data 
Linked 
Data 
and 
Value 
Chain 
Ac3vi3es 
Ontos: 
Forschung 
EU 
FP7 
– 
GeoKnow, 
Forschung 
KTI-­‐DoW 
(SAKE, 
LiDaKrA) 
NRU/HSE: 
LOD 
Russia, 
RIA 
Novos0, 
LOD 
for 
City 
of 
Moscow 
KESW 
2012 
(Lecture 
Linked 
Enterprise 
Data), 
KESW’13 
(Co-­‐Chair) 
PC 
member 
at 
ISWC/WoLE 
(2012, 
2013), 
MLW 
Rome 
(2013) 
W3C 
Russia 
office 
hosted 
by 
NRU 
HSE 
NRU HSE / W3C Russia 
Slavyanskaya Sq. 4 Bldg. 2 
109074 Moscow, Russia 
E: dhladky@hse.ru 
E: dhladky@w3c.org.ru 
E: daniel.hladky@ontos.com 
http://www.hse.ru/org/hse/iit/semant/ 
14

Bdk fachforum (gpec) big data und intelligente datenanalyse

  • 1.
    Na0onal Research University Higher School of Economics Big Data und intelligente Datenanalyse Impulsvortrag BDK-Fachforum 09.09.2014 09 September 2014 “ Pak Poisk” Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG Täglich werden 2.5 Trillionen Bytes an Daten produziert
  • 2.
    Daten und Analyse 2 Structured data sources like CSV, XLS, RDBMS Unstructured text document sources like HTML Smart Data Integration based on Linked Data Data storages RDBMS BI, Reporting, Analisys TextMining RDF Store
  • 3.
    3 Herausforderungen (Semi-)Strukturierte und unstrukturierte Daten Datenanalyse Web, Deep Web (External) Herausforderungen (Auszug) • Data Crawling (web, deep web…) • Aggregation • Daten verstehen, extrahieren • Daten integrieren • Daten speichern (flexibel) • Daten auswerten, analysieren Semantic Knowledge Base
  • 4.
    Wissen aus Text generieren 4 Läsungsansätze – NLP/HLT 1. Manuelles Annotieren Mittels Vokabular (Taxonomie/Ontologie) 2. Extraktion mittels Hintergrundwissen Dictionary, LOD, etc Bsp.: DBpedia Spotlight 3. Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA 4. Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos 5. Kombination 1-4
  • 5.
    Triplifizierung, No-­‐SQL / RDF Store No-SQL / RDF Vorteile • Flexibilität (Schema less) • Standard -> RDF / SPARQL • Semantische Suche • Triplifizierung RDBMS nach RDF Nachteil(e) • Performance (Noch) • (Noch) Keine Out-of-the-box BI 5 Tools RDF Store
  • 6.
    Datenintegra0on / Linking and Fusion Entity “A” Entity “B” 6 Properties of A Properties of B
  • 7.
    Das Gleiche ? Ein Beispiel… 7 Fuzzy string comparison methods Scores: Best Match „0.89“ vs Worst Match „0.138“ VSM – TFIDF = 0.92 Vector Space Model
  • 8.
    Praxisbeispiel “Special Troops, Russland” PAK POISK
  • 9.
    9 Pak Poisk -­‐ Portal
  • 10.
    10 Pak Poisk -­‐ Visualisierungen
  • 11.
    Pak Poisk -­‐ Timeline Analyse 11
  • 12.
  • 13.
  • 14.
    Daniel Hladky Research Interest Linked (Open) Data for Government & Enterprises NLP, Seman0c Web, Business Impact of Linked Data Linked Data and Value Chain Ac3vi3es Ontos: Forschung EU FP7 – GeoKnow, Forschung KTI-­‐DoW (SAKE, LiDaKrA) NRU/HSE: LOD Russia, RIA Novos0, LOD for City of Moscow KESW 2012 (Lecture Linked Enterprise Data), KESW’13 (Co-­‐Chair) PC member at ISWC/WoLE (2012, 2013), MLW Rome (2013) W3C Russia office hosted by NRU HSE NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: dhladky@hse.ru E: dhladky@w3c.org.ru E: daniel.hladky@ontos.com http://www.hse.ru/org/hse/iit/semant/ 14