SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
Na0onal 
Research 
University 
Higher 
School 
of 
Economics 
Big Data und intelligente Datenanalyse 
Impulsvortrag BDK-Fachforum 09.09.2014 
09 
September 
2014 
“ Pak Poisk” 
Daniel Hladky 
Semantic Web Lab at HSE/W3C 
Vorstand Ontos AG 
Täglich werden 2.5 Trillionen Bytes 
an Daten produziert
Daten 
und 
Analyse 
2 
Structured data 
sources like CSV, 
XLS, RDBMS 
Unstructured text 
document sources 
like HTML 
Smart Data 
Integration based 
on Linked Data 
Data storages 
RDBMS 
BI, Reporting, 
Analisys 
TextMining 
RDF 
Store
3 
Herausforderungen 
(Semi-) Strukturierte und unstrukturierte Daten 
Datenanalyse Web, Deep Web (External) 
Herausforderungen (Auszug) 
• Data Crawling (web, deep 
web…) 
• Aggregation 
• Daten verstehen, extrahieren 
• Daten integrieren 
• Daten speichern (flexibel) 
• Daten auswerten, analysieren 
Semantic 
Knowledge Base
Wissen 
aus 
Text 
generieren 
4 
Läsungsansätze – NLP/HLT 
1. Manuelles Annotieren 
Mittels Vokabular (Taxonomie/Ontologie) 
2. Extraktion mittels Hintergrundwissen 
Dictionary, LOD, etc 
Bsp.: DBpedia Spotlight 
3. Regelbasierte Extraktion 
Formale Sprache Jape/Jape+ 
Bsp.: OntosMiner, GATE, UIMA 
4. Künstliche Intelligenz, statistische 
Verfahren, maschinelles Lernen 
Latent Semantic Analysis, Vector Space Model, 
TF-IDF 
Bsp.: Eventos 
5. Kombination 1-4
Triplifizierung, 
No-­‐SQL 
/ 
RDF 
Store 
No-SQL / RDF 
Vorteile 
• Flexibilität (Schema less) 
• Standard -> RDF / SPARQL 
• Semantische Suche 
• Triplifizierung RDBMS nach RDF 
Nachteil(e) 
• Performance (Noch) 
• (Noch) Keine Out-of-the-box BI 
5 
Tools 
RDF Store
Datenintegra0on 
/ 
Linking 
and 
Fusion 
Entity “A” Entity “B” 
6 
Properties of A 
Properties of B
Das 
Gleiche 
? 
Ein 
Beispiel… 
7 
Fuzzy string comparison methods 
Scores: 
Best Match „0.89“ vs Worst Match „0.138“ 
VSM 
– 
TFIDF 
= 
0.92 
Vector Space Model
Praxisbeispiel 
“Special 
Troops, 
Russland” 
PAK 
POISK
9 
Pak 
Poisk 
-­‐ 
Portal
10 
Pak 
Poisk 
-­‐ 
Visualisierungen
Pak 
Poisk 
-­‐ 
Timeline 
Analyse 
11
12 
Ausblick 
-­‐ 
LiDaKrA
Danke 
13
Daniel Hladky 
Research 
Interest 
Linked 
(Open) 
Data 
for 
Government 
& 
Enterprises 
NLP, 
Seman0c 
Web, 
Business 
Impact 
of 
Linked 
Data 
Linked 
Data 
and 
Value 
Chain 
Ac3vi3es 
Ontos: 
Forschung 
EU 
FP7 
– 
GeoKnow, 
Forschung 
KTI-­‐DoW 
(SAKE, 
LiDaKrA) 
NRU/HSE: 
LOD 
Russia, 
RIA 
Novos0, 
LOD 
for 
City 
of 
Moscow 
KESW 
2012 
(Lecture 
Linked 
Enterprise 
Data), 
KESW’13 
(Co-­‐Chair) 
PC 
member 
at 
ISWC/WoLE 
(2012, 
2013), 
MLW 
Rome 
(2013) 
W3C 
Russia 
office 
hosted 
by 
NRU 
HSE 
NRU HSE / W3C Russia 
Slavyanskaya Sq. 4 Bldg. 2 
109074 Moscow, Russia 
E: dhladky@hse.ru 
E: dhladky@w3c.org.ru 
E: daniel.hladky@ontos.com 
http://www.hse.ru/org/hse/iit/semant/ 
14

Weitere ähnliche Inhalte

Was ist angesagt?

Präsentation amsl Deutscher Bibliothekartag 2014 ERM
Präsentation amsl Deutscher Bibliothekartag 2014 ERMPräsentation amsl Deutscher Bibliothekartag 2014 ERM
Präsentation amsl Deutscher Bibliothekartag 2014 ERM
LydiaU
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
scuy
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
LydiaU
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
Frauke Ziedorn
 

Was ist angesagt? (20)

LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)
 
Dietze linked data-vr-es
Dietze linked data-vr-esDietze linked data-vr-es
Dietze linked data-vr-es
 
Linked Open Data in der Praxis, Kerstin Arnold
Linked Open Data in der Praxis, Kerstin ArnoldLinked Open Data in der Praxis, Kerstin Arnold
Linked Open Data in der Praxis, Kerstin Arnold
 
NoSQL - HyperGraphDB
NoSQL - HyperGraphDBNoSQL - HyperGraphDB
NoSQL - HyperGraphDB
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Präsentation amsl Deutscher Bibliothekartag 2014 ERM
Präsentation amsl Deutscher Bibliothekartag 2014 ERMPräsentation amsl Deutscher Bibliothekartag 2014 ERM
Präsentation amsl Deutscher Bibliothekartag 2014 ERM
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open Projects
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend
 
DataCite Einführung: Der Metadata Store (MDS)
DataCite Einführung: Der Metadata Store (MDS)DataCite Einführung: Der Metadata Store (MDS)
DataCite Einführung: Der Metadata Store (MDS)
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
 
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre AnwendungsmöglichkeitenNormdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
Die finc Nutzergemeinschaft - bis zur Unendlichkeit und noch viel weiter...
Die finc Nutzergemeinschaft - bis zur Unendlichkeit und noch viel weiter...Die finc Nutzergemeinschaft - bis zur Unendlichkeit und noch viel weiter...
Die finc Nutzergemeinschaft - bis zur Unendlichkeit und noch viel weiter...
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked Data
 
DOI-Registrierung mit da|ra
DOI-Registrierung mit da|raDOI-Registrierung mit da|ra
DOI-Registrierung mit da|ra
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
 

Andere mochten auch

Intelligent web pages leading to new business
Intelligent web pages leading to new businessIntelligent web pages leading to new business
Intelligent web pages leading to new business
AI4BD GmbH
 

Andere mochten auch (20)

John Appleby: Health spending in the EU - how does the UK compare?
John Appleby: Health spending in the EU - how does the UK compare?John Appleby: Health spending in the EU - how does the UK compare?
John Appleby: Health spending in the EU - how does the UK compare?
 
Chris Ham: capitated budgets - a flexible way to enable new models of care
Chris Ham: capitated budgets - a flexible way to enable new models of careChris Ham: capitated budgets - a flexible way to enable new models of care
Chris Ham: capitated budgets - a flexible way to enable new models of care
 
Does Free Content Cannibalize Your Paid Consulting?
Does Free Content Cannibalize Your Paid Consulting?Does Free Content Cannibalize Your Paid Consulting?
Does Free Content Cannibalize Your Paid Consulting?
 
Jennings Annual Conference 24.11.09
Jennings Annual Conference 24.11.09Jennings Annual Conference 24.11.09
Jennings Annual Conference 24.11.09
 
Cleve Killingsworth speaking at The King's Fund Annual Conference
Cleve Killingsworth speaking at The King's Fund Annual ConferenceCleve Killingsworth speaking at The King's Fund Annual Conference
Cleve Killingsworth speaking at The King's Fund Annual Conference
 
Web at 25 - W3C/Ontos Event on May 22, 2014. Agenda of the day
Web at 25 - W3C/Ontos Event on May 22, 2014. Agenda of the dayWeb at 25 - W3C/Ontos Event on May 22, 2014. Agenda of the day
Web at 25 - W3C/Ontos Event on May 22, 2014. Agenda of the day
 
Matthew Ellis: Staffordshire health and wellbeing board
Matthew Ellis: Staffordshire health and wellbeing boardMatthew Ellis: Staffordshire health and wellbeing board
Matthew Ellis: Staffordshire health and wellbeing board
 
International digital health and care congress 2014 - Breakouts: Thursday, se...
International digital health and care congress 2014 - Breakouts: Thursday, se...International digital health and care congress 2014 - Breakouts: Thursday, se...
International digital health and care congress 2014 - Breakouts: Thursday, se...
 
Clustering of unhealthy behaviours over time: implications for policy and pra...
Clustering of unhealthy behaviours over time: implications for policy and pra...Clustering of unhealthy behaviours over time: implications for policy and pra...
Clustering of unhealthy behaviours over time: implications for policy and pra...
 
Bernie Cuthel: incentivising more and better care in the community
Bernie Cuthel: incentivising more and better care in the communityBernie Cuthel: incentivising more and better care in the community
Bernie Cuthel: incentivising more and better care in the community
 
Intelligent web pages leading to new business
Intelligent web pages leading to new businessIntelligent web pages leading to new business
Intelligent web pages leading to new business
 
John Appleby on the impact of the economic downturn on health care
John Appleby on the impact of the economic downturn on health careJohn Appleby on the impact of the economic downturn on health care
John Appleby on the impact of the economic downturn on health care
 
Jeanette Ives Erickson: Influencing professional nursing practice
Jeanette Ives Erickson: Influencing professional nursing practiceJeanette Ives Erickson: Influencing professional nursing practice
Jeanette Ives Erickson: Influencing professional nursing practice
 
Linda Patterson: wrong bed, wrong ward
Linda Patterson: wrong bed, wrong wardLinda Patterson: wrong bed, wrong ward
Linda Patterson: wrong bed, wrong ward
 
Margaret MacAdam: Achieving real care co-ordination - lessons from Canada
Margaret MacAdam: Achieving real care co-ordination - lessons from CanadaMargaret MacAdam: Achieving real care co-ordination - lessons from Canada
Margaret MacAdam: Achieving real care co-ordination - lessons from Canada
 
Chris Ham: Achieving transformational change
Chris Ham: Achieving transformational changeChris Ham: Achieving transformational change
Chris Ham: Achieving transformational change
 
International digital health and care congress 2014 - Breakouts: Thursday, Se...
International digital health and care congress 2014 - Breakouts: Thursday, Se...International digital health and care congress 2014 - Breakouts: Thursday, Se...
International digital health and care congress 2014 - Breakouts: Thursday, Se...
 
Improving health and health care in London: Who will take the lead?
Improving health and health care in London: Who will take the lead?Improving health and health care in London: Who will take the lead?
Improving health and health care in London: Who will take the lead?
 
Linked Open Data for cities at SemTechBiz 2013 (San Francisco)
Linked Open Data for cities at SemTechBiz 2013 (San Francisco)Linked Open Data for cities at SemTechBiz 2013 (San Francisco)
Linked Open Data for cities at SemTechBiz 2013 (San Francisco)
 
Martin McShane: Influence, input and impact
Martin McShane: Influence, input and impactMartin McShane: Influence, input and impact
Martin McShane: Influence, input and impact
 

Ähnlich wie Bdk fachforum (gpec) big data und intelligente datenanalyse

Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Felix Ostrowski
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
kostaedt
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
AI4BD GmbH
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
redsys
 

Ähnlich wie Bdk fachforum (gpec) big data und intelligente datenanalyse (20)

Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der Bibliothekswelt
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
Heterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle DatenbankHeterogene Daten(-strukturen) in der Oracle Datenbank
Heterogene Daten(-strukturen) in der Oracle Datenbank
 
Objekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsObjekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBs
 
RDF Application Profiles
RDF Application ProfilesRDF Application Profiles
RDF Application Profiles
 
Linked Library Data & RDA
Linked Library Data & RDALinked Library Data & RDA
Linked Library Data & RDA
 
DSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) DataDSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) Data
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
 
Magdeburg | 2010-07-12 | Einführung in das Semantic Web
Magdeburg | 2010-07-12 | Einführung in das Semantic WebMagdeburg | 2010-07-12 | Einführung in das Semantic Web
Magdeburg | 2010-07-12 | Einführung in das Semantic Web
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?
 
REST in Peace - Mit ORDS, Node.JS, ADF, Java oder OSB?
REST in Peace  - Mit ORDS, Node.JS, ADF, Java oder OSB?REST in Peace  - Mit ORDS, Node.JS, ADF, Java oder OSB?
REST in Peace - Mit ORDS, Node.JS, ADF, Java oder OSB?
 
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic WebBIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
 

Mehr von AI4BD GmbH

My fire st petersburg 27 june 2012 (d hladky)
My fire st petersburg 27 june 2012 (d hladky)My fire st petersburg 27 june 2012 (d hladky)
My fire st petersburg 27 june 2012 (d hladky)
AI4BD GmbH
 

Mehr von AI4BD GmbH (18)

Return on Investment in Linking Content to CRM by Applying the Linked Data Stack
Return on Investment in Linking Content to CRM by Applying the Linked Data StackReturn on Investment in Linking Content to CRM by Applying the Linked Data Stack
Return on Investment in Linking Content to CRM by Applying the Linked Data Stack
 
W3C Event Digital Publishing by Publiwide
W3C Event Digital Publishing by PubliwideW3C Event Digital Publishing by Publiwide
W3C Event Digital Publishing by Publiwide
 
W3C Value Proposition - Ontos/W3C Event May 22, 2014
W3C Value Proposition - Ontos/W3C Event May 22, 2014W3C Value Proposition - Ontos/W3C Event May 22, 2014
W3C Value Proposition - Ontos/W3C Event May 22, 2014
 
Web at 25 - Ontos Linked Open Data
Web at 25 - Ontos Linked Open DataWeb at 25 - Ontos Linked Open Data
Web at 25 - Ontos Linked Open Data
 
Turkish-Swiss EUREKA R&D Collaborationevent, 5 november 2013
Turkish-Swiss EUREKA R&D Collaborationevent, 5 november 2013Turkish-Swiss EUREKA R&D Collaborationevent, 5 november 2013
Turkish-Swiss EUREKA R&D Collaborationevent, 5 november 2013
 
Ontos Talk at LSWT 2013
Ontos Talk at LSWT 2013Ontos Talk at LSWT 2013
Ontos Talk at LSWT 2013
 
Eventos Demo for SemTechBiz 2013 (San Francisco)
Eventos Demo for SemTechBiz 2013 (San Francisco)Eventos Demo for SemTechBiz 2013 (San Francisco)
Eventos Demo for SemTechBiz 2013 (San Francisco)
 
W3C at KESW2012
W3C at KESW2012W3C at KESW2012
W3C at KESW2012
 
KESW2012 Hackathon St Petersburg
KESW2012 Hackathon St PetersburgKESW2012 Hackathon St Petersburg
KESW2012 Hackathon St Petersburg
 
KESW2012 Linked Data for Enterprises and Governments (5 Oct 2012)
KESW2012 Linked Data for Enterprises and Governments (5 Oct 2012)KESW2012 Linked Data for Enterprises and Governments (5 Oct 2012)
KESW2012 Linked Data for Enterprises and Governments (5 Oct 2012)
 
My fire st petersburg 27 june 2012 (d hladky)
My fire st petersburg 27 june 2012 (d hladky)My fire st petersburg 27 june 2012 (d hladky)
My fire st petersburg 27 june 2012 (d hladky)
 
RIAN - News the New Way (powered by Ontos)
RIAN - News the New Way (powered by Ontos)RIAN - News the New Way (powered by Ontos)
RIAN - News the New Way (powered by Ontos)
 
Open web platform talk by daniel hladky at rif 2012 (19 april 2012 moscow)
Open web platform talk by daniel hladky at rif 2012 (19 april 2012   moscow)Open web platform talk by daniel hladky at rif 2012 (19 april 2012   moscow)
Open web platform talk by daniel hladky at rif 2012 (19 april 2012 moscow)
 
Applying Semantic Extensions And New Services To Drupal Sem Tech June 2010
Applying Semantic Extensions And New Services To Drupal   Sem Tech June 2010Applying Semantic Extensions And New Services To Drupal   Sem Tech June 2010
Applying Semantic Extensions And New Services To Drupal Sem Tech June 2010
 
ESTC2010 Publishing In The Digital Age (Daniel Hladky Ontos Ag)
ESTC2010   Publishing In The Digital Age (Daniel Hladky   Ontos Ag)ESTC2010   Publishing In The Digital Age (Daniel Hladky   Ontos Ag)
ESTC2010 Publishing In The Digital Age (Daniel Hladky Ontos Ag)
 
Ontos Integration Of Semantic Resources For Business Intelligence San Jos 2...
Ontos Integration Of Semantic Resources For Business Intelligence   San Jos 2...Ontos Integration Of Semantic Resources For Business Intelligence   San Jos 2...
Ontos Integration Of Semantic Resources For Business Intelligence San Jos 2...
 
Semantic Technologies and Information Integration
Semantic Technologies and Information IntegrationSemantic Technologies and Information Integration
Semantic Technologies and Information Integration
 
Web 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenWeb 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werden
 

Bdk fachforum (gpec) big data und intelligente datenanalyse

  • 1. Na0onal Research University Higher School of Economics Big Data und intelligente Datenanalyse Impulsvortrag BDK-Fachforum 09.09.2014 09 September 2014 “ Pak Poisk” Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG Täglich werden 2.5 Trillionen Bytes an Daten produziert
  • 2. Daten und Analyse 2 Structured data sources like CSV, XLS, RDBMS Unstructured text document sources like HTML Smart Data Integration based on Linked Data Data storages RDBMS BI, Reporting, Analisys TextMining RDF Store
  • 3. 3 Herausforderungen (Semi-) Strukturierte und unstrukturierte Daten Datenanalyse Web, Deep Web (External) Herausforderungen (Auszug) • Data Crawling (web, deep web…) • Aggregation • Daten verstehen, extrahieren • Daten integrieren • Daten speichern (flexibel) • Daten auswerten, analysieren Semantic Knowledge Base
  • 4. Wissen aus Text generieren 4 Läsungsansätze – NLP/HLT 1. Manuelles Annotieren Mittels Vokabular (Taxonomie/Ontologie) 2. Extraktion mittels Hintergrundwissen Dictionary, LOD, etc Bsp.: DBpedia Spotlight 3. Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA 4. Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos 5. Kombination 1-4
  • 5. Triplifizierung, No-­‐SQL / RDF Store No-SQL / RDF Vorteile • Flexibilität (Schema less) • Standard -> RDF / SPARQL • Semantische Suche • Triplifizierung RDBMS nach RDF Nachteil(e) • Performance (Noch) • (Noch) Keine Out-of-the-box BI 5 Tools RDF Store
  • 6. Datenintegra0on / Linking and Fusion Entity “A” Entity “B” 6 Properties of A Properties of B
  • 7. Das Gleiche ? Ein Beispiel… 7 Fuzzy string comparison methods Scores: Best Match „0.89“ vs Worst Match „0.138“ VSM – TFIDF = 0.92 Vector Space Model
  • 8. Praxisbeispiel “Special Troops, Russland” PAK POISK
  • 9. 9 Pak Poisk -­‐ Portal
  • 10. 10 Pak Poisk -­‐ Visualisierungen
  • 11. Pak Poisk -­‐ Timeline Analyse 11
  • 14. Daniel Hladky Research Interest Linked (Open) Data for Government & Enterprises NLP, Seman0c Web, Business Impact of Linked Data Linked Data and Value Chain Ac3vi3es Ontos: Forschung EU FP7 – GeoKnow, Forschung KTI-­‐DoW (SAKE, LiDaKrA) NRU/HSE: LOD Russia, RIA Novos0, LOD for City of Moscow KESW 2012 (Lecture Linked Enterprise Data), KESW’13 (Co-­‐Chair) PC member at ISWC/WoLE (2012, 2013), MLW Rome (2013) W3C Russia office hosted by NRU HSE NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: dhladky@hse.ru E: dhladky@w3c.org.ru E: daniel.hladky@ontos.com http://www.hse.ru/org/hse/iit/semant/ 14