SlideShare ist ein Scribd-Unternehmen logo
1Stefan Dietze
Backup
Human in the Loop: das Web als Grundlage interdisziplinärer
Data Science-Methoden und Fragestellungen
Stefan Dietze
GESIS – Leibniz Institute for the Social Sciences,
Heinrich-Heine-Universität Düsseldorf,
L3S Research Center
2Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
3Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
4Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
5Stefan Dietze
Web Suche nach…
• Dokumente
• Fakten
• Claims
• Meinungen
Wir versuchen, diese Frage am Ende des Talks
mithilfe von Data „Science“ zu „beantworten“.
6Stefan Dietze
Human-in-the-loop: KI und Crowd Intelligenz im Web
Human/Crowd Intelligence
Artificial Intelligence
Web Content & Data
(z.B. Webseiten, Social Media, Wikipedia,
Tags, semi-structured Data)
Interaktionen & Verhalten
(z.B. Clickstreams, Queries,
Likes/Shares)
Interpretation & Verarbeitung mithilfe von:
 Information Retrieval
(Crawling, Indexing, Ranking etc)
 Natural Language Processing
 Graph Analyse (z.B. PageRank et al.)
 Wissensbasierte Methoden, Inferenz & Reasoning
 Statistik
 Machine & Deep Learning
o Query Interpretation & Intent Prediction
o Klassifikation von Nutzern, Sessions,
Dokumenten, Quellen
o Ranking und Personalisierung
o ….
7Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)
8Stefan Dietze
Fakten, Claims, Stances/Standpunkte, Meinungen im Web
 Untersuchungen zur Wissenskonstruktion, Meinungsbildung, Beinflussung
und Desinformation im Web als disziplinübergreifendes und stark
wachsendes Forschungsfeld (z.B. Vousoughi et al. 2018)
 Erkenntnisgewinn (z.B. Sozialwiss., Psychologie), z.B. zu:
o Wissenskonstruktion im Web
o Viralität und Spreading von Claims und Desinformation
o Effekt von Desinformation auf die Meinungsbildung
o Selbstverstärkende Effekte von Biases und Echokammern
 Methoden (Informatik), z.B. für:
o Extraktion von Faktenwissen aus dem Web
[WWW18, SWJ19]
o Extraktion und Verifikation von Claims im Web
[ISWC2019]
o Erkennen des Standpunkts von Webseiten oder Tweets
o Extraktion von Meinungen/Trends, z.B. aus dem Social Web/Twitter
[CIKM2020, ESWC18]
9Stefan Dietze
Extraktion von „long-tail“ Faktenwissen im Web ?
<„Tim Berners-Lee“ s:founderOf „Solid“>
 Wie lässt sich entitätsbezogenes Faktenwissen bzw.
Wissensgraphen aus Webseiten gewinnen?
 Anwendung von NLP/Informationsextraktionsmethoden?
Skalierbarkeit: Google Index = ca. 50 Billionen Websiten (die sich
dynamisch ändern)
 Nutzung von eingebettetem Web Markup (Microdata/RDFa) wie
schema.org-basierte Annotationen
 Weit verbreitet: ca. 40% aller Webseiten in Common Crawl (3.2
Mrd. Webseiten) beinhalten Markup (ca. 44 Mrd. „Fakten“)
 Herausforderungen
o Fehler. Annotationsfehler und faktische Fehler [Meusel et al,
ESWC2015]
o Mehrdeutigkeit und Koreferenzen. z.B. 18.000 Markup-
Instanzen von “iPhone 6” in Common Crawl 2016 &
mehrdeutige Literale (z.B. „Apple“>)
o Redundanzen & Konflikte. Großer Anteil von äquivalenten
oder direkt in Konflikt stehenden Aussagen
10Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
 1.b) Relevanz: überwachte Auflösung von Koreferenzen
 2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
11Stefan Dietze
KnowMore: data fusion on Web Markup
 0. Noise: Data Cleansing (URIs, Deduplizierung etc)
 1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten
 1.b) Relevanz: überwachte Auflösung von Koreferenzen
 2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse
Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten
1. Blocking &
coreference resolution
2. Fusion / Fact selection
(supervised)
Web page
markup
Web crawl
(Common Crawl,
44 bn facts)
Yu, R., [..], Dietze, S., KnowMore-Knowledge Base
Augmentation with Structured Web Markup, Semantic Web
Journal 2019 (SWJ2019)
Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing
Categorical Information in Noisy and Sparse Web Markup,
The Web Conf. 2018 (WWW2018)
New Query Entities
BBC Audio, type:(Organization)
Chapman & Hall, type:(Publisher)
Put Out More Flags, type:(Book)
Entity Description
author Evelyn Waugh
priorWork Put Out More Flags
ISBN 978031874803074
copyrightHolder Evelyn Waugh
releaseDate 1945
… …
Query Entity
Brideshead Revisited, type:(Book)
Candidate Facts
node1 publisher Chapman & Hall
node1 releaseDate 1945
node1 publishDate 1961
node2 country UK
node2 publisher Black Bay Books
node3 country US
node3 copyrightHolder Evelyn Waugh
… …. ….
Ca. 5000 Fakten für „Brideshead Revisited“
(125.000 Fakten für „iPhone6“)
20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
Data Fusion Performance
 Experimente für Bücher, Filme, Produkte
 Baselines: BM25, CBFS [ESWC2015], PreRecCorr [Pochampally et.
al., ACM SIGMOD 2014], variieren stark zwischen den Typen
Anreicherung von Wissensgraphen / Finden neuer Fakten?
 Durchschnittlich 60% - 70% aller Fakten sind neu (im Vergleich zu
Wissensgraphen wie WikiData, Freebase, Wikipedia/DBpedia)
 Weitere Experimente zum Lernen von kategorischen Merkmalen
(z.B. Filmgenren oder Produktkategorien) [WWW2018]
12Stefan Dietze
Extraktion von Diskurs & Meinungen aus Twitter
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
onyx:hasEmotionIntensity "0.75"
onyx:hasEmotionIntensity "0.0"
 Heterogenität: multimodal, multilingual,
informell, “noisy” Sprache
 Kontextabhängigkeit: Interpretation kurzer
Tweets erfordert Berücksichtigung von Kontext
(z.B. Zeitpunkt, verlinkte Inhalte), “Dusseldorf” =>
Stadt oder Fußball-Team
 Representativität & Bias: demographische
Verteilungen in Twitter Archiven nicht bekannt
 Dynamik & Scale: z.B. 8000 tweets pro Sekunde,
plus Interaktionen (Retweets etc) & Kontext (z.B.
25% aller Tweets beinhalten URLs)
 Evolution & temporale Aspekte: Evolution von
Interaktionen über die Zeit wichtig für die
moisten Forschungsfragen
http://dbpedia.org/resource/Solid
wna:negative-emotion
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
13Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
https://data.gesis.org/tweetskb/
 Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
 Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)
14Stefan Dietze
TweetsKB: a knowledge base of Web mined societal discourse
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
https://data.gesis.org/tweetskb/
 Sammlung & Archivierung von 10 Mrd. Tweets über 7
Jahre (permanenter Crawl der Twitter 1%-API seit 2013)
 Informationsextraktion mithilfe von NLP-Methoden zur
Extraktion von Entitäten und Sentimenten
(verteilte Batch-Verarbeitung mit Hadoop Map/Reduce)
o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL
[Blanco et al. 2015])
(“president”/“potus”/”trump” => dbp:DonaldTrump),
zur Disambiguierung von Tweets und Verlinkung mit
Hintergrundwissen (z.B. US Politiker? Republikaner?),
hohe Precision (.85), schwacher recall (.39)
o Sentiment Analyse mit SentiStrength [Thelwall et al.,
2017], F1 ca. .80
o Extraktion von Metadaten und Lifting in etablierte
Formate und Schemas (SIOC, schema.org), Publikation
mithilfe von W3C Standards (RDF/SPARQL)
Anwendungsszenarien
 Aggregation von Sentimenten zu bestimmten Themen
oder Entitäten, z.B. CDU vs SPD Politiker in bestimmter
Zeitperiode
 Twitter Archive zum Verstehen von temporären
Entitätsbeziehungen z.B. “austerity” & “Greece” 2010-
2015
 Verfolgen von Claims und Fake News und deren Impact
(siehe folgende Slides)
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0.20000
0.30000
0.40000
Cologne Düsseldorf
15Stefan Dietze
TweetsCOV19: a knowledge graph of societal discourse on COVID19
Dimitrov, D., Baran, E., Fafalios, P., Yu, R., Zhu, X., Zloch, M., Dietze,
S., TweetsCOV19 -- A Knowledge Base of Semantically Annotated
Tweets about the COVID-19 Pandemic, CIKM2020.
https://data.gesis.org/tweetscov19/
 COVID19-Diskurs als Basis für interdisziplinäre
Forschung zu Solidaritätsverhalten,
gesellschaftlichen Veränderungen in der
Pandemie
 8.1 Millionen Tweets seit Oktober 2019
(kontinuierlich aktualisiert), extrahiert mithilfe
von COVID-19-spezifischer Seed List &
TweetsKB Pipeline
 Genutzt als Corpus für CIKM2020 AnalytiCup &
durch interdisziplinäre Partner, z.B. mit
Heinrich-Heine-Universität, University of
Hildesheim, etc
16Stefan Dietze
Web Mining von Wissen über Claims & “Stances”/Standpunkte
17Stefan Dietze
Stance,
Vertrauenswürdigkeit
des Claims?
Stance,
Vertrauenswürdigkeit des Claims?
Web Mining von Wissen über Claims & “Stances”/Standpunkte
18Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
 Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
19Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
 Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
Ansatz
 Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
 Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
 Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
 Experimente mit Fake News Challenge Benchmark Dataset &
Baselines
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
20Stefan Dietze
Erkennen von Stances/Standpunkten
Motivation
 Problem: erkennen des Standpunkt von Web Dokumenten
(Webseiten, Tweets) zu bestimmtem Claim
(Klassenverteilung sehr unausgewogen)
 Anwendungen: Stance von Dokumenten (besonders
disagreement) wichtig (a) als Signal Korrektheit der Aussage &
(b) für die Klassifikation von Quellen (Twitternutzer, PLDs)
Ansatz
 Cascading binary classifiers zur Addressierung von Problemen
bei jedem Schritt (z.B. Kosten für Misklassifikation)
 Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC
 Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2)
CNN, 3) SVM with class-wise penalty
 Experimente mit Fake News Challenge Benchmark Dataset &
Baselines
Ergebnisse
 Geringfügige Overall Performance Verbesserung
 Verbesserung für disagree Klasse von 27%
A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance
hierarchies for cost-sensitive stance detection of Web
documents, preprint.
21Stefan Dietze
ClaimsKG: a knowledge graph of Web-mined claims
Motivation
 Faktengeprüfte Claims über verschiedene
(unstrukturierte) Fact-Checking Seiten verteilt
 Claims zu bestimmten Themen, z.B. COVID19-
relevante Claims von US Politikern schwer zu
finden
ClaimsKG Ansatz
 Harvesting von Claims und Metadaten von
Fact-Checking Seiten (e.g. snopes.com,
Politifact.com etc);
 Aktuell ca. 30.000 Claims (plus mining
schema.org/ClaimReview markup (> 500.000
statements in Common Crawl 2017)
 Veröffentlicht als KG durch durch NLP Pipeline
analog zu TweetsKB (Entity Linking, Data
Lifting, Normalisierung)
https://data.gesis.org/claimskg/
A. Tchechmedjiev, P. Fafalios, K. Boland, S. Dietze, B. Zapilko,
K. Todorov, ClaimsKG – A Live Knowledge Graph of fact-
checked Claims, ISWC2019
22Stefan Dietze
Überblick
Teil I
Extraktion von maschinen-interpretierbarem Wissen aus dem Web
(„Content“)
Teil II
Verstehen von Nutzerverhalten und –interaktionen im Web
(„User“)
23Stefan Dietze
Kompetenz & Wissensakquise von Web Nutzern
Vorhersage durch Verhaltensspuren?
 Forschungsfrage: Lässt sich anhand von
Nutzerverhalten wie Browsing, Scrolling, oder
Verhaltensspuren (Mausbewegungen, Keystrokes, Eye
Tracking) die Kompetenz und die Wissensakquise von
Nutzern vorhersagen?
 Ansatz: Experimente und Machine Learning-Ansätze
in zwei Szenarien: (a) Web Suche und (b) Microtask
Crowdsourcing wie Amazon Mechanical Turk
 Anwendungen z.B. zur Klassifikation von Web
Nutzern, Verbesserung von Suchergebnissen oder die
Adaption in Lern- und Assessmentumgebungen
Gadiraju, U., Kawase, R., Dietze, S, Demartini, G.,
Understanding Malicious Behavior in Crowdsourcing
Platforms: The Case of Online Surveys, ACM CHI2015.
Gadiraju, U., Demartini, G., Kawase, R., Dietze, S., Crowd
Anatomy Beyond the Good and Bad: Behavioral Traces for
Crowd Worker Modeling and Pre-selection, Computer
Supported Cooperative Work 28(5): 815-841 (2019)
24Stefan Dietze
Akquisition von Wissen während der Web Suche?
Herausforderungen & Ergebnisse
 Identifizieren von kohärenten Such-Sessions?
 Erkennen von “Lernen” während der Suche: identifizieren von
“informational sessions” (im Gegensatz zu “transactional” oder
“navigational” Suche [Broder, 2002])
o Klassifikation mit ca. F1 score 75% anhand von
Nutzerinteraktionen
 Wie kompetent ist der/die Nutzende? -
Vorhersagen und verstehen des Wissensstands Nutzender
anhand des “In-Session”-Verhaltens
 Wie gut erreicht der/die Nutzende das Lernziel bzw. sein
Informationsbedürfnis? – Vorhersagen des Wissenszuwachses
während einer Session
o Korrelation von Nutzerverhalten (Queries, Browsing,
Mausbewegungen etc) & Wissensstand/-zuwachs [CHIIR18]
o Vorhersage von Wissenstand/-zuwachs mithilfe überwachter
ML- Methoden [SIGIR18]
25Stefan Dietze
Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche
Daten & experimentelles Setup
 Crowdsourcing von Verhaltensdaten resp. Such-Sessions
 10 Themen/Informationsbedürfnisse (z.B. “Altitude sickness”,
“Tornados”) plus Pre- and Post-Tests zur Bestimmung von
Wissensstand – und Wissenszuwachs (KS, KG)
 Ca. 1000 Crowd Worker; 100 Sessions pro Topic
 Monitoring von Nutzerverhalten entlang von 76 Features in 5
Kategorien: session, query, SERP – search engine result page, browsing,
mouse traces
Ergebnisse
 70% der Nutzer zeigen Wissenszuwachs (KG)
 Negative Korrelation zwischen Wissenszuwachs und topic popularity
(avg. accuracy of workers in knowledge tests) (R= -.87)
 Aktiv auf Webseiten verbrachte Zeit erklärt 7% des Wissenszuwachses
 Query complexity erklärt 25% des Wissenszuwachses
 Suchverhalten korreliert stärker mit Such-Thema als mit KG/KS
Gadiraju, U., Yu, R., Dietze, S., Holtz, P.,. Analyzing
Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM CHIIR 2018.
26Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
 Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
 KG Vorhersage Performance
(nach 10-facher Cross-Validation)
 Feature Impact (KG prediction)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.
27Stefan Dietze
ML Modelle zur Vorhersage von KG/KS während der Suche
 Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG)
in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)
 Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer
Perceptron)
 KG Vorhersage Performance
(nach 10-facher Cross-Validation)
 Feature Impact (KG prediction)
Aktuelle & zukünftige Arbeiten
 Laborstudien für zuverlässigere Daten notwendig
(kontrollierte Umgebung, längere Sessions)
[abgeschlossen]
 Zusätzliche Features wie Eye Tracking
[CHIIR2020]
 Ressourcen-Features (wie z.B. complexity,
analytic/emotional language, multimodality etc) als
weitere Signale [IR Journal, under review]
 Verbessern von Ranking/Retrieval bei der Web Suche
oder in digitalen Archiven
(SALIENT Project, Leibniz Kooperative Exzellenz, mit
IWM, Uni Tübingen, TIB Hannover)
Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S.,
Analyzing Knowledge Gain of Users in Informational Search
Sessions on the Web. ACM SIGIR 2018.
31Stefan Dietze
Weitere Features zur Vorhersage der Kompetenz von Nutzenden
Kompetenz & der “Dunning-Kruger Effect”
 Inkompetenz in bestimmtem Task mindert die Fähigkeit, die
eigene Inkompetenz im Task zu erkennen
(David Dunning. 2011. The Dunning-Kruger Effect: On Being Ignorant of One’s Own Ignorance.
Advances in experimental social psychology 44 (2011), 247.)
Forschungsfragen
 Selbsteinschätzung als zusätzliches Feature um Kompetenz
vorherzusagen?
 Anwendung in Microtask-Crowdsourcing zur Klassifikation
von “Workern” oder im Online Lernen zur Klassifikation von
Lernenden
Einige Ergebnisse
 Selbsteinschätzung als zuverlässiges Feature zur Vorhersage
von Kompetenz/Future Performance;
 zuverlässiger als die bisherige Performance im Task
 Tendenz zur Überschätzung der eigenen Kompetenz wächst
mit wachsendem Schweregrad des Tasks Performance („accuracy“) of users classified as „competent“ according to (1)
prior performance and (2) performance plus self-assessment
Gadiraju, U., Fetahu, B., Kawase, R., Siehndel, P., Dietze, S.,
Using Worker Self-Assessments for Competence-based Pre-
Selection in Crowdsourcing Microtasks. In: ACM Transactions
on Computer-Human Interaction (ACM TOCHI), Vol. 24,
Issue 4, August 2017.
32Stefan Dietze
Zum Abschluss: kann Data Science „die“ Frage beantworten?
33Stefan Dietze
Rückblick: Web-mined Meinungen in TweetsKB
http://dbpedia.org/resource/Tim_Berners-Lee
wna:positive-emotion
onyx:hasEmotionIntensity "0.75"
onyx:hasEmotionIntensity "0.0"
http://dbpedia.org/resource/Solid
wna:negative-emotion
P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze,
TweetsKB: A Public and Large-Scale RDF Corpus of
Annotated Tweets, ESWC'18.
Anzahl Tweets, die Stadt Köln bzw. Düsseldorf)
erwähnen
(in 1,5 Mrd Englisch-sprachigen und bereinigten Tweets
2013-2018)
• # dbp:Cologne: 89.564
• # dbp:Dusseldorf: 4723
• Meinung als zum Ausdruck gebrachte Sentimente
pro Tweet
• „Happiness (e, ti) = mean of sentiment score delta
(positive - negative) of all Tweets mentioning entity
e in time interval ti“
34Stefan Dietze
Köln vs Düsseldorf: ein Antwortversuch mit TweetsKB
-0.40000
-0.30000
-0.20000
-0.10000
0.00000
0.10000
0.20000
0.30000
0.40000
Cologne Düsseldorf
Durchschnittliche Sentiment Scores (2013-2017):
• Happiness(Cologne) = 0.09281
• Happiness(Dusseldorf) = 0.04056
• Positive (Cologne) = 0.17297
• Positive (Dusseldorf) = 0.1245
• Negative (Cologne) = 0.07948
• Negative (Dusseldorf) = 0.09030
„Erkenntnisse“
• Köln „happier“
• Köln & Düsseldorf „happy“
(positive durchschnittliche Sentiment Scores)
Herausforderung: Bias
• Bias: Twitter Nutzer nicht repräsentativ
• Bias: englisch-sprachige Twitter Nutzer nicht
repräsentativ
• Bias: Verteilung von Touristen & Einwohner sehr
unterschiedlich für beide Städte (Kölner Dom)
Januar 2016,
Silvester/Domplatte (K)
März 2017,
Axt Attacke in U-Bahn (D)
Happiness(dbp:Cologne)
Happiness(dbp:Dusseldorf)
Source: https://theculturetrip.com/europe/germany/articles/8-fascinating-things-didnt-know-colognes-cathedral/© freedom100m
35Stefan Dietze
Knowledge Technologies for the Social Sciences (WTS)
https://www.gesis.org/en/institute/departments/knowledge-technologies-for-
the-social-sciences/
Data & Knowledge Engineering @ HHU
https://www.cs.hhu.de/en/research-groups/data-knowledge-engineering.html
L3S
http://www.l3s.de
Acknowledgements
• Maribel Acosta (KIT, Karlsruhe)
• Felix Bensmann (GESIS)
• Katarina Boland (GESIS, Germany)
• Stefan Conrad (HHU, Germany)
• Elena Demidova (L3S, Germany)
• Dimitar Dimitrov (GESIS, Germany)
• Asif Ekbal (IIT Patna, India)
• Pavlos Fafalios (FORTH ICS, Greece)
• Daniel Hienert (GESIS, Germany)
• Peter Holtz (IWM, Tübingen)
• Vasileios Iosifidis (L3S, Germany)
• Dagmar Kern (GESIS, Germany)
• Eirini Ntoutsi (LUH, Germany)
• Vasilis Iosifidis (L3S, Germany)
• Wolfgang Otto (GESIS, Germany)
• Andrea Papenmeier (GESIS, Germany)
• Markus Rokicki (L3S, Germany)
• Arjun Roy (IIT Patna, India)
• Nicolas Tempelmeier (L3S, Germany)
• Konstantin Todorov (LIRMM, France)
• Ran Yu (GESIS, Germany)
• Benjamin Zapilko (GESIS, Germany)
• Matthäus Zloch (GESIS, Germany)

Weitere ähnliche Inhalte

Was ist angesagt?

Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT LeipzigPerspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
mrtncz
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der Bibliothekswelt
Adrian Pohl
 
Profildienst
ProfildienstProfildienst
Profildienst
MLBibliothek
 
Digitalisierung von Bibliotheken durch Google
Digitalisierung von Bibliotheken durch GoogleDigitalisierung von Bibliotheken durch Google
Digitalisierung von Bibliotheken durch Google
danilo vetter
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Dirk Lewandowski
 
Giessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatzGiessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatz
masem research institute
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web Index
Dirk Lewandowski
 

Was ist angesagt? (7)

Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT LeipzigPerspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
Perspektivwechsel Normdaten: ein neues Nutzungskonzept an der UB und HMT Leipzig
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der Bibliothekswelt
 
Profildienst
ProfildienstProfildienst
Profildienst
 
Digitalisierung von Bibliotheken durch Google
Digitalisierung von Bibliotheken durch GoogleDigitalisierung von Bibliotheken durch Google
Digitalisierung von Bibliotheken durch Google
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
 
Giessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatzGiessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatz
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web Index
 

Ähnlich wie Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

Big Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für VerlageBig Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für Verlage
Tim Bruysten
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic Web
Katrin Weller
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
Till Kinstler
 
1 - Einfuehrung
1 - Einfuehrung1 - Einfuehrung
1 - Einfuehrung
Steffen Schloenvoigt
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
Semantic Web Company
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
Ralf Stockmann
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei Suchmaschinen
Dirk Lewandowski
 
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Barbara Hirschmann
 
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
ETH-Bibliothek
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
Martin Kaltenböck
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
scuy
 
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
Prof. Dr. Marco Hardiman
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic WebBIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
Institute for Digital Humanities, University of Cologne
 
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Jakob .
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked Data
Adrian Pohl
 
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
TIB Hannover
 
Social-Media-Forschung
Social-Media-ForschungSocial-Media-Forschung
Social-Media-Forschung
Katrin Weller
 
ZBIW: Discovery
ZBIW: DiscoveryZBIW: Discovery
ZBIW: Discovery
Christian Hauschke
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Martin Kaltenböck
 
Dietze linked data-vr-es
Dietze linked data-vr-esDietze linked data-vr-es
Dietze linked data-vr-es
Stefan Dietze
 

Ähnlich wie Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen (20)

Big Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für VerlageBig Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für Verlage
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic Web
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
1 - Einfuehrung
1 - Einfuehrung1 - Einfuehrung
1 - Einfuehrung
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei Suchmaschinen
 
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
 
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpu...
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
Verfolgungsjagd auf den Kunden. Wie das Netz unser Verhalten prognostiziert |...
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic WebBIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
 
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
 
Freie Katalogdaten und Linked Data
Freie Katalogdaten und Linked DataFreie Katalogdaten und Linked Data
Freie Katalogdaten und Linked Data
 
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
Lambert Heller: Informelle Wissenschaftskommunikation - Diskussion neuester T...
 
Social-Media-Forschung
Social-Media-ForschungSocial-Media-Forschung
Social-Media-Forschung
 
ZBIW: Discovery
ZBIW: DiscoveryZBIW: Discovery
ZBIW: Discovery
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
 
Dietze linked data-vr-es
Dietze linked data-vr-esDietze linked data-vr-es
Dietze linked data-vr-es
 

Mehr von Stefan Dietze

Understanding Scientific and Societal Adoption and Impact of Science Through ...
Understanding Scientific and Societal Adoption and Impact of Science Through ...Understanding Scientific and Societal Adoption and Impact of Science Through ...
Understanding Scientific and Societal Adoption and Impact of Science Through ...
Stefan Dietze
 
NEWORDER Project - Science in the online knowledge order
NEWORDER Project - Science in the online knowledge orderNEWORDER Project - Science in the online knowledge order
NEWORDER Project - Science in the online knowledge order
Stefan Dietze
 
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The InsideCollecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
Stefan Dietze
 
AI in between online and offline discourse - and what has ChatGPT to do with ...
AI in between online and offline discourse - and what has ChatGPT to do with ...AI in between online and offline discourse - and what has ChatGPT to do with ...
AI in between online and offline discourse - and what has ChatGPT to do with ...
Stefan Dietze
 
An interdisciplinary journey with the SAL spaceship – results and challenges ...
An interdisciplinary journey with the SAL spaceship – results and challenges ...An interdisciplinary journey with the SAL spaceship – results and challenges ...
An interdisciplinary journey with the SAL spaceship – results and challenges ...
Stefan Dietze
 
Research Knowledge Graphs at NFDI4DS & GESIS
Research Knowledge Graphs at NFDI4DS & GESISResearch Knowledge Graphs at NFDI4DS & GESIS
Research Knowledge Graphs at NFDI4DS & GESIS
Stefan Dietze
 
Research Knowledge Graphs at GESIS & NFDI4DataScience
Research Knowledge Graphs at GESIS & NFDI4DataScienceResearch Knowledge Graphs at GESIS & NFDI4DataScience
Research Knowledge Graphs at GESIS & NFDI4DataScience
Stefan Dietze
 
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
Stefan Dietze
 
Towards research data knowledge graphs
Towards research data knowledge graphsTowards research data knowledge graphs
Towards research data knowledge graphs
Stefan Dietze
 
Beyond research data infrastructures: exploiting artificial & crowd intellige...
Beyond research data infrastructures: exploiting artificial & crowd intellige...Beyond research data infrastructures: exploiting artificial & crowd intellige...
Beyond research data infrastructures: exploiting artificial & crowd intellige...
Stefan Dietze
 
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
Stefan Dietze
 
Using AI to understand everyday learning on the Web
Using AI to understand everyday learning on the WebUsing AI to understand everyday learning on the Web
Using AI to understand everyday learning on the Web
Stefan Dietze
 
Analysing User Knowledge, Competence and Learning during Online Activities
Analysing User Knowledge, Competence and Learning during Online ActivitiesAnalysing User Knowledge, Competence and Learning during Online Activities
Analysing User Knowledge, Competence and Learning during Online Activities
Stefan Dietze
 
Analysing & Improving Learning Resources Markup on the Web
Analysing & Improving Learning Resources Markup on the WebAnalysing & Improving Learning Resources Markup on the Web
Analysing & Improving Learning Resources Markup on the Web
Stefan Dietze
 
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the WebBeyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
Stefan Dietze
 
Big Data in Learning Analytics - Analytics for Everyday Learning
Big Data in Learning Analytics - Analytics for Everyday LearningBig Data in Learning Analytics - Analytics for Everyday Learning
Big Data in Learning Analytics - Analytics for Everyday Learning
Stefan Dietze
 
Retrieval, Crawling and Fusion of Entity-centric Data on the Web
Retrieval, Crawling and Fusion of Entity-centric Data on the WebRetrieval, Crawling and Fusion of Entity-centric Data on the Web
Retrieval, Crawling and Fusion of Entity-centric Data on the Web
Stefan Dietze
 
Mining and Understanding Activities and Resources on the Web
Mining and Understanding Activities and Resources on the WebMining and Understanding Activities and Resources on the Web
Mining and Understanding Activities and Resources on the Web
Stefan Dietze
 
Towards embedded Markup of Learning Resources on the Web
Towards embedded Markup of Learning Resources on the WebTowards embedded Markup of Learning Resources on the Web
Towards embedded Markup of Learning Resources on the Web
Stefan Dietze
 
Semantic Linking & Retrieval for Digital Libraries
Semantic Linking & Retrieval for Digital LibrariesSemantic Linking & Retrieval for Digital Libraries
Semantic Linking & Retrieval for Digital Libraries
Stefan Dietze
 

Mehr von Stefan Dietze (20)

Understanding Scientific and Societal Adoption and Impact of Science Through ...
Understanding Scientific and Societal Adoption and Impact of Science Through ...Understanding Scientific and Societal Adoption and Impact of Science Through ...
Understanding Scientific and Societal Adoption and Impact of Science Through ...
 
NEWORDER Project - Science in the online knowledge order
NEWORDER Project - Science in the online knowledge orderNEWORDER Project - Science in the online knowledge order
NEWORDER Project - Science in the online knowledge order
 
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The InsideCollecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
Collecting & Temporal Analysis of Behavioral Web Data - Tales From The Inside
 
AI in between online and offline discourse - and what has ChatGPT to do with ...
AI in between online and offline discourse - and what has ChatGPT to do with ...AI in between online and offline discourse - and what has ChatGPT to do with ...
AI in between online and offline discourse - and what has ChatGPT to do with ...
 
An interdisciplinary journey with the SAL spaceship – results and challenges ...
An interdisciplinary journey with the SAL spaceship – results and challenges ...An interdisciplinary journey with the SAL spaceship – results and challenges ...
An interdisciplinary journey with the SAL spaceship – results and challenges ...
 
Research Knowledge Graphs at NFDI4DS & GESIS
Research Knowledge Graphs at NFDI4DS & GESISResearch Knowledge Graphs at NFDI4DS & GESIS
Research Knowledge Graphs at NFDI4DS & GESIS
 
Research Knowledge Graphs at GESIS & NFDI4DataScience
Research Knowledge Graphs at GESIS & NFDI4DataScienceResearch Knowledge Graphs at GESIS & NFDI4DataScience
Research Knowledge Graphs at GESIS & NFDI4DataScience
 
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
Human-in-the-loop: the Web as Foundation for interdisciplinary Data Science M...
 
Towards research data knowledge graphs
Towards research data knowledge graphsTowards research data knowledge graphs
Towards research data knowledge graphs
 
Beyond research data infrastructures: exploiting artificial & crowd intellige...
Beyond research data infrastructures: exploiting artificial & crowd intellige...Beyond research data infrastructures: exploiting artificial & crowd intellige...
Beyond research data infrastructures: exploiting artificial & crowd intellige...
 
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
From Web Data to Knowledge: on the Complementarity of Human and Artificial In...
 
Using AI to understand everyday learning on the Web
Using AI to understand everyday learning on the WebUsing AI to understand everyday learning on the Web
Using AI to understand everyday learning on the Web
 
Analysing User Knowledge, Competence and Learning during Online Activities
Analysing User Knowledge, Competence and Learning during Online ActivitiesAnalysing User Knowledge, Competence and Learning during Online Activities
Analysing User Knowledge, Competence and Learning during Online Activities
 
Analysing & Improving Learning Resources Markup on the Web
Analysing & Improving Learning Resources Markup on the WebAnalysing & Improving Learning Resources Markup on the Web
Analysing & Improving Learning Resources Markup on the Web
 
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the WebBeyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
Beyond Linked Data - Exploiting Entity-Centric Knowledge on the Web
 
Big Data in Learning Analytics - Analytics for Everyday Learning
Big Data in Learning Analytics - Analytics for Everyday LearningBig Data in Learning Analytics - Analytics for Everyday Learning
Big Data in Learning Analytics - Analytics for Everyday Learning
 
Retrieval, Crawling and Fusion of Entity-centric Data on the Web
Retrieval, Crawling and Fusion of Entity-centric Data on the WebRetrieval, Crawling and Fusion of Entity-centric Data on the Web
Retrieval, Crawling and Fusion of Entity-centric Data on the Web
 
Mining and Understanding Activities and Resources on the Web
Mining and Understanding Activities and Resources on the WebMining and Understanding Activities and Resources on the Web
Mining and Understanding Activities and Resources on the Web
 
Towards embedded Markup of Learning Resources on the Web
Towards embedded Markup of Learning Resources on the WebTowards embedded Markup of Learning Resources on the Web
Towards embedded Markup of Learning Resources on the Web
 
Semantic Linking & Retrieval for Digital Libraries
Semantic Linking & Retrieval for Digital LibrariesSemantic Linking & Retrieval for Digital Libraries
Semantic Linking & Retrieval for Digital Libraries
 

Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Methoden und Fragestellungen

  • 1. 1Stefan Dietze Backup Human in the Loop: das Web als Grundlage interdisziplinärer Data Science-Methoden und Fragestellungen Stefan Dietze GESIS – Leibniz Institute for the Social Sciences, Heinrich-Heine-Universität Düsseldorf, L3S Research Center
  • 2. 2Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  • 3. 3Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  • 4. 4Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen
  • 5. 5Stefan Dietze Web Suche nach… • Dokumente • Fakten • Claims • Meinungen Wir versuchen, diese Frage am Ende des Talks mithilfe von Data „Science“ zu „beantworten“.
  • 6. 6Stefan Dietze Human-in-the-loop: KI und Crowd Intelligenz im Web Human/Crowd Intelligence Artificial Intelligence Web Content & Data (z.B. Webseiten, Social Media, Wikipedia, Tags, semi-structured Data) Interaktionen & Verhalten (z.B. Clickstreams, Queries, Likes/Shares) Interpretation & Verarbeitung mithilfe von:  Information Retrieval (Crawling, Indexing, Ranking etc)  Natural Language Processing  Graph Analyse (z.B. PageRank et al.)  Wissensbasierte Methoden, Inferenz & Reasoning  Statistik  Machine & Deep Learning o Query Interpretation & Intent Prediction o Klassifikation von Nutzern, Sessions, Dokumenten, Quellen o Ranking und Personalisierung o ….
  • 7. 7Stefan Dietze Überblick Teil I Extraktion von maschinen-interpretierbarem Wissen aus dem Web („Content“) Teil II Verstehen von Nutzerverhalten und –interaktionen im Web („User“)
  • 8. 8Stefan Dietze Fakten, Claims, Stances/Standpunkte, Meinungen im Web  Untersuchungen zur Wissenskonstruktion, Meinungsbildung, Beinflussung und Desinformation im Web als disziplinübergreifendes und stark wachsendes Forschungsfeld (z.B. Vousoughi et al. 2018)  Erkenntnisgewinn (z.B. Sozialwiss., Psychologie), z.B. zu: o Wissenskonstruktion im Web o Viralität und Spreading von Claims und Desinformation o Effekt von Desinformation auf die Meinungsbildung o Selbstverstärkende Effekte von Biases und Echokammern  Methoden (Informatik), z.B. für: o Extraktion von Faktenwissen aus dem Web [WWW18, SWJ19] o Extraktion und Verifikation von Claims im Web [ISWC2019] o Erkennen des Standpunkts von Webseiten oder Tweets o Extraktion von Meinungen/Trends, z.B. aus dem Social Web/Twitter [CIKM2020, ESWC18]
  • 9. 9Stefan Dietze Extraktion von „long-tail“ Faktenwissen im Web ? <„Tim Berners-Lee“ s:founderOf „Solid“>  Wie lässt sich entitätsbezogenes Faktenwissen bzw. Wissensgraphen aus Webseiten gewinnen?  Anwendung von NLP/Informationsextraktionsmethoden? Skalierbarkeit: Google Index = ca. 50 Billionen Websiten (die sich dynamisch ändern)  Nutzung von eingebettetem Web Markup (Microdata/RDFa) wie schema.org-basierte Annotationen  Weit verbreitet: ca. 40% aller Webseiten in Common Crawl (3.2 Mrd. Webseiten) beinhalten Markup (ca. 44 Mrd. „Fakten“)  Herausforderungen o Fehler. Annotationsfehler und faktische Fehler [Meusel et al, ESWC2015] o Mehrdeutigkeit und Koreferenzen. z.B. 18.000 Markup- Instanzen von “iPhone 6” in Common Crawl 2016 & mehrdeutige Literale (z.B. „Apple“>) o Redundanzen & Konflikte. Großer Anteil von äquivalenten oder direkt in Konflikt stehenden Aussagen
  • 10. 10Stefan Dietze KnowMore: data fusion on Web Markup  0. Noise: Data Cleansing (URIs, Deduplizierung etc)  1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten  1.b) Relevanz: überwachte Auflösung von Koreferenzen  2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten 1. Blocking & coreference resolution 2. Fusion / Fact selection (supervised) Web page markup Web crawl (Common Crawl, 44 bn facts) Yu, R., [..], Dietze, S., KnowMore-Knowledge Base Augmentation with Structured Web Markup, Semantic Web Journal 2019 (SWJ2019) Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing Categorical Information in Noisy and Sparse Web Markup, The Web Conf. 2018 (WWW2018) New Query Entities BBC Audio, type:(Organization) Chapman & Hall, type:(Publisher) Put Out More Flags, type:(Book) Entity Description author Evelyn Waugh priorWork Put Out More Flags ISBN 978031874803074 copyrightHolder Evelyn Waugh releaseDate 1945 … … Query Entity Brideshead Revisited, type:(Book) Candidate Facts node1 publisher Chapman & Hall node1 releaseDate 1945 node1 publishDate 1961 node2 country UK node2 publisher Black Bay Books node3 country US node3 copyrightHolder Evelyn Waugh … …. …. Ca. 5000 Fakten für „Brideshead Revisited“ (125.000 Fakten für „iPhone6“) 20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“
  • 11. 11Stefan Dietze KnowMore: data fusion on Web Markup  0. Noise: Data Cleansing (URIs, Deduplizierung etc)  1.a) Scale: Blocking mit BM25 Entity Retrieval auf Lucene Index der Markup Daten  1.b) Relevanz: überwachte Auflösung von Koreferenzen  2.) Qualität & Redundanz: Data Fusion mit überwachtem Klassifizierer für alle Fakten (SVM, knn, CNN, RF, LR, NB), nutzt diverse Feature Set (Autorität, Relevanz etc) der Quelle (z.B. PageRank), Entitätsbeschreibung oder Fakten 1. Blocking & coreference resolution 2. Fusion / Fact selection (supervised) Web page markup Web crawl (Common Crawl, 44 bn facts) Yu, R., [..], Dietze, S., KnowMore-Knowledge Base Augmentation with Structured Web Markup, Semantic Web Journal 2019 (SWJ2019) Tempelmeier, N., Demidova, S., Dietze, S., Inferring Missing Categorical Information in Noisy and Sparse Web Markup, The Web Conf. 2018 (WWW2018) New Query Entities BBC Audio, type:(Organization) Chapman & Hall, type:(Publisher) Put Out More Flags, type:(Book) Entity Description author Evelyn Waugh priorWork Put Out More Flags ISBN 978031874803074 copyrightHolder Evelyn Waugh releaseDate 1945 … … Query Entity Brideshead Revisited, type:(Book) Candidate Facts node1 publisher Chapman & Hall node1 releaseDate 1945 node1 publishDate 1961 node2 country UK node2 publisher Black Bay Books node3 country US node3 copyrightHolder Evelyn Waugh … …. …. Ca. 5000 Fakten für „Brideshead Revisited“ (125.000 Fakten für „iPhone6“) 20 korrekte & nicht-redundante Fakten für „Brideshead Rev.“ Data Fusion Performance  Experimente für Bücher, Filme, Produkte  Baselines: BM25, CBFS [ESWC2015], PreRecCorr [Pochampally et. al., ACM SIGMOD 2014], variieren stark zwischen den Typen Anreicherung von Wissensgraphen / Finden neuer Fakten?  Durchschnittlich 60% - 70% aller Fakten sind neu (im Vergleich zu Wissensgraphen wie WikiData, Freebase, Wikipedia/DBpedia)  Weitere Experimente zum Lernen von kategorischen Merkmalen (z.B. Filmgenren oder Produktkategorien) [WWW2018]
  • 12. 12Stefan Dietze Extraktion von Diskurs & Meinungen aus Twitter http://dbpedia.org/resource/Tim_Berners-Lee wna:positive-emotion onyx:hasEmotionIntensity "0.75" onyx:hasEmotionIntensity "0.0"  Heterogenität: multimodal, multilingual, informell, “noisy” Sprache  Kontextabhängigkeit: Interpretation kurzer Tweets erfordert Berücksichtigung von Kontext (z.B. Zeitpunkt, verlinkte Inhalte), “Dusseldorf” => Stadt oder Fußball-Team  Representativität & Bias: demographische Verteilungen in Twitter Archiven nicht bekannt  Dynamik & Scale: z.B. 8000 tweets pro Sekunde, plus Interaktionen (Retweets etc) & Kontext (z.B. 25% aller Tweets beinhalten URLs)  Evolution & temporale Aspekte: Evolution von Interaktionen über die Zeit wichtig für die moisten Forschungsfragen http://dbpedia.org/resource/Solid wna:negative-emotion P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18.
  • 13. 13Stefan Dietze TweetsKB: a knowledge base of Web mined societal discourse P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. https://data.gesis.org/tweetskb/  Sammlung & Archivierung von 10 Mrd. Tweets über 7 Jahre (permanenter Crawl der Twitter 1%-API seit 2013)  Informationsextraktion mithilfe von NLP-Methoden zur Extraktion von Entitäten und Sentimenten (verteilte Batch-Verarbeitung mit Hadoop Map/Reduce) o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL [Blanco et al. 2015]) (“president”/“potus”/”trump” => dbp:DonaldTrump), zur Disambiguierung von Tweets und Verlinkung mit Hintergrundwissen (z.B. US Politiker? Republikaner?), hohe Precision (.85), schwacher recall (.39) o Sentiment Analyse mit SentiStrength [Thelwall et al., 2017], F1 ca. .80 o Extraktion von Metadaten und Lifting in etablierte Formate und Schemas (SIOC, schema.org), Publikation mithilfe von W3C Standards (RDF/SPARQL)
  • 14. 14Stefan Dietze TweetsKB: a knowledge base of Web mined societal discourse P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. https://data.gesis.org/tweetskb/  Sammlung & Archivierung von 10 Mrd. Tweets über 7 Jahre (permanenter Crawl der Twitter 1%-API seit 2013)  Informationsextraktion mithilfe von NLP-Methoden zur Extraktion von Entitäten und Sentimenten (verteilte Batch-Verarbeitung mit Hadoop Map/Reduce) o Entity Linking mit Wikipedia/DBpedia (Yahoo‘s FEL [Blanco et al. 2015]) (“president”/“potus”/”trump” => dbp:DonaldTrump), zur Disambiguierung von Tweets und Verlinkung mit Hintergrundwissen (z.B. US Politiker? Republikaner?), hohe Precision (.85), schwacher recall (.39) o Sentiment Analyse mit SentiStrength [Thelwall et al., 2017], F1 ca. .80 o Extraktion von Metadaten und Lifting in etablierte Formate und Schemas (SIOC, schema.org), Publikation mithilfe von W3C Standards (RDF/SPARQL) Anwendungsszenarien  Aggregation von Sentimenten zu bestimmten Themen oder Entitäten, z.B. CDU vs SPD Politiker in bestimmter Zeitperiode  Twitter Archive zum Verstehen von temporären Entitätsbeziehungen z.B. “austerity” & “Greece” 2010- 2015  Verfolgen von Claims und Fake News und deren Impact (siehe folgende Slides) -0.40000 -0.30000 -0.20000 -0.10000 0.00000 0.10000 0.20000 0.30000 0.40000 Cologne Düsseldorf
  • 15. 15Stefan Dietze TweetsCOV19: a knowledge graph of societal discourse on COVID19 Dimitrov, D., Baran, E., Fafalios, P., Yu, R., Zhu, X., Zloch, M., Dietze, S., TweetsCOV19 -- A Knowledge Base of Semantically Annotated Tweets about the COVID-19 Pandemic, CIKM2020. https://data.gesis.org/tweetscov19/  COVID19-Diskurs als Basis für interdisziplinäre Forschung zu Solidaritätsverhalten, gesellschaftlichen Veränderungen in der Pandemie  8.1 Millionen Tweets seit Oktober 2019 (kontinuierlich aktualisiert), extrahiert mithilfe von COVID-19-spezifischer Seed List & TweetsKB Pipeline  Genutzt als Corpus für CIKM2020 AnalytiCup & durch interdisziplinäre Partner, z.B. mit Heinrich-Heine-Universität, University of Hildesheim, etc
  • 16. 16Stefan Dietze Web Mining von Wissen über Claims & “Stances”/Standpunkte
  • 17. 17Stefan Dietze Stance, Vertrauenswürdigkeit des Claims? Stance, Vertrauenswürdigkeit des Claims? Web Mining von Wissen über Claims & “Stances”/Standpunkte
  • 18. 18Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  • 19. 19Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) Ansatz  Cascading binary classifiers zur Addressierung von Problemen bei jedem Schritt (z.B. Kosten für Misklassifikation)  Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC  Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2) CNN, 3) SVM with class-wise penalty  Experimente mit Fake News Challenge Benchmark Dataset & Baselines A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  • 20. 20Stefan Dietze Erkennen von Stances/Standpunkten Motivation  Problem: erkennen des Standpunkt von Web Dokumenten (Webseiten, Tweets) zu bestimmtem Claim (Klassenverteilung sehr unausgewogen)  Anwendungen: Stance von Dokumenten (besonders disagreement) wichtig (a) als Signal Korrektheit der Aussage & (b) für die Klassifikation von Quellen (Twitternutzer, PLDs) Ansatz  Cascading binary classifiers zur Addressierung von Problemen bei jedem Schritt (z.B. Kosten für Misklassifikation)  Features, z.B. Textähnlichkeit (Word2Vec etc), Sentimente, LIWC  Stärkste Modelle pro Schritt: 1) SVM with class-wise penalty, 2) CNN, 3) SVM with class-wise penalty  Experimente mit Fake News Challenge Benchmark Dataset & Baselines Ergebnisse  Geringfügige Overall Performance Verbesserung  Verbesserung für disagree Klasse von 27% A. Roy, A. Ekbal, S. Dietze, P. Fafalios, Exploiting stance hierarchies for cost-sensitive stance detection of Web documents, preprint.
  • 21. 21Stefan Dietze ClaimsKG: a knowledge graph of Web-mined claims Motivation  Faktengeprüfte Claims über verschiedene (unstrukturierte) Fact-Checking Seiten verteilt  Claims zu bestimmten Themen, z.B. COVID19- relevante Claims von US Politikern schwer zu finden ClaimsKG Ansatz  Harvesting von Claims und Metadaten von Fact-Checking Seiten (e.g. snopes.com, Politifact.com etc);  Aktuell ca. 30.000 Claims (plus mining schema.org/ClaimReview markup (> 500.000 statements in Common Crawl 2017)  Veröffentlicht als KG durch durch NLP Pipeline analog zu TweetsKB (Entity Linking, Data Lifting, Normalisierung) https://data.gesis.org/claimskg/ A. Tchechmedjiev, P. Fafalios, K. Boland, S. Dietze, B. Zapilko, K. Todorov, ClaimsKG – A Live Knowledge Graph of fact- checked Claims, ISWC2019
  • 22. 22Stefan Dietze Überblick Teil I Extraktion von maschinen-interpretierbarem Wissen aus dem Web („Content“) Teil II Verstehen von Nutzerverhalten und –interaktionen im Web („User“)
  • 23. 23Stefan Dietze Kompetenz & Wissensakquise von Web Nutzern Vorhersage durch Verhaltensspuren?  Forschungsfrage: Lässt sich anhand von Nutzerverhalten wie Browsing, Scrolling, oder Verhaltensspuren (Mausbewegungen, Keystrokes, Eye Tracking) die Kompetenz und die Wissensakquise von Nutzern vorhersagen?  Ansatz: Experimente und Machine Learning-Ansätze in zwei Szenarien: (a) Web Suche und (b) Microtask Crowdsourcing wie Amazon Mechanical Turk  Anwendungen z.B. zur Klassifikation von Web Nutzern, Verbesserung von Suchergebnissen oder die Adaption in Lern- und Assessmentumgebungen Gadiraju, U., Kawase, R., Dietze, S, Demartini, G., Understanding Malicious Behavior in Crowdsourcing Platforms: The Case of Online Surveys, ACM CHI2015. Gadiraju, U., Demartini, G., Kawase, R., Dietze, S., Crowd Anatomy Beyond the Good and Bad: Behavioral Traces for Crowd Worker Modeling and Pre-selection, Computer Supported Cooperative Work 28(5): 815-841 (2019)
  • 24. 24Stefan Dietze Akquisition von Wissen während der Web Suche? Herausforderungen & Ergebnisse  Identifizieren von kohärenten Such-Sessions?  Erkennen von “Lernen” während der Suche: identifizieren von “informational sessions” (im Gegensatz zu “transactional” oder “navigational” Suche [Broder, 2002]) o Klassifikation mit ca. F1 score 75% anhand von Nutzerinteraktionen  Wie kompetent ist der/die Nutzende? - Vorhersagen und verstehen des Wissensstands Nutzender anhand des “In-Session”-Verhaltens  Wie gut erreicht der/die Nutzende das Lernziel bzw. sein Informationsbedürfnis? – Vorhersagen des Wissenszuwachses während einer Session o Korrelation von Nutzerverhalten (Queries, Browsing, Mausbewegungen etc) & Wissensstand/-zuwachs [CHIIR18] o Vorhersage von Wissenstand/-zuwachs mithilfe überwachter ML- Methoden [SIGIR18]
  • 25. 25Stefan Dietze Wissensstand & -zuwachs vs Nutzerverhalten bei der Web Suche Daten & experimentelles Setup  Crowdsourcing von Verhaltensdaten resp. Such-Sessions  10 Themen/Informationsbedürfnisse (z.B. “Altitude sickness”, “Tornados”) plus Pre- and Post-Tests zur Bestimmung von Wissensstand – und Wissenszuwachs (KS, KG)  Ca. 1000 Crowd Worker; 100 Sessions pro Topic  Monitoring von Nutzerverhalten entlang von 76 Features in 5 Kategorien: session, query, SERP – search engine result page, browsing, mouse traces Ergebnisse  70% der Nutzer zeigen Wissenszuwachs (KG)  Negative Korrelation zwischen Wissenszuwachs und topic popularity (avg. accuracy of workers in knowledge tests) (R= -.87)  Aktiv auf Webseiten verbrachte Zeit erklärt 7% des Wissenszuwachses  Query complexity erklärt 25% des Wissenszuwachses  Suchverhalten korreliert stärker mit Such-Thema als mit KG/KS Gadiraju, U., Yu, R., Dietze, S., Holtz, P.,. Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM CHIIR 2018.
  • 26. 26Stefan Dietze ML Modelle zur Vorhersage von KG/KS während der Suche  Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG) in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)  Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer Perceptron)  KG Vorhersage Performance (nach 10-facher Cross-Validation)  Feature Impact (KG prediction) Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S., Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM SIGIR 2018.
  • 27. 27Stefan Dietze ML Modelle zur Vorhersage von KG/KS während der Suche  Kategorisierung der Sessions entlang von Wissensstand (KS) & Wissenszuwachs (KG) in {low, moderate, high} mit (low < (mean ± 0.5 SD) < high)  Überwachte Multiclass Klassifikation (Naive Bayes, Logistic Regression, SVM, Random Forest, Multilayer Perceptron)  KG Vorhersage Performance (nach 10-facher Cross-Validation)  Feature Impact (KG prediction) Aktuelle & zukünftige Arbeiten  Laborstudien für zuverlässigere Daten notwendig (kontrollierte Umgebung, längere Sessions) [abgeschlossen]  Zusätzliche Features wie Eye Tracking [CHIIR2020]  Ressourcen-Features (wie z.B. complexity, analytic/emotional language, multimodality etc) als weitere Signale [IR Journal, under review]  Verbessern von Ranking/Retrieval bei der Web Suche oder in digitalen Archiven (SALIENT Project, Leibniz Kooperative Exzellenz, mit IWM, Uni Tübingen, TIB Hannover) Yu, R., Gadiraju, U., Holtz, P., Rokicki, M., Kemkes, P., Dietze, S., Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. ACM SIGIR 2018.
  • 28. 31Stefan Dietze Weitere Features zur Vorhersage der Kompetenz von Nutzenden Kompetenz & der “Dunning-Kruger Effect”  Inkompetenz in bestimmtem Task mindert die Fähigkeit, die eigene Inkompetenz im Task zu erkennen (David Dunning. 2011. The Dunning-Kruger Effect: On Being Ignorant of One’s Own Ignorance. Advances in experimental social psychology 44 (2011), 247.) Forschungsfragen  Selbsteinschätzung als zusätzliches Feature um Kompetenz vorherzusagen?  Anwendung in Microtask-Crowdsourcing zur Klassifikation von “Workern” oder im Online Lernen zur Klassifikation von Lernenden Einige Ergebnisse  Selbsteinschätzung als zuverlässiges Feature zur Vorhersage von Kompetenz/Future Performance;  zuverlässiger als die bisherige Performance im Task  Tendenz zur Überschätzung der eigenen Kompetenz wächst mit wachsendem Schweregrad des Tasks Performance („accuracy“) of users classified as „competent“ according to (1) prior performance and (2) performance plus self-assessment Gadiraju, U., Fetahu, B., Kawase, R., Siehndel, P., Dietze, S., Using Worker Self-Assessments for Competence-based Pre- Selection in Crowdsourcing Microtasks. In: ACM Transactions on Computer-Human Interaction (ACM TOCHI), Vol. 24, Issue 4, August 2017.
  • 29. 32Stefan Dietze Zum Abschluss: kann Data Science „die“ Frage beantworten?
  • 30. 33Stefan Dietze Rückblick: Web-mined Meinungen in TweetsKB http://dbpedia.org/resource/Tim_Berners-Lee wna:positive-emotion onyx:hasEmotionIntensity "0.75" onyx:hasEmotionIntensity "0.0" http://dbpedia.org/resource/Solid wna:negative-emotion P. Fafalios, V. Iosifidis, E. Ntoutsi, and S. Dietze, TweetsKB: A Public and Large-Scale RDF Corpus of Annotated Tweets, ESWC'18. Anzahl Tweets, die Stadt Köln bzw. Düsseldorf) erwähnen (in 1,5 Mrd Englisch-sprachigen und bereinigten Tweets 2013-2018) • # dbp:Cologne: 89.564 • # dbp:Dusseldorf: 4723 • Meinung als zum Ausdruck gebrachte Sentimente pro Tweet • „Happiness (e, ti) = mean of sentiment score delta (positive - negative) of all Tweets mentioning entity e in time interval ti“
  • 31. 34Stefan Dietze Köln vs Düsseldorf: ein Antwortversuch mit TweetsKB -0.40000 -0.30000 -0.20000 -0.10000 0.00000 0.10000 0.20000 0.30000 0.40000 Cologne Düsseldorf Durchschnittliche Sentiment Scores (2013-2017): • Happiness(Cologne) = 0.09281 • Happiness(Dusseldorf) = 0.04056 • Positive (Cologne) = 0.17297 • Positive (Dusseldorf) = 0.1245 • Negative (Cologne) = 0.07948 • Negative (Dusseldorf) = 0.09030 „Erkenntnisse“ • Köln „happier“ • Köln & Düsseldorf „happy“ (positive durchschnittliche Sentiment Scores) Herausforderung: Bias • Bias: Twitter Nutzer nicht repräsentativ • Bias: englisch-sprachige Twitter Nutzer nicht repräsentativ • Bias: Verteilung von Touristen & Einwohner sehr unterschiedlich für beide Städte (Kölner Dom) Januar 2016, Silvester/Domplatte (K) März 2017, Axt Attacke in U-Bahn (D) Happiness(dbp:Cologne) Happiness(dbp:Dusseldorf) Source: https://theculturetrip.com/europe/germany/articles/8-fascinating-things-didnt-know-colognes-cathedral/© freedom100m
  • 32. 35Stefan Dietze Knowledge Technologies for the Social Sciences (WTS) https://www.gesis.org/en/institute/departments/knowledge-technologies-for- the-social-sciences/ Data & Knowledge Engineering @ HHU https://www.cs.hhu.de/en/research-groups/data-knowledge-engineering.html L3S http://www.l3s.de Acknowledgements • Maribel Acosta (KIT, Karlsruhe) • Felix Bensmann (GESIS) • Katarina Boland (GESIS, Germany) • Stefan Conrad (HHU, Germany) • Elena Demidova (L3S, Germany) • Dimitar Dimitrov (GESIS, Germany) • Asif Ekbal (IIT Patna, India) • Pavlos Fafalios (FORTH ICS, Greece) • Daniel Hienert (GESIS, Germany) • Peter Holtz (IWM, Tübingen) • Vasileios Iosifidis (L3S, Germany) • Dagmar Kern (GESIS, Germany) • Eirini Ntoutsi (LUH, Germany) • Vasilis Iosifidis (L3S, Germany) • Wolfgang Otto (GESIS, Germany) • Andrea Papenmeier (GESIS, Germany) • Markus Rokicki (L3S, Germany) • Arjun Roy (IIT Patna, India) • Nicolas Tempelmeier (L3S, Germany) • Konstantin Todorov (LIRMM, France) • Ran Yu (GESIS, Germany) • Benjamin Zapilko (GESIS, Germany) • Matthäus Zloch (GESIS, Germany)