Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Semantic Search
Daan Odijk
ContentCafé
8 april 2015
ContentCafé proudly presents: Zoekt
en gij zult vinden… toch?
door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015
Toen G...
Term
je
en
het
dat
de
search
hoe
zoeken
contentcafé
denken
solutions
implementatie
web
presents
input
hoofddorp
gek
bezoek...
Term
je
en
het
dat
de
search
hoe
zoeken
contentcafé
denken
solutions
implementatie
web
presents
input
hoofddorp
gek
bezoek...
Term
je
en
het
dat
de
search
hoe
zoeken
contentcafé
denken
solutions
implementatie
web
presents
input
hoofddorp
gek
bezoek...
Term
je
en
het
dat
de
search
hoe
zoeken
contentcafé
denken
solutions
implementatie
web
presents
input
hoofddorp
gek
bezoek...
!TF
Luhn
1957
! TF.IDF
KSJ
1972
! BM25
Robertson
1995
!
Language Models
Kalt, 1996
PageRank
Brin & Page
1998
!
! ! !
!
!Learning to Rank
Fuhr (1992)
!
! ! !
!
ContentCafé proudly presents: Zoekt
en gij zult vinden… toch?
door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015
Toen G...
%
"#$
#
&
%
&
! Zoek
BM25
PageRank
Semantic Search
Semantic search
• Improve search accuracy by understanding
searcher intent and the contextual meaning
of terms and documen...
Semantic search
• What is “semantic” search?
• understanding intent, contextual meaning
• finding actual answers for inform...
Challenges
"#$
#
! Zoek
Query
Understanding
Presentation &
Interaction
Document
Understanding
Presentation &
Interaction
Challenges
"#$
#
! Zoek
Document
Understanding
Interplay: (un)structured data
Unstructured Structured
xxxx x xxx xx xxxxxx xx x xxx xx x xxxx
xx xxx x xxxxxx xx x xxx xx...
Entity Profiling
- Entity profiling

- generate a profile of an entity
- summary (keywords/full-text)
- timelines
- …
- Slot ...
But first…
ice cube music
michelangelo
But first…
vin diesel
schema.org (RDFa)
• used by Google, Bing, Yandex, Yahoo!, IPTC,
etc.
Challenges
"#$
#
! Zoek
Query
Understanding
Distribution of web search
queries [Pound et al. 2010]
6%
36%
1%5% 12%
41%
Entity (“1978 cj5 jeep”)
Type (“doctors in barc...
Query Understanding
• First step: recognize, label, and
disambiguate entities in queries
• add: attributes/aspects
• add: ...
Query Understanding
• Adding structure to queries
• Query intents
• Query context 

(sessions, users, history, etc.)
• Int...
Template-based query
understanding
• Rule-based approaches (editorial)

• high precision
• difficult to generalize
• costly...
Challenges
"#$
#
! Zoek
Presentation &
Interaction
Presentation &
Interaction
Result presentation
• Rich result pages (SERPs)
• Directly displaying answers and relevant
information or context
Rich result pages
Direct displays
Keyword Queries
- Single-search-box paradigm
- Typical web search queries
- “Telegraphic”, i.e., neither
well-formed nor
g...
Example keyword++ queries
Example keyword++ queries
Interaction: recommendation,
auto-completion
Interaction: recommendation,
auto-completion
Want to learn more?
d.odijk@uva.nl / daan.odijk.me
Edgar Meij – @edgarmeij

Yahoo Labs

Krisztian Balog – @krisztianbalog
...
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
Nächste SlideShare
Wird geladen in …5
×

Daan Odijk | Semantic Search ContentCafé #11

1.994 Aufrufe

Veröffentlicht am

Daan Odijk, PhD candidate information retrieval legt voor het elfde ContentCafé in drie minuten uit hoe search in elkaar zit, en gaat daarna uitgebreid in op semantisch zoeken.

Veröffentlicht in: Internet
  • Als Erste(r) kommentieren

Daan Odijk | Semantic Search ContentCafé #11

  1. 1. Semantic Search Daan Odijk ContentCafé 8 april 2015
  2. 2. ContentCafé proudly presents: Zoekt en gij zult vinden… toch? door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015 Toen Google in 2013 5 minuten offline was. daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt. lees dan dit artikel. Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken. wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken? De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search. semantiek en algoritmes.
  3. 3. Term je en het dat de search hoe zoeken contentcafé denken solutions implementatie web presents input hoofddorp gek bezoekers zoekmachine google TF 6 5 5 4 3 3 3 2 2 1 1 1 1 1 1 1 1 1 1 1
  4. 4. Term je en het dat de search hoe zoeken contentcafé denken solutions implementatie web presents input hoofddorp gek bezoekers zoekmachine google TF 6 5 5 4 3 3 3 2 2 1 1 1 1 1 1 1 1 1 1 1
  5. 5. Term je en het dat de search hoe zoeken contentcafé denken solutions implementatie web presents input hoofddorp gek bezoekers zoekmachine google TF 6 5 5 4 3 3 3 2 2 1 1 1 1 1 1 1 1 1 1 1 DF 88 109 105 78 109 47 74 9 111 7 5 2 9 8 3 5 2 17 2 5
  6. 6. Term je en het dat de search hoe zoeken contentcafé denken solutions implementatie web presents input hoofddorp gek bezoekers zoekmachine google TF 6 5 5 4 3 3 3 2 2 1 1 1 1 1 1 1 1 1 1 1 DF 88 109 105 78 109 47 74 9 111 7 5 2 9 8 3 5 2 17 2 5 TF.IDF 0.07 0.05 0.05 0.05 0.03 0.06 0.04 0.22 0.02 0.14 0.20 0.50 0.11 0.12 0.33 0.20 0.50 0.06 0.50 0.20 Lucene 2.45 2.24 2.24 2.00 1.73 2.93 1.73 4.81 0.00 3.56 3.89 4.61 3.4 3.48 4.30 3.89 4.61 2.79 4.61 3.89
  7. 7. !TF Luhn 1957 ! TF.IDF KSJ 1972 ! BM25 Robertson 1995 ! Language Models Kalt, 1996
  8. 8. PageRank Brin & Page 1998 ! ! ! ! !
  9. 9. !Learning to Rank Fuhr (1992) ! ! ! ! !
  10. 10. ContentCafé proudly presents: Zoekt en gij zult vinden… toch? door CHARLOTTE VAN OOSTRUM geplaatst op 13 MAART 2015 Toen Google in 2013 5 minuten offline was. daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt. lees dan dit artikel. Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken. wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken? De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search. semantiek en algoritmes. 48pt 18pt 24pt ! Zoek
  11. 11. % "#$ # & % & ! Zoek BM25 PageRank
  12. 12. Semantic Search
  13. 13. Semantic search • Improve search accuracy by understanding searcher intent and the contextual meaning of terms and documents. • Move beyond “ten blue links” (towards actually answering information needs) using rich context.
  14. 14. Semantic search • What is “semantic” search? • understanding intent, contextual meaning • finding actual answers for information needs • combining text and structure • “Entity-centric search” • Entity: uniquely identifiable thing or object • “A thing with a distinct and independent existence”
  15. 15. Challenges "#$ # ! Zoek Query Understanding Presentation & Interaction Document Understanding Presentation & Interaction
  16. 16. Challenges "#$ # ! Zoek Document Understanding
  17. 17. Interplay: (un)structured data Unstructured Structured xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xx x xxxx x xxx xx xxxx x xxx xx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxxx xxxxxx xx x xxx xx x xxxx xx xxx x xxxxx xx x xxx xx xxxx xx xxx xx x xxxxx xxx xxxx x xxx xx xxxxxx adding structure to text adding text to structure
  18. 18. Entity Profiling - Entity profiling - generate a profile of an entity - summary (keywords/full-text) - timelines - … - Slot filling - automatically fill attribute fields
  19. 19. But first… ice cube music
  20. 20. michelangelo
  21. 21. But first…
  22. 22. vin diesel
  23. 23. schema.org (RDFa) • used by Google, Bing, Yandex, Yahoo!, IPTC, etc.
  24. 24. Challenges "#$ # ! Zoek Query Understanding
  25. 25. Distribution of web search queries [Pound et al. 2010] 6% 36% 1%5% 12% 41% Entity (“1978 cj5 jeep”) Type (“doctors in barcelona”) Attribute (“zip code waterville Maine”) Relation (“tom cruise katie holmes”) Other (“nightlife in Barcelona”) Uninterpretable
  26. 26. Query Understanding • First step: recognize, label, and disambiguate entities in queries • add: attributes/aspects • add: types • add: relationships • add: actions/verbs • etc. • Then: query understanding • what is the intent?
  27. 27. Query Understanding • Adding structure to queries • Query intents • Query context 
 (sessions, users, history, etc.) • Interaction
  28. 28. Template-based query understanding • Rule-based approaches (editorial) • high precision • difficult to generalize • costly to create/maintain • Research into more generic approaches is ongoing
  29. 29. Challenges "#$ # ! Zoek Presentation & Interaction Presentation & Interaction
  30. 30. Result presentation • Rich result pages (SERPs) • Directly displaying answers and relevant information or context
  31. 31. Rich result pages
  32. 32. Direct displays
  33. 33. Keyword Queries - Single-search-box paradigm - Typical web search queries - “Telegraphic”, i.e., neither well-formed nor grammatically correct Keyword++ queries - Augmented with context - form/facet-based input - location/date/TOD/…
  34. 34. Example keyword++ queries
  35. 35. Example keyword++ queries
  36. 36. Interaction: recommendation, auto-completion
  37. 37. Interaction: recommendation, auto-completion
  38. 38. Want to learn more? d.odijk@uva.nl / daan.odijk.me Edgar Meij – @edgarmeij Yahoo Labs Krisztian Balog – @krisztianbalog University of Stavanger Daan Odijk – @dodijk University of Amsterdam Entity Linking and Retrieval Edgar Meij – @edgarmeij Yahoo! Research Krisztian Balog – @krisztianbalog University of Stavanger Daan Odijk – @dodijk University of Amsterdam Monday, May 13, 13 Tutorial on Entity Linking and Retrieval 
 for Semantic Search bit.ly/ELR-slides

×