SlideShare ist ein Scribd-Unternehmen logo
1 von 81
Downloaden Sie, um offline zu lesen
Анализ поисковых запросов

      Павел Браславский
      Павел Браславский
     CS клуб Екатеринбург
         5 и 6 мая 2011
План
• Введение, характеристики потока запросов, 
  данные для анализа
• Сегментация
• Тематическая классификация
  Тематическая классификация 
• Близкие запросы
• Практические задания

+ ИМАТ2011, EDBT/RuSSIR2011

               Павел Браславский ‐ Анализ запросов   2
ВВЕДЕНИЕ


           Павел Браславский ‐ Анализ запросов   3
Предварительные замечания
   Предварительные замечания
• Л
  Логи запросов – «опыт» и богатство МП
                           б         МП
• Современный поиск: «меньше информации, больше 
  контекста»
• Мало открытых данных ( проблема для 
  академических исследований)
• Проблемы с персональными данными (приватность)
• Очень короткие тексты – сложность анализа
• Недостаток информации компенсируется большими 
               ф                         б
  объемами данных (веб)




                 Павел Браславский ‐ Анализ запросов   4
Статистика запросов к Яндексу
Статистика запросов к Яндексу




         Павел Браславский ‐ Анализ запросов   5
Прямой эфир
Прямой эфир




 Павел Браславский ‐ Анализ запросов   6
Личная история запросов
Личная история запросов




      Павел Браславский ‐ Анализ запросов   7
Статистика слов запросов
Статистика слов запросов




       Павел Браславский ‐ Анализ запросов   8
Павел Браславский ‐ Анализ запросов   9
Павел Браславский ‐ Анализ запросов   10
Traffic Volume Over a Day
                    Traffic Volume Over a Day

          8%                                                                                         8%
                   Note the drop in query volum e during off
                                                         off-
                   peak tim e, and its subsequent rise
          6%       throughout the rem ainder of the day.                                             6%


 % of
 Daily    4%                                                                                         4%
Traffic


          2%                                                                                         2%
                                                                                Total Queries
                                                                                Distinct Queries
          0%                                                                                         0%
               0                  6                   12                   18                   24
                                                  Hour of Day



                                         Павел Браславский ‐ Анализ запросов    [Beitzel]                 11
Динамика запросов
Динамика запросов




     http://interes.yandex.ru/
     htt //i t         d     /

    Павел Браславский ‐ Анализ запросов   12
Несколько цифр
             Несколько цифр
•   Длина запроса 2‐3 слова
•   Поисковая сессия в среднем 3 запроса
    Поисковая сессия в среднем 3 запроса
•   2‐3% сформулированы как вопрос
•   12‐15% запросов содержат опечатки




                 Павел Браславский ‐ Анализ запросов   13
Запросы –
           Запросы вопросы




http://company.yandex.ru/facts/researches/ya_search_2009.xml


                     Павел Браславский ‐ Анализ запросов       14
Классификация запросов / информационных 
       потребностей (Broder, 2002)




             Павел Браславский ‐ Анализ запросов                 15
                                                   Baeza‐Yates
Category Breakdown
             Category Breakdown
                                            Sampled Categorized Query Stream Breakdown
• Query lists for each category                                            Personal
  formed by a team of human                                                Finance
                                                                             3%
  editors
   dit                                                                           Computing
                                                           Ot her
                                                                                    9%
• Query stream classified by                     T ravel
                                                           16%
                                                                                        Research &
  exactly matching each query 
  exactly matching each query                      5%                                     Learn
                                                                                            9%
  to category lists                             Sport s
                                                 3%
                                                                                        Ent ert ainment
                                                                                             13%
                                                   pp g
                                                Shopping
                                                  13%                                  Games
                                                                                        5% Health
                                                              Porn               Holidays    5%
                                                              10%                  1%
                                                               US Sites      Home
                                                                3%            5%




                       Павел Браславский ‐‐ Анализ запросов          [Beitzel]                   16
Category Popularity Over a Day
                     Category Popularity Over a Day
                                                                                                 P o rn
                                                                                                 E n t ert ain m en t
                                     C ategorical C overage Over Time                            Gam es
                                                                                                 Healt h
                                                                                                 P erso n al Fin an ce
                                                                                                 Sh o p p in g
                                                                                                 M usic
                    4%                                                                           USSit es
                                                                                                                         8%
                                                                                                 Vo l u m e
                                                                                                                         7%




                                                                                                                                                   olume
               ge




                    3%                                                                                                   6%
Percenta Coverag




                                                                                                                              Percentage of Total Vo
                                                                                                                         5%

                    2%                                                                                                   4%
       age




                                                                                                                                       e
                                                                                                                         3%

                    1%                                                                                                   2%

                                                                                                                         1%

                    0%                                                                                                   0%
                         0   1   2   3   4   5   6   7     8   9   10 11 12 13 14 15 16 17 18 19 20 21 22 23
                                                                   Hour of Da y




                                                         Павел Браславский ‐ Анализ запросов   [Beitzel]                                    17
Category Popularity Over Six Months
            Category Popularity Over Six Months

                                                          Sept     Oct       Nov      Dec      Jan
                                                                                                     2%
            Holidays
                  y                                          pp g
                                                          Shopping


                                                                                                     1%



                                                                                                     0%
      2%
             Sports                                      Government
% of
Total  1%
Query
Stream
      0%
            Sept      Oct    Nov     Dec   Jan   Feb
                            Months



                                       Павел Браславский ‐ Анализ запросов         [Beitzel]              18
Pearson Correlations for Selected 
     Categories Over A Day
                                                      0   6   12     18        24
                                                                                    1.0



                                                                                    0.5


                                   Personal Finance                        Music
                                                                                    0.0
             1.0



             0.5
             05


                                      Entertainment                       Movies
             0.0
                                                                                    1.0



                                                                                    0.5


                                             Games                   Computing
                                                                                    0.0
             1.0


 Pearson
             0.5
 Correlation

                                              Porn                 Government
             0.0
                   0   6      12        18       24

                       Hour of Day



                                     Павел Браславский ‐ Анализ запросов                  [Beitzel]   19
Источники и типы данных
Источники и типы данных




                                            Jiang et al. 2010
                                            Ji        l 2010
      Павел Браславский ‐ Анализ запросов                 20
Какая информация у нас есть?
    Какая информация у нас есть?
•   текст запроса
•   время
•   IP география
•   Cookie  (уникальный) пользователь
•   клики на результатах поиска
    клики на результатах поиска
•   (персональные данные, соцдем)



                Павел Браславский ‐ Анализ запросов   21
Данные (
           Данные (                        методы)
•   отдельные запросы
•   список запросов
    список запросов
•   + время
•   + сниппеты/документы
•   + клики
    + клики
•   …
Яндекс: ~6 Кбайт/запрос + ~0,5 Кб/клик


                    Павел Браславский ‐ Анализ запросов   22
Доступные данные
         Доступные данные
• Excite 1997, 1999, 2001
• AOL 2006
  AOL 2006
• ИМАТ 2004
• MSN Search query Log excerpt (RFP 2006 
  dataset))
• …



               Павел Браславский ‐ Анализ запросов   23
Excite 1997
                            Excite 1997
• З
  Запросы за один день (16
                        (16 сентября 1997 г.)
                                 б 1997 )
• userId, timeStamp, query
• ~1M запросов (много повторов)
    1M запросов (много повторов)
0C6B5395895CD808   970916125351          henri rousseau
0C6B5395895CD808   970916125511          henri rousseau+tiger
                                                           g
949946B881F137F0   970916115517          "pharmacy"
949946B881F137F0   970916115550          prescriptions
91A98BC9BEDCF053   970916075435          australian+chat+victoria
61305D2ADC74BC78   970916095742          dailyplanet
61305D2ADC74BC78   970916095846          dailyplanet
33D1A0D49E8DB2AB   970916144916          maizehighschool
33D1A0D49E8DB2AB   970916144951          maize high school
FCBB8401805D783F   970916212508          warez strata studio pro
FCBB8401805D783F   970916212541          warez mac
12FE04344578F249   970916202819          "midwife conference"
12FE04344578F249   970916202924          midwifery
477CC4190EF76EB4   970916165602          nrwmac
477CC4190EF76EB4   970916172706          npac
477CC4190EF76EB4   970916175242          nrwmac


                             Павел Браславский ‐ Анализ запросов    24
ИМАТ 2004
                        ИМАТ 2004
• 7 дней * 10% от 5‐10 миллионов запросов в 
       й* %
  день  3,5 Гб
<UID1>
         <запрос1> <время> <найдено документов> <номер страницы>
                <URL1> <время выбора>
                <URL2> <время выбора>
                ...
         <запрос2> <время> <найдено документов> <номер страницы>
                <URL1> <время выбора>
                <URL2> <время выбора>
                ...
         ...
<UID2>
         ...
                     http://company.yandex.ru/academic/grant/datasets_description.xml
                     http://company yandex ru/academic/grant/datasets description xml

                         Павел Браславский ‐ Анализ запросов                       25
AOL 2006
                                            AOL 2006
• Большой скандал!!!
• ~20M web queries from ~650k users over
   20M web queries from  650k users over 
  three months
 AnonID   Query                              QueryTime          ItemRank   ClickURL
  993     myspace.co                         01.03.2006 12:13
  993     myspace.com                        01.03.2006 12:13
  993     googl                              01.03.2006 15:03
  993     chasebadkids.net
           h b dk d                          03.03.2006 16:55      1       http://www.chasebadkids.net
                                                                           h //        h b dk d
  1268    ozark horse blankets               01.03.2006 17:39      8       http://www.blanketsnmore.com
  1268    www.ghostrockranch.com             04.03.2006 13:58
  1268    openrangeht.zachsairforce.com      09.03.2006 22:38
  1268    sstack.com                          11.03.2006 0:17
  1268    www.mecab.org
                     b                       12.03.2006 18:59
                                             12 03 2006 18 59
  1268    www.raindanceexpress.com           18.03.2006 20:13
  1268    www.victoriacostumiere.com          19.03.2006 0:26
  1268    osteen‐schaztberg.com              21.03.2006 17:55

  1268    osteen‐schatzberg.com              21.03.2006 17:55      1       http://www.osteen‐schatzberg.com

  1268    osteen‐schatzberg.com              21.03.2006 17:55      2       http://www.osteen‐schatzberg.com

                                          Павел Браславский ‐ Анализ запросов                                 26
MSN Search query Log excerpt
      MSN Search query Log excerpt
•   15 million queries 
    15 million queries
•   Sampled over one month 
•   Queries from the US site (mostly English) 

Per query attributes included: 
• Session ID 
• Time‐stamp
    Time stamp
• Query string 
• Number of results on results page 
• Results page number 
           p g

Data per query for each result clicked: 
• URL 
• Associated query 
• Position on results page 
• Time‐stamp 

                               Павел Браславский ‐ Анализ запросов   27
СЕГМЕНТАЦИЯ ЗАПРОСОВ


        Павел Браславский ‐ Анализ запросов   28
Сегментация запросов
              Сегментация запросов
 Сегментация: 
 1.
 1 поиск
 2. дальнейшая обработка запросов
международный почтамт | москва
молодежный отдых | в турции                   вечерняя москва vs пицца москва
официальный сайт | автоваз
официальный сайт | автоваз
Купить | кроссовки | Nike Zoom BB             банк москвы vs банки москвы
магазин | рыбачьте с нами
ирина круг | пусть сейчас я плачу| слушать 
сбербанк россии | в алтайском крае 
сбербанк россии | в алтайском крае
знак зодиака | близнецы
нино катамадзе | билеты 
Смысл названия | рассказа | матренин двор
Сергей Тармашев | | Корпорация | скачать | бесплатно 
                                |        |б

                              Павел Браславский ‐ Анализ запросов               29
Сегментация: подходы
          Сегментация: подходы
•   похоже на выделение устойчивых словосочетаний
•   + микросинтаксис
•   лог vs корпус текстов
•   ML (больше признаков, более богатое описание)
•   внешние ресурсы (Wikipedia)
              р ур (      p   )
•   эвристики ([дима билан] [димабилан])




                      Павел Браславский ‐ Анализ запросов   30
Сегментация на основе лога
Сегментация на основе лога
    conn(S) = freq(S)*I(w1…wn‐1;w2…wn)



   msdn library visual studio

   34259: (msdn library)[5110] (visual studio)[29149]
   29149: msdn[47658] library[209682] (visual studio)[29149]
   5110: (msdn library)[5110] visual[23873] studio[53622]
   41: (msdn library visual studio)[41]
   7: msdn[47658] (library visual studio)[7]
   0: msdn[47658] library[209682] visual[23873] studio[53622]




Risvik et al. WWW2003

                     Павел Браславский ‐ Анализ запросов        31
Сегментация на основе ML
       Сегментация на основе ML
нино | катамадзе | билеты  

  (0, 1, 0, 1, 1, 0)   (1, 1, 0, 1, 0, 1)




  Bergsma and Wang, 2007
     g           g,

                           Павел Браславский ‐ Анализ запросов   32
Сегментация: «наивный подход»
Сегментация: «наивный подход»
            На основе веб‐корпуса n‐грамм




Hagen at al. SIGIR2010
Hagen at al SIGIR2010

                         Павел Браславский ‐ Анализ запросов   33
ТЕМАТИЧЕСКАЯ 
КЛАССИФИКАЦИЯ

        Павел Браславский ‐ Анализ запросов   34
Тематическая классификация
   Тематическая классификация
Зачем??
• релевантность (в т.ч. рекламы)
  р             (       р      )
• вертикальные поиски
Данные
• список запросов
• коллекция текстов
• веб
• клики

               Павел Браславский ‐ Анализ запросов   35
Selectional Preferences: Step 1
   Selectional Preferences: Step 1
• Obtain a large log of unlabeled web queries
• View each query as pairs of lexical units:
  View each query as pairs of lexical units:
  – <head, tail>
  –O l
    Only applicable to queries of 2+ terms
             li bl         i    f2
  – Queries with n terms form n‐1 pairs
  – Example: “directions to DIMACS” forms two pairs:
     • <directions to DIMACS> and <directions to
       <directions, to DIMACS> and <directions to, 
       DIMACS>

                 Павел Браславский ‐ Анализ запросов   [Beitzel]   36
Selectional Preferences: Step 2
   Selectional Preferences: Step 2
• Obt i
  Obtain a set of manually labeled queries
             t f       ll l b l d       i
• Check the heads and tails of each pair to see if 
  they appear in the manually labeled set
   h           i h          ll l b l d
• Convert each <head, tail> pair into:
  – <head, CATEGORY> (forward preference)
  – <CATEGORY, tail> (backward preference)




                 Павел Браславский ‐ Анализ запросов   [Beitzel]   37
Selectional Preferences: Step 2
              Preferences: Step 2

                 “Personal Finance”
                      Category
                      …                                  Forward SP Rule:
 Query Log
                      banks
…                     bonds                              Head        Tail
Yahoo mail            stocks
                                                                       PERSONAL
interest rates        rates                              interest
                                                                        FINANCE
Ebay motors           savings
…                     checking
                      …



                   Павел Браславский ‐ Анализ запросов     [Beitzel]              38
Selectional Preferences: Step 3
    Selectional Preferences: Step 3
•   Score each preference using Resnik’s Selectional Preference 
    Strength formula:
             S ( x ) = D ( P ( U |x ) || P ( U ) )
                                                ⎛ P ( u |x ) ⎞
                                                        |
                    =   ∑     P ( u |x ) lo g 2 ⎜            ⎟
                          u                     ⎝  P (u ) ⎠

    Where u represents a category, as found in Step 2.
    S(x) is the sum of the weighted scores for every category 
    associated with a given lexical unit
           i d ih i         l i l i



                        Павел Браславский ‐ Анализ запросов   [Beitzel]   39
Selectional Preferences: Step 4
    Selectional Preferences: Step 4
•   Use the mined preferences and weighted scores from Steps 3 and 4 to 
    assign classifications to unseen queries

                                               Matching SP Rule:
                                                Head       Tail
        Incoming Query
      interest only loan                                          PERSONAL
                                               interest
                                                                  FINANCE



         “interest only loan” is c ss ed as a
            te est o y oa      s classified s
               PERSONAL FINANCE query.



                         Павел Браславский ‐ Анализ запросов   [Beitzel]     40
Selectional Preference Rule Examples
Selectional Preference Rule Examples

Forward Rules                                  Backward Rules
 – harlem club X
   harlem club X                                – X gets hot wont start
     • ENT‐>0.722                                      • AUTOS‐>2.049 
                                                       • PLACES‐>0.594
     • PLACES‐>0.378 
     • TRAVEL >1 531
       TRAVEL‐>1.531
                                                – X getaway bargain
                                                    g     y    g
                                                       • PLACES‐>0.877
 – harley all stainless X                              • SHOPPING‐>0.047
     • AUTOS‐>3.448                                    • TRAVEL‐>0.862 
     • SHOPPING‐>0.021                          – X getaway bargain hotel and 
 – harley chicks with X                           airfare
     • PORN‐>5.681
       PORN 5.681                                      • PLACES‐>0.594
                                                       • TRAVEL‐>2.057 




                            Павел Браславский ‐ Анализ запросов   [Beitzel]      41
На основе коллекции текстов
На основе коллекции текстов
                      запрос

                                         поиск



     дом    спорт                музыка          кино



15

10

5

0

           Павел Браславский ‐ Анализ запросов          42
KDD Cup 2005
                   KDD Cup 2005
•   Классификация запросов
•   800,000 запросов, 67 категорий
•   есть примеры, нет обучающего множества
                        б
•   нет подробного описания категорий
•   ответ системы: до 5 категорий 
    ответ системы: до 5 категорий
•   оценка: 800 запросов оцениваются тремя асессорами 
•   метрика: F1
    метрика: F1




                      Павел Браславский ‐ Анализ запросов   43
Nature of Problem
               Nature of Problem

    queries                         ?                          …   67 kdd-categories




         Phase I                                 Phase II

                         Page Categories   synonym-based
                                           classifier
query                                                          …   67 kdd-categories
        Search engines


                          Page Content
                                                 statistical
                                                 classifiers

                         Павел Браславский ‐ Анализ запросов       [Shen]         44
Phase I: From queries to pages and 
             categories 
                                             • We collected 
• Input:                                            – 40 million entries
   – A query: Qi,
     A query: Q ,                                   – 50GB
• Output:                                    • Search engines
   – <Page listi, Category listi >                  –   Lumur (CMU open source)
                                                              (     p         )
• Approach:                                         –   Google 
   – through Search Engines (SE)                    –   ODP
                                                    –   Looksmart
                                                        L k     t




                          Павел Браславский ‐ Анализ запросов       [Shen]        45
Phase II.a Synonym‐based Classifier: 
               using directories
     – 67 KDD‐categories in KDDCUP               •    Advantage
                                                        – Fast,
     – 172,565 in ODP/Google,
       172,565 in ODP/Google,                           – Precise
       272,405 in Looksmart                      •    Disadvantage
                                                        – Many of the 172K and 272K 
•   For each of the KDDCUP category
                               g y                        categories from ODP/Google 
                                                          and Looksmart d
                                                            dL k        t do not map to 
                                                                                t      t
     – Apply Wordnet to find the                          KDDCUP categories
       corresponding synonyms in the 
       categories of ODP (Google) and                   – This may result in low recall
       Looksmart, respectively
       Looksmart respectively
•   This produces one mapping 
    function f for each directory
     – Also returns a rank by matching
       Also returns a rank by matching 
       frequency




                              Павел Браславский ‐ Анализ запросов         [Shen]           46
Phase II.b: Statistical Classifiers
      Phase II b: Statistical Classifiers
•   Statistical Classifiers
    Statistical Classifiers
     – Support Vector Machine (SVM): mapping pages to KDDCUP categories
•   Training Data
     – 15 million pages with categories from ODP Directory
       15 million pages with categories from ODP
     – Apply the mapping f from Phase II.a, to build training data.  

              15 Million Pairs                  f                15 Million Pairs
            (page, odp-categories)                             (page, kdd-categories)
•   Application of the classifier
     – Construct a virtual document for each query by combining the snippets from the 
       returned pages given in Phase I.
     – Classifier returns category and rank




                                Павел Браславский ‐ Анализ запросов         [Shen]       47
Component Classifier Integration
  Component Classifier Integration
• W f ll
  We follow an ensemble learning approach
                    bl l     i          h
   – Each classifier returns the category and rank
   – The two kinds of classifiers have the similar performance.
                                                   p
   – We integrate the different classifiers together by a weighted 
     sum of the ranks
      • Weights can be determined by validation data set:
        Weights can be determined by validation data set:
           – Based on the performance on the 111 sample data;
           – Assign different weight values for a classifier on different categories
           – The higher the precision the higher the weight value
             The higher the precision, the higher the weight value
       • We have also tried to use equally weighted component 
         classifiers




                          Павел Браславский ‐ Анализ запросов      [Shen]              48
Final Result Generation
               Final Result Generation
•   Two Solutions: One for each evaluation criteria 
     – S1: Using the validation data set is expected to achieve better precision 
       measure 
       measure
           • Since each component classifier is highly weighted on the classes 
             where it achieves high precision.
     – S2 E
       S2: Equally weighted combination i
               ll    i ht d    bi ti is expected to achieve higher F1 
                                             t dt     hi    hi h F1
       performance 
           • Since the recall is relatively high
     – Evaluation Results (http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html)
                      Submission ID          Precision             F1
              S1             37             0.423741           0.426123
              S2             22             0.414067           0.444395

•   The Results are generated automatically.


                                   Павел Браславский ‐ Анализ запросов                    49
                                                                                 [Shen]
Putting them together
Putting them together




Phase I                    Phase II                      Ensemble
                                                [Shen]
          Павел Браславский ‐ Анализ запросов                   50
Классификация на основе кликов
Классификация на основе кликов




1. Расширение обучающего множества
2. Классификация на основе лексических признаков
3. Комбинация методов
           ц       д
      Li et al. SIGIR2008
                            Павел Браславский ‐ Анализ запросов   51
Классификация запросов



x – за рос y – к асс (0/1)
    запрос, y класс (0/1)
Признаки φ(x, y) - n‐граммы
[britney spears]
         spears] 
britney, spears, 
<s> britney, britney spears, spears </s>, 
<s> britney britney spears spears </s>
<s> britney spears, britney spears </s>

              Павел Браславский ‐ Анализ запросов   52
Распространение меток
      Распространение меток
• W – матрица mxn, wij – количество кликов на 
  документ j по запросу i
  д у              р у
• F – матрица mx2, fiy – вероятность 
  принадлежности запроса i классу y
  принадлежности запроса
• F0 – первоначальная разметка

• И
  Итерации:


               Павел Браславский ‐ Анализ запросов   53
Комбинация




Павел Браславский ‐ Анализ запросов   54
БЛИЗКИЕ ЗАПРОСЫ


        Павел Браславский ‐ Анализ запросов   55
михаил булгаков
 и аил булга ов                                богда с у а
                                               богдан ступка 
мастер и маргарита                             михаил боярский 
мастер и маргарита фильм 
мастер и маргарита фильм                       д'артаньян
владимир бортко                                три мушкетера
тарас бульба фильм                             александр дюма




              Павел Браславский ‐ Анализ запросов                 56
Подробнее
1.
1 Уточнение:
   золотое кольцо  золотое кольцо с бриллиантом
   ягуар  ягуар животное
     у р     у р
2. Расширение: 
   золотое кольцо  ювелирные украшения
    золотое кольцо  кольцо
3. Параллельный переход:  
   японская вишня  сакура
   мерседес ауди
   купить санки детский мир
   купить санки детский мир
   коралловый клуб  coral club


                 Павел Браславский ‐ Анализ запросов   57
Близкие, но «про другое»
       Близкие но «про другое»
•   Опечатки: курсовая робота – курсовая работа
•   Транслитерация: золото – zoloto
•   Раскладка: lbvf ,bkfy – дима билан
•   Реникса: otbeptka
    Реникса: otbeptka – отвертка




                  Павел Браславский ‐ Анализ запросов   58
Хороший запрос – это непросто
Хороший запрос это непросто

Назовите глагол из вопроса, помещенного 
   на борту транспортного средства 
      б                        д
       подопечных Фатиха Терима
      на первенстве континента?

    IX Кубок Яндекса по поиску (2008)
          http://kubok.yandex.ru

             Павел Браславский ‐ Анализ запросов   59
Работа мысли
                     Работа мысли
•   Фатих Терим
•   сборная турции на борту самолета 
•   сборная турции на борту самолета
    сборная турции "на борту" самолета 
•   сборная турции надпись "на борту" самолета 
•   сборная турции надпись "на борту" автобуса 
•   сборная турции надпись на автобусе 
•   футбол "сборная турции" надпись на автобусе 
•   чемпионат европы ф б " б
                      футбол "сборная турции" надпись на автобусе 
                                             "               б




                         Павел Браславский ‐ Анализ запросов         60
Ответ



Вместит ли автобус всю страсть Турции?
        ли автобус всю страсть Турции?




            Павел Браславский ‐ Анализ запросов   61
Павел Браславский ‐ Анализ запросов   62
Павел Браславский ‐ Анализ запросов   63
Павел Браславский ‐ Анализ запросов   64
Павел Браславский ‐ Анализ запросов   65
Павел Браславский ‐ Анализ запросов   66
Павел Браславский ‐ Анализ запросов   67
Источники данных
          Источники данных
• Лог запросов
• Текст ссылок
  Текст ссылок 
• Корпус текстов
  ford  ford focus, ford fusion, ford mondeo
  карта  карта памяти, карта города
  машина  стиральная машина, швейная машина 




                Павел Браславский ‐ Анализ запросов   68
Близость запросов
     Близость запросов


      q1          q2                  q3            q4

слова/буквы                                              сессии



                          клики




              Павел Браславский ‐ Анализ запросов                 69
Метод
запрос=<timeStamp, userId, queryText, ckicks>

0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки)

1. выделение сессий (по времени)




2. выделение пар (в.ч. транзитивно)




                        Павел Браславский ‐ Анализ запросов            70
Метод – 2 
                        Метод 2
3. нормализация запросов (
3                        (стоп‐слова, капитализация, лемматизация, 
сортировка слов + выбор лучшего обратного преобразования)

4. борьба со флешмобами и «событийными» ассоциациями 
4 борьба со флешмобами и «событийными» ассоциациями

5. матрица частоты переходов «запрос‐запрос» (пороги для 
пользователя, ограничение на абсолютную частоту)
пользователя ограничение на абсолютную частоту)

6. weight(q1    q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1)

7. ранжирование, отсечение по порогу

8. индекс: q 
     д     q    q ,q ,q ( р
                q1, q2, q3… (оригинальные запросы)
                                             р   )




                        Павел Браславский ‐ Анализ запросов           71
Оценка
•   «оценка глазами»
•   «классы объектов»
    «классы объектов»
•   кластеры запросов Яндекс.Директа
•   кликабельность




                Павел Браславский ‐ Анализ запросов   72
Результат




Павел Браславский ‐ Анализ запросов   73
Литература
•   Broder A. A Taxonomy of Web Search. SIGIR 2002.
•   Broder A. et al. Robust classification of rare queries using web knowledge. 
    SIGIR 2007.
•   Risvik K. M. et al. Query Segmentation for Web Search. WWW2003. 
•   Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation. 
    EMNLP‐CoNLL 2007.
•   Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010.
•   Beitzel, S.M. et al. Temporal analysis of a very large topically categorized 
    web query log, JASIST, vol. 58, no. 2, 2007.
•   Beitzel, S.M., et al. Automatic classification of web queries using very large 
    unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007.
       l b l d         l    ACM T        I f S     25(2) 9 2007
•   Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in 
    KDDCUP 2005, SIGKDD Explorations 7(2).
•   Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR 
    Li X      l L     i Q       I      f     R l i d Cli k G h SIGIR
    2008.



                             Павел Браславский ‐ Анализ запросов                 74
Ссылки
• И
  История про лог AOL – см. 
                      AOL
  http://en.wikipedia.org/wiki/AOL_search_data_scandal
• Поиск по логу AOL2006
   http://www.aolstalker.com/
   htt //          l t lk     /
• Query Log Analysis Workshop @ WWW2007, 
  http://querylogs2007.webir.org/
• KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html
• WSCD09: Workshop on Web Search Click Data 2009, 
  http://research.microsoft.com/users/nickcr/wscd09/
     p //                       /     /     /        /
• Microsoft Web N‐gram Services, http://research.microsoft.com/en‐
  us/collaboration/focus/cs/web‐ngram.aspx
• Jiang D et al Web Search/Browse Log Mining: Challenges
  Jiang D. et al. Web Search/Browse Log Mining: Challenges, 
  Methods, and Applications, http://research.microsoft.com/en‐
  us/people/djiang/web_search_and_browse_log_mining.pdf


                       Павел Браславский ‐ Анализ запросов       75
ПРАКТИКА


           Павел Браславский ‐ Анализ запросов   76
Практика
• З
  Задачи 
  – Сегментация
  – Тематическая классификация
    Тематическая классификация
  – Близкие запросы
• Данные – AOL2006
  Д
  http://www.gregsadetsky.com/aol‐data/
  – seed ~2000 запросов, 
    http://www.kansas.ru/querylog_analysis/2000queries.txt
    http://www kansas ru/querylog analysis/2000queries txt
  – + описания DMOZ для категорий второго уровня
    http://narod.ru/disk/371552001/dmoz_data.zip.html
• Можно использовать любые внешние ресурсы (не 
  человеческие ;)

                    Павел Браславский ‐ Анализ запросов      77
DMOZ
категори
к                     ня
       ии второго уровн




                           Павел Браславский ‐ Анализ запросов   78
Примеры
Сегментация
• at the vet | norman rockwell | litho
• big weenie | by eminem
Тематическая классификация
• big weenie by eminem ‐‐> Arts_Music /t Art_Television
До трех категорий, упорядоченных по уменьшению уверенности
Кластеризация
• 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyota
                        g                  p       g / y
  corolla /t toyota sienna hybrid
До 10 запросов из большого лога (сначала – самый близкий)

                        Павел Браславский ‐ Анализ запросов        79
• Присылайте по почте с темой 
  q y g_
  querylog_analysis_results
                 y _
• segmentation_имя_фамилия.txt
• classification_имя_фамилия.txt
   l ifi i           ф
• clustering имя_ф
            g_     фамилия.txt
• имя_фамилия.pdf ‐ краткое описание 
  методов


              Павел Браславский ‐ Анализ запросов   80
Павел Браславский
               Павел Браславский
               pb@yandex‐team.ru




Павел Браславский ‐ Анализ запросов   81

Weitere ähnliche Inhalte

Mehr von Uralcsclub

Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3Uralcsclub
 
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2Uralcsclub
 
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1Uralcsclub
 
Denis Perevalov -- Computer vision with OpenCV 1
Denis Perevalov -- Computer vision with OpenCV 1Denis Perevalov -- Computer vision with OpenCV 1
Denis Perevalov -- Computer vision with OpenCV 1Uralcsclub
 
Denis Perevalov -- Computer Vision with OpenCV 2
Denis Perevalov -- Computer Vision with OpenCV 2Denis Perevalov -- Computer Vision with OpenCV 2
Denis Perevalov -- Computer Vision with OpenCV 2Uralcsclub
 

Mehr von Uralcsclub (6)

Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part3
 
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part2
 
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1
Mikhail Roytberg - Sequence Analysis (from Biology to Linguistics) Part1
 
D
DD
D
 
Denis Perevalov -- Computer vision with OpenCV 1
Denis Perevalov -- Computer vision with OpenCV 1Denis Perevalov -- Computer vision with OpenCV 1
Denis Perevalov -- Computer vision with OpenCV 1
 
Denis Perevalov -- Computer Vision with OpenCV 2
Denis Perevalov -- Computer Vision with OpenCV 2Denis Perevalov -- Computer Vision with OpenCV 2
Denis Perevalov -- Computer Vision with OpenCV 2
 

Pavel Braslavskii - Query Analysis

  • 1. Анализ поисковых запросов Павел Браславский Павел Браславский CS клуб Екатеринбург 5 и 6 мая 2011
  • 2. План • Введение, характеристики потока запросов,  данные для анализа • Сегментация • Тематическая классификация Тематическая классификация  • Близкие запросы • Практические задания + ИМАТ2011, EDBT/RuSSIR2011 Павел Браславский ‐ Анализ запросов 2
  • 3. ВВЕДЕНИЕ Павел Браславский ‐ Анализ запросов 3
  • 4. Предварительные замечания Предварительные замечания • Л Логи запросов – «опыт» и богатство МП б МП • Современный поиск: «меньше информации, больше  контекста» • Мало открытых данных ( проблема для  академических исследований) • Проблемы с персональными данными (приватность) • Очень короткие тексты – сложность анализа • Недостаток информации компенсируется большими  ф б объемами данных (веб) Павел Браславский ‐ Анализ запросов 4
  • 5. Статистика запросов к Яндексу Статистика запросов к Яндексу Павел Браславский ‐ Анализ запросов 5
  • 7. Личная история запросов Личная история запросов Павел Браславский ‐ Анализ запросов 7
  • 8. Статистика слов запросов Статистика слов запросов Павел Браславский ‐ Анализ запросов 8
  • 11. Traffic Volume Over a Day Traffic Volume Over a Day 8% 8% Note the drop in query volum e during off off- peak tim e, and its subsequent rise 6% throughout the rem ainder of the day. 6% % of Daily 4% 4% Traffic 2% 2% Total Queries Distinct Queries 0% 0% 0 6 12 18 24 Hour of Day Павел Браславский ‐ Анализ запросов [Beitzel] 11
  • 12. Динамика запросов Динамика запросов http://interes.yandex.ru/ htt //i t d / Павел Браславский ‐ Анализ запросов 12
  • 13. Несколько цифр Несколько цифр • Длина запроса 2‐3 слова • Поисковая сессия в среднем 3 запроса Поисковая сессия в среднем 3 запроса • 2‐3% сформулированы как вопрос • 12‐15% запросов содержат опечатки Павел Браславский ‐ Анализ запросов 13
  • 14. Запросы – Запросы вопросы http://company.yandex.ru/facts/researches/ya_search_2009.xml Павел Браславский ‐ Анализ запросов 14
  • 15. Классификация запросов / информационных  потребностей (Broder, 2002) Павел Браславский ‐ Анализ запросов 15 Baeza‐Yates
  • 16. Category Breakdown Category Breakdown Sampled Categorized Query Stream Breakdown • Query lists for each category  Personal formed by a team of human  Finance 3% editors dit Computing Ot her 9% • Query stream classified by  T ravel 16% Research & exactly matching each query  exactly matching each query 5% Learn 9% to category lists Sport s 3% Ent ert ainment 13% pp g Shopping 13% Games 5% Health Porn Holidays 5% 10% 1% US Sites Home 3% 5% Павел Браславский ‐‐ Анализ запросов [Beitzel] 16
  • 17. Category Popularity Over a Day Category Popularity Over a Day P o rn E n t ert ain m en t C ategorical C overage Over Time Gam es Healt h P erso n al Fin an ce Sh o p p in g M usic 4% USSit es 8% Vo l u m e 7% olume ge 3% 6% Percenta Coverag Percentage of Total Vo 5% 2% 4% age e 3% 1% 2% 1% 0% 0% 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Hour of Da y Павел Браславский ‐ Анализ запросов [Beitzel] 17
  • 18. Category Popularity Over Six Months Category Popularity Over Six Months Sept Oct Nov Dec Jan 2% Holidays y pp g Shopping 1% 0% 2% Sports Government % of Total 1% Query Stream 0% Sept Oct Nov Dec Jan Feb Months Павел Браславский ‐ Анализ запросов [Beitzel] 18
  • 19. Pearson Correlations for Selected  Categories Over A Day 0 6 12 18 24 1.0 0.5 Personal Finance Music 0.0 1.0 0.5 05 Entertainment Movies 0.0 1.0 0.5 Games Computing 0.0 1.0 Pearson 0.5 Correlation Porn Government 0.0 0 6 12 18 24 Hour of Day Павел Браславский ‐ Анализ запросов [Beitzel] 19
  • 20. Источники и типы данных Источники и типы данных Jiang et al. 2010 Ji l 2010 Павел Браславский ‐ Анализ запросов 20
  • 21. Какая информация у нас есть? Какая информация у нас есть? • текст запроса • время • IP география • Cookie  (уникальный) пользователь • клики на результатах поиска клики на результатах поиска • (персональные данные, соцдем) Павел Браславский ‐ Анализ запросов 21
  • 22. Данные ( Данные ( методы) • отдельные запросы • список запросов список запросов • + время • + сниппеты/документы • + клики + клики • … Яндекс: ~6 Кбайт/запрос + ~0,5 Кб/клик Павел Браславский ‐ Анализ запросов 22
  • 23. Доступные данные Доступные данные • Excite 1997, 1999, 2001 • AOL 2006 AOL 2006 • ИМАТ 2004 • MSN Search query Log excerpt (RFP 2006  dataset)) • … Павел Браславский ‐ Анализ запросов 23
  • 24. Excite 1997 Excite 1997 • З Запросы за один день (16 (16 сентября 1997 г.) б 1997 ) • userId, timeStamp, query • ~1M запросов (много повторов) 1M запросов (много повторов) 0C6B5395895CD808 970916125351 henri rousseau 0C6B5395895CD808 970916125511 henri rousseau+tiger g 949946B881F137F0 970916115517 "pharmacy" 949946B881F137F0 970916115550 prescriptions 91A98BC9BEDCF053 970916075435 australian+chat+victoria 61305D2ADC74BC78 970916095742 dailyplanet 61305D2ADC74BC78 970916095846 dailyplanet 33D1A0D49E8DB2AB 970916144916 maizehighschool 33D1A0D49E8DB2AB 970916144951 maize high school FCBB8401805D783F 970916212508 warez strata studio pro FCBB8401805D783F 970916212541 warez mac 12FE04344578F249 970916202819 "midwife conference" 12FE04344578F249 970916202924 midwifery 477CC4190EF76EB4 970916165602 nrwmac 477CC4190EF76EB4 970916172706 npac 477CC4190EF76EB4 970916175242 nrwmac Павел Браславский ‐ Анализ запросов 24
  • 25. ИМАТ 2004 ИМАТ 2004 • 7 дней * 10% от 5‐10 миллионов запросов в  й* % день  3,5 Гб <UID1> <запрос1> <время> <найдено документов> <номер страницы> <URL1> <время выбора> <URL2> <время выбора> ... <запрос2> <время> <найдено документов> <номер страницы> <URL1> <время выбора> <URL2> <время выбора> ... ... <UID2> ... http://company.yandex.ru/academic/grant/datasets_description.xml http://company yandex ru/academic/grant/datasets description xml Павел Браславский ‐ Анализ запросов 25
  • 26. AOL 2006 AOL 2006 • Большой скандал!!! • ~20M web queries from ~650k users over 20M web queries from  650k users over  three months AnonID Query QueryTime ItemRank ClickURL 993 myspace.co 01.03.2006 12:13 993 myspace.com 01.03.2006 12:13 993 googl 01.03.2006 15:03 993 chasebadkids.net h b dk d 03.03.2006 16:55 1 http://www.chasebadkids.net h // h b dk d 1268 ozark horse blankets 01.03.2006 17:39 8 http://www.blanketsnmore.com 1268 www.ghostrockranch.com 04.03.2006 13:58 1268 openrangeht.zachsairforce.com 09.03.2006 22:38 1268 sstack.com 11.03.2006 0:17 1268 www.mecab.org b 12.03.2006 18:59 12 03 2006 18 59 1268 www.raindanceexpress.com 18.03.2006 20:13 1268 www.victoriacostumiere.com 19.03.2006 0:26 1268 osteen‐schaztberg.com 21.03.2006 17:55 1268 osteen‐schatzberg.com 21.03.2006 17:55 1 http://www.osteen‐schatzberg.com 1268 osteen‐schatzberg.com 21.03.2006 17:55 2 http://www.osteen‐schatzberg.com Павел Браславский ‐ Анализ запросов 26
  • 27. MSN Search query Log excerpt MSN Search query Log excerpt • 15 million queries  15 million queries • Sampled over one month  • Queries from the US site (mostly English)  Per query attributes included:  • Session ID  • Time‐stamp Time stamp • Query string  • Number of results on results page  • Results page number  p g Data per query for each result clicked:  • URL  • Associated query  • Position on results page  • Time‐stamp  Павел Браславский ‐ Анализ запросов 27
  • 28. СЕГМЕНТАЦИЯ ЗАПРОСОВ Павел Браславский ‐ Анализ запросов 28
  • 29. Сегментация запросов Сегментация запросов Сегментация:  1. 1 поиск 2. дальнейшая обработка запросов международный почтамт | москва молодежный отдых | в турции вечерняя москва vs пицца москва официальный сайт | автоваз официальный сайт | автоваз Купить | кроссовки | Nike Zoom BB банк москвы vs банки москвы магазин | рыбачьте с нами ирина круг | пусть сейчас я плачу| слушать  сбербанк россии | в алтайском крае  сбербанк россии | в алтайском крае знак зодиака | близнецы нино катамадзе | билеты  Смысл названия | рассказа | матренин двор Сергей Тармашев | | Корпорация | скачать | бесплатно  | |б Павел Браславский ‐ Анализ запросов 29
  • 30. Сегментация: подходы Сегментация: подходы • похоже на выделение устойчивых словосочетаний • + микросинтаксис • лог vs корпус текстов • ML (больше признаков, более богатое описание) • внешние ресурсы (Wikipedia) р ур ( p ) • эвристики ([дима билан] [димабилан]) Павел Браславский ‐ Анализ запросов 30
  • 31. Сегментация на основе лога Сегментация на основе лога conn(S) = freq(S)*I(w1…wn‐1;w2…wn) msdn library visual studio 34259: (msdn library)[5110] (visual studio)[29149] 29149: msdn[47658] library[209682] (visual studio)[29149] 5110: (msdn library)[5110] visual[23873] studio[53622] 41: (msdn library visual studio)[41] 7: msdn[47658] (library visual studio)[7] 0: msdn[47658] library[209682] visual[23873] studio[53622] Risvik et al. WWW2003 Павел Браславский ‐ Анализ запросов 31
  • 32. Сегментация на основе ML Сегментация на основе ML нино | катамадзе | билеты   (0, 1, 0, 1, 1, 0) (1, 1, 0, 1, 0, 1) Bergsma and Wang, 2007 g g, Павел Браславский ‐ Анализ запросов 32
  • 33. Сегментация: «наивный подход» Сегментация: «наивный подход» На основе веб‐корпуса n‐грамм Hagen at al. SIGIR2010 Hagen at al SIGIR2010 Павел Браславский ‐ Анализ запросов 33
  • 34. ТЕМАТИЧЕСКАЯ  КЛАССИФИКАЦИЯ Павел Браславский ‐ Анализ запросов 34
  • 35. Тематическая классификация Тематическая классификация Зачем?? • релевантность (в т.ч. рекламы) р ( р ) • вертикальные поиски Данные • список запросов • коллекция текстов • веб • клики Павел Браславский ‐ Анализ запросов 35
  • 36. Selectional Preferences: Step 1 Selectional Preferences: Step 1 • Obtain a large log of unlabeled web queries • View each query as pairs of lexical units: View each query as pairs of lexical units: – <head, tail> –O l Only applicable to queries of 2+ terms li bl i f2 – Queries with n terms form n‐1 pairs – Example: “directions to DIMACS” forms two pairs: • <directions to DIMACS> and <directions to <directions, to DIMACS> and <directions to,  DIMACS> Павел Браславский ‐ Анализ запросов [Beitzel] 36
  • 37. Selectional Preferences: Step 2 Selectional Preferences: Step 2 • Obt i Obtain a set of manually labeled queries t f ll l b l d i • Check the heads and tails of each pair to see if  they appear in the manually labeled set h i h ll l b l d • Convert each <head, tail> pair into: – <head, CATEGORY> (forward preference) – <CATEGORY, tail> (backward preference) Павел Браславский ‐ Анализ запросов [Beitzel] 37
  • 38. Selectional Preferences: Step 2 Preferences: Step 2 “Personal Finance” Category … Forward SP Rule: Query Log banks … bonds Head Tail Yahoo mail stocks PERSONAL interest rates rates interest FINANCE Ebay motors savings … checking … Павел Браславский ‐ Анализ запросов [Beitzel] 38
  • 39. Selectional Preferences: Step 3 Selectional Preferences: Step 3 • Score each preference using Resnik’s Selectional Preference  Strength formula: S ( x ) = D ( P ( U |x ) || P ( U ) ) ⎛ P ( u |x ) ⎞ | = ∑ P ( u |x ) lo g 2 ⎜ ⎟ u ⎝ P (u ) ⎠ Where u represents a category, as found in Step 2. S(x) is the sum of the weighted scores for every category  associated with a given lexical unit i d ih i l i l i Павел Браславский ‐ Анализ запросов [Beitzel] 39
  • 40. Selectional Preferences: Step 4 Selectional Preferences: Step 4 • Use the mined preferences and weighted scores from Steps 3 and 4 to  assign classifications to unseen queries Matching SP Rule: Head Tail Incoming Query interest only loan PERSONAL interest FINANCE “interest only loan” is c ss ed as a te est o y oa s classified s PERSONAL FINANCE query. Павел Браславский ‐ Анализ запросов [Beitzel] 40
  • 41. Selectional Preference Rule Examples Selectional Preference Rule Examples Forward Rules Backward Rules – harlem club X harlem club X – X gets hot wont start • ENT‐>0.722  • AUTOS‐>2.049  • PLACES‐>0.594 • PLACES‐>0.378  • TRAVEL >1 531 TRAVEL‐>1.531 – X getaway bargain g y g • PLACES‐>0.877 – harley all stainless X • SHOPPING‐>0.047 • AUTOS‐>3.448 • TRAVEL‐>0.862  • SHOPPING‐>0.021  – X getaway bargain hotel and  – harley chicks with X airfare • PORN‐>5.681 PORN 5.681  • PLACES‐>0.594 • TRAVEL‐>2.057  Павел Браславский ‐ Анализ запросов [Beitzel] 41
  • 42. На основе коллекции текстов На основе коллекции текстов запрос поиск дом спорт музыка кино 15 10 5 0 Павел Браславский ‐ Анализ запросов 42
  • 43. KDD Cup 2005 KDD Cup 2005 • Классификация запросов • 800,000 запросов, 67 категорий • есть примеры, нет обучающего множества б • нет подробного описания категорий • ответ системы: до 5 категорий  ответ системы: до 5 категорий • оценка: 800 запросов оцениваются тремя асессорами  • метрика: F1 метрика: F1 Павел Браславский ‐ Анализ запросов 43
  • 44. Nature of Problem Nature of Problem queries ? … 67 kdd-categories Phase I Phase II Page Categories synonym-based classifier query … 67 kdd-categories Search engines Page Content statistical classifiers Павел Браславский ‐ Анализ запросов [Shen] 44
  • 45. Phase I: From queries to pages and  categories  • We collected  • Input:  – 40 million entries – A query: Qi, A query: Q ,  – 50GB • Output:  • Search engines – <Page listi, Category listi >  – Lumur (CMU open source) ( p ) • Approach:  – Google  – through Search Engines (SE) – ODP – Looksmart L k t Павел Браславский ‐ Анализ запросов [Shen] 45
  • 46. Phase II.a Synonym‐based Classifier:  using directories – 67 KDD‐categories in KDDCUP • Advantage – Fast, – 172,565 in ODP/Google, 172,565 in ODP/Google,  – Precise 272,405 in Looksmart • Disadvantage – Many of the 172K and 272K  • For each of the KDDCUP category g y categories from ODP/Google  and Looksmart d dL k t do not map to  t t – Apply Wordnet to find the  KDDCUP categories corresponding synonyms in the  categories of ODP (Google) and  – This may result in low recall Looksmart, respectively Looksmart respectively • This produces one mapping  function f for each directory – Also returns a rank by matching Also returns a rank by matching  frequency Павел Браславский ‐ Анализ запросов [Shen] 46
  • 47. Phase II.b: Statistical Classifiers Phase II b: Statistical Classifiers • Statistical Classifiers Statistical Classifiers – Support Vector Machine (SVM): mapping pages to KDDCUP categories • Training Data – 15 million pages with categories from ODP Directory 15 million pages with categories from ODP – Apply the mapping f from Phase II.a, to build training data.   15 Million Pairs f 15 Million Pairs (page, odp-categories) (page, kdd-categories) • Application of the classifier – Construct a virtual document for each query by combining the snippets from the  returned pages given in Phase I. – Classifier returns category and rank Павел Браславский ‐ Анализ запросов [Shen] 47
  • 48. Component Classifier Integration Component Classifier Integration • W f ll We follow an ensemble learning approach bl l i h – Each classifier returns the category and rank – The two kinds of classifiers have the similar performance. p – We integrate the different classifiers together by a weighted  sum of the ranks • Weights can be determined by validation data set: Weights can be determined by validation data set: – Based on the performance on the 111 sample data; – Assign different weight values for a classifier on different categories – The higher the precision the higher the weight value The higher the precision, the higher the weight value • We have also tried to use equally weighted component  classifiers Павел Браславский ‐ Анализ запросов [Shen] 48
  • 49. Final Result Generation Final Result Generation • Two Solutions: One for each evaluation criteria  – S1: Using the validation data set is expected to achieve better precision  measure  measure • Since each component classifier is highly weighted on the classes  where it achieves high precision. – S2 E S2: Equally weighted combination i ll i ht d bi ti is expected to achieve higher F1  t dt hi hi h F1 performance  • Since the recall is relatively high – Evaluation Results (http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html) Submission ID Precision F1 S1 37 0.423741 0.426123 S2 22 0.414067 0.444395 • The Results are generated automatically. Павел Браславский ‐ Анализ запросов 49 [Shen]
  • 50. Putting them together Putting them together Phase I Phase II Ensemble [Shen] Павел Браславский ‐ Анализ запросов 50
  • 51. Классификация на основе кликов Классификация на основе кликов 1. Расширение обучающего множества 2. Классификация на основе лексических признаков 3. Комбинация методов ц д Li et al. SIGIR2008 Павел Браславский ‐ Анализ запросов 51
  • 52. Классификация запросов x – за рос y – к асс (0/1) запрос, y класс (0/1) Признаки φ(x, y) - n‐граммы [britney spears] spears]  britney, spears,  <s> britney, britney spears, spears </s>,  <s> britney britney spears spears </s> <s> britney spears, britney spears </s> Павел Браславский ‐ Анализ запросов 52
  • 53. Распространение меток Распространение меток • W – матрица mxn, wij – количество кликов на  документ j по запросу i д у р у • F – матрица mx2, fiy – вероятность  принадлежности запроса i классу y принадлежности запроса • F0 – первоначальная разметка • И Итерации: Павел Браславский ‐ Анализ запросов 53
  • 55. БЛИЗКИЕ ЗАПРОСЫ Павел Браславский ‐ Анализ запросов 55
  • 56. михаил булгаков и аил булга ов богда с у а богдан ступка  мастер и маргарита михаил боярский  мастер и маргарита фильм  мастер и маргарита фильм д'артаньян владимир бортко три мушкетера тарас бульба фильм  александр дюма Павел Браславский ‐ Анализ запросов 56
  • 57. Подробнее 1. 1 Уточнение: золотое кольцо  золотое кольцо с бриллиантом ягуар  ягуар животное у р у р 2. Расширение:  золотое кольцо  ювелирные украшения золотое кольцо  кольцо 3. Параллельный переход:   японская вишня  сакура мерседес ауди купить санки детский мир купить санки детский мир коралловый клуб  coral club Павел Браславский ‐ Анализ запросов 57
  • 58. Близкие, но «про другое» Близкие но «про другое» • Опечатки: курсовая робота – курсовая работа • Транслитерация: золото – zoloto • Раскладка: lbvf ,bkfy – дима билан • Реникса: otbeptka Реникса: otbeptka – отвертка Павел Браславский ‐ Анализ запросов 58
  • 59. Хороший запрос – это непросто Хороший запрос это непросто Назовите глагол из вопроса, помещенного  на борту транспортного средства  б д подопечных Фатиха Терима на первенстве континента? IX Кубок Яндекса по поиску (2008) http://kubok.yandex.ru Павел Браславский ‐ Анализ запросов 59
  • 60. Работа мысли Работа мысли • Фатих Терим • сборная турции на борту самолета  • сборная турции на борту самолета сборная турции "на борту" самолета  • сборная турции надпись "на борту" самолета  • сборная турции надпись "на борту" автобуса  • сборная турции надпись на автобусе  • футбол "сборная турции" надпись на автобусе  • чемпионат европы ф б " б футбол "сборная турции" надпись на автобусе  " б Павел Браславский ‐ Анализ запросов 60
  • 61. Ответ Вместит ли автобус всю страсть Турции? ли автобус всю страсть Турции? Павел Браславский ‐ Анализ запросов 61
  • 68. Источники данных Источники данных • Лог запросов • Текст ссылок Текст ссылок  • Корпус текстов ford  ford focus, ford fusion, ford mondeo карта  карта памяти, карта города машина  стиральная машина, швейная машина  Павел Браславский ‐ Анализ запросов 68
  • 69. Близость запросов Близость запросов q1 q2 q3 q4 слова/буквы сессии клики Павел Браславский ‐ Анализ запросов 69
  • 71. Метод – 2  Метод 2 3. нормализация запросов ( 3 (стоп‐слова, капитализация, лемматизация,  сортировка слов + выбор лучшего обратного преобразования) 4. борьба со флешмобами и «событийными» ассоциациями  4 борьба со флешмобами и «событийными» ассоциациями 5. матрица частоты переходов «запрос‐запрос» (пороги для  пользователя, ограничение на абсолютную частоту) пользователя ограничение на абсолютную частоту) 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс: q  д q q ,q ,q ( р q1, q2, q3… (оригинальные запросы) р ) Павел Браславский ‐ Анализ запросов 71
  • 72. Оценка • «оценка глазами» • «классы объектов» «классы объектов» • кластеры запросов Яндекс.Директа • кликабельность Павел Браславский ‐ Анализ запросов 72
  • 74. Литература • Broder A. A Taxonomy of Web Search. SIGIR 2002. • Broder A. et al. Robust classification of rare queries using web knowledge.  SIGIR 2007. • Risvik K. M. et al. Query Segmentation for Web Search. WWW2003.  • Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation.  EMNLP‐CoNLL 2007. • Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010. • Beitzel, S.M. et al. Temporal analysis of a very large topically categorized  web query log, JASIST, vol. 58, no. 2, 2007. • Beitzel, S.M., et al. Automatic classification of web queries using very large  unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007. l b l d l ACM T I f S 25(2) 9 2007 • Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in  KDDCUP 2005, SIGKDD Explorations 7(2). • Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR  Li X l L i Q I f R l i d Cli k G h SIGIR 2008. Павел Браславский ‐ Анализ запросов 74
  • 75. Ссылки • И История про лог AOL – см.  AOL http://en.wikipedia.org/wiki/AOL_search_data_scandal • Поиск по логу AOL2006 http://www.aolstalker.com/ htt // l t lk / • Query Log Analysis Workshop @ WWW2007,  http://querylogs2007.webir.org/ • KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html • WSCD09: Workshop on Web Search Click Data 2009,  http://research.microsoft.com/users/nickcr/wscd09/ p // / / / / • Microsoft Web N‐gram Services, http://research.microsoft.com/en‐ us/collaboration/focus/cs/web‐ngram.aspx • Jiang D et al Web Search/Browse Log Mining: Challenges Jiang D. et al. Web Search/Browse Log Mining: Challenges,  Methods, and Applications, http://research.microsoft.com/en‐ us/people/djiang/web_search_and_browse_log_mining.pdf Павел Браславский ‐ Анализ запросов 75
  • 76. ПРАКТИКА Павел Браславский ‐ Анализ запросов 76
  • 77. Практика • З Задачи  – Сегментация – Тематическая классификация Тематическая классификация – Близкие запросы • Данные – AOL2006 Д http://www.gregsadetsky.com/aol‐data/ – seed ~2000 запросов,  http://www.kansas.ru/querylog_analysis/2000queries.txt http://www kansas ru/querylog analysis/2000queries txt – + описания DMOZ для категорий второго уровня http://narod.ru/disk/371552001/dmoz_data.zip.html • Можно использовать любые внешние ресурсы (не  человеческие ;) Павел Браславский ‐ Анализ запросов 77
  • 78. DMOZ категори к ня ии второго уровн Павел Браславский ‐ Анализ запросов 78
  • 79. Примеры Сегментация • at the vet | norman rockwell | litho • big weenie | by eminem Тематическая классификация • big weenie by eminem ‐‐> Arts_Music /t Art_Television До трех категорий, упорядоченных по уменьшению уверенности Кластеризация • 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyota g p g / y corolla /t toyota sienna hybrid До 10 запросов из большого лога (сначала – самый близкий) Павел Браславский ‐ Анализ запросов 79
  • 80. • Присылайте по почте с темой  q y g_ querylog_analysis_results y _ • segmentation_имя_фамилия.txt • classification_имя_фамилия.txt l ifi i ф • clustering имя_ф g_ фамилия.txt • имя_фамилия.pdf ‐ краткое описание  методов Павел Браславский ‐ Анализ запросов 80
  • 81. Павел Браславский Павел Браславский pb@yandex‐team.ru Павел Браславский ‐ Анализ запросов 81