SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Что такое близкие запросы, как их найти и использовать Павел БраславскийЛия КареповаМаксим КоролевСветлана Шорина
Что такое «близкие ЗАПРОСЫ»? 2
михаилбулгаков мастер и маргарита мастер и маргарита фильм  владимирбортко тарасбульба фильм  3 богдан ступка  михаил боярский  д'артаньян три мушкетера александрдюма
Подробнее Уточнение:золотое кольцо  золотое кольцо с бриллиантом Снятие неоднозначности: ягуар ягуар животное Расширение: золотое кольцо  ювелирные украшения Синоним:  японская вишня сакура 4
Еще подробнее Другой запрос на ту же тему: мерседесауди Смена поисковой цели:купить санкидетский мир Перевод: коралловый клуб coral club 5
Близкие, но «про другое» Опечатки:курсовая робота – курсовая работа Транслитерация: золото – zoloto Раскладка: lbvf ,bkfy – димабилан Реникса: otbeptka – отвертка 6
Хороший запрос – это непросто 7
Назовите глагол из вопроса, помещенного на борту транспортного средства подопечных ФатихаТеримана первенстве континента? IX Кубок Яндекса по поиску (2008) 8
Работа мысли ФатихТерим сборная турции на борту самолета  сборная турции "на борту" самолета  сборная турции надпись "на борту" самолета  сборная турции надпись "на борту" автобуса  сборная турции надпись на автобусе  футбол "сборная турции" надпись на автобусе  чемпионат европы футбол "сборная турции" надпись на автобусе  9
Ответ Вместит ли автобус всю страсть Турции? 10
Помочь пользователю 11
12
13
14
15
16
17
Где искать, как извлечь? 18
Источники данных Лог запросов Текст ссылок  Корпус текстов ford  ford focus, ford fusion, ford mondeo карта карта памяти, карта города машина  стиральная машина, швейная машина  19
Близость запросов 20 q2 q3 q4 q1 слова/буквы сессии клики
Требования Семантическая близость запросов Без ошибок, опечаток, обрезанных словосочетаний Без смысловых дублей (шарон стоун, шерон стоун)  Недопустимо – порно, мат, оскорбительная лексика Плохо: гео-зависимые запросы в чужом регионе, неактуальные запросы (о прошедших событиях)  21
запрос=<timeStamp, userId, queryText, ckicks> 0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки) 1. выделение сессий (по времени) 2. выделение пар (в.ч. транзитивно) 22
23 3. нормализация запросов (стоп-слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования) 4. борьба со флешмобами и «событийными» ассоциациями  5. матрица частоты переходов «запрос-запрос» (пороги для пользователя, ограничение на абсолютную частоту)
24 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс:q  q1, q2, q3… (оригинальные запросы)
Оценка «оценка глазами» «классы объектов» кластеры запросов Яндекс.Директа кликабельность 25
результат 26
27
Выбор пользователей 28
Спрос/предложение 29
Где еще можно использовать? Реклама Качество поиска 30
Спасибо за внимание! 31
32 Павел Браславский pb@yandex-team.ruЛия КареповаМаксим КоролевСветлана Шорина

Weitere ähnliche Inhalte

Was ist angesagt?

Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
ATOR
 
Ссылки в нормативных документах
Ссылки в нормативных документахСсылки в нормативных документах
Ссылки в нормативных документах
Andrey Subbota
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
Penguin Tux
 
источники информации
источники информацииисточники информации
источники информации
Nikita Kuzmin
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
yaevents
 

Was ist angesagt? (17)

The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017The Market for Cryptocurrencies 2017
The Market for Cryptocurrencies 2017
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
 
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...Концепции, методы и способы миграции основных и переменных данных в КИС (част...
Концепции, методы и способы миграции основных и переменных данных в КИС (част...
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...Анализ  спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
Анализ спроса туров на новогодние праздники (2013/14гг) на основе статистиче...
 
Ссылки в нормативных документах
Ссылки в нормативных документахСсылки в нормативных документах
Ссылки в нормативных документах
 
Lw стандарт тех.сопровождения
Lw стандарт тех.сопровожденияLw стандарт тех.сопровождения
Lw стандарт тех.сопровождения
 
презентация интернет
презентация интернетпрезентация интернет
презентация интернет
 
источники информации
источники информацииисточники информации
источники информации
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
 
Итоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛИтоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛ
 
Максим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаемМаксим Горкунов — Локализация в Яндексе: как мы это делаем
Максим Горкунов — Локализация в Яндексе: как мы это делаем
 
Поиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поискаПоиск информации в Интернете. Рекомендации эффективного поиска
Поиск информации в Интернете. Рекомендации эффективного поиска
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...Nobody is forgotten - search for information about combatants of Great Patrio...
Nobody is forgotten - search for information about combatants of Great Patrio...
 

Andere mochten auch

Anatol filin pragmatic documentation 1_r
Anatol filin  pragmatic documentation 1_rAnatol filin  pragmatic documentation 1_r
Anatol filin pragmatic documentation 1_r
rit2010
 
Ilia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решенийIlia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решений
rit2010
 
Alexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extraAlexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extra
rit2010
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
rit2010
 
Alexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudoAlexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudo
rit2010
 
Sphinx new
Sphinx newSphinx new
Sphinx new
rit2010
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
rit2010
 
Microsoft cluster systems ritconf
Microsoft cluster systems ritconfMicrosoft cluster systems ritconf
Microsoft cluster systems ritconf
rit2010
 

Andere mochten auch (8)

Anatol filin pragmatic documentation 1_r
Anatol filin  pragmatic documentation 1_rAnatol filin  pragmatic documentation 1_r
Anatol filin pragmatic documentation 1_r
 
Ilia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решенийIlia kantor паттерны серверных comet решений
Ilia kantor паттерны серверных comet решений
 
Alexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extraAlexandre.iline rit 2010 java_fxui_extra
Alexandre.iline rit 2010 java_fxui_extra
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
 
Alexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudoAlexei shilov 2010 rit-rakudo
Alexei shilov 2010 rit-rakudo
 
Sphinx new
Sphinx newSphinx new
Sphinx new
 
анатомия интернет банка Publish
анатомия интернет банка Publishанатомия интернет банка Publish
анатомия интернет банка Publish
 
Microsoft cluster systems ritconf
Microsoft cluster systems ritconfMicrosoft cluster systems ritconf
Microsoft cluster systems ritconf
 

Mehr von rit2010

Konstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчикуKonstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчику
rit2010
 
Bykov monitoring mailru
Bykov monitoring mailruBykov monitoring mailru
Bykov monitoring mailru
rit2010
 
Alexander shigin slides
Alexander shigin slidesAlexander shigin slides
Alexander shigin slides
rit2010
 
иван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейсиван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейс
rit2010
 
Andrey Petrov P D P
Andrey Petrov P D PAndrey Petrov P D P
Andrey Petrov P D P
rit2010
 
Andrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсовAndrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсов
rit2010
 
Dmitry lohansky rit2010
Dmitry lohansky rit2010Dmitry lohansky rit2010
Dmitry lohansky rit2010
rit2010
 
Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010
rit2010
 
Related Queries Braslavski Yandex
Related Queries Braslavski YandexRelated Queries Braslavski Yandex
Related Queries Braslavski Yandex
rit2010
 
молчанов сергей датацентры 10 04 2010 Light
молчанов сергей датацентры 10 04 2010  Lightмолчанов сергей датацентры 10 04 2010  Light
молчанов сергей датацентры 10 04 2010 Light
rit2010
 
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample SdkSergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
rit2010
 
Serge P Nekoval Grails
Serge P  Nekoval GrailsSerge P  Nekoval Grails
Serge P Nekoval Grails
rit2010
 
Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2
rit2010
 
Eugene Lisitsky Web Sockets
Eugene Lisitsky Web SocketsEugene Lisitsky Web Sockets
Eugene Lisitsky Web Sockets
rit2010
 
Alexey Bazhin Balancing
Alexey Bazhin BalancingAlexey Bazhin Balancing
Alexey Bazhin Balancing
rit2010
 
рит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглыйрит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглый
rit2010
 
левин михаил выступление на рит большие картинки
левин михаил выступление на рит   большие картинкилевин михаил выступление на рит   большие картинки
левин михаил выступление на рит большие картинки
rit2010
 
левин михаил выступление на рит
левин михаил выступление на ритлевин михаил выступление на рит
левин михаил выступление на рит
rit2010
 
антон веснин Rails Application Servers
антон веснин Rails Application Serversантон веснин Rails Application Servers
антон веснин Rails Application Servers
rit2010
 
олег царев Rit 2010 реляционные субд и их нереляционные реализации
олег царев Rit 2010   реляционные субд и их нереляционные реализацииолег царев Rit 2010   реляционные субд и их нереляционные реализации
олег царев Rit 2010 реляционные субд и их нереляционные реализации
rit2010
 

Mehr von rit2010 (20)

Konstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчикуKonstantin kolomeetz послание внутреннему заказчику
Konstantin kolomeetz послание внутреннему заказчику
 
Bykov monitoring mailru
Bykov monitoring mailruBykov monitoring mailru
Bykov monitoring mailru
 
Alexander shigin slides
Alexander shigin slidesAlexander shigin slides
Alexander shigin slides
 
иван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейсиван василевич Eye tracking и нейрокомпьютерный интерфейс
иван василевич Eye tracking и нейрокомпьютерный интерфейс
 
Andrey Petrov P D P
Andrey Petrov P D PAndrey Petrov P D P
Andrey Petrov P D P
 
Andrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсовAndrey Petrov методология P D P, часть 1, цели вместо кейсов
Andrey Petrov методология P D P, часть 1, цели вместо кейсов
 
Dmitry lohansky rit2010
Dmitry lohansky rit2010Dmitry lohansky rit2010
Dmitry lohansky rit2010
 
Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010Dmitry Lohansky Rit2010
Dmitry Lohansky Rit2010
 
Related Queries Braslavski Yandex
Related Queries Braslavski YandexRelated Queries Braslavski Yandex
Related Queries Braslavski Yandex
 
молчанов сергей датацентры 10 04 2010 Light
молчанов сергей датацентры 10 04 2010  Lightмолчанов сергей датацентры 10 04 2010  Light
молчанов сергей датацентры 10 04 2010 Light
 
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample SdkSergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
Sergey Ilinsky Rit 2010 Complex Gui Development Ample Sdk
 
Serge P Nekoval Grails
Serge P  Nekoval GrailsSerge P  Nekoval Grails
Serge P Nekoval Grails
 
Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2Max Lapshin Erlyvideo V2
Max Lapshin Erlyvideo V2
 
Eugene Lisitsky Web Sockets
Eugene Lisitsky Web SocketsEugene Lisitsky Web Sockets
Eugene Lisitsky Web Sockets
 
Alexey Bazhin Balancing
Alexey Bazhin BalancingAlexey Bazhin Balancing
Alexey Bazhin Balancing
 
рит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглыйрит, нефункциональная структура команды, безуглый
рит, нефункциональная структура команды, безуглый
 
левин михаил выступление на рит большие картинки
левин михаил выступление на рит   большие картинкилевин михаил выступление на рит   большие картинки
левин михаил выступление на рит большие картинки
 
левин михаил выступление на рит
левин михаил выступление на ритлевин михаил выступление на рит
левин михаил выступление на рит
 
антон веснин Rails Application Servers
антон веснин Rails Application Serversантон веснин Rails Application Servers
антон веснин Rails Application Servers
 
олег царев Rit 2010 реляционные субд и их нереляционные реализации
олег царев Rit 2010   реляционные субд и их нереляционные реализацииолег царев Rit 2010   реляционные субд и их нереляционные реализации
олег царев Rit 2010 реляционные субд и их нереляционные реализации
 

Pavel Braslavski Related Queries Braslavski Yandex

  • 1. Что такое близкие запросы, как их найти и использовать Павел БраславскийЛия КареповаМаксим КоролевСветлана Шорина
  • 3. михаилбулгаков мастер и маргарита мастер и маргарита фильм владимирбортко тарасбульба фильм 3 богдан ступка михаил боярский д'артаньян три мушкетера александрдюма
  • 4. Подробнее Уточнение:золотое кольцо  золотое кольцо с бриллиантом Снятие неоднозначности: ягуар ягуар животное Расширение: золотое кольцо  ювелирные украшения Синоним: японская вишня сакура 4
  • 5. Еще подробнее Другой запрос на ту же тему: мерседесауди Смена поисковой цели:купить санкидетский мир Перевод: коралловый клуб coral club 5
  • 6. Близкие, но «про другое» Опечатки:курсовая робота – курсовая работа Транслитерация: золото – zoloto Раскладка: lbvf ,bkfy – димабилан Реникса: otbeptka – отвертка 6
  • 7. Хороший запрос – это непросто 7
  • 8. Назовите глагол из вопроса, помещенного на борту транспортного средства подопечных ФатихаТеримана первенстве континента? IX Кубок Яндекса по поиску (2008) 8
  • 9. Работа мысли ФатихТерим сборная турции на борту самолета сборная турции "на борту" самолета сборная турции надпись "на борту" самолета сборная турции надпись "на борту" автобуса сборная турции надпись на автобусе футбол "сборная турции" надпись на автобусе чемпионат европы футбол "сборная турции" надпись на автобусе 9
  • 10. Ответ Вместит ли автобус всю страсть Турции? 10
  • 12. 12
  • 13. 13
  • 14. 14
  • 15. 15
  • 16. 16
  • 17. 17
  • 18. Где искать, как извлечь? 18
  • 19. Источники данных Лог запросов Текст ссылок Корпус текстов ford  ford focus, ford fusion, ford mondeo карта карта памяти, карта города машина  стиральная машина, швейная машина 19
  • 20. Близость запросов 20 q2 q3 q4 q1 слова/буквы сессии клики
  • 21. Требования Семантическая близость запросов Без ошибок, опечаток, обрезанных словосочетаний Без смысловых дублей (шарон стоун, шерон стоун) Недопустимо – порно, мат, оскорбительная лексика Плохо: гео-зависимые запросы в чужом регионе, неактуальные запросы (о прошедших событиях) 21
  • 22. запрос=<timeStamp, userId, queryText, ckicks> 0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки) 1. выделение сессий (по времени) 2. выделение пар (в.ч. транзитивно) 22
  • 23. 23 3. нормализация запросов (стоп-слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования) 4. борьба со флешмобами и «событийными» ассоциациями 5. матрица частоты переходов «запрос-запрос» (пороги для пользователя, ограничение на абсолютную частоту)
  • 24. 24 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс:q  q1, q2, q3… (оригинальные запросы)
  • 25. Оценка «оценка глазами» «классы объектов» кластеры запросов Яндекс.Директа кликабельность 25
  • 27. 27
  • 30. Где еще можно использовать? Реклама Качество поиска 30
  • 32. 32 Павел Браславский pb@yandex-team.ruЛия КареповаМаксим КоролевСветлана Шорина