SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
1. Как устроен Поиск по блогам
 2. Блогосфера Беларуси 2010


         Антон Волнухин
       Минск, 15 апреля 2010     11
Как устроен Поиск по блогам



        Антон Волнухин
      Минск, 15 апреля 2010   11
Что это такое?
Что такое Яндекс.Поиск по блогам и зачем он
  нужен?
На каких принципах основан?




                                              3
Что такое Поиск по блогам?
Поиск по мнениям. Общественное мнение в интернете


• Поиск по текстам, где люди говорят от первого лица,
  возможность сравнить обсуждаемость чего-либо:
   – что другие говорят о вас или ваших действиях
   – что пишут о товаре, который вы собираетесь
     купить
   – что пишут о вашей компании
   – что пишут о каком-то событии


• Наиболее обсуждаемые темы и самое популярное в
  интернете сегодня

                                                        4
22
Почему социальный поиск важен?

   свежесть
   важный источник информации о важном для людей
   возможность изучать живое общение
   иногда людям нужен ответ от другого живого
     человека, оценочные суждения
   структурированность
   большой объём




                                                   6
Масштабы

• Более миллиона записей и комментариев
из блогов и форумов каждый день
• Почти 25 миллионов источников
• Всего около полутора миллиардов документов


Поиск по блогам – это почти одна пятая от
поиска по всему русскоязычному интернету по
количеству элементов индексации




                                               7
Внутреннее устройство




                        75
Модель сервиса
                          • партнёрство и взаимодействие между
                          участниками:
                              •
   поиск по                   • блогхостинги
    блогам
                              • пользователи
                 блог-    • быть зеркалом блогосферы
               хостинги
                          • полностью автоматический сервис
                          • единые правила для партнёров
                          • открытые форматы (RSS, ATOM, FOAF)
                          •все наши API доступны публично
пользователи




                                                                 9
Модель сервиса
                                     • партнёрство и взаимодействие между
                                     участниками:
                                          • блоггеры
   поиск по                               • блогхостинги
    блогам
                                          • пользователи
                            блог-    • быть зеркалом блогосферы
                          хостинги
                                     • полностью автоматический сервис
                                     • единые правила для партнёров
               блоггеры
                                     • открытые форматы (RSS, ATOM, FOAF)
                                     •все наши API доступны публично
пользователи




                                                                            10
Содержание

     Что это и зачем
   1. Поиск
   2. Пульс блогосферы
   3. Рейтинги
   4. Темы дня
   5. Открытые данные




                         11
1. Поиск
На какие вопросы отвечает
Чем отличается от поиска по всему интернету




                                              12
Сервис основан на распространённых в интернете
открытых форматах.


Благодаря сотрудничеству с владельцами блог-хостингов эти
  форматы (RSS, FOAF, Weblogs.Ping) стали стандартом в
  российской блогосфере.




                                       •   Livejournal.com
                                       •   Blogs.mail.ru
                                       •   Liveinternet.ru


                                       > 190 блог-хостингов




                                                              12
                                                               13
Что индексирует поиск по блогам

• блоги (RSS и ATOM)

• форумы (RSS и ATOM)

• профили (FOAF + Yandex FOAF extension)

• комментарии (RSS и ATOM)


C помощью пингов можно ускорить индексацию,
 сделав её почти мгновенной




                                              13
                                               14
Как происходит индексирование
• На данный момент новые записи индексируются в
  течение 5 минут с момента их появления на более
  чем 170 блогхостингах, включая:
    • LiveJournal.com
    • LiveInternet.ru
    • Blogs.mail.ru
    • Diary.ru
• Индексируются комментарии на LiveJournal.ru,
  LiveInternet.ru, Blogs.mail.ru и многих автономных
  блогах
• Проиндексировано более 50 миллионов профилей,
  включая профили пользователей пяти крупнейших
  блог-хостингов

                                                       11
Отличия от веб-поиска

• Очень быстрая индексация: запись попадает в
  поиск через 1-5 минут после написания
• Свежесть критична: ранжирование по времени
• Много небольших текстов
• Знаем информацию об авторстве и социальных
  связях и структуре блогов
• Данные не переиндексируются каждый раз заново, а
  накапливаются в архив блогосферы
   • Существует проблема: RSS не позволяет
      сообщать об удалении записей – скрыть их из
      индекса можно только по запросу автора в
      службу поддержки

                                                     16
2. Пульс блогосферы
Лучше один раз увидеть




                         17
Что такое “Пульс блогосферы”?
 “Пульс блогосферы” - это служба в Поиске по блогам,
    с помощью которой можно увидеть, как много
    записей написали о том или ином явлении в
    разное время


 Результаты представлены в виде процентов записей
   от всех за указанное время


 С помощью “Пульса” можно сравнивать
    обсуждаемость событий в блогосфере, следить за
    тенденциями в общественном мнении или просто
    визуализировать популярность явлений




                                                       18
Периодичные события




                      19
Тенденции




            20
3. Рейтинги
Помогают ориентироваться:
Где больше всего пишут
Что обсуждают




                            21
Рейтинг блогов
Помогает найти интересные блоги для чтения, узнать
  какой из блогов сейчас популярнее;
Даёт информацию новичкам о положении дел в
  блогосфере;
Выделяет самые широко-известные блоги.


Расчитывается на основании данных о ссылках
  между блогами за последние полгода: чем больше
  блогов сослалось на разные записи данного, тем
  он выше в рейтинге.




                                                     22
Рейтинг сервисов
Рейтинг блогхостингов строится ежедневно по количеству
  записей на каждом сервисе за вчерашний день.


В рейтинге учитывается меньше записей, чем попадает в
   поиск, не учитываются:


    • автоматические записи (например,
        автопоздравления с днём рождения на
        Блоги@Mail.ru или “человек опубликовал фото” на
        Я.ру)
    •   импортированные записи
    •   записи автоматических ботов
    •   спамовые записи


                                                          23
Рейтинги обсуждений

  •   рейтингуются по количеству упоминаний того или
      иного объекта;
  •   расчитываются за ограниченное время (например, за
      последние три дня);
  •   пересчитываются раз в сутки;
  •   сами рейтингуемые объекты берутся не из блогов, а
      из готовых источников: например, фильмы из
      Яндекс.Афиши;
  •   проблема: пока невозможно автоматически отличать
      полноценный отзыв от упоминания мимоходом, а
      также отличать положительные упоминания от
      отрицательных.



                                                          24
4. Темы дня
Темы дня: "О чём сейчас многие говорят?"




                                           25
Что такое темы дня?

События или явления, больше всего
заинтересовавшие блоггеров сегодня по
сравнению с обычным интересом к ним.


Что больше всего обсуждают сегодня блоггеры.
 В противоположность новостям, где событием
считается то, о чём больше всего пишут СМИ.




                                               26
Главные три темы дня могут
    видеть каждый день
       12 миллионов
    посетителей главной
     страницы, включая
  500+ тысяч в Беларуси

                             25
Почему сложно выделять темы дня
в блогах?
Новости                     Блоги

Пишут о событиях            Пишут и о событиях и о
                            повседневном


Язык, ограниченный жанром и Свободный, почти
форматом                    разговорный язык



События освещаются похоже   Огромное количество разных
                            способов назвать одно и то
                            же




30 000 новостей в день      300 000 записей в день
                                                         28
Как работают темы дня
• сначала из различных источников выбирается набор
гипотез, которые могут оказаться темами
• после этого определяется, как много записей о каждой из
них написано сегодня, и как много писали в среднем в
прошлом
• те гипотезы, о которых сегодня внезапно стали писать
больше записей, чем обычно, считаются темами дня
• близкие темы дня объединяются
• для тем дня выбираются названия
    • проблема: запросы и заголовки записей блоггеров не очень
      информативны, поэтому параллельно совершенствованию
      технологии автоматического выбора заголовков, перед
      обновлением тем дня происходит проверка заголовков
      модераторами


                                                                 29
Близкие темы склеиваются



   На самом деле во время значимых событий
   люди начинают чаще говорить не про одно
   понятие, а сразу про много.

   Такие понятия, связанные с одним и тем же
   событием, объединяются в одну тему и
   называются “связанными запросами”.




                                               30
Как именно склеиваются темы
• Темы дня склеиваются, когда о них часто пишут
  в одних и тех же записях




                        рыбак          билан



                                fairytale



                                    киркоров
                  евровидение




                                                  31
5. Открытые данные




                     32
API. Какие данные доступны?

• Все свежие проиндексированные записи
• Поиск по всем профилям (FOAF) и данные из них
• Социальные связи (кого “зафрендил” каждый
    пользователь, кто “зафрендил” его)
• То, что мы смогли понять в результате сбора всех данных в
    одном месте (агрегирование и анализ):
    • результат определения пола
    • поиск по записям с учётом данных из FOAF
    • фильтрация по блогам, форумам, комментариям и т.п.
• В будущем будут доступны, также, данные из всех
    рейтингов
• Мы готовы предоставлять для исследований и другие
    накопленные данные
                                                              33
Вопросы?



     Антон Волнухин
       anton@yandex-team.ru


                              51

Weitere ähnliche Inhalte

Was ist angesagt?

персональная учебная среда библиотекаря
персональная учебная среда библиотекаряперсональная учебная среда библиотекаря
персональная учебная среда библиотекаря
Елена Смутнева
 
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблогаКак продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
Инна Юрик
 
Техническое задание
Техническое заданиеТехническое задание
Техническое задание
Nick_Vladislav
 
Социальные сети и блоги. Цифры и смыслы
Социальные сети и блоги. Цифры и смыслыСоциальные сети и блоги. Цифры и смыслы
Социальные сети и блоги. Цифры и смыслы
Георгий Мамарин
 
мастер --класс
мастер --классмастер --класс
мастер --класс
lydashok
 

Was ist angesagt? (20)

персональная учебная среда библиотекаря
персональная учебная среда библиотекаряперсональная учебная среда библиотекаря
персональная учебная среда библиотекаря
 
Yandex News 11 2009
Yandex News 11 2009Yandex News 11 2009
Yandex News 11 2009
 
класификация сервисов
класификация сервисовкласификация сервисов
класификация сервисов
 
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблогаКак продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
Как продвигать библиотеку в Twitter: секреты кухни корпоративного микроблога
 
Блогосфера и продвижение блогов
Блогосфера и продвижение блоговБлогосфера и продвижение блогов
Блогосфера и продвижение блогов
 
Антон Волнухин "Белорусская блогосфера"
Антон Волнухин "Белорусская блогосфера"Антон Волнухин "Белорусская блогосфера"
Антон Волнухин "Белорусская блогосфера"
 
Техническое задание
Техническое заданиеТехническое задание
Техническое задание
 
Блоги
БлогиБлоги
Блоги
 
Социальные сети и блоги. Цифры и смыслы
Социальные сети и блоги. Цифры и смыслыСоциальные сети и блоги. Цифры и смыслы
Социальные сети и блоги. Цифры и смыслы
 
Как государственным учреждениям использовать Интернет
Как государственным учреждениям использовать ИнтернетКак государственным учреждениям использовать Интернет
Как государственным учреждениям использовать Интернет
 
BigIdea: Посев вирусного контента (viral seeding)
BigIdea: Посев вирусного контента (viral seeding)BigIdea: Посев вирусного контента (viral seeding)
BigIdea: Посев вирусного контента (viral seeding)
 
продвижение мобильного библиотечного обслуживания в интернете
продвижение мобильного библиотечного обслуживания в интернетепродвижение мобильного библиотечного обслуживания в интернете
продвижение мобильного библиотечного обслуживания в интернете
 
2014 11-20-virtualnye-tehnologii
2014 11-20-virtualnye-tehnologii2014 11-20-virtualnye-tehnologii
2014 11-20-virtualnye-tehnologii
 
A bit about LJ.com
A bit about LJ.comA bit about LJ.com
A bit about LJ.com
 
блоги
блогиблоги
блоги
 
технология поиска информации в интернете
технология поиска информации в интернететехнология поиска информации в интернете
технология поиска информации в интернете
 
Wiki
WikiWiki
Wiki
 
Alekseeva anastasia summer school'2011 jourfak mgu interactive media
Alekseeva anastasia summer school'2011 jourfak mgu interactive mediaAlekseeva anastasia summer school'2011 jourfak mgu interactive media
Alekseeva anastasia summer school'2011 jourfak mgu interactive media
 
мастер --класс
мастер --классмастер --класс
мастер --класс
 
Библиотеки и библиотекари в социальных сетях: как и зачем
Библиотеки и библиотекари в социальных сетях: как и зачемБиблиотеки и библиотекари в социальных сетях: как и зачем
Библиотеки и библиотекари в социальных сетях: как и зачем
 

Ähnlich wie Антон Волнухин "Поиск по блогам"

Презентация для Липецка
Презентация для ЛипецкаПрезентация для Липецка
Презентация для Липецка
Елена Хромова
 
Скайп-семинар с Липецком
Скайп-семинар с ЛипецкомСкайп-семинар с Липецком
Скайп-семинар с Липецком
Елена Хромова
 
презентация для липецка
презентация для липецкапрезентация для липецка
презентация для липецка
Елена Хромова
 
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
socamp2011
 
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
web_kport
 
Kak vybiratj servis monitoringa social media
Kak vybiratj servis monitoringa social mediaKak vybiratj servis monitoringa social media
Kak vybiratj servis monitoringa social media
Olga Sternik
 
продвижение в блогах и социальных сетях
продвижение в блогах и социальных сетяхпродвижение в блогах и социальных сетях
продвижение в блогах и социальных сетях
Olga Lyzo
 
Web20 общее
Web20 общееWeb20 общее
Web20 общее
annas1960
 

Ähnlich wie Антон Волнухин "Поиск по блогам" (20)

Презентация для Липецка
Презентация для ЛипецкаПрезентация для Липецка
Презентация для Липецка
 
Скайп-семинар с Липецком
Скайп-семинар с ЛипецкомСкайп-семинар с Липецком
Скайп-семинар с Липецком
 
презентация для липецка
презентация для липецкапрезентация для липецка
презентация для липецка
 
Библиотечная блогосфера
Библиотечная блогосфераБиблиотечная блогосфера
Библиотечная блогосфера
 
Правила работы с блогерами
Правила работы с блогерамиПравила работы с блогерами
Правила работы с блогерами
 
Чернец В.
Чернец В. Чернец В.
Чернец В.
 
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
Блог в помощь/ Вадим Чернец, Сарафанное радио, http://sarafannoeradio.org/
 
Blogi
BlogiBlogi
Blogi
 
блоггинг
блоггингблоггинг
блоггинг
 
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
Доклад Ю.Юркевич (Бегун) №1 - 22.03.2012
 
Описание функционала и логики работы портала unigeo.ru
Описание функционала и логики работы портала unigeo.ruОписание функционала и логики работы портала unigeo.ru
Описание функционала и логики работы портала unigeo.ru
 
Инструменты и ресурсы блогосферы: создание и продвижение собственных сайтов
Инструменты и ресурсы блогосферы: создание и продвижение собственных сайтовИнструменты и ресурсы блогосферы: создание и продвижение собственных сайтов
Инструменты и ресурсы блогосферы: создание и продвижение собственных сайтов
 
Блоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'aБлоги: берем лучшее от маркетинга, СМИ и digital'a
Блоги: берем лучшее от маркетинга, СМИ и digital'a
 
Интернет как инструмент для НКО
Интернет как инструмент для НКОИнтернет как инструмент для НКО
Интернет как инструмент для НКО
 
Kak vybiratj servis monitoringa social media
Kak vybiratj servis monitoringa social mediaKak vybiratj servis monitoringa social media
Kak vybiratj servis monitoringa social media
 
продвижение в блогах и социальных сетях
продвижение в блогах и социальных сетяхпродвижение в блогах и социальных сетях
продвижение в блогах и социальных сетях
 
Web20 общее
Web20 общееWeb20 общее
Web20 общее
 
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
Оценка деятельности библиотеки в социальных медиа: примеры из виртуальной жиз...
 
Begun webinar # 30
Begun webinar # 30Begun webinar # 30
Begun webinar # 30
 
Приёмы успешной работы с партнерской сетью
Приёмы успешной работы с партнерской сетьюПриёмы успешной работы с партнерской сетью
Приёмы успешной работы с партнерской сетью
 

Mehr von Yandex

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Yandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Yandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Yandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Yandex
 

Mehr von Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

Антон Волнухин "Поиск по блогам"

  • 1. 1. Как устроен Поиск по блогам 2. Блогосфера Беларуси 2010 Антон Волнухин Минск, 15 апреля 2010 11
  • 2. Как устроен Поиск по блогам Антон Волнухин Минск, 15 апреля 2010 11
  • 3. Что это такое? Что такое Яндекс.Поиск по блогам и зачем он нужен? На каких принципах основан? 3
  • 4. Что такое Поиск по блогам? Поиск по мнениям. Общественное мнение в интернете • Поиск по текстам, где люди говорят от первого лица, возможность сравнить обсуждаемость чего-либо: – что другие говорят о вас или ваших действиях – что пишут о товаре, который вы собираетесь купить – что пишут о вашей компании – что пишут о каком-то событии • Наиболее обсуждаемые темы и самое популярное в интернете сегодня 4
  • 5. 22
  • 6. Почему социальный поиск важен? свежесть важный источник информации о важном для людей возможность изучать живое общение иногда людям нужен ответ от другого живого человека, оценочные суждения структурированность большой объём 6
  • 7. Масштабы • Более миллиона записей и комментариев из блогов и форумов каждый день • Почти 25 миллионов источников • Всего около полутора миллиардов документов Поиск по блогам – это почти одна пятая от поиска по всему русскоязычному интернету по количеству элементов индексации 7
  • 9. Модель сервиса • партнёрство и взаимодействие между участниками: • поиск по • блогхостинги блогам • пользователи блог- • быть зеркалом блогосферы хостинги • полностью автоматический сервис • единые правила для партнёров • открытые форматы (RSS, ATOM, FOAF) •все наши API доступны публично пользователи 9
  • 10. Модель сервиса • партнёрство и взаимодействие между участниками: • блоггеры поиск по • блогхостинги блогам • пользователи блог- • быть зеркалом блогосферы хостинги • полностью автоматический сервис • единые правила для партнёров блоггеры • открытые форматы (RSS, ATOM, FOAF) •все наши API доступны публично пользователи 10
  • 11. Содержание Что это и зачем 1. Поиск 2. Пульс блогосферы 3. Рейтинги 4. Темы дня 5. Открытые данные 11
  • 12. 1. Поиск На какие вопросы отвечает Чем отличается от поиска по всему интернету 12
  • 13. Сервис основан на распространённых в интернете открытых форматах. Благодаря сотрудничеству с владельцами блог-хостингов эти форматы (RSS, FOAF, Weblogs.Ping) стали стандартом в российской блогосфере. • Livejournal.com • Blogs.mail.ru • Liveinternet.ru > 190 блог-хостингов 12 13
  • 14. Что индексирует поиск по блогам • блоги (RSS и ATOM) • форумы (RSS и ATOM) • профили (FOAF + Yandex FOAF extension) • комментарии (RSS и ATOM) C помощью пингов можно ускорить индексацию, сделав её почти мгновенной 13 14
  • 15. Как происходит индексирование • На данный момент новые записи индексируются в течение 5 минут с момента их появления на более чем 170 блогхостингах, включая: • LiveJournal.com • LiveInternet.ru • Blogs.mail.ru • Diary.ru • Индексируются комментарии на LiveJournal.ru, LiveInternet.ru, Blogs.mail.ru и многих автономных блогах • Проиндексировано более 50 миллионов профилей, включая профили пользователей пяти крупнейших блог-хостингов 11
  • 16. Отличия от веб-поиска • Очень быстрая индексация: запись попадает в поиск через 1-5 минут после написания • Свежесть критична: ранжирование по времени • Много небольших текстов • Знаем информацию об авторстве и социальных связях и структуре блогов • Данные не переиндексируются каждый раз заново, а накапливаются в архив блогосферы • Существует проблема: RSS не позволяет сообщать об удалении записей – скрыть их из индекса можно только по запросу автора в службу поддержки 16
  • 17. 2. Пульс блогосферы Лучше один раз увидеть 17
  • 18. Что такое “Пульс блогосферы”? “Пульс блогосферы” - это служба в Поиске по блогам, с помощью которой можно увидеть, как много записей написали о том или ином явлении в разное время Результаты представлены в виде процентов записей от всех за указанное время С помощью “Пульса” можно сравнивать обсуждаемость событий в блогосфере, следить за тенденциями в общественном мнении или просто визуализировать популярность явлений 18
  • 21. 3. Рейтинги Помогают ориентироваться: Где больше всего пишут Что обсуждают 21
  • 22. Рейтинг блогов Помогает найти интересные блоги для чтения, узнать какой из блогов сейчас популярнее; Даёт информацию новичкам о положении дел в блогосфере; Выделяет самые широко-известные блоги. Расчитывается на основании данных о ссылках между блогами за последние полгода: чем больше блогов сослалось на разные записи данного, тем он выше в рейтинге. 22
  • 23. Рейтинг сервисов Рейтинг блогхостингов строится ежедневно по количеству записей на каждом сервисе за вчерашний день. В рейтинге учитывается меньше записей, чем попадает в поиск, не учитываются: • автоматические записи (например, автопоздравления с днём рождения на Блоги@Mail.ru или “человек опубликовал фото” на Я.ру) • импортированные записи • записи автоматических ботов • спамовые записи 23
  • 24. Рейтинги обсуждений • рейтингуются по количеству упоминаний того или иного объекта; • расчитываются за ограниченное время (например, за последние три дня); • пересчитываются раз в сутки; • сами рейтингуемые объекты берутся не из блогов, а из готовых источников: например, фильмы из Яндекс.Афиши; • проблема: пока невозможно автоматически отличать полноценный отзыв от упоминания мимоходом, а также отличать положительные упоминания от отрицательных. 24
  • 25. 4. Темы дня Темы дня: "О чём сейчас многие говорят?" 25
  • 26. Что такое темы дня? События или явления, больше всего заинтересовавшие блоггеров сегодня по сравнению с обычным интересом к ним. Что больше всего обсуждают сегодня блоггеры. В противоположность новостям, где событием считается то, о чём больше всего пишут СМИ. 26
  • 27. Главные три темы дня могут видеть каждый день 12 миллионов посетителей главной страницы, включая 500+ тысяч в Беларуси 25
  • 28. Почему сложно выделять темы дня в блогах? Новости Блоги Пишут о событиях Пишут и о событиях и о повседневном Язык, ограниченный жанром и Свободный, почти форматом разговорный язык События освещаются похоже Огромное количество разных способов назвать одно и то же 30 000 новостей в день 300 000 записей в день 28
  • 29. Как работают темы дня • сначала из различных источников выбирается набор гипотез, которые могут оказаться темами • после этого определяется, как много записей о каждой из них написано сегодня, и как много писали в среднем в прошлом • те гипотезы, о которых сегодня внезапно стали писать больше записей, чем обычно, считаются темами дня • близкие темы дня объединяются • для тем дня выбираются названия • проблема: запросы и заголовки записей блоггеров не очень информативны, поэтому параллельно совершенствованию технологии автоматического выбора заголовков, перед обновлением тем дня происходит проверка заголовков модераторами 29
  • 30. Близкие темы склеиваются На самом деле во время значимых событий люди начинают чаще говорить не про одно понятие, а сразу про много. Такие понятия, связанные с одним и тем же событием, объединяются в одну тему и называются “связанными запросами”. 30
  • 31. Как именно склеиваются темы • Темы дня склеиваются, когда о них часто пишут в одних и тех же записях рыбак билан fairytale киркоров евровидение 31
  • 33. API. Какие данные доступны? • Все свежие проиндексированные записи • Поиск по всем профилям (FOAF) и данные из них • Социальные связи (кого “зафрендил” каждый пользователь, кто “зафрендил” его) • То, что мы смогли понять в результате сбора всех данных в одном месте (агрегирование и анализ): • результат определения пола • поиск по записям с учётом данных из FOAF • фильтрация по блогам, форумам, комментариям и т.п. • В будущем будут доступны, также, данные из всех рейтингов • Мы готовы предоставлять для исследований и другие накопленные данные 33
  • 34. Вопросы? Антон Волнухин anton@yandex-team.ru 51