3. Робот (web crawler)
Проблематика
За год в вебе:
• меняется 80% ссылок
• и 50% контента
•20% страниц исчезают навсегда*
* Lew, D., Wahlig, H., Meyer-bautor, G. (2006). The freshness of web search engines
databases
4. Робот (web crawler)
Важная задача - расставить приоритеты
Зачем индексировать то что никогда не покажется в выдаче?
Вводим ограничения
Смотрим на:
•Ссылки на документ
•Уровень вложенности документа
•Антиспам фильтры
•Посещаемость
5. Робот (web crawler)
Focused Crawling*
Примеры самостоятельных краулеров:
•Быстроробот
•Зеркальщик
•ППБ
Фичи для краулинга по контенту (топикам):
•Соответствие тематике (рубрике) по контенту, ссылкам, урлу
•Navigational Rank (NR)
•Dynamic Personalized Page Rank DPPR
*A Survey of Focused Web Crawling Approaches (Sameendra Samarawickrama, Lakshman Jayaratne)
6. SERP
Направление развития
• Микроформаты
• Обогащение выдачи вертикалями (колдунщики)
• Вспомогательные элементы в интерфейсе
11. Антиспам
К чему пришли
•Махрового спама в выдаче мало (бредотекст, редиректы)
•Объединение текста ссылки, текста страницы, текста в урле
•Накрутку поведенческих срезают, но дополнительно не
наказывают
•Если спам попадает в сниппет – результат уходит из выдачи
сам
Fighting against Web Spam: A Novel Propagation Method based on
Click-through Data
12. Ранжирование
Новые коммерческие факторы в
Ядексе !!
•Классификатор коммерческости запроса
•Специальные асессоры
•Специальные факторы
13. Ранжирование
1) Адекватное представление о цене
•Хорошо заметная ссылка на страницу с ценами (идеально в
сайтлинках)
•Собственно цены на странице с ценами, легко считываемые
роботом и в удобном для восприятия пользователя виде
14. Ранжирование
2) Контактная информация
•Компания имеет физический адрес, есть схема проезда
(идеально через API Google или Yandex карт)
•Читабельный номер телефона и адрес на всех страницах
сайта
15. Ранжирование
3) Форма заказа
•Забота о персональных данных (отправка через https)
•Нет большого количества полей, которые вводят в
заблуждение
•Конверсия зашел/отправил