SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
Кластеризация и текстовый анализ
Сложные вопросы реализации и интерпретации
Алексей Чекушин
Head of search tech в Ostrovok
Основатель Just-Magic.org
Who is mr. clustering
True
False
А почему так?
Гипотеза 1: Если N урлов могли быть продвинуты по двум запросам
– значит и мы можем.
Гипотеза 2: Качество выдачи за топ-10 быстро падает.
Проблема 1: как выбрать кластер?
Идем от задачи!
Ускорение разбора больших ядер Разделение запросов по типам
Проблема 2: малые группы
39 - Ростов 213 - Москва
© кластеризатор Just-Magic.org
Два вида ошибок
Ошибка 1го рода:
В 1 кластер попали
Несовместимые
запросы.
Ошибка 2го рода:
Совместимые запросы
попали в разные
кластеры.
Решение проблемы 1
Минимизируем ошибку 1го рода
Ошибка 2го рода – как получится
Проблема решена?
Опять идем от задачи!
Постраничное распределение
Маркерный запрос
Просто кластеризация
Метод наибольшей плотности
Проблема решена?
Маркер
Точность и полнота
Точность
Полнота
Подходящие Не подходящие
WTF? Опять этот слайд??!!!111
Маркер
Проблема 3: какой N правильный?
22%
49%
92%
95%
98% 100% 100% 100% 100% 100%
9%
21%
61%
74%
89%
97%
100% 100% 100% 100%
0%
20%
40%
60%
80%
100%
120%
1 2 3 4 5 6 7 8 9 10
Точность кластеризации
Точность - hard Точность - soft
Неужели опять от задачи?
«Трафиковое» продвижение
Soft-метод, порог 4+
«Позиционное» продвижение
Hard-метод, пороги 3 или 4
Текстовый анализ?
Гипотеза 1: Существуют «оптимальные» для попадания в топ
значения.
Гипотеза 2: Сайты в топе соответствуют «оптимальным» значениям.
Гипотеза 3: Вычисления интервалов допустимо проводить
независимо.
Что такое «оптимальное значение»?
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10
[пластиковые окна] - вхождение "пластиковые окна"
Окей гугл, как вычислить оптимальные?
1) Выбросить все ненужное.
2) Срезать выбросы.
3) Определить диапазон.
Диапазон?
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10
[купить пластиковые окна] - вхождение [пластиковые окна]
Проблема 4: Сколько вхождений правильно?
© текстовый анализатор Just-Magic.org
А если запросов несколько?
Проблема 5: так сколько вхождений правильно?
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10
Вхождения "пластиковые окна"
[пластиковые окна] [купить пластиковые окна]
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10
Вхождения "пластиковые окна"
[пластиковые окна] [купить пластиковые окна]
Еще одно решение
Всегда ли это применимо?
Fin
Ваши вопросы?
Связаться со мной:
a.chekushin@ostrovok.ru
a.chekushin@just-magic.org
Попробовать самому (онлайн, бесплатно, без смс): Just-Magic.org

Weitere ähnliche Inhalte

Andere mochten auch

Neuropsychology Presentation - Craig Goodman, Ph.D. 2016
Neuropsychology Presentation - Craig Goodman, Ph.D. 2016Neuropsychology Presentation - Craig Goodman, Ph.D. 2016
Neuropsychology Presentation - Craig Goodman, Ph.D. 2016Craig Goodman, PhD.
 
Автоматическая классификация запросов
Автоматическая классификация запросовАвтоматическая классификация запросов
Автоматическая классификация запросовAlexey Chekushin
 
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...Optimization conference
 
Чекушин - Автоматическая классификация запросов
Чекушин - Автоматическая классификация запросовЧекушин - Автоматическая классификация запросов
Чекушин - Автоматическая классификация запросовSEO Conference
 
Текст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаТекст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаAlexey Chekushin
 
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...Webcom Group
 
Power BI : Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...
Power BI: Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...Power BI: Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...
Power BI : Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...Sergey Lossev
 
Как островок работает с семантикой
Как островок работает с семантикойКак островок работает с семантикой
Как островок работает с семантикойAlexey Chekushin
 
Алексей Чекушин, Ostrovok — «5 неочевидных возможностей использования автома...
Алексей Чекушин, Ostrovok  — «5 неочевидных возможностей использования автома...Алексей Чекушин, Ostrovok  — «5 неочевидных возможностей использования автома...
Алексей Чекушин, Ostrovok — «5 неочевидных возможностей использования автома...shevchuk_conf
 
Вебинар «Продвижение информационного сайта»
Вебинар «Продвижение информационного сайта»Вебинар «Продвижение информационного сайта»
Вебинар «Продвижение информационного сайта»seeduru
 
Значимое в SEO 2016
Значимое в SEO 2016Значимое в SEO 2016
Значимое в SEO 2016Alexey Chekushin
 
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»seeduru
 
Тенденции развития рекламного рынка 2015-2016
Тенденции развития рекламного рынка 2015-2016Тенденции развития рекламного рынка 2015-2016
Тенденции развития рекламного рынка 2015-2016Andrey Chernyshov
 
Как происходит выбор подрядчика в крупной компании?
Как происходит выбор подрядчика в крупной компании?Как происходит выбор подрядчика в крупной компании?
Как происходит выбор подрядчика в крупной компании?iabrussiaprez
 
A fast implementation of matrix-matrix product in double-double precision on ...
A fast implementation of matrix-matrix product in double-double precision on ...A fast implementation of matrix-matrix product in double-double precision on ...
A fast implementation of matrix-matrix product in double-double precision on ...Maho Nakata
 
Daily Newsletter: 15th February, 2011
Daily Newsletter: 15th February, 2011Daily Newsletter: 15th February, 2011
Daily Newsletter: 15th February, 2011Fullerton Securities
 
نوجوانان
نوجواناننوجوانان
نوجوانانmojir
 
medioambiente consumo
medioambiente consumomedioambiente consumo
medioambiente consumoChelo Mena
 

Andere mochten auch (20)

Neuropsychology Presentation - Craig Goodman, Ph.D. 2016
Neuropsychology Presentation - Craig Goodman, Ph.D. 2016Neuropsychology Presentation - Craig Goodman, Ph.D. 2016
Neuropsychology Presentation - Craig Goodman, Ph.D. 2016
 
Автоматическая классификация запросов
Автоматическая классификация запросовАвтоматическая классификация запросов
Автоматическая классификация запросов
 
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...
Алексей Чекушин, Работа с большой семантикой на примере букинг-проекта, Optim...
 
Чекушин - Автоматическая классификация запросов
Чекушин - Автоматическая классификация запросовЧекушин - Автоматическая классификация запросов
Чекушин - Автоматическая классификация запросов
 
Текст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успехаТекст-дзюцу: факторы ранжирования как факторы успеха
Текст-дзюцу: факторы ранжирования как факторы успеха
 
Алексей Чекушин - SEO аналитика
Алексей Чекушин - SEO аналитикаАлексей Чекушин - SEO аналитика
Алексей Чекушин - SEO аналитика
 
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...
Неделя Байнета 2016. Алексей Чекушин: «SEO мифология: профессиональные сказки...
 
Power BI : Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...
Power BI: Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...Power BI: Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...
Power BI : Расчет корректировок ставок Яндекс.Директ с помощью подключения к ...
 
Как островок работает с семантикой
Как островок работает с семантикойКак островок работает с семантикой
Как островок работает с семантикой
 
Алексей Чекушин, Ostrovok — «5 неочевидных возможностей использования автома...
Алексей Чекушин, Ostrovok  — «5 неочевидных возможностей использования автома...Алексей Чекушин, Ostrovok  — «5 неочевидных возможностей использования автома...
Алексей Чекушин, Ostrovok — «5 неочевидных возможностей использования автома...
 
Вебинар «Продвижение информационного сайта»
Вебинар «Продвижение информационного сайта»Вебинар «Продвижение информационного сайта»
Вебинар «Продвижение информационного сайта»
 
Значимое в SEO 2016
Значимое в SEO 2016Значимое в SEO 2016
Значимое в SEO 2016
 
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»
Вебинар «Совмещение коммерции и информационности в рамках интернет-магазина»
 
Тенденции развития рекламного рынка 2015-2016
Тенденции развития рекламного рынка 2015-2016Тенденции развития рекламного рынка 2015-2016
Тенденции развития рекламного рынка 2015-2016
 
Как происходит выбор подрядчика в крупной компании?
Как происходит выбор подрядчика в крупной компании?Как происходит выбор подрядчика в крупной компании?
Как происходит выбор подрядчика в крупной компании?
 
A fast implementation of matrix-matrix product in double-double precision on ...
A fast implementation of matrix-matrix product in double-double precision on ...A fast implementation of matrix-matrix product in double-double precision on ...
A fast implementation of matrix-matrix product in double-double precision on ...
 
Daily Newsletter: 15th February, 2011
Daily Newsletter: 15th February, 2011Daily Newsletter: 15th February, 2011
Daily Newsletter: 15th February, 2011
 
نوجوانان
نوجواناننوجوانان
نوجوانان
 
Salzburg
SalzburgSalzburg
Salzburg
 
medioambiente consumo
medioambiente consumomedioambiente consumo
medioambiente consumo
 

Ähnlich wie Кластеризация и текстовый анализ

Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Стас Поломарь
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)Technosphere1
 
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев ДмитрийДмитрий Севальнев
 
Сегментация и поиск совпадений в бинарном потоке
Сегментация и поиск совпадений в бинарном потокеСегментация и поиск совпадений в бинарном потоке
Сегментация и поиск совпадений в бинарном потокеLeonid Yuriev
 
как сделать свой кластер на postgresql 95
как сделать свой кластер на postgresql 95как сделать свой кластер на postgresql 95
как сделать свой кластер на postgresql 95Максим Селиверстов
 
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев ДмитрийДмитрий Севальнев
 
GrainTrack. ProAgro. Graintraders business process management
GrainTrack. ProAgro. Graintraders business process managementGrainTrack. ProAgro. Graintraders business process management
GrainTrack. ProAgro. Graintraders business process managementGraintrack
 
глеб кудрявцев (мегаплан) про работу с требованиями в продукте
глеб кудрявцев (мегаплан)   про работу с требованиями в продуктеглеб кудрявцев (мегаплан)   про работу с требованиями в продукте
глеб кудрявцев (мегаплан) про работу с требованиями в продуктеPCampRussia
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013Yandex
 
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страницKONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страницEugene Trofimenko
 
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПО
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПОCodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПО
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПОCodeFest
 
Project Robotester
Project RobotesterProject Robotester
Project Robotesterbromozel
 
SEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, короткоSEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, короткоNetpeak
 
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXSEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXOWOX
 
Виталий Александров (Out of Cloud) - Email-аналитика
Виталий Александров (Out of Cloud) - Email-аналитикаВиталий Александров (Out of Cloud) - Email-аналитика
Виталий Александров (Out of Cloud) - Email-аналитикаMailing Day
 
Математика для тестировщиков
Математика для тестировщиковМатематика для тестировщиков
Математика для тестировщиковSQALab
 
Скандалы, расследования, тестирование
Скандалы, расследования, тестированиеСкандалы, расследования, тестирование
Скандалы, расследования, тестированиеSQALab
 
Проект Роботестер
Проект РоботестерПроект Роботестер
Проект РоботестерSQALab
 

Ähnlich wie Кластеризация и текстовый анализ (20)

Akavita Tutejshyja
Akavita TutejshyjaAkavita Tutejshyja
Akavita Tutejshyja
 
Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
 
Сегментация и поиск совпадений в бинарном потоке
Сегментация и поиск совпадений в бинарном потокеСегментация и поиск совпадений в бинарном потоке
Сегментация и поиск совпадений в бинарном потоке
 
как сделать свой кластер на postgresql 95
как сделать свой кластер на postgresql 95как сделать свой кластер на postgresql 95
как сделать свой кластер на postgresql 95
 
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
 
GrainTrack. ProAgro. Graintraders business process management
GrainTrack. ProAgro. Graintraders business process managementGrainTrack. ProAgro. Graintraders business process management
GrainTrack. ProAgro. Graintraders business process management
 
глеб кудрявцев (мегаплан) про работу с требованиями в продукте
глеб кудрявцев (мегаплан)   про работу с требованиями в продуктеглеб кудрявцев (мегаплан)   про работу с требованиями в продукте
глеб кудрявцев (мегаплан) про работу с требованиями в продукте
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013
 
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страницKONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
 
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПО
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПОCodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПО
CodeFest 2011. Руколь Н. — Творческая мастерская по тестированию ПО
 
Обзор информации о SEO
Обзор информации о SEOОбзор информации о SEO
Обзор информации о SEO
 
Project Robotester
Project RobotesterProject Robotester
Project Robotester
 
SEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, короткоSEO твиты - просто, понятно, коротко
SEO твиты - просто, понятно, коротко
 
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOXSEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
SEO-твиты:просто, понятно, коротко. Артем Бородатюк, конференция OWOX
 
Виталий Александров (Out of Cloud) - Email-аналитика
Виталий Александров (Out of Cloud) - Email-аналитикаВиталий Александров (Out of Cloud) - Email-аналитика
Виталий Александров (Out of Cloud) - Email-аналитика
 
Математика для тестировщиков
Математика для тестировщиковМатематика для тестировщиков
Математика для тестировщиков
 
Скандалы, расследования, тестирование
Скандалы, расследования, тестированиеСкандалы, расследования, тестирование
Скандалы, расследования, тестирование
 
Проект Роботестер
Проект РоботестерПроект Роботестер
Проект Роботестер
 

Mehr von Alexey Chekushin

презентация F1 #12
презентация F1 #12презентация F1 #12
презентация F1 #12Alexey Chekushin
 
Методы оценки качества текстов
Методы оценки качества текстовМетоды оценки качества текстов
Методы оценки качества текстовAlexey Chekushin
 
Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Alexey Chekushin
 
Непорочное продвижение
Непорочное продвижениеНепорочное продвижение
Непорочное продвижениеAlexey Chekushin
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практикаAlexey Chekushin
 
Гайд по текстовому антиспаму
Гайд по текстовому антиспамуГайд по текстовому антиспаму
Гайд по текстовому антиспамуAlexey Chekushin
 

Mehr von Alexey Chekushin (6)

презентация F1 #12
презентация F1 #12презентация F1 #12
презентация F1 #12
 
Методы оценки качества текстов
Методы оценки качества текстовМетоды оценки качества текстов
Методы оценки качества текстов
 
Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015Новинки SEO-автоматизации 2015
Новинки SEO-автоматизации 2015
 
Непорочное продвижение
Непорочное продвижениеНепорочное продвижение
Непорочное продвижение
 
Текстовый анализ - теория и практика
Текстовый анализ - теория и практикаТекстовый анализ - теория и практика
Текстовый анализ - теория и практика
 
Гайд по текстовому антиспаму
Гайд по текстовому антиспамуГайд по текстовому антиспаму
Гайд по текстовому антиспаму
 

Кластеризация и текстовый анализ