SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Помогаем пользователям Андрей Смирнов
1
Зачем это всё?
Надо ли помогать пользователям?
Надо
2
Помощь при поиске
— Подсказки при вводе поискового запроса..
— Исправление раскладки
— Исправление ошибок
— Исправление раскладки и ошибки
— Разбиение на слова
— Лишние слова.
3
4
Помогаем п(р?)одающим
— Много, очень много объявлений с ошибками
— Собираем популярные ошибки, и учитываем их при индексации
5
6
Стопслова.
— Некоторые товары нельзя продавать. наркотики, людей
— Мат, в подсказках некрасиво. Вычеркиваем о%;ительный
— Нерелевантные слова. вообще, был, для
7
Выбор морфологии.
— Зачем приводить к нормальной форме
— Soundex, Metaphone
— Stemmer
— Lemmatizer
8
Словоформы.
— Опечатки Былочка
— Синонимы
Плюшка, Пышка, Розанчик, Слойка, Бриошь, Кокура, Бриош,
Гугель, Маффин
— Сленг регионов. шаверма, шаварма, шаурма
— Тематический сленг Автомобильные запчасти, кошечки..
— Транслитерация bulka, bulca
— Ошибки лемматайзера
9
Подготовка текста
— Парсим наши большие индексы. Раскладываем по категориям
— Удаляем дубликаты. Они испортят общую картину.
— Чистим сами слова, лишние символы
— Нормализуем входные слова, убирает стопслова
10
Подготовка данных
— Загружаем все слова в sphinx. без стемминга и лематизации.
— Выгружаем частотности слов
— Генерим новый индекс. Слово, Нормализированное слово, слово в
другой раскладке, частотность, биграммы
— Загружаем все слова в word2vec. Генерим большой пребольшой граф.
11
Прогон
— Выбираем наиболее частотные слова.
— Частотность первых 15% слов составляет 80% от частотности всех слов.
— Конструируем формулу для автоматической выборки пар.
— Сила связи между словами из вектора.(из вектора word2vec)
— Коэффициент похожести слов. (из N-gramm, Д-Левенштей, учитывается смена раскладки)
— Логарифм от частотности в тексте
— Получаем много и много пар слов.
12
Bag-of-words
тормоз
ножной 0.905975
незавимсимый 0.885751
тросиков 0.868641
стояночный 0.867629
vтормоза 0.851434
троссиковой 0.845943
гидравлич 0.839933
тормозколесо 0.83949
easystop 0.833925
тектро 0.833664
самоискатель 0.828096
тормозной 0.826122
caliper 0.826041
пожвижные 0.825819
прямоехать 0.824853
тормозапередний0.821059
торомоз
тормоз 0.781977
pushpush 0.755649
незавимсимый 0.748093
ругулятор 0.747481
осистояночный 0.744312
стоянойный 0.743994
сахтросиковой 0.741415
самх 0.74106
задниепередняя 0.734304
поворотныеманевренный0.734046
ручын 0.733179
поворотностопорный 0.730534
троссиков 0.728075
мамыш 0.726821
пожвижные 0.726676
асортизатор 0.721914
тормаз
тормоз 0.806569
хорошиенадувной 0.779151
стопколяска 0.759566
ругулятор 0.749028
pushpush 0.741626
единственый 0.738707
перекладинапедалька0.737508
пожвижные 0.73588
блакироваться 0.73063
тормозколесо 0.730521
плавующий 0.729905
нафиксатор 0.726576
тормозручка 0.724633
тормозомпланка 0.723524
тросиков 0.723105
тормозручной 0.720761
13
Skip-gram
тормоз
торомоз 0.776441
тормаз 0.766608
просторнаяручка 0.750774
томоз 0.714225
тормозкорзина 0.707341
тормозколесо 0.690314
тормозомпланка 0.668233
тормозесть 0.658294
тормозфиксатор 0.654067
тормозблокиратор 0.640565
дискахцентральный 0.639764
стальтормоз 0.634496
тормозапередний 0.631227
поверхностьюножной0.629615
тормозскладываться 0.6179
колесахудобный 0.611964
торомоз
тормоз 0.776441
тормаз 0.674317
просторнаяручка 0.658775
тормозколесо 0.653706
асортизатор 0.630608
томоз 0.622021
тормозкорзина 0.615997
тормозапередний 0.59914
тормозомпланка 0.590222
тормаз
тормоз 0.766608
торомоз 0.674317
тормозколесо 0.628059
тормозомпланка 0.619644
тормозафиксатор 0.61739
тормозскладываться0.599998
14
Проверка
— Проверяем только большие индексы
— Поднимаем рядом два индекса
— Получаем их монги логи запросов.
— Если стало сильно лучше или сильно хуже смотрим глазами
15
Популярные опечатки
комбинезон71
компьютер 61
запчасть 54
hakkapelliita34
mitsubishi 28
комплект 28
hyundai 28
vw 2716
камбенезон камбинезон камбинизон кимбинезон кобинезон
кобминезон комбенезон комбензон комбиезон комбиензон
комбимнезон комбинедзон комбинезан комбинезин
комбинензон комбинзон комбинизон комбинозон
комбиньзон комбмнезон комбнезон комбтнезон
комибинезон коминезон коммбинезон комьинезон
конбенезон конбинезон
17
Вопросы?
sphinx@t0t.ru
18

Weitere ähnliche Inhalte

Andere mochten auch

"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...
"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (..."Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...
"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...AvitoTech
 
"Погружение в Robolectric" Дмитрий Костырев (Avito)
"Погружение в Robolectric"  Дмитрий Костырев (Avito)"Погружение в Robolectric"  Дмитрий Костырев (Avito)
"Погружение в Robolectric" Дмитрий Костырев (Avito)AvitoTech
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
 
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)AvitoTech
 
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)AvitoTech
 
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)AvitoTech
 
Андрей Юткин. Media Picker — to infinity and beyond
Андрей Юткин. Media Picker — to infinity and beyondАндрей Юткин. Media Picker — to infinity and beyond
Андрей Юткин. Media Picker — to infinity and beyondAvitoTech
 
Machine Learning в Модерации - Андрей Рыбинцев (Avito)
Machine Learning в Модерации - Андрей Рыбинцев (Avito)Machine Learning в Модерации - Андрей Рыбинцев (Avito)
Machine Learning в Модерации - Андрей Рыбинцев (Avito)AvitoTech
 
"Building data streams" Константин Евтеев (Avito)
"Building data streams" Константин Евтеев (Avito)"Building data streams" Константин Евтеев (Avito)
"Building data streams" Константин Евтеев (Avito)AvitoTech
 
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av..."Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...AvitoTech
 
"Икскод, джейсон, два скетча" Олег Фролов (Avito)
"Икскод, джейсон, два скетча" Олег Фролов (Avito)"Икскод, джейсон, два скетча" Олег Фролов (Avito)
"Икскод, джейсон, два скетча" Олег Фролов (Avito)AvitoTech
 
"Favicon на стероидах" Александр Амосов (Avito)
"Favicon на стероидах" Александр Амосов (Avito)"Favicon на стероидах" Александр Амосов (Avito)
"Favicon на стероидах" Александр Амосов (Avito)AvitoTech
 
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)AvitoTech
 
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)AvitoTech
 
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)AvitoTech
 
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)AvitoTech
 
"Деплой кода процедур" Мурат Кабилов (Avito)
"Деплой кода процедур" Мурат Кабилов (Avito)"Деплой кода процедур" Мурат Кабилов (Avito)
"Деплой кода процедур" Мурат Кабилов (Avito)AvitoTech
 
"Kotlin и rx в android" Дмитрий Воронин (Avito)
"Kotlin и rx в android" Дмитрий Воронин  (Avito)"Kotlin и rx в android" Дмитрий Воронин  (Avito)
"Kotlin и rx в android" Дмитрий Воронин (Avito)AvitoTech
 
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)AvitoTech
 
"Удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Avito)
"Удобный и расширяемый роутинг в iOS-приложении" Тимур  Юсипов (Avito)"Удобный и расширяемый роутинг в iOS-приложении" Тимур  Юсипов (Avito)
"Удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Avito)AvitoTech
 

Andere mochten auch (20)

"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...
"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (..."Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...
"Распознавание марки и модели автомашин на изображениях" Евгений Нижибицкий (...
 
"Погружение в Robolectric" Дмитрий Костырев (Avito)
"Погружение в Robolectric"  Дмитрий Костырев (Avito)"Погружение в Robolectric"  Дмитрий Костырев (Avito)
"Погружение в Robolectric" Дмитрий Костырев (Avito)
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)
"Бэк-офис в Avito: миллиард объявлений на 10 серверах" Вячеслав Крюков (Avito)
 
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)
 
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)
"Sphinx 3.0 в реальной жизни" Андрей Смирнов (Avito)
 
Андрей Юткин. Media Picker — to infinity and beyond
Андрей Юткин. Media Picker — to infinity and beyondАндрей Юткин. Media Picker — to infinity and beyond
Андрей Юткин. Media Picker — to infinity and beyond
 
Machine Learning в Модерации - Андрей Рыбинцев (Avito)
Machine Learning в Модерации - Андрей Рыбинцев (Avito)Machine Learning в Модерации - Андрей Рыбинцев (Avito)
Machine Learning в Модерации - Андрей Рыбинцев (Avito)
 
"Building data streams" Константин Евтеев (Avito)
"Building data streams" Константин Евтеев (Avito)"Building data streams" Константин Евтеев (Avito)
"Building data streams" Константин Евтеев (Avito)
 
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av..."Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...
"Marshroute: удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Av...
 
"Икскод, джейсон, два скетча" Олег Фролов (Avito)
"Икскод, джейсон, два скетча" Олег Фролов (Avito)"Икскод, джейсон, два скетча" Олег Фролов (Avito)
"Икскод, джейсон, два скетча" Олег Фролов (Avito)
 
"Favicon на стероидах" Александр Амосов (Avito)
"Favicon на стероидах" Александр Амосов (Avito)"Favicon на стероидах" Александр Амосов (Avito)
"Favicon на стероидах" Александр Амосов (Avito)
 
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)
"Опыт миграции между дата-центрами" Сергей Бурладян и Михаил Тюрин (Avito)
 
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)
"О некоторых особенностях Objective-C++" Влад Михайленко (Maps.Me)
 
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)
"Опыт использования Sphinx в Ozon.ru" Игорь Чакрыгин (OZON.RU)
 
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)
"Подходы, используемые в разработке iOS-клиента Viber" Кирилл Лашкевич (Viber)
 
"Деплой кода процедур" Мурат Кабилов (Avito)
"Деплой кода процедур" Мурат Кабилов (Avito)"Деплой кода процедур" Мурат Кабилов (Avito)
"Деплой кода процедур" Мурат Кабилов (Avito)
 
"Kotlin и rx в android" Дмитрий Воронин (Avito)
"Kotlin и rx в android" Дмитрий Воронин  (Avito)"Kotlin и rx в android" Дмитрий Воронин  (Avito)
"Kotlin и rx в android" Дмитрий Воронин (Avito)
 
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)
"Ускорение сборки большого проекта на Objective-C + Swift" Иван Бондарь (Avito)
 
"Удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Avito)
"Удобный и расширяемый роутинг в iOS-приложении" Тимур  Юсипов (Avito)"Удобный и расширяемый роутинг в iOS-приложении" Тимур  Юсипов (Avito)
"Удобный и расширяемый роутинг в iOS-приложении" Тимур Юсипов (Avito)
 

Mehr von AvitoTech

Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)AvitoTech
 
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...AvitoTech
 
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)AvitoTech
 
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoTech
 
Yandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоYandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоAvitoTech
 
Migro - Юрий Богомолов
Migro - Юрий БогомоловMigro - Юрий Богомолов
Migro - Юрий БогомоловAvitoTech
 
TableKit - Максим Соколов
TableKit - Максим СоколовTableKit - Максим Соколов
TableKit - Максим СоколовAvitoTech
 
Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)AvitoTech
 
SimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоSimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоAvitoTech
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей КудрявцевAvitoTech
 
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision", Хомутников Тимофей, AvitoAvitoTech
 
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the AirAvitoTech
 
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb..."ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...AvitoTech
 
ASO for iOS 11
ASO for iOS 11ASO for iOS 11
ASO for iOS 11AvitoTech
 
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)AvitoTech
 
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...AvitoTech
 
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)AvitoTech
 
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)AvitoTech
 
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...AvitoTech
 
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовКонкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовAvitoTech
 

Mehr von AvitoTech (20)

Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
Сегментация изображений на острие науки (Евгений Нижибицкий, Rambler&Co)
 
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
Применение компьютерного зрения для анализа спортивных соревнований (Николай ...
 
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
Распознавание лиц с помощью глубоких нейронных сетей (Сергей Миляев, VisionLabs)
 
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
AvitoNet: сервис компьютерного зрения в Avito (Артур Кузин, Avito)
 
Yandex Tank - Арсений Фомченко
Yandex Tank - Арсений ФомченкоYandex Tank - Арсений Фомченко
Yandex Tank - Арсений Фомченко
 
Migro - Юрий Богомолов
Migro - Юрий БогомоловMigro - Юрий Богомолов
Migro - Юрий Богомолов
 
TableKit - Максим Соколов
TableKit - Максим СоколовTableKit - Максим Соколов
TableKit - Максим Соколов
 
Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)Jsonwire Grid - Михаил Подцерковский (Avito)
Jsonwire Grid - Михаил Подцерковский (Avito)
 
SimplePEG - Алексей Охрименко
SimplePEG - Алексей ОхрименкоSimplePEG - Алексей Охрименко
SimplePEG - Алексей Охрименко
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito"Анонимизация фото с помощью Vision",  Хомутников Тимофей, Avito
"Анонимизация фото с помощью Vision", Хомутников Тимофей, Avito
 
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
“iOS 11 в App in the Air”, Пронин Сергей, App in the Air
 
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb..."ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
"ARKit в приложении Афиша Рестораны”, Меджлумян Самвел, Антышев Дмитрий, Ramb...
 
ASO for iOS 11
ASO for iOS 11ASO for iOS 11
ASO for iOS 11
 
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
Добиваемся эффективности каждого из 9000+ UI-тестов - Максим Сахаров (Tutu.ru)
 
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
Проблемы управления тестами, или Что мешает создавать дешевые и полезные тест...
 
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
Запускаем тесты в Continuous Integration - Сергей Пак (JetBrains)
 
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
Векторы развития систем автоматизации тестирования - Дмитрий Химион (Avito)
 
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
Прокачиваем WebDriverAgent, или Как тестировать iOS-приложения после ядерного...
 
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий РубцовКонкурс Авито-2017 - Решение 2ое место - Василий Рубцов
Конкурс Авито-2017 - Решение 2ое место - Василий Рубцов
 

“Атличнаи дивчачьи каньки”: исправляем ошибки. Андрей Смирнов (Avito)

  • 2. Зачем это всё? Надо ли помогать пользователям? Надо 2
  • 3. Помощь при поиске — Подсказки при вводе поискового запроса.. — Исправление раскладки — Исправление ошибок — Исправление раскладки и ошибки — Разбиение на слова — Лишние слова. 3
  • 4. 4
  • 5. Помогаем п(р?)одающим — Много, очень много объявлений с ошибками — Собираем популярные ошибки, и учитываем их при индексации 5
  • 6. 6
  • 7. Стопслова. — Некоторые товары нельзя продавать. наркотики, людей — Мат, в подсказках некрасиво. Вычеркиваем о%;ительный — Нерелевантные слова. вообще, был, для 7
  • 8. Выбор морфологии. — Зачем приводить к нормальной форме — Soundex, Metaphone — Stemmer — Lemmatizer 8
  • 9. Словоформы. — Опечатки Былочка — Синонимы Плюшка, Пышка, Розанчик, Слойка, Бриошь, Кокура, Бриош, Гугель, Маффин — Сленг регионов. шаверма, шаварма, шаурма — Тематический сленг Автомобильные запчасти, кошечки.. — Транслитерация bulka, bulca — Ошибки лемматайзера 9
  • 10. Подготовка текста — Парсим наши большие индексы. Раскладываем по категориям — Удаляем дубликаты. Они испортят общую картину. — Чистим сами слова, лишние символы — Нормализуем входные слова, убирает стопслова 10
  • 11. Подготовка данных — Загружаем все слова в sphinx. без стемминга и лематизации. — Выгружаем частотности слов — Генерим новый индекс. Слово, Нормализированное слово, слово в другой раскладке, частотность, биграммы — Загружаем все слова в word2vec. Генерим большой пребольшой граф. 11
  • 12. Прогон — Выбираем наиболее частотные слова. — Частотность первых 15% слов составляет 80% от частотности всех слов. — Конструируем формулу для автоматической выборки пар. — Сила связи между словами из вектора.(из вектора word2vec) — Коэффициент похожести слов. (из N-gramm, Д-Левенштей, учитывается смена раскладки) — Логарифм от частотности в тексте — Получаем много и много пар слов. 12
  • 13. Bag-of-words тормоз ножной 0.905975 незавимсимый 0.885751 тросиков 0.868641 стояночный 0.867629 vтормоза 0.851434 троссиковой 0.845943 гидравлич 0.839933 тормозколесо 0.83949 easystop 0.833925 тектро 0.833664 самоискатель 0.828096 тормозной 0.826122 caliper 0.826041 пожвижные 0.825819 прямоехать 0.824853 тормозапередний0.821059 торомоз тормоз 0.781977 pushpush 0.755649 незавимсимый 0.748093 ругулятор 0.747481 осистояночный 0.744312 стоянойный 0.743994 сахтросиковой 0.741415 самх 0.74106 задниепередняя 0.734304 поворотныеманевренный0.734046 ручын 0.733179 поворотностопорный 0.730534 троссиков 0.728075 мамыш 0.726821 пожвижные 0.726676 асортизатор 0.721914 тормаз тормоз 0.806569 хорошиенадувной 0.779151 стопколяска 0.759566 ругулятор 0.749028 pushpush 0.741626 единственый 0.738707 перекладинапедалька0.737508 пожвижные 0.73588 блакироваться 0.73063 тормозколесо 0.730521 плавующий 0.729905 нафиксатор 0.726576 тормозручка 0.724633 тормозомпланка 0.723524 тросиков 0.723105 тормозручной 0.720761 13
  • 14. Skip-gram тормоз торомоз 0.776441 тормаз 0.766608 просторнаяручка 0.750774 томоз 0.714225 тормозкорзина 0.707341 тормозколесо 0.690314 тормозомпланка 0.668233 тормозесть 0.658294 тормозфиксатор 0.654067 тормозблокиратор 0.640565 дискахцентральный 0.639764 стальтормоз 0.634496 тормозапередний 0.631227 поверхностьюножной0.629615 тормозскладываться 0.6179 колесахудобный 0.611964 торомоз тормоз 0.776441 тормаз 0.674317 просторнаяручка 0.658775 тормозколесо 0.653706 асортизатор 0.630608 томоз 0.622021 тормозкорзина 0.615997 тормозапередний 0.59914 тормозомпланка 0.590222 тормаз тормоз 0.766608 торомоз 0.674317 тормозколесо 0.628059 тормозомпланка 0.619644 тормозафиксатор 0.61739 тормозскладываться0.599998 14
  • 15. Проверка — Проверяем только большие индексы — Поднимаем рядом два индекса — Получаем их монги логи запросов. — Если стало сильно лучше или сильно хуже смотрим глазами 15
  • 16. Популярные опечатки комбинезон71 компьютер 61 запчасть 54 hakkapelliita34 mitsubishi 28 комплект 28 hyundai 28 vw 2716
  • 17. камбенезон камбинезон камбинизон кимбинезон кобинезон кобминезон комбенезон комбензон комбиезон комбиензон комбимнезон комбинедзон комбинезан комбинезин комбинензон комбинзон комбинизон комбинозон комбиньзон комбмнезон комбнезон комбтнезон комибинезон коминезон коммбинезон комьинезон конбенезон конбинезон 17