Word2vec для поискового движка

Сергей Пономарев
ponomarev@corp.sputnik.ru
serv@newmail.ru

•Технология, разработанная Google и доступная в исходных
кодах https://code.google.com/p/word2vec/;
•Набирает статистику обрабатывая большие объёмы
неструктурированной текстовой информации;
•Реализует векторное представление связей между словами:
•Для каждого слова в виде вектора (размерностью в сотни
тысяч элементов) представлены его связи со всеми другими
словами;
•Позволяет вычислять между двумя любыми словами
метрики – расстояние между словами и угол между
векторами слов;
•Позволяет проводить кластеризацию слов, группируя
сходные по паттерну использования слова в кластеры на
основе метрики расстояния между словами.

Результаты кластеризации слов сильно зависят от
количества кластеров, на которые производится
разбиение. Для малого числа кластеров слова
группируются вокруг понятий реального мира,
например кластер “Железная дорога”:
станция железный железнодорожный поезд
вагон платформа узел товарный переезд
рельс железнодорожник подвижный машинист
депо проводник трамвайный горьковский паровоз
перегон перрон путевой локомотивный
электропоезд шпала вагонный проводница
тепловоз электровоз теплушка четный
багажный паровозный деповский рельсовый
http://kelijah.livejournal.com/124521.html

Для большого числа кластеров слова группируются
вокруг смысла слов, показывая взаимозаменяемые слова,
например кластер “сказал”:
сказал ответил спросил кивнул покачал говорил
согласился произнес улыбнулся заметил вздохнул
пробормотал повторил прошептал отозвался воскликнул
проговорил подтвердил возразил усмехнулся крикнул
сообщил заявил махнул отвечал нахмурился заговорил
добавил прервал рассмеялся переспросил позвал
поинтересовался засмеялся буркнул отвечает закончил
проворчал объявил развел перебил выдохнул
осведомился ухмыльнулся фыркнул пояснил
откликнулся
http://kelijah.livejournal.com/129851.html

1. Формируется набор кластеров, соответствующих
понятиям реального мира (кластеризация с малым
числом кластеров);
2. Для исследуемого текста вычисляется метрика
соответствия текста кластерам понятий, как взвешенная
сумма соответствия кластерам слов, составляющих текст;
3. Кластер с максимальным весом определяет тематику
текста: тематика текста может быть соотнесена с
тематикой запроса и учтена в ранжировании поисковой
выдачи;
4. Текст, для которого вычислены метрики соответствия ко
всем кластерам, является текстом в векторном
представлении и может быть обработан методами
Word2Vec:
1. Произведена кластеризация текстов по их содержанию;
2. Вычислены метрики расстояний между текстами.

1. Формируется набор кластеров, соответствующих
смыслам слов (кластеризация с большим числом
кластеров);
2. Слова поискового запроса расширяются словами
со сходным смыслом из кластера исходного
слова;
3. Метрики расстояний между оригинальным
словом поискового запроса и словами
расширенного запроса используются для
ранжирования поисковой выдачи.

Рассмотрим пример: дан запрос “большая семейная
машина”.
1. Получаем три кластера понятий реального мира,
группирующихся вокруг слов “большая”, “семейная” и
“машина”;
2. Вычисляем слова и понятия, находящиеся на
пересечении этих трёх кластеров, то есть –
имеющиею наименьшую сумму метрик расстояний к
каждому из кластеров;
3. Если всё сделано правильно, искомым словом будет
«минивэн»;
4. Перефразируем поисковый запрос, добавив слово
«минивэн».
Более подробно, с онтологиями и самообучением, здесь:
http://www.slideshare.net/ServPonomarev/ss-38861373

Статистика Word2Vec позволяет проводить выделение
знаний в виде «народной онтологии» - то есть знаний,
являющихся общим местом всех людей, поскольку
соответсвуют реалиям существующего мира.
Пищу едят, на стуле сидят, дома живут – это народная
онтология.
Рассмотрим пример: определить цвет апельсина.
1. Выделить кластер, в который входит слово цвет;
2. Найти для «апельсина» слово из кластера «цвет», с
которым связь максимальна;
3. Если всё сделано правильно, будет найдено слово
«оранжевый».
Более подробно, с онтологиями и самообучением, здесь:
http://habrahabr.ru/post/229403/

Word2vec для поискового движка

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (17)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Word2vec для поискового движка

Ähnlich wie Word2vec для поискового движка (20)

Word2vec для поискового движка