SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Сергей Пономарев 
ponomarev@corp.sputnik.ru 
serv@newmail.ru
•Технология, разработанная Google и доступная в исходных 
кодах https://code.google.com/p/word2vec/; 
•Набирает статистику обрабатывая большие объёмы 
неструктурированной текстовой информации; 
•Реализует векторное представление связей между словами: 
•Для каждого слова в виде вектора (размерностью в сотни 
тысяч элементов) представлены его связи со всеми другими 
словами; 
•Позволяет вычислять между двумя любыми словами 
метрики – расстояние между словами и угол между 
векторами слов; 
•Позволяет проводить кластеризацию слов, группируя 
сходные по паттерну использования слова в кластеры на 
основе метрики расстояния между словами.
Результаты кластеризации слов сильно зависят от 
количества кластеров, на которые производится 
разбиение. Для малого числа кластеров слова 
группируются вокруг понятий реального мира, 
например кластер “Железная дорога”: 
станция железный железнодорожный поезд 
вагон платформа узел товарный переезд 
рельс железнодорожник подвижный машинист 
депо проводник трамвайный горьковский паровоз 
перегон перрон путевой локомотивный 
электропоезд шпала вагонный проводница 
тепловоз электровоз теплушка четный 
багажный паровозный деповский рельсовый 
http://kelijah.livejournal.com/124521.html
Для большого числа кластеров слова группируются 
вокруг смысла слов, показывая взаимозаменяемые слова, 
например кластер “сказал”: 
сказал ответил спросил кивнул покачал говорил 
согласился произнес улыбнулся заметил вздохнул 
пробормотал повторил прошептал отозвался воскликнул 
проговорил подтвердил возразил усмехнулся крикнул 
сообщил заявил махнул отвечал нахмурился заговорил 
добавил прервал рассмеялся переспросил позвал 
поинтересовался засмеялся буркнул отвечает закончил 
проворчал объявил развел перебил выдохнул 
осведомился ухмыльнулся фыркнул пояснил 
откликнулся 
http://kelijah.livejournal.com/129851.html
1. Формируется набор кластеров, соответствующих 
понятиям реального мира (кластеризация с малым 
числом кластеров); 
2. Для исследуемого текста вычисляется метрика 
соответствия текста кластерам понятий, как взвешенная 
сумма соответствия кластерам слов, составляющих текст; 
3. Кластер с максимальным весом определяет тематику 
текста: тематика текста может быть соотнесена с 
тематикой запроса и учтена в ранжировании поисковой 
выдачи; 
4. Текст, для которого вычислены метрики соответствия ко 
всем кластерам, является текстом в векторном 
представлении и может быть обработан методами 
Word2Vec: 
1. Произведена кластеризация текстов по их содержанию; 
2. Вычислены метрики расстояний между текстами.
1. Формируется набор кластеров, соответствующих 
смыслам слов (кластеризация с большим числом 
кластеров); 
2. Слова поискового запроса расширяются словами 
со сходным смыслом из кластера исходного 
слова; 
3. Метрики расстояний между оригинальным 
словом поискового запроса и словами 
расширенного запроса используются для 
ранжирования поисковой выдачи.
Рассмотрим пример: дан запрос “большая семейная 
машина”. 
1. Получаем три кластера понятий реального мира, 
группирующихся вокруг слов “большая”, “семейная” и 
“машина”; 
2. Вычисляем слова и понятия, находящиеся на 
пересечении этих трёх кластеров, то есть – 
имеющиею наименьшую сумму метрик расстояний к 
каждому из кластеров; 
3. Если всё сделано правильно, искомым словом будет 
«минивэн»; 
4. Перефразируем поисковый запрос, добавив слово 
«минивэн». 
Более подробно, с онтологиями и самообучением, здесь: 
http://www.slideshare.net/ServPonomarev/ss-38861373
Статистика Word2Vec позволяет проводить выделение 
знаний в виде «народной онтологии» - то есть знаний, 
являющихся общим местом всех людей, поскольку 
соответсвуют реалиям существующего мира. 
Пищу едят, на стуле сидят, дома живут – это народная 
онтология. 
Рассмотрим пример: определить цвет апельсина. 
1. Выделить кластер, в который входит слово цвет; 
2. Найти для «апельсина» слово из кластера «цвет», с 
которым связь максимальна; 
3. Если всё сделано правильно, будет найдено слово 
«оранжевый». 
Более подробно, с онтологиями и самообучением, здесь: 
http://habrahabr.ru/post/229403/
Сергей Пономарев 
ponomarev@corp.sputnik.ru 
serv@newmail.ru

Weitere ähnliche Inhalte

Was ist angesagt?

ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДbibibstu
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.You DZ
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Nikolay Khivrin
 
Personilized search
Personilized searchPersonilized search
Personilized searchNLPseminar
 
АиСД осень 2012 лекция 12
АиСД осень 2012 лекция 12АиСД осень 2012 лекция 12
АиСД осень 2012 лекция 12Technopark
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Создание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе DspaceСоздание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе Dspacebntulibrary
 
работа в интернет
работа в интернетработа в интернет
работа в интернетNatalyaSH
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1GooVape
 
автоматическая классификация поисковых запросов
автоматическая классификация поисковых запросовавтоматическая классификация поисковых запросов
автоматическая классификация поисковых запросовvladtt
 
информатика
информатикаинформатика
информатикаPR15049455
 
внешняя оптимизация
внешняя оптимизациявнешняя оптимизация
внешняя оптимизацияptax
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернетеdusha13
 
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернетеsolodmar
 
История поисковых машин
История поисковых машинИстория поисковых машин
История поисковых машинDarya Karelina
 

Was ist angesagt? (17)

ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БД
 
Query expansion
Query expansionQuery expansion
Query expansion
 
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
 
Personilized search
Personilized searchPersonilized search
Personilized search
 
АиСД осень 2012 лекция 12
АиСД осень 2012 лекция 12АиСД осень 2012 лекция 12
АиСД осень 2012 лекция 12
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Создание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе DspaceСоздание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе Dspace
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
работа в интернет
работа в интернетработа в интернет
работа в интернет
 
Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1Как стать электронной компанией в Спб. Часть 1
Как стать электронной компанией в Спб. Часть 1
 
автоматическая классификация поисковых запросов
автоматическая классификация поисковых запросовавтоматическая классификация поисковых запросов
автоматическая классификация поисковых запросов
 
информатика
информатикаинформатика
информатика
 
внешняя оптимизация
внешняя оптимизациявнешняя оптимизация
внешняя оптимизация
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернете
 
История поисковых машин
История поисковых машинИстория поисковых машин
История поисковых машин
 

Andere mochten auch

Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросовСергей Пономарев
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширенийСергей Пономарев
 
Автоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиАвтоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиСергей Пономарев
 
Классификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахСергей Пономарев
 
Разработка интеллектуальных информационных систем: взгляд изнутри
Разработка интеллектуальных информационных систем: взгляд изнутриРазработка интеллектуальных информационных систем: взгляд изнутри
Разработка интеллектуальных информационных систем: взгляд изнутриDzianis Pirshtuk
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
 
word2vec (часть 2)
word2vec (часть 2)word2vec (часть 2)
word2vec (часть 2)Denis Dus
 
word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)Denis Dus
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами NLProc.by
 
Word2vec slide(lab seminar)
Word2vec slide(lab seminar)Word2vec slide(lab seminar)
Word2vec slide(lab seminar)Jinpyo Lee
 
Drawing word2vec
Drawing word2vecDrawing word2vec
Drawing word2vecKai Sasaki
 
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...Daniele Di Mitri
 
word2vec - From theory to practice
word2vec - From theory to practiceword2vec - From theory to practice
word2vec - From theory to practicehen_drik
 
Representation Learning of Vectors of Words and Phrases
Representation Learning of Vectors of Words and PhrasesRepresentation Learning of Vectors of Words and Phrases
Representation Learning of Vectors of Words and PhrasesFelipe Moraes
 

Andere mochten auch (20)

Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
 
Learning by Analogy
Learning by AnalogyLearning by Analogy
Learning by Analogy
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросов
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
Автоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиАвтоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержки
 
Классификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языках
 
Разработка интеллектуальных информационных систем: взгляд изнутри
Разработка интеллектуальных информационных систем: взгляд изнутриРазработка интеллектуальных информационных систем: взгляд изнутри
Разработка интеллектуальных информационных систем: взгляд изнутри
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORKLEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
 
Конкурс Родная речь 2014
Конкурс Родная речь 2014Конкурс Родная речь 2014
Конкурс Родная речь 2014
 
word2vec (часть 2)
word2vec (часть 2)word2vec (часть 2)
word2vec (часть 2)
 
word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)
 
NLP Project Full Cycle
NLP Project Full CycleNLP Project Full Cycle
NLP Project Full Cycle
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами
 
Word2vec slide(lab seminar)
Word2vec slide(lab seminar)Word2vec slide(lab seminar)
Word2vec slide(lab seminar)
 
Drawing word2vec
Drawing word2vecDrawing word2vec
Drawing word2vec
 
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...
Word2Vec: Learning of word representations in a vector space - Di Mitri & Her...
 
word2vec - From theory to practice
word2vec - From theory to practiceword2vec - From theory to practice
word2vec - From theory to practice
 
Representation Learning of Vectors of Words and Phrases
Representation Learning of Vectors of Words and PhrasesRepresentation Learning of Vectors of Words and Phrases
Representation Learning of Vectors of Words and Phrases
 

Ähnlich wie Word2vec для поискового движка

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Ontico
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Дмитрий Севальнев
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
JavaScript Базовый. Занятие 01.
JavaScript Базовый. Занятие 01.JavaScript Базовый. Занятие 01.
JavaScript Базовый. Занятие 01.Igor Shkulipa
 
Lan-Crawler Bachlor RU
Lan-Crawler Bachlor RULan-Crawler Bachlor RU
Lan-Crawler Bachlor RUcDima
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетPyNSK
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетInno4ka2323
 
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress?
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress? Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress?
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress? Ruslan Begaliev
 
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...it-people
 

Ähnlich wie Word2vec для поискового движка (20)

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...
 
Html лаб 2
Html лаб 2Html лаб 2
Html лаб 2
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
Hpc Day
Hpc DayHpc Day
Hpc Day
 
JavaScript Базовый. Занятие 01.
JavaScript Базовый. Занятие 01.JavaScript Базовый. Занятие 01.
JavaScript Базовый. Занятие 01.
 
Lan-Crawler Bachlor RU
Lan-Crawler Bachlor RULan-Crawler Bachlor RU
Lan-Crawler Bachlor RU
 
Lect1
Lect1Lect1
Lect1
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работает
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернет
 
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress?
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress? Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress?
Каким будет SEO в начале 2017 года и как нам в этом поможет Wordpress?
 
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
 

Word2vec для поискового движка

  • 2. •Технология, разработанная Google и доступная в исходных кодах https://code.google.com/p/word2vec/; •Набирает статистику обрабатывая большие объёмы неструктурированной текстовой информации; •Реализует векторное представление связей между словами: •Для каждого слова в виде вектора (размерностью в сотни тысяч элементов) представлены его связи со всеми другими словами; •Позволяет вычислять между двумя любыми словами метрики – расстояние между словами и угол между векторами слов; •Позволяет проводить кластеризацию слов, группируя сходные по паттерну использования слова в кластеры на основе метрики расстояния между словами.
  • 3. Результаты кластеризации слов сильно зависят от количества кластеров, на которые производится разбиение. Для малого числа кластеров слова группируются вокруг понятий реального мира, например кластер “Железная дорога”: станция железный железнодорожный поезд вагон платформа узел товарный переезд рельс железнодорожник подвижный машинист депо проводник трамвайный горьковский паровоз перегон перрон путевой локомотивный электропоезд шпала вагонный проводница тепловоз электровоз теплушка четный багажный паровозный деповский рельсовый http://kelijah.livejournal.com/124521.html
  • 4. Для большого числа кластеров слова группируются вокруг смысла слов, показывая взаимозаменяемые слова, например кластер “сказал”: сказал ответил спросил кивнул покачал говорил согласился произнес улыбнулся заметил вздохнул пробормотал повторил прошептал отозвался воскликнул проговорил подтвердил возразил усмехнулся крикнул сообщил заявил махнул отвечал нахмурился заговорил добавил прервал рассмеялся переспросил позвал поинтересовался засмеялся буркнул отвечает закончил проворчал объявил развел перебил выдохнул осведомился ухмыльнулся фыркнул пояснил откликнулся http://kelijah.livejournal.com/129851.html
  • 5. 1. Формируется набор кластеров, соответствующих понятиям реального мира (кластеризация с малым числом кластеров); 2. Для исследуемого текста вычисляется метрика соответствия текста кластерам понятий, как взвешенная сумма соответствия кластерам слов, составляющих текст; 3. Кластер с максимальным весом определяет тематику текста: тематика текста может быть соотнесена с тематикой запроса и учтена в ранжировании поисковой выдачи; 4. Текст, для которого вычислены метрики соответствия ко всем кластерам, является текстом в векторном представлении и может быть обработан методами Word2Vec: 1. Произведена кластеризация текстов по их содержанию; 2. Вычислены метрики расстояний между текстами.
  • 6. 1. Формируется набор кластеров, соответствующих смыслам слов (кластеризация с большим числом кластеров); 2. Слова поискового запроса расширяются словами со сходным смыслом из кластера исходного слова; 3. Метрики расстояний между оригинальным словом поискового запроса и словами расширенного запроса используются для ранжирования поисковой выдачи.
  • 7. Рассмотрим пример: дан запрос “большая семейная машина”. 1. Получаем три кластера понятий реального мира, группирующихся вокруг слов “большая”, “семейная” и “машина”; 2. Вычисляем слова и понятия, находящиеся на пересечении этих трёх кластеров, то есть – имеющиею наименьшую сумму метрик расстояний к каждому из кластеров; 3. Если всё сделано правильно, искомым словом будет «минивэн»; 4. Перефразируем поисковый запрос, добавив слово «минивэн». Более подробно, с онтологиями и самообучением, здесь: http://www.slideshare.net/ServPonomarev/ss-38861373
  • 8. Статистика Word2Vec позволяет проводить выделение знаний в виде «народной онтологии» - то есть знаний, являющихся общим местом всех людей, поскольку соответсвуют реалиям существующего мира. Пищу едят, на стуле сидят, дома живут – это народная онтология. Рассмотрим пример: определить цвет апельсина. 1. Выделить кластер, в который входит слово цвет; 2. Найти для «апельсина» слово из кластера «цвет», с которым связь максимальна; 3. Если всё сделано правильно, будет найдено слово «оранжевый». Более подробно, с онтологиями и самообучением, здесь: http://habrahabr.ru/post/229403/