SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
1
© 2013 International Business Machines Corporation
IBM Watson

Компьютерная лингвистика
Артём Семенихин
Follow us @IBMWatson
© 2013 International Business Machines Corporation3
Понимает
вопросы на
естественном
для человека
языке
Адаптируется и
учится с
помощью
пользователя
Генерирует и
оценивает
гипотезы для
ответа
Что делает IBM Watson?
1
2
3
© 2013 International Business Machines Corporation4
Чем экспертная система отличается от поисковой машины?
Человек
Поиск
Находит документы по ключевым словам
Возвращает ранжированный список
Формулирует вопрос
Выделяет ключевые слова
Читает документы, ищет
ответ
Оценивает результат
Эксперт
Понимает вопрос
Находит варианты ответов
Предоставляет отчет
Оценивает степень уверенности в ответе
Задает вопрос
Оценивает результат
Человек
© 2013 International Business Machines Corporation5
Декомпозиция
вопроса
Оценка
ответов
Models
Ответ со
степенью
уверенности
Вопрос
Источники
доказательств
Models
Models
Models
Models
Models
Поиск
Генерация
ответов-
кандидатов
Генерация
гипотезы
Доказательство и оценка
Окончательная
оценка и
ранжирование
Синтез
Источники
ответов
Анализ
вопроса и
темы
Получение
доказательств
Оценка
доказательств
Machine learning:
изученные модели
для взвешенной
оценки
доказательств
Генерация
гипотезы
Доказательство и оценка
Архитектура Watson: DeepQA
© 2013 International Business Machines Corporation6
На чем основан DeepQA?
§ PIQUANT (TREC)
§ UIMA (uima.apache.org)
§ UIMA – фреймворк для аналитики
§ Цель UIMA – извлекать знания
UIMA pipeline
Аннотатор Аннотатор Аннотатор
§ Hadoop (Map/Sort/Reduce)
© 2013 International Business Machines Corporation7
DeepQA: Анализ вопроса
1.  Выделить Focus
2.  Найти LAT
3.  Определить класс вопроса
4.  Найти специальные элементы
POETS & POETRY: He was a bank clerk in the
Yukon before he published “Songs of a Sourdough”
Focus
LATs
QClass = factoid QSection = none
© 2013 International Business Machines Corporation8
DeepQA: Анализ вопроса
POETS & POETRY: He was a bank clerk in the
Yukon before he published “Songs of a Sourdough”
Анализ вопроса:
•  ESG (English Slot Grammar) – синтаксический разбор
•  PAS (Predicate-argument structure) – семантический разбор
© 2013 International Business Machines Corporation9
DeepQA: Анализ вопроса (Prolog)
Input:
lemma(1, ‘‘he’’).
partOfSpeech(1,pronoun).
lemma(2, ‘‘publish’’).
partOfSpeech(2,verb).
lemma(3,‘‘Songs of a Sourdough’’).
partOfSpeech(3,noun).
subject(2,1).
object(2,3).
POETS & POETRY: He was a bank clerk in the
Yukon before he published “Songs of a Sourdough”
Правила Prolog:
authorOf(Author, Composition) :-
createVerb(Verb),
subject(Verb, Author),
author(Author),
object(Verb, Composition),
composition(Composition).-
createVerb(Verb) :-
partOfSpeech(Verb, verb),
lemma(Verb, VerbLemma),
[‘‘write’’, ‘‘publish’’, . . .].
authorOf(1,3)
© 2013 International Business Machines Corporation10
DeepQA: источники знаний
§ Протестировали Wikipedia на 3500 случайных вопросов Jeopardy
§ Источники информации
§ Чтобы обеспечить достаточную полноту и точность
Wikipedia
Wiktionary
Wikiquote
Project Gutenberg
The Bible
…
§ Расширение источников
§ Поиск Yahoo! по вопросам, которые остались без ответов
§ Парсинг и построение внутреннего представления
§ Не простой инвертированный индекс
§ Преобразование источников в наборы коротких абзацев
© 2013 International Business Machines Corporation11
DeepQA: Автоматическое извлечение семантической информации
§ Поверхностный синтаксический анализ
«Эйнштейн, опубликовавший свыше 300 научных статей, получил
Нобелевскую премию по физике в 1921 году»
§ Эйнштейн – ученый
§ Ученые публикуют статьи
§ Ученые получают Нобелевские премии
§ Нобелевская премия характеризуется предметом и годом
© 2013 International Business Machines Corporation12
DeepQA: Автоматическое извлечение семантической информации
PRISMATIC
© 2013 International Business Machines Corporation13
DeepQA: генерация гипотез
Три этапа
§ Генерация поисковых запросов
§ Поиск релевантной информации
§ Выделение ответов-кандидатов
Главное – побольше гипотез!
...но не слишком
Генерация
запросов
Document search
Поиск
TIC passage
Indri passage
Indri passage
Answer Lookup
PRISMATIC
TOD
Wikipedia title
Anchor text
Simple
Выделение
кандидата
© 2013 International Business Machines Corporation14
DeepQA: генерация гипотез. Поисковые запросы
Вопрос:
MOVIE-"ING": Robert Redford and Paul Newman
starred in this depression-era grifter flick.
Анализ:
actorIn(Robert Redford; flick : focus)
actorIn(Paul Newman; flick : focus)
Поисковые запросы:
§ Полный: (2.0 Robert Redford) (2.0 Paul Newman) depression-era
grifter (1.5 flick)
§ LAT-only: depression-era grifter flick
© 2013 International Business Machines Corporation15
DeepQA: генерация гипотез. Типы поисков
§ Document search (для title-oriented документов)
§ Indri search engine (lemurproject.org/indri)
§ Используется 2 индекса:
§ Для больших документов – генерирует 50 ответов-кандидатов
§ Для маленьких документов – генерирует 5 ответов-кандидатов
§ Passage search
§ TIC (title in the clue) – генерирует 10 ответов-кандидатов
§ Использует Indri и Lucene – по 5 ответов-кандидатов каждый
§ Выделяет 1-2 предложения
© 2013 International Business Machines Corporation16
DeepQA: генерация гипотез. Типы поисков
§ Поиск по структурированным источникам
§ Answer Lookup
§ Часть вопроса переводится в язык запроса (например, SPARQL для
DBpedia)
§ Общий принцип поиска:
§ Допустим есть actorIn(Robert Redford; flick : focus)
§ Мы ищем запись в базе по «Robert Redford»
§ Если у данной записи есть relation – actorIn, то мы пытаемся найти
запись film, где отношение starring указывает на «Robert Redford»
§ Если мы находим взаимосвязь, то получаем ответ-кандидат
© 2013 International Business Machines Corporation17
DeepQA: генерация гипотез. Типы поисков
§ Поиск по структурированным источникам
§ Поикс по PRISMATIC
§ PRISMATIC содержит множество коротких entities, связанных одним
relation
§ Позволяет быстро определять «is a» связи
§ Пример, где это нужно:
§ Вопрос: «Unlike most sea animals, in the Sea Horse this pair of sense organs can
move independently of one another»
§ Поиск по LAT «sense organs» в PRISMATIC даст сильный вариант
«eyes»:
§ Eye is a sense organ
© 2013 International Business Machines Corporation18
DeepQA: генерация гипотез. Выделение ответа-кандидата
§ Для структурированных источников – результат поиска и есть ответ-
кандидат
§ Для неструктурированных три типа поиска:
§ Title of Document
§ Для кандидатов от Document Search
§ Wikipedia Title
§ Для кандидатов от Passage Search
§ 95% ответов на вопросы Jeopardy! содержатся в названии Wikipedia документов
§ Из passage выделяются все существительные {n1, n2, n3, …}
§ Если n_i == Wikipedia_doc_title, то получаем ответ-кандидат
§ Anchor Text
§ Для обоих типов поиска
§ Тексты ссылок – это и есть кандидаты
© 2013 International Business Machines Corporation19
DeepQA: оценка гипотез
§ К данному моменту есть
§ Кандидаты-ответы
§ Confidence score, что кандидат и вопрос имеют один и тот же тип
§ Требуется собрать дополнительные доказательства
§ Passage evidence – параграфы текста «поддерживающие»
кандидата
§ Ответ-кандидат добавляется к вопросу:
§ Запускаются «стандартные» механизмы поиска DeepQA
§ Дополнительный поиск – SER (Supporting Evidence Retrieval) на базе Indri
§ Разные типы evidence имеют разную степень «доверия»
© 2013 International Business Machines Corporation20
DeepQA: оценка гипотез. Passage Term Match
celebrated
India
In May
1898
400th
anniversary
arrival in
Portugal
India
In May
Garyexplorer
celebrated
anniversary
in Portugal
Term Matching
Term Matching
Term Matching
Term Matching
Term Matching
arrived in
In May, Gary arrived in
India after he celebrated
his anniversary in Portugal.
In May 1898 Portugal celebrated
the 400th anniversary of this
explorer’s arrival in India.
© 2013 International Business Machines Corporation21
DeepQA: оценка гипотез. Deep Evidence
celebrated
May 1898 400th anniversary
arrival
in
In May 1898 Portugal celebrated
the 400th anniversary of this
explorer’s arrival in India.
Portugal
landed in
27th May 1498
Vasco da Gama
Temporal
Reasoning
Statistical
Paraphrasing
GeoSpatial
Reasoning
explorer
On the 27th of May 1498, Vasco da
Gama landed in Kappad Beach
Kappad Beach
Para-
phrase
s
Geo-
KB
Date
Math
India
© 2013 International Business Machines Corporation22
DeepQA: оценка гипотез. Еще методы...
§ Skip-Bigram
§ Поиск соответсвия пар терминов в вопросе и параграфе
§ Textual Alignment
§ Соответсвия длинных цепочек слов из вопроса в параграфе
§ Является модификацией алгоритма Waterman-Smith для sequence
matching в ДНК
§ Logical Form Answer
§ Оценка соответсвия семантических графов вопроса и параграфа
© 2013 International Business Machines Corporation23
DeepQA: финальное ранжирование ответов
§ Проходит в семь этапов (1-3):
§ (1) Hitlist normalization
§ Убираются совсем слабые кандидаты
§ Остается только 100 вариантов
§ (2) Base
§ Распределяем кандидатов по классам (QClasses)
§ Разные классы имеют разные «маршруты» доказательств
§ (3) Transfer Learning
§ Только для редких типов вопросов (definition или translation)
§ Применяется специализированная модель ранжирования
© 2013 International Business Machines Corporation24
DeepQA: (4) Answer Merging
§ Пример: «John F. Kennedy» и «J.F.K» значат одно и то же
§ Каждая пара ответов-кандидатов проверяется на «похожесть»:
§ Морфологический анализ
§ Анализ полнотоы (пример: <ФИО>, а не <Фамилия>)
§ Подготовленные таблицы
§ Из двух совпавших выбирается наиболее каноничная форма
© 2013 International Business Machines Corporation25
DeepQA: финальное ранжирование ответов
§ Проходит в семь этапов (5-7):
§ (5) Elite
§ Аналогично Hitlist normalization
§ Остается только пять вариантов
§ (6) Evidence Diffusion
§ Проверяет скрытые связи между кандидатами
§ Если связь есть, то более сильному кандидату добавляется очки
§ (7) Multi Answers
§ Объединение кандидатов для ответа на вложенные вопросы
§ Пример: When "60 Minutes" premiered this man was U.S. president
© 2013 International Business Machines Corporation26
DeepQA: финальное ранжирование ответов
§ Каждый этап состоит из двух шагов:
§ Объединение однотипных доказательств (например, passages)
§ Запуск классификатора
§  В режиме обучения
§  В режиме применения
§ Тренировока классификатора – 25000 вопросов Jeopardy!
§ www.j-archive.com – архив вопросов Jeopardy!
§  5.7 млн ответов-кандидатов
§  у каждого ответа-кандидата 550 фич
© 2013 International Business Machines Corporation27
§ DeepQA позволяет встроить любой классификатор
§ Что пробовалось пока разрабатывали Watson:
§ Логистическая регрессия
§ SMV (Support Vector Machines)
§ Линейные и нелинейные ядра
§ Бустинг
§ Нейросети
§ Деревья решений
§ Логистическая регрессия – выбор для Jeopardy!
§ x – вектор численных значений доказательств
§ β – «веса» доказательств (из обучения)
§ Не требует мучительной настройки для каждого запуска
DeepQA: классификатор
© 2013 International Business Machines Corporation28
Первые шаги Watson
THE AMERICAN DREAM
Decades before Lincoln, Daniel Webster spoke of government "made
for", "made by" & "answerable to" them
NEW YORK TIMES HEADLINES
An exclamation point was warranted for the "end of" this! In 1918
MILESTONES
In 1994, 25 years after this event, 1 participant said, "For one crowning
moment, we were creatures of the cosmic ocean”
THE QUEEN'S ENGLISH
Give a Brit a tinkle when you get into town & you've done this
FATHERLY NICKNAMES
This Frenchman was "The Father of Bacteriology"
the Big Bang
urinate
No One
a sentence
How Tasty Was My
Little Frenchman
Apollo 11 moon landing
the People
WW I
Call on the phone
Louis Pasteur
© 2013 International Business Machines Corporation29
Baseline 12/06
v0.1 12/07
v0.3 08/08
v0.5 05/09
v0.6 10/09
v0.8 11/10
v0.4 12/08
v0.2 05/08
V0.7 04/10
Точностьответа
Watson развивается...
Облако победителей
© 2013 International Business Machines Corporation30
Watson в числах
§ Команда: 25 человек
§ Время: 4 года
§ Софт: 1,000,000 SLOC
§ 700K Java, 300K C++
§ ~ 130 компонент
§ Железо: 90 IBM Power-750 servers
2880 Power7 cores @ 80+ TFLOPS
§ 20 TB Disk, 16 TB RAM (memory)
§ 10 Gbps network
© 2013 International Business Machines Corporation31
On February 14, 2011, IBM Watson made history
© 2013 International Business Machines Corporation32
IBM Watson в работе. Медицина
Медицинская
информация
удваивается каждые
5 лет
81% терапевтов
читают медицинские
журналы меньше 5
часов в месяц (США)
Такие системы как
Watson могут помочь
врачам
© 2013 International Business Machines Corporation33
Семейная
история
История
пациента
АнализыМедикаменты
Симптомы
UTI
Diabetes
Influenza
Hypokalemia
Renal Failure
no abdominal pain
no back pain
no cough
no diarrhea
(Thyroid Autoimmune)
Esophagitis
pravastatin
Alendronate
levothyroxine
hydroxychloroquine
Модели	
  диагностики	
  
frequent UTI
cutaneous lupus
hyperlipidemia
osteoporosis
hypothyroidism
Увереность	
  
difficulty swallowing
dizziness
anorexia
fever
dry mouth
thirst
frequent urination
Семейна
история
Graves’ Disease
Oral cancer
Bladder cancer
Hemochromatosis
Purpura
История
пациентаМедикам.Анализы
supine 120/80 mm HG
urine dipstick:
leukocyte esterase
urine culture: E. Coli
heart rate: 88 bpm
Симптомы
A 58-year-old woman complains of
dizziness, anorexia, dry mouth,
increased thirst, and frequent
urination. She had also had a fever.
She reported no pain in her abdomen,
back, and no cough, or diarrhea.
A 58-year-old woman presented to her
primary care physician after several days
of dizziness, anorexia, dry mouth,
increased thirst, and frequent urination.
She had also had a fever and reported that
food would “get stuck” when she was
swallowing. She reported no pain in her
abdomen, back, or flank and no cough,
shortness of breath, diarrhea, or dysuria
Her family history included oral and
bladder cancer in her mother,
Graves' disease in two sisters,
hemochromatosis in one sister, and
idiopathic thrombocytopenic
purpura in one sister
Her history was notable for cutaneous
lupus, hyperlipidemia, osteoporosis,
frequent urinary tract infections, a left
oophorectomy for a benign cyst, and
primary hypothyroidism, diagnosed a
year earlier
Her medications were levothyroxine,
hydroxychloroquine, pravastatin, and
alendronate.
A urine dipstick was positive for
leukocyte esterase and nitrites. The
patient was given a prescription for
ciprofloxacin for a urinary tract
infection. 3 days later, patient
reported weakness and dizziness.
Her supine blood pressure was
120/80 mm Hg, and pulse was 88.
•  Extract Symptoms from record
•  Use paraphrasings mined from text to handle alternate
phrasings and variants
•  Perform broad search for possible diagnoses
•  Score Confidence in each diagnosis based on
evidence so far
•  Identify negative Symptoms
•  Reason with mined relations to explain away
symptoms (thirst is consistent w/ UTI)
•  Extract Family History
•  Use Medical Taxonomies to generalize medical
conditions to the granularity used by the models
•  Extract Patient History•  Extract Medications
•  Use database of drug side-effects
•  Together, multiple diagnoses may best explain
symptoms
•  Extract Findings: Confirms that UTI was present
Most Confident Diagnosis: DiabetesMost Confident Diagnosis: UTIMost Confident Diagnosis: EsophagitisMost Confident Diagnosis: Influenza
Как DeepQA помогает диагностике
© 2013 International Business Machines Corporation34
Где еще может пригодиться такая технология?
Поддержка: Help-desk, Contact Centers
Управление знаниями в крупных компаниях
Государственные службы
Поисковики?
© 2013 International Business Machines Corporation35
Краткая история IBM Watson
R&D
Demonstration
Commercialization
Cross-industry 

Applications
IBM

Research
Project 

(2006 – )
Jeopardy!

Grand
Challenge

(Feb 2011)
Watson 

for

Healthcare

(Aug 2011 –)
Watson 

Industry
Solutions

(2012 – )
Watson 

for Financial
Services

(Mar 2012 – )
Expansion
Что будет дальше?
© 2013 International Business Machines Corporation36
Все будет хорошо...
I'm completely operational, and all
my circuits are functioning perfectly

Weitere ähnliche Inhalte

Andere mochten auch

IBM Watson и его практическое применение
IBM Watson и его практическое применениеIBM Watson и его практическое применение
IBM Watson и его практическое применениеJanosz Neumann
 
Watson at RPI - Summer 2013
Watson at RPI - Summer 2013Watson at RPI - Summer 2013
Watson at RPI - Summer 2013James Hendler
 
Когнитивные технологии
Когнитивные технологииКогнитивные технологии
Когнитивные технологииSkolkovo Robotics Center
 
Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине mir4sveta
 
"10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать""10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать"Владислав Шерстобоев
 
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"Владислав Шерстобоев
 
"Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности""Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности"Владислав Шерстобоев
 
Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Владислав Шерстобоев
 
Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...mir4sveta
 
Putting IBM Watson to Work.. Saxena
Putting IBM Watson to Work.. SaxenaPutting IBM Watson to Work.. Saxena
Putting IBM Watson to Work.. SaxenaManoj Saxena
 
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!Tony Pearson
 
Storytelling, pressfeed и другие
Storytelling, pressfeed и другиеStorytelling, pressfeed и другие
Storytelling, pressfeed и другиеRozaliya Kanevskaya
 

Andere mochten auch (16)

IBM Watson и его практическое применение
IBM Watson и его практическое применениеIBM Watson и его практическое применение
IBM Watson и его практическое применение
 
Watson at RPI - Summer 2013
Watson at RPI - Summer 2013Watson at RPI - Summer 2013
Watson at RPI - Summer 2013
 
Bright box kia remoto overview
Bright box kia remoto overviewBright box kia remoto overview
Bright box kia remoto overview
 
Когнитивные технологии
Когнитивные технологииКогнитивные технологии
Когнитивные технологии
 
Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине
 
Watson and Open Source Tools
Watson and Open Source ToolsWatson and Open Source Tools
Watson and Open Source Tools
 
Пациент - эксперт
Пациент - экспертПациент - эксперт
Пациент - эксперт
 
"10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать""10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать"
 
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
 
"Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности""Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности"
 
Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"
 
Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Putting IBM Watson to Work.. Saxena
Putting IBM Watson to Work.. SaxenaPutting IBM Watson to Work.. Saxena
Putting IBM Watson to Work.. Saxena
 
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!
IBM Watson: How it Works, and What it means for Society beyond winning Jeopardy!
 
Storytelling, pressfeed и другие
Storytelling, pressfeed и другиеStorytelling, pressfeed и другие
Storytelling, pressfeed и другие
 

Ähnlich wie "IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM

Как оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницКак оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницСергей Кокшаров
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)Iosif Itkin
 
Spcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейSpcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейAlex Kozhemiakin
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУYandex
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширенийСергей Пономарев
 

Ähnlich wie "IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM (8)

кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Как оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страницКак оптимизировать релевантность посадочных страниц
Как оптимизировать релевантность посадочных страниц
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
BDD. The Outer Limits. Iosif Itkin at Youcon (in Russian)
 
Spcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейSpcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексей
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 

Mehr von Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

Mehr von Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

"IBM Watson — компьютерная лингвистика". Артём Семенихин, IBM

  • 1. 1
  • 2. © 2013 International Business Machines Corporation IBM Watson
 Компьютерная лингвистика Артём Семенихин Follow us @IBMWatson
  • 3. © 2013 International Business Machines Corporation3 Понимает вопросы на естественном для человека языке Адаптируется и учится с помощью пользователя Генерирует и оценивает гипотезы для ответа Что делает IBM Watson? 1 2 3
  • 4. © 2013 International Business Machines Corporation4 Чем экспертная система отличается от поисковой машины? Человек Поиск Находит документы по ключевым словам Возвращает ранжированный список Формулирует вопрос Выделяет ключевые слова Читает документы, ищет ответ Оценивает результат Эксперт Понимает вопрос Находит варианты ответов Предоставляет отчет Оценивает степень уверенности в ответе Задает вопрос Оценивает результат Человек
  • 5. © 2013 International Business Machines Corporation5 Декомпозиция вопроса Оценка ответов Models Ответ со степенью уверенности Вопрос Источники доказательств Models Models Models Models Models Поиск Генерация ответов- кандидатов Генерация гипотезы Доказательство и оценка Окончательная оценка и ранжирование Синтез Источники ответов Анализ вопроса и темы Получение доказательств Оценка доказательств Machine learning: изученные модели для взвешенной оценки доказательств Генерация гипотезы Доказательство и оценка Архитектура Watson: DeepQA
  • 6. © 2013 International Business Machines Corporation6 На чем основан DeepQA? § PIQUANT (TREC) § UIMA (uima.apache.org) § UIMA – фреймворк для аналитики § Цель UIMA – извлекать знания UIMA pipeline Аннотатор Аннотатор Аннотатор § Hadoop (Map/Sort/Reduce)
  • 7. © 2013 International Business Machines Corporation7 DeepQA: Анализ вопроса 1.  Выделить Focus 2.  Найти LAT 3.  Определить класс вопроса 4.  Найти специальные элементы POETS & POETRY: He was a bank clerk in the Yukon before he published “Songs of a Sourdough” Focus LATs QClass = factoid QSection = none
  • 8. © 2013 International Business Machines Corporation8 DeepQA: Анализ вопроса POETS & POETRY: He was a bank clerk in the Yukon before he published “Songs of a Sourdough” Анализ вопроса: •  ESG (English Slot Grammar) – синтаксический разбор •  PAS (Predicate-argument structure) – семантический разбор
  • 9. © 2013 International Business Machines Corporation9 DeepQA: Анализ вопроса (Prolog) Input: lemma(1, ‘‘he’’). partOfSpeech(1,pronoun). lemma(2, ‘‘publish’’). partOfSpeech(2,verb). lemma(3,‘‘Songs of a Sourdough’’). partOfSpeech(3,noun). subject(2,1). object(2,3). POETS & POETRY: He was a bank clerk in the Yukon before he published “Songs of a Sourdough” Правила Prolog: authorOf(Author, Composition) :- createVerb(Verb), subject(Verb, Author), author(Author), object(Verb, Composition), composition(Composition).- createVerb(Verb) :- partOfSpeech(Verb, verb), lemma(Verb, VerbLemma), [‘‘write’’, ‘‘publish’’, . . .]. authorOf(1,3)
  • 10. © 2013 International Business Machines Corporation10 DeepQA: источники знаний § Протестировали Wikipedia на 3500 случайных вопросов Jeopardy § Источники информации § Чтобы обеспечить достаточную полноту и точность Wikipedia Wiktionary Wikiquote Project Gutenberg The Bible … § Расширение источников § Поиск Yahoo! по вопросам, которые остались без ответов § Парсинг и построение внутреннего представления § Не простой инвертированный индекс § Преобразование источников в наборы коротких абзацев
  • 11. © 2013 International Business Machines Corporation11 DeepQA: Автоматическое извлечение семантической информации § Поверхностный синтаксический анализ «Эйнштейн, опубликовавший свыше 300 научных статей, получил Нобелевскую премию по физике в 1921 году» § Эйнштейн – ученый § Ученые публикуют статьи § Ученые получают Нобелевские премии § Нобелевская премия характеризуется предметом и годом
  • 12. © 2013 International Business Machines Corporation12 DeepQA: Автоматическое извлечение семантической информации PRISMATIC
  • 13. © 2013 International Business Machines Corporation13 DeepQA: генерация гипотез Три этапа § Генерация поисковых запросов § Поиск релевантной информации § Выделение ответов-кандидатов Главное – побольше гипотез! ...но не слишком Генерация запросов Document search Поиск TIC passage Indri passage Indri passage Answer Lookup PRISMATIC TOD Wikipedia title Anchor text Simple Выделение кандидата
  • 14. © 2013 International Business Machines Corporation14 DeepQA: генерация гипотез. Поисковые запросы Вопрос: MOVIE-"ING": Robert Redford and Paul Newman starred in this depression-era grifter flick. Анализ: actorIn(Robert Redford; flick : focus) actorIn(Paul Newman; flick : focus) Поисковые запросы: § Полный: (2.0 Robert Redford) (2.0 Paul Newman) depression-era grifter (1.5 flick) § LAT-only: depression-era grifter flick
  • 15. © 2013 International Business Machines Corporation15 DeepQA: генерация гипотез. Типы поисков § Document search (для title-oriented документов) § Indri search engine (lemurproject.org/indri) § Используется 2 индекса: § Для больших документов – генерирует 50 ответов-кандидатов § Для маленьких документов – генерирует 5 ответов-кандидатов § Passage search § TIC (title in the clue) – генерирует 10 ответов-кандидатов § Использует Indri и Lucene – по 5 ответов-кандидатов каждый § Выделяет 1-2 предложения
  • 16. © 2013 International Business Machines Corporation16 DeepQA: генерация гипотез. Типы поисков § Поиск по структурированным источникам § Answer Lookup § Часть вопроса переводится в язык запроса (например, SPARQL для DBpedia) § Общий принцип поиска: § Допустим есть actorIn(Robert Redford; flick : focus) § Мы ищем запись в базе по «Robert Redford» § Если у данной записи есть relation – actorIn, то мы пытаемся найти запись film, где отношение starring указывает на «Robert Redford» § Если мы находим взаимосвязь, то получаем ответ-кандидат
  • 17. © 2013 International Business Machines Corporation17 DeepQA: генерация гипотез. Типы поисков § Поиск по структурированным источникам § Поикс по PRISMATIC § PRISMATIC содержит множество коротких entities, связанных одним relation § Позволяет быстро определять «is a» связи § Пример, где это нужно: § Вопрос: «Unlike most sea animals, in the Sea Horse this pair of sense organs can move independently of one another» § Поиск по LAT «sense organs» в PRISMATIC даст сильный вариант «eyes»: § Eye is a sense organ
  • 18. © 2013 International Business Machines Corporation18 DeepQA: генерация гипотез. Выделение ответа-кандидата § Для структурированных источников – результат поиска и есть ответ- кандидат § Для неструктурированных три типа поиска: § Title of Document § Для кандидатов от Document Search § Wikipedia Title § Для кандидатов от Passage Search § 95% ответов на вопросы Jeopardy! содержатся в названии Wikipedia документов § Из passage выделяются все существительные {n1, n2, n3, …} § Если n_i == Wikipedia_doc_title, то получаем ответ-кандидат § Anchor Text § Для обоих типов поиска § Тексты ссылок – это и есть кандидаты
  • 19. © 2013 International Business Machines Corporation19 DeepQA: оценка гипотез § К данному моменту есть § Кандидаты-ответы § Confidence score, что кандидат и вопрос имеют один и тот же тип § Требуется собрать дополнительные доказательства § Passage evidence – параграфы текста «поддерживающие» кандидата § Ответ-кандидат добавляется к вопросу: § Запускаются «стандартные» механизмы поиска DeepQA § Дополнительный поиск – SER (Supporting Evidence Retrieval) на базе Indri § Разные типы evidence имеют разную степень «доверия»
  • 20. © 2013 International Business Machines Corporation20 DeepQA: оценка гипотез. Passage Term Match celebrated India In May 1898 400th anniversary arrival in Portugal India In May Garyexplorer celebrated anniversary in Portugal Term Matching Term Matching Term Matching Term Matching Term Matching arrived in In May, Gary arrived in India after he celebrated his anniversary in Portugal. In May 1898 Portugal celebrated the 400th anniversary of this explorer’s arrival in India.
  • 21. © 2013 International Business Machines Corporation21 DeepQA: оценка гипотез. Deep Evidence celebrated May 1898 400th anniversary arrival in In May 1898 Portugal celebrated the 400th anniversary of this explorer’s arrival in India. Portugal landed in 27th May 1498 Vasco da Gama Temporal Reasoning Statistical Paraphrasing GeoSpatial Reasoning explorer On the 27th of May 1498, Vasco da Gama landed in Kappad Beach Kappad Beach Para- phrase s Geo- KB Date Math India
  • 22. © 2013 International Business Machines Corporation22 DeepQA: оценка гипотез. Еще методы... § Skip-Bigram § Поиск соответсвия пар терминов в вопросе и параграфе § Textual Alignment § Соответсвия длинных цепочек слов из вопроса в параграфе § Является модификацией алгоритма Waterman-Smith для sequence matching в ДНК § Logical Form Answer § Оценка соответсвия семантических графов вопроса и параграфа
  • 23. © 2013 International Business Machines Corporation23 DeepQA: финальное ранжирование ответов § Проходит в семь этапов (1-3): § (1) Hitlist normalization § Убираются совсем слабые кандидаты § Остается только 100 вариантов § (2) Base § Распределяем кандидатов по классам (QClasses) § Разные классы имеют разные «маршруты» доказательств § (3) Transfer Learning § Только для редких типов вопросов (definition или translation) § Применяется специализированная модель ранжирования
  • 24. © 2013 International Business Machines Corporation24 DeepQA: (4) Answer Merging § Пример: «John F. Kennedy» и «J.F.K» значат одно и то же § Каждая пара ответов-кандидатов проверяется на «похожесть»: § Морфологический анализ § Анализ полнотоы (пример: <ФИО>, а не <Фамилия>) § Подготовленные таблицы § Из двух совпавших выбирается наиболее каноничная форма
  • 25. © 2013 International Business Machines Corporation25 DeepQA: финальное ранжирование ответов § Проходит в семь этапов (5-7): § (5) Elite § Аналогично Hitlist normalization § Остается только пять вариантов § (6) Evidence Diffusion § Проверяет скрытые связи между кандидатами § Если связь есть, то более сильному кандидату добавляется очки § (7) Multi Answers § Объединение кандидатов для ответа на вложенные вопросы § Пример: When "60 Minutes" premiered this man was U.S. president
  • 26. © 2013 International Business Machines Corporation26 DeepQA: финальное ранжирование ответов § Каждый этап состоит из двух шагов: § Объединение однотипных доказательств (например, passages) § Запуск классификатора §  В режиме обучения §  В режиме применения § Тренировока классификатора – 25000 вопросов Jeopardy! § www.j-archive.com – архив вопросов Jeopardy! §  5.7 млн ответов-кандидатов §  у каждого ответа-кандидата 550 фич
  • 27. © 2013 International Business Machines Corporation27 § DeepQA позволяет встроить любой классификатор § Что пробовалось пока разрабатывали Watson: § Логистическая регрессия § SMV (Support Vector Machines) § Линейные и нелинейные ядра § Бустинг § Нейросети § Деревья решений § Логистическая регрессия – выбор для Jeopardy! § x – вектор численных значений доказательств § β – «веса» доказательств (из обучения) § Не требует мучительной настройки для каждого запуска DeepQA: классификатор
  • 28. © 2013 International Business Machines Corporation28 Первые шаги Watson THE AMERICAN DREAM Decades before Lincoln, Daniel Webster spoke of government "made for", "made by" & "answerable to" them NEW YORK TIMES HEADLINES An exclamation point was warranted for the "end of" this! In 1918 MILESTONES In 1994, 25 years after this event, 1 participant said, "For one crowning moment, we were creatures of the cosmic ocean” THE QUEEN'S ENGLISH Give a Brit a tinkle when you get into town & you've done this FATHERLY NICKNAMES This Frenchman was "The Father of Bacteriology" the Big Bang urinate No One a sentence How Tasty Was My Little Frenchman Apollo 11 moon landing the People WW I Call on the phone Louis Pasteur
  • 29. © 2013 International Business Machines Corporation29 Baseline 12/06 v0.1 12/07 v0.3 08/08 v0.5 05/09 v0.6 10/09 v0.8 11/10 v0.4 12/08 v0.2 05/08 V0.7 04/10 Точностьответа Watson развивается... Облако победителей
  • 30. © 2013 International Business Machines Corporation30 Watson в числах § Команда: 25 человек § Время: 4 года § Софт: 1,000,000 SLOC § 700K Java, 300K C++ § ~ 130 компонент § Железо: 90 IBM Power-750 servers 2880 Power7 cores @ 80+ TFLOPS § 20 TB Disk, 16 TB RAM (memory) § 10 Gbps network
  • 31. © 2013 International Business Machines Corporation31 On February 14, 2011, IBM Watson made history
  • 32. © 2013 International Business Machines Corporation32 IBM Watson в работе. Медицина Медицинская информация удваивается каждые 5 лет 81% терапевтов читают медицинские журналы меньше 5 часов в месяц (США) Такие системы как Watson могут помочь врачам
  • 33. © 2013 International Business Machines Corporation33 Семейная история История пациента АнализыМедикаменты Симптомы UTI Diabetes Influenza Hypokalemia Renal Failure no abdominal pain no back pain no cough no diarrhea (Thyroid Autoimmune) Esophagitis pravastatin Alendronate levothyroxine hydroxychloroquine Модели  диагностики   frequent UTI cutaneous lupus hyperlipidemia osteoporosis hypothyroidism Увереность   difficulty swallowing dizziness anorexia fever dry mouth thirst frequent urination Семейна история Graves’ Disease Oral cancer Bladder cancer Hemochromatosis Purpura История пациентаМедикам.Анализы supine 120/80 mm HG urine dipstick: leukocyte esterase urine culture: E. Coli heart rate: 88 bpm Симптомы A 58-year-old woman complains of dizziness, anorexia, dry mouth, increased thirst, and frequent urination. She had also had a fever. She reported no pain in her abdomen, back, and no cough, or diarrhea. A 58-year-old woman presented to her primary care physician after several days of dizziness, anorexia, dry mouth, increased thirst, and frequent urination. She had also had a fever and reported that food would “get stuck” when she was swallowing. She reported no pain in her abdomen, back, or flank and no cough, shortness of breath, diarrhea, or dysuria Her family history included oral and bladder cancer in her mother, Graves' disease in two sisters, hemochromatosis in one sister, and idiopathic thrombocytopenic purpura in one sister Her history was notable for cutaneous lupus, hyperlipidemia, osteoporosis, frequent urinary tract infections, a left oophorectomy for a benign cyst, and primary hypothyroidism, diagnosed a year earlier Her medications were levothyroxine, hydroxychloroquine, pravastatin, and alendronate. A urine dipstick was positive for leukocyte esterase and nitrites. The patient was given a prescription for ciprofloxacin for a urinary tract infection. 3 days later, patient reported weakness and dizziness. Her supine blood pressure was 120/80 mm Hg, and pulse was 88. •  Extract Symptoms from record •  Use paraphrasings mined from text to handle alternate phrasings and variants •  Perform broad search for possible diagnoses •  Score Confidence in each diagnosis based on evidence so far •  Identify negative Symptoms •  Reason with mined relations to explain away symptoms (thirst is consistent w/ UTI) •  Extract Family History •  Use Medical Taxonomies to generalize medical conditions to the granularity used by the models •  Extract Patient History•  Extract Medications •  Use database of drug side-effects •  Together, multiple diagnoses may best explain symptoms •  Extract Findings: Confirms that UTI was present Most Confident Diagnosis: DiabetesMost Confident Diagnosis: UTIMost Confident Diagnosis: EsophagitisMost Confident Diagnosis: Influenza Как DeepQA помогает диагностике
  • 34. © 2013 International Business Machines Corporation34 Где еще может пригодиться такая технология? Поддержка: Help-desk, Contact Centers Управление знаниями в крупных компаниях Государственные службы Поисковики?
  • 35. © 2013 International Business Machines Corporation35 Краткая история IBM Watson R&D Demonstration Commercialization Cross-industry 
 Applications IBM
 Research Project 
 (2006 – ) Jeopardy!
 Grand Challenge
 (Feb 2011) Watson 
 for
 Healthcare
 (Aug 2011 –) Watson 
 Industry Solutions
 (2012 – ) Watson 
 for Financial Services
 (Mar 2012 – ) Expansion Что будет дальше?
  • 36. © 2013 International Business Machines Corporation36 Все будет хорошо... I'm completely operational, and all my circuits are functioning perfectly