1. Адаптация англоязычной
системы извлечения
информации к русскому языку
Лидия Пивоварова
University of Helsinki, СПбГУ
15 сентября 2012
2. PULS
• PULS – система извлечения информации
из новостного потока и поддержки
принятия решений
• Руководитель проекта: Roman Yangarber
• Участники: Mian Du, Peter von Etter, Silja
Huttunen, Lidia Pivovarova, Matthew
Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël
Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen
http://puls.cs.helsinki.fi/puls/
3.
4. Мотивация
СМИ могут быть единственным источником
информации о событии
или самым оперативным источником
или источником дополнительных сведений /
альтернативной точки зрения
Русский язык: до сих пор является lingua
franca на территории бывшего Советского
Союза
11. Русский язык: постановка задачи
• анализ новостных русскоязычных текстов для
сценариев Border Security и Medical
• представление результатов в
унифицированном (общем для англоязычных и
русскоязычных текстов) формате
• максимальное использование уже готовых
(разработанных для англоязычной системы)
инструментов
12.
13. Общая схема работы системы
Документ Лингвистический Семантическая
(plain text) анализ разметка
Предложения,
синтаксические Фактографический анализ
группы, сущности
Запись в
базе
Правила
Образцы данных
вывода
14. Общая схема работы системы
Документ Лингвистический Семантическая
(plain text) анализ разметка
Предложения,
синтаксические Фактографический анализ
группы, сущности
Запись в
базе
Правила
Образцы данных
вывода
15. Лингвистический анализ
• Используется система АОТ (морфология и
синтаксис)
• Используется не вся выдача АОТ
– Именные группы
– Предложные группы
– Глагольные группы
– Имена, числа, другие сущности
• Для интеграции АОТ в систему PULS
используется Wrapper
18. WRAPPER
Lemm: не снимает неоднозначности
Synan: не содержит всех слов, только те,
которые задействованы в
отношениях/группах
Wrapper: объединение результатов
морфологического и синтаксического
разбора
+ некоторые элементы семантической разметки
(например, имена собственные)
19. WRAPPER
Грамматические теги переводятся на английский
Для каждого отношения проводится связь между хозяином
и зависимым
прочие варианты морфологического разбора
уничтожаются
если лемма хозяина и зависимого нулевая (например,
группа), она восстанавливается
Если зависимый имеет два хозяина (сочинение), связи
приводятся к древесному виду
Некоторые группы переводятся в отношения, прочие
игнорируются
Разбор слов, не задействованных в синтаксических
отношениях, копируется из морфологического разбора (со
всеми неоднозначностями)
20. Общая схема работы системы
Документ Лингвистический Семантическая
(plain text) анализ разметка
Предложения,
синтаксические Фактографический анализ
группы, сущности
Запись в
базе
Правила
Образцы данных
вывода
21. Структура онтологии
ДЕРЕВО
КОНЦЕПТОВ
- отношение ОБЩЕЕ-
ЧАСТНОЕ (IS-A)
- множественное
наследование
- возможность
приписывать
концептам любые
свойства
22. Структура онтологии
ДЕРЕВО Лексикон (английский язык)
КОНЦЕПТОВ
1. Имплицитный:
- отношение ОБЩЕЕ- - если имя концепта состоит
ЧАСТНОЕ (IS-A) из одного слова, оно также
рассматривается как слово,
- множественное обозначающее этот концепт,
наследование которое может встретиться в
- возможность тексте
приписывать - также возможно добавлять
концептам любые однословные синонимы
свойства непосредственно в дерево
концептов
2. Эксплицитный
- Лексикон словосочетаний
24. Структура онтологии
ДЕРЕВО Лексикон (английский язык)
КОНЦЕПТОВ
1. Имплицитный:
- отношение ОБЩЕЕ- - если имя концепта состоит
ЧАСТНОЕ (IS-A) из одного слова, оно также
рассматривается как слово,
- множественное обозначающее этот концепт,
наследование которое может встретиться в
- возможность тексте
приписывать - также возможно добавлять
концептам любые однословные синонимы
свойства непосредственно в дерево
концептов
2. Эксплицитный
- Лексикон словосочетаний
25. Структура онтологии
ДЕРЕВО Лексикон (английский язык) СЛОВАРИ
КОНЦЕПТОВ - Отношение
1. Имплицитный: INSTANCE-OF
- отношение ОБЩЕЕ- - если имя концепта состоит - географические
ЧАСТНОЕ (IS-A) из одного слова, оно также пункты
рассматривается как слово, - болезни
- множественное обозначающее этот концепт, - компании
наследование которое может встретиться в - персоналии
- возможность тексте - etc...
приписывать - также возможно добавлять
концептам любые однословные синонимы
свойства непосредственно в дерево
концептов
2. Эксплицитный
- Лексикон словосочетаний
26. Структура онтологии
ДЕРЕВО Лексикон (английский язык) СЛОВАРИ
КОНЦЕПТОВ - Отношение
1. Имплицитный: INSTANCE-OF
- отношение ОБЩЕЕ- - если имя концепта состоит - географические
ЧАСТНОЕ (IS-A) из одного слова, оно также пункты
рассматривается как слово, - болезни
- множественное обозначающее этот концепт, - компании
наследование которое может встретиться в - персоналии
- возможность тексте - etc...
приписывать - также возможно добавлять
концептам любые однословные синонимы
свойства непосредственно в дерево
концептов
2. Эксплицитный
- Лексикон словосочетаний
Русскоязычный лексикон
- Слова
- Словосочетания (в виде
специальных образцов)
27. Структура онтологии
ДЕРЕВО Лексикон (английский язык) СЛОВАРИ
КОНЦЕПТОВ - Отношение
1. Имплицитный: INSTANCE-OF
- отношение ОБЩЕЕ- - если имя концепта состоит - географические
ЧАСТНОЕ (IS-A) из одного слова, оно также пункты
рассматривается как слово, - болезни
- множественное обозначающее этот концепт, - компании
наследование которое может встретиться в - персоналии
- возможность тексте - etc...
приписывать - также возможно добавлять
концептам любые однословные синонимы Переводы словарей на
свойства непосредственно в дерево русский язык
концептов
2. Эксплицитный
- Лексикон словосочетаний
Русскоязычный лексикон
- Слова
- Словосочетания (в виде
специальных образцов)
28. Общая схема работы системы
Документ Лингвистический Семантическая
(plain text) анализ разметка
Предложения,
синтаксические Фактографический анализ
группы, сущности
Запись в
базе
Правила
Образцы данных
вывода
31. Правила
Если
- найдено событие типа CRISIS
- в тексте упоминается контрабанда
То
- тип события меняется на SMUGGLE
32. Правила
Работают на семантическом уровне
Никакие “физические” характеристики, кроме близости,
не проверяются
Благодаря этому, покрывают гораздо большее число
языковых явлений (в том числе, стилистических)
И не зависят от языка (sic!)
Не очень точны и не могут использоваться без образцов.
34. Русский язык
Адаптация
системы на = Образцы + Словарь
другой язык
Все остальное (по крайней мере,
теоретически) может заимствоваться из
уже работающей системы
База образцов – ключевой компонент
системы, который отражает не только
особенности языка и сценария, но также
стилистические особенности текста
35. Образцы: адаптация к русскому
Английский язык Русский язык
•GUI, где образцы легко создаются Образцы пишутся
на основе фрагментов текста напрямую в коде
•Система парафраза
•Автоматическая генерация
образцов
•154 образца в медицинском
сценарии, 308 образцов для
пограничной безопасности
Фиксированный порядок слов Свободный
порядок слов
37. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция
• Преступника полиция арестовала
• Преступника арестовала полиция
• Арестовала полиция преступника
38. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала
• Преступника арестовала полиция
• Арестовала полиция преступника
39. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
пытался пересечь границу
• Преступника арестовала полиция
• Арестовала полиция преступника
40. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
конце концов арестовала полиция
• Арестовала полиция преступника
41. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
после того, как поступил звонок “сверху”
42. Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
после того как поступил звонок “сверху”
• Даже в новостных текстах!
43. Образцы-триггеры
Порядок слов неинформативен
Однако отказ от учета порядка слов в
образце потребовал бы существенной
переделки механизма поиска образцов в
тексте
Другое решение: образцы-триггеры,
которые создают событие
Максимальная опора на правила вывода,
которые уточняют и дополняют событие
44. Образец из одного слова?
Неодназначность:
Эксперты осудили действия активистов.
Hас моментально обвинили бы в проведении политики "Апартеида".
...урезание бюджета приведет к сокращению программы "Кипат
барзель", и задержит приобретение новых четырех батарей.
В некоторых случаях синтаксическая
информация определяет тип события:
Полицейский поймал преступника → ARREST
Полицейского поймал преступник → KIDNAPPING
Совсем без синтаксиса обойтись не удастся
46. Итоговая форма образца
Триггер + объект
ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта,
<полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали,
мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант
обвиняется)
Два образца (для учета порядка слов) +
разумное число ограничений
47. Образцы и правила (русский язык)
• Security:
– 23 образца, большая часть из них создает
событие типа CRISIS
– Правила дополняют событие и меняют его
тип
• Medical:
– 4 образца: некто заболел, заболел некто,
эпидемия болезни, случай заболевания
– В случае, если правила не могут найти в
тексте конкретную болезнь, событие
уничтожается
48. Онтология, образцы и правила
Образцы: требуется формальная онтология
A person arrested on a border → ILLEGAL-ENTRY
Goods arrested on a border → SMUGGLING
Правила: скорее, нужен тезаурус
Border, border-guard, illegal entry → ILLEGAL-ENTRY
Customs, customs-officer, contraband → SMUGGLING
Онтология
баланс полноты и точности
противоречия между правилами и образцами
некоторые допущения, сделанные для упрощения
работы в одноязычной системе при добавлении
второго языка могут приводить к нелогичному
поведению системы
решение: дополнительные тезаурусные отношения
49. Оценка: Security
64 документа
Часть из них размечалась до создания системы
Часть – на основе анализа работы раннего
прототипа системы (студентами СПбГУ)
65 событий
Около трети документов не содержат событий
50. Оценка: Security
64 документа
Часть из них размечалась до создания системы
Часть – на основе анализа работы раннего
прототипа системы (студентами СпбГУ)
65 событий
Около трети документов не содержат событий
54. Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
– Lexical features: слова из текста
– Discourse features: расположение событий в тексте,
содержание слотов
• Классификация событий на актуальные (4),
устаревшие (2) и бесполезные (0)
• Оценивая качество работы медицинского
сценария для русского языка, мы так же
пытались оценить возможности
классификатора релевантности
55. Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
– Lexical features: слова из текста
– Discourse features: расположение событий в тексте,
содержание слотов
• Классификация событий на актуальные (4),
устаревшие (2) и бесполезные (0)
• Оценивая качество работы медицинского
сценария для русского языка, мы также
пытались оценить возможности
классификатора релевантности
56. Эксперимент
• Классификатор:
– натренирован на английских документах
– использует только discourse features
• 307 документов, 491 событий, подправленных
человеком и оцененных по 5-ти бальной
шкале
– 264 релевантных события (2-5), 114 –
высокорелевантных (4-5)
57. Эксперимент
• Классификатор:
– натренирован на английских документах
– использует только discourse features
• 307 документов, 491 событие, подправленные
человеком и оцененные по 5-ти бальной
шкале
– 264 релевантных события (2-5), 114 –
высокорелевантных (4-5)
58. Релевантность: первые выводы
• Использование классификатора релевантности
повышает точность работы системы за счет
полноты
• F-мера при этом не уменьшается или растет
• Содержательно: классификатор релевантности
дополняет образцы-триггеры и «облегчает»
базу образцов
• Гибридная оценка отражает качество работы
системы с точки зрения пользователя
59. Дальнейшая работа
• Развитие базы образцов, пополнение
словарей
• Обучение классификатора на русских
документах
• Система парафраза, автоматическая
генерация образцов…
60. Публикации
Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event
Extraction for Infectious Disease Outbreaks In Proceedings of the 3rd
Annual Human Language Technology Conference HLT-2002 (2002) San
Diego, CA
M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V
Zavarella. Automated event extraction in the domain of Border Security In
Proceedings of MINUCS-2009: Workshop on Mining User-Generated
Content for Security, at the UCMedia-2009: ICST Conference on User-
Centric Media (2009) Venice, Italy
Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber.
Relevance prediction in information extraction using discourse and lexical
features Nodalida-2011: Nordic Conference on Computational Linguistics
(2011) Riga, Latvia
Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia
Tarbeeva, Roman Yangarber. Building support tools for Russian-language
information extraction BSNLP-2011: Balto-Slavonic Natural Language
Processing (2011) Plzeň, Czech Republic