SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Адаптация англоязычной
     системы извлечения
 информации к русскому языку
                   Лидия Пивоварова
               University of Helsinki, СПбГУ




15 сентября 2012
PULS
• PULS – система извлечения информации
  из новостного потока и поддержки
  принятия решений
• Руководитель проекта: Roman Yangarber
• Участники: Mian Du, Peter von Etter, Silja
  Huttunen, Lidia Pivovarova, Matthew
  Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël
  Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen


              http://puls.cs.helsinki.fi/puls/
Мотивация

    СМИ могут быть единственным источником
    информации о событии

    или самым оперативным источником

    или источником дополнительных сведений /
    альтернативной точки зрения


    Русский язык: до сих пор является lingua
    franca на территории бывшего Советского
    Союза
Сценарий: Medical




Мониторинг распространения инфекционных
заболеваний
Сценарий: Border Security




Мониторинг нелегальной миграции; преступности, связанной
с пересчением границ (например, контрабанды); кризисных
(криминальных) ситуаций
Сценарий: Border Security
Русский язык: постановка задачи
• анализ новостных русскоязычных текстов для
  сценариев Border Security и Medical
• представление результатов в
  унифицированном (общем для англоязычных и
  русскоязычных текстов) формате
• максимальное использование уже готовых
  (разработанных для англоязычной системы)
  инструментов
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Лингвистический анализ
• Используется система АОТ (морфология и
  синтаксис)
• Используется не вся выдача АОТ
  –   Именные группы
  –   Предложные группы
  –   Глагольные группы
  –   Имена, числа, другие сущности
• Для интеграции АОТ в систему PULS
  используется Wrapper
Морфологический анализ (АОТ Lemm)
Синтаксический анализ (AOT Synan)
WRAPPER

    Lemm: не снимает неоднозначности

    Synan: не содержит всех слов, только те,
    которые задействованы в
    отношениях/группах

    Wrapper: объединение результатов
    морфологического и синтаксического
    разбора
          
              + некоторые элементы семантической разметки
              (например, имена собственные)
WRAPPER

    Грамматические теги переводятся на английский

    Для каждого отношения проводится связь между хозяином
    и зависимым
     
        прочие варианты морфологического разбора
        уничтожаются
     
        если лемма хозяина и зависимого нулевая (например,
        группа), она восстанавливается

    Если зависимый имеет два хозяина (сочинение), связи
    приводятся к древесному виду

    Некоторые группы переводятся в отношения, прочие
    игнорируются

    Разбор слов, не задействованных в синтаксических
    отношениях, копируется из морфологического разбора (со
    всеми неоднозначностями)
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Структура онтологии
     ДЕРЕВО
   КОНЦЕПТОВ

- отношение ОБЩЕЕ-
ЧАСТНОЕ (IS-A)

- множественное
наследование
- возможность
приписывать
концептам любые
свойства
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)
   КОНЦЕПТОВ
                     1. Имплицитный:
- отношение ОБЩЕЕ-          - если имя концепта состоит
ЧАСТНОЕ (IS-A)       из одного слова, оно также
                     рассматривается как слово,
- множественное      обозначающее этот концепт,
наследование         которое может встретиться в
- возможность        тексте
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
(DEFCONCEPT C­ART_AIR :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))
(DEFCONCEPT C­ART_LAND :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))
(DEFCONCEPT C­ART_WATER :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))

(DEFCONCEPT C­PLANE :TYPEOF (C­ART_AIR))
(DEFCONCEPT CARRIER :TYPEOF (C­ART_WATER C­ART_LAND C­ART_AIR))
(DEFCONCEPT GUNSHIP :TYPEOF (C­ART_AIR))
(DEFCONCEPT LAUNCHER :TYPEOF (C­ART_AIR C­VEHICLE))
(DEFCONCEPT ROCKET :TYPEOF (S­ARMS C­VEHICLE))
(DEFCONCEPT SHUTTLE :TYPEOF (C­ART_AIR C­VEHICLE))
(DEFCONCEPT VEHICLE :TYPEOF (C­ART_LAND C­ART_AIR C­VEHICLE))

(DEFCONCEPT A­PLANE  :TYPEOF (C­PLANE))
(DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER 
   CHOPPER) :TYPEOF (C­PLANE))

(DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C­ART_LAND))
(DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C­ART_LAND)) 
(DEFCONCEPT CRUISER :TYPEOF (C­ART_LAND C­ART_WATER))
(DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C­ART_LAND))
(DEFCONCEPT PATHFINDER :TYPEOF (C­ART_LAND))
(DEFCONCEPT SUBWAY :TYPEOF (C­ART_LAND))
(DEFCONCEPT TANK :TYPEOF (C­ART_LAND))
(DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C­ART_LAND))
(DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C­ART_LAND))

(DEFCONCEPT A­SHIP :TYPEOF (C­ART_WATER)) 
(DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C­ART_WATER))
(DEFCONCEPT FERRY :TYPEOF (C­ART_WATER))
(DEFCONCEPT FLEET :TYPEOF (C­ART_WATER))
(DEFCONCEPT FRIGATE :TYPEOF (C­ART_WATER))
(DEFCONCEPT LIFEBOAT :TYPEOF (C­ART_WATER))
(DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C­ART_WATER))
(DEFCONCEPT SUBMARINE :TYPEOF (C­ART_WATER))
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)
   КОНЦЕПТОВ
                     1. Имплицитный:
- отношение ОБЩЕЕ-          - если имя концепта состоит
ЧАСТНОЕ (IS-A)       из одного слова, оно также
                     рассматривается как слово,
- множественное      обозначающее этот концепт,
наследование         которое может встретиться в
- возможность        тексте
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний


                          Русскоязычный лексикон

                     - Слова
                     - Словосочетания (в виде
                     специальных образцов)
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы                 Переводы словарей на
свойства             непосредственно в дерево                 русский язык
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний


                          Русскоязычный лексикон

                     - Слова
                     - Словосочетания (в виде
                     специальных образцов)
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Образцы



np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)
Образцы



np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)


•Жесткий порядок слов
•Проверки семантических классов
•Проверки грамматических категорий (вообще говоря, любых,
чаще всего – частей речи)
•Некоторые элементы могут быть необязательны или
повторяться
•Можно использовать образцы низкого уровня (каскад)
Правила



Если
  - найдено событие типа CRISIS
   - в тексте упоминается контрабанда
То
   - тип события меняется на SMUGGLE
Правила



   Работают на семантическом уровне
   Никакие “физические” характеристики, кроме близости,
    не проверяются
   Благодаря этому, покрывают гораздо большее число
    языковых явлений (в том числе, стилистических)
   И не зависят от языка (sic!)
   Не очень точны и не могут использоваться без образцов.
Образцы и правила
Русский язык
    Адаптация
    системы на      =   Образцы   +   Словарь
    другой язык


    Все остальное (по крайней мере,
    теоретически) может заимствоваться из
    уже работающей системы

    База образцов – ключевой компонент
    системы, который отражает не только
    особенности языка и сценария, но также
    стилистические особенности текста
Образцы: адаптация к русскому
Английский язык                 Русский язык
•GUI, где образцы легко создаются Образцы пишутся
на основе фрагментов текста       напрямую в коде
•Система парафраза
•Автоматическая генерация
образцов
•154 образца в медицинском
сценарии, 308 образцов для
пограничной безопасности

Фиксированный порядок слов      Свободный
                                порядок слов
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала
•   Арестовала преступника полиция
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала, а не оштрафовала
•   Арестовала преступника полиция
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала, а не оштрафовала
•   Арестовала преступника полиция, а не таможня
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
  после того, как поступил звонок “сверху”
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
  после того как поступил звонок “сверху”


         • Даже в новостных текстах!
Образцы-триггеры

    Порядок слов неинформативен

    Однако отказ от учета порядка слов в
    образце потребовал бы существенной
    переделки механизма поиска образцов в
    тексте

    Другое решение: образцы-триггеры,
    которые создают событие

    Максимальная опора на правила вывода,
    которые уточняют и дополняют событие
Образец из одного слова?

    Неодназначность:
    Эксперты осудили действия активистов.
     Hас моментально обвинили бы в проведении политики "Апартеида".
    ...урезание бюджета приведет к сокращению программы "Кипат
    барзель", и задержит приобретение новых четырех батарей.

    В некоторых случаях синтаксическая
    информация определяет тип события:

    Полицейский поймал преступника → ARREST
    Полицейского поймал преступник → KIDNAPPING

    Совсем без синтаксиса обойтись не удастся
Итоговая форма образца

    Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта,
  <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали,
  мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант
  обвиняется)
Итоговая форма образца

    Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта,
  <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали,
  мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант
  обвиняется)

    Два образца (для учета порядка слов) +
    разумное число ограничений
Образцы и правила (русский язык)
• Security:
  – 23 образца, большая часть из них создает
    событие типа CRISIS
  – Правила дополняют событие и меняют его
    тип
• Medical:
  – 4 образца: некто заболел, заболел некто,
    эпидемия болезни, случай заболевания
  – В случае, если правила не могут найти в
    тексте конкретную болезнь, событие
    уничтожается
Онтология, образцы и правила

    Образцы: требуется формальная онтология
    
        A person arrested on a border → ILLEGAL-ENTRY
    
        Goods arrested on a border → SMUGGLING

    Правила: скорее, нужен тезаурус
    
        Border, border-guard, illegal entry → ILLEGAL-ENTRY
    
        Customs, customs-officer, contraband → SMUGGLING

    Онтология
    
        баланс полноты и точности
    
        противоречия между правилами и образцами
    
        некоторые допущения, сделанные для упрощения
        работы в одноязычной системе при добавлении
        второго языка могут приводить к нелогичному
        поведению системы
    
        решение: дополнительные тезаурусные отношения
Оценка: Security

    64 документа

    Часть из них размечалась до создания системы

    Часть – на основе анализа работы раннего
    прототипа системы (студентами СПбГУ)

    65 событий

    Около трети документов не содержат событий
Оценка: Security

    64 документа

    Часть из них размечалась до создания системы

    Часть – на основе анализа работы раннего
    прототипа системы (студентами СпбГУ)

    65 событий

    Около трети документов не содержат событий
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
  – Lexical features: слова из текста
  – Discourse features: расположение событий в тексте,
    содержание слотов
• Классификация событий на актуальные (4),
  устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского
  сценария для русского языка, мы так же
  пытались оценить возможности
  классификатора релевантности
Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
  – Lexical features: слова из текста
  – Discourse features: расположение событий в тексте,
    содержание слотов
• Классификация событий на актуальные (4),
  устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского
  сценария для русского языка, мы также
  пытались оценить возможности
  классификатора релевантности
Эксперимент
• Классификатор:
  – натренирован на английских документах
  – использует только discourse features
• 307 документов, 491 событий, подправленных
  человеком и оцененных по 5-ти бальной
  шкале
  – 264 релевантных события (2-5), 114 –
    высокорелевантных (4-5)
Эксперимент
• Классификатор:
  – натренирован на английских документах
  – использует только discourse features
• 307 документов, 491 событие, подправленные
  человеком и оцененные по 5-ти бальной
  шкале
  – 264 релевантных события (2-5), 114 –
    высокорелевантных (4-5)
Релевантность: первые выводы
• Использование классификатора релевантности
  повышает точность работы системы за счет
  полноты
• F-мера при этом не уменьшается или растет

• Содержательно: классификатор релевантности
  дополняет образцы-триггеры и «облегчает»
  базу образцов
• Гибридная оценка отражает качество работы
  системы с точки зрения пользователя
Дальнейшая работа
• Развитие базы образцов, пополнение
  словарей
• Обучение классификатора на русских
  документах

• Система парафраза, автоматическая
  генерация образцов…
Публикации

    Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event
    Extraction for Infectious Disease Outbreaks In Proceedings of the 3rd
    Annual Human Language Technology Conference HLT-2002 (2002) San
    Diego, CA

    M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V
    Zavarella. Automated event extraction in the domain of Border Security In
    Proceedings of MINUCS-2009: Workshop on Mining User-Generated
    Content for Security, at the UCMedia-2009: ICST Conference on User-
    Centric Media (2009) Venice, Italy

    Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber.
    Relevance prediction in information extraction using discourse and lexical
    features Nodalida-2011: Nordic Conference on Computational Linguistics
    (2011) Riga, Latvia

    Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia
    Tarbeeva, Roman Yangarber. Building support tools for Russian-language
    information extraction BSNLP-2011: Balto-Slavonic Natural Language
    Processing (2011) Plzeň, Czech Republic
Спасибо за внимание!

Weitere ähnliche Inhalte

Was ist angesagt?

Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 
04 классическая логика предикатов
04 классическая логика предикатов04 классическая логика предикатов
04 классическая логика предикатовJulia Gorbatova
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
занятие 3 муромцев
занятие 3 муромцевзанятие 3 муромцев
занятие 3 муромцевdimour
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферированиеLidia Pivovarova
 
Универсалистская парадигма в логике и композициональность
Универсалистская парадигма в логике и композициональностьУниверсалистская парадигма в логике и композициональность
Универсалистская парадигма в логике и композициональностьVictor Gorbatov
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 

Was ist angesagt? (16)

Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 
04 классическая логика предикатов
04 классическая логика предикатов04 классическая логика предикатов
04 классическая логика предикатов
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
занятие 3 муромцев
занятие 3 муромцевзанятие 3 муромцев
занятие 3 муромцев
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
Метрики семантической близости с приложениями к задачам АОТ
Метрики семантической близости с приложениями к задачам АОТМетрики семантической близости с приложениями к задачам АОТ
Метрики семантической близости с приложениями к задачам АОТ
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
Универсалистская парадигма в логике и композициональность
Универсалистская парадигма в логике и композициональностьУниверсалистская парадигма в логике и композициональность
Универсалистская парадигма в логике и композициональность
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
20100925 ontology konev_lecture02
20100925 ontology konev_lecture0220100925 ontology konev_lecture02
20100925 ontology konev_lecture02
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Выявление идиоматических словосочетаний
Выявление идиоматических словосочетанийВыявление идиоматических словосочетаний
Выявление идиоматических словосочетаний
 
Query expansion
Query expansionQuery expansion
Query expansion
 

Andere mochten auch

Graphics Of The 509
Graphics Of The 509Graphics Of The 509
Graphics Of The 509guestd37bca
 
One backend multiple Screens
One backend multiple ScreensOne backend multiple Screens
One backend multiple ScreensMichael Chaize
 
Listen to the Market
Listen to the MarketListen to the Market
Listen to the MarketJon Gatrell
 
Slovakia Powerpoint Country
Slovakia Powerpoint CountrySlovakia Powerpoint Country
Slovakia Powerpoint CountryAndrew Schwartz
 
Harder, better, faster, stronger: PostgreSQL 9.1
Harder, better, faster, stronger: PostgreSQL 9.1Harder, better, faster, stronger: PostgreSQL 9.1
Harder, better, faster, stronger: PostgreSQL 9.1Selena Deckelmann
 
La3 Computer Network
La3 Computer NetworkLa3 Computer Network
La3 Computer NetworkCma Mohd
 
Leveraging capabilities in a disruptive environment
Leveraging capabilities in a disruptive environmentLeveraging capabilities in a disruptive environment
Leveraging capabilities in a disruptive environmentSandeep Kulshrestha
 
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...John Newton
 
Banca Long Tail I Noves TendèNcies
Banca   Long Tail I Noves TendèNciesBanca   Long Tail I Noves TendèNcies
Banca Long Tail I Noves TendèNciesjalicarte
 
Verben-ir.
Verben-ir.Verben-ir.
Verben-ir.MsSchool
 
Martin karlssons vykortssamling mariakyrkan
Martin karlssons vykortssamling   mariakyrkanMartin karlssons vykortssamling   mariakyrkan
Martin karlssons vykortssamling mariakyrkanhembygdsigtuna
 
Class Project Pxgt 6110
Class Project Pxgt 6110Class Project Pxgt 6110
Class Project Pxgt 6110asmajuhan
 
你的桶子有多滿
你的桶子有多滿你的桶子有多滿
你的桶子有多滿nonnon
 
think it over及時關愛生活
think it over及時關愛生活think it over及時關愛生活
think it over及時關愛生活nonnon
 
Generations atworkmodernsamplefinal
Generations atworkmodernsamplefinalGenerations atworkmodernsamplefinal
Generations atworkmodernsamplefinalAndrew Schwartz
 

Andere mochten auch (18)

Graphics Of The 509
Graphics Of The 509Graphics Of The 509
Graphics Of The 509
 
One backend multiple Screens
One backend multiple ScreensOne backend multiple Screens
One backend multiple Screens
 
Listen to the Market
Listen to the MarketListen to the Market
Listen to the Market
 
Slovakia Powerpoint Country
Slovakia Powerpoint CountrySlovakia Powerpoint Country
Slovakia Powerpoint Country
 
Harder, better, faster, stronger: PostgreSQL 9.1
Harder, better, faster, stronger: PostgreSQL 9.1Harder, better, faster, stronger: PostgreSQL 9.1
Harder, better, faster, stronger: PostgreSQL 9.1
 
La3 Computer Network
La3 Computer NetworkLa3 Computer Network
La3 Computer Network
 
Leveraging capabilities in a disruptive environment
Leveraging capabilities in a disruptive environmentLeveraging capabilities in a disruptive environment
Leveraging capabilities in a disruptive environment
 
4 T
4  T4  T
4 T
 
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...
Madrid Alfresco Day 2015 - John Pomeroy - Why Alfresco in today’s Digital Ent...
 
Banca Long Tail I Noves TendèNcies
Banca   Long Tail I Noves TendèNciesBanca   Long Tail I Noves TendèNcies
Banca Long Tail I Noves TendèNcies
 
Ch12
Ch12Ch12
Ch12
 
Ch01
Ch01Ch01
Ch01
 
Verben-ir.
Verben-ir.Verben-ir.
Verben-ir.
 
Martin karlssons vykortssamling mariakyrkan
Martin karlssons vykortssamling   mariakyrkanMartin karlssons vykortssamling   mariakyrkan
Martin karlssons vykortssamling mariakyrkan
 
Class Project Pxgt 6110
Class Project Pxgt 6110Class Project Pxgt 6110
Class Project Pxgt 6110
 
你的桶子有多滿
你的桶子有多滿你的桶子有多滿
你的桶子有多滿
 
think it over及時關愛生活
think it over及時關愛生活think it over及時關愛生活
think it over及時關愛生活
 
Generations atworkmodernsamplefinal
Generations atworkmodernsamplefinalGenerations atworkmodernsamplefinal
Generations atworkmodernsamplefinal
 

Ähnlich wie Puls Russian

Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введениеeibolshakova
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
стилистика английского языка
стилистика английского языкастилистика английского языка
стилистика английского языкаmaratshamsulin
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Использование инструментальных средств для выделения коллокаций в лексикограф...
Использование инструментальных средств для выделения коллокаций влексикограф...Использование инструментальных средств для выделения коллокаций влексикограф...
Использование инструментальных средств для выделения коллокаций в лексикограф...Lidia Pivovarova
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Словарь Терминов Изобразительного Искусства
Словарь Терминов Изобразительного ИскусстваСловарь Терминов Изобразительного Искусства
Словарь Терминов Изобразительного ИскусстваIvanka Atanasova
 

Ähnlich wie Puls Russian (20)

Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
презентация1
презентация1презентация1
презентация1
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Masa
MasaMasa
Masa
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
RussNet
RussNetRussNet
RussNet
 
стилистика английского языка
стилистика английского языкастилистика английского языка
стилистика английского языка
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Словари терминов
Словари терминовСловари терминов
Словари терминов
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
Использование инструментальных средств для выделения коллокаций в лексикограф...
Использование инструментальных средств для выделения коллокаций влексикограф...Использование инструментальных средств для выделения коллокаций влексикограф...
Использование инструментальных средств для выделения коллокаций в лексикограф...
 
Promt
PromtPromt
Promt
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Словарь Терминов Изобразительного Искусства
Словарь Терминов Изобразительного ИскусстваСловарь Терминов Изобразительного Искусства
Словарь Терминов Изобразительного Искусства
 

Mehr von Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

Mehr von Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

Puls Russian

  • 1. Адаптация англоязычной системы извлечения информации к русскому языку Лидия Пивоварова University of Helsinki, СПбГУ 15 сентября 2012
  • 2. PULS • PULS – система извлечения информации из новостного потока и поддержки принятия решений • Руководитель проекта: Roman Yangarber • Участники: Mian Du, Peter von Etter, Silja Huttunen, Lidia Pivovarova, Matthew Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen http://puls.cs.helsinki.fi/puls/
  • 3.
  • 4. Мотивация  СМИ могут быть единственным источником информации о событии  или самым оперативным источником  или источником дополнительных сведений / альтернативной точки зрения  Русский язык: до сих пор является lingua franca на территории бывшего Советского Союза
  • 6.
  • 7.
  • 8. Сценарий: Border Security Мониторинг нелегальной миграции; преступности, связанной с пересчением границ (например, контрабанды); кризисных (криминальных) ситуаций
  • 10.
  • 11. Русский язык: постановка задачи • анализ новостных русскоязычных текстов для сценариев Border Security и Medical • представление результатов в унифицированном (общем для англоязычных и русскоязычных текстов) формате • максимальное использование уже готовых (разработанных для англоязычной системы) инструментов
  • 12.
  • 13. Общая схема работы системы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 14. Общая схема работы системы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 15. Лингвистический анализ • Используется система АОТ (морфология и синтаксис) • Используется не вся выдача АОТ – Именные группы – Предложные группы – Глагольные группы – Имена, числа, другие сущности • Для интеграции АОТ в систему PULS используется Wrapper
  • 18. WRAPPER  Lemm: не снимает неоднозначности  Synan: не содержит всех слов, только те, которые задействованы в отношениях/группах  Wrapper: объединение результатов морфологического и синтаксического разбора  + некоторые элементы семантической разметки (например, имена собственные)
  • 19. WRAPPER  Грамматические теги переводятся на английский  Для каждого отношения проводится связь между хозяином и зависимым  прочие варианты морфологического разбора уничтожаются  если лемма хозяина и зависимого нулевая (например, группа), она восстанавливается  Если зависимый имеет два хозяина (сочинение), связи приводятся к древесному виду  Некоторые группы переводятся в отношения, прочие игнорируются  Разбор слов, не задействованных в синтаксических отношениях, копируется из морфологического разбора (со всеми неоднозначностями)
  • 20. Общая схема работы системы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 21. Структура онтологии ДЕРЕВО КОНЦЕПТОВ - отношение ОБЩЕЕ- ЧАСТНОЕ (IS-A) - множественное наследование - возможность приписывать концептам любые свойства
  • 22. Структура онтологии ДЕРЕВО Лексикон (английский язык) КОНЦЕПТОВ 1. Имплицитный: - отношение ОБЩЕЕ- - если имя концепта состоит ЧАСТНОЕ (IS-A) из одного слова, оно также рассматривается как слово, - множественное обозначающее этот концепт, наследование которое может встретиться в - возможность тексте приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 23. (DEFCONCEPT C­ART_AIR :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­ART_LAND :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­ART_WATER :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­PLANE :TYPEOF (C­ART_AIR)) (DEFCONCEPT CARRIER :TYPEOF (C­ART_WATER C­ART_LAND C­ART_AIR)) (DEFCONCEPT GUNSHIP :TYPEOF (C­ART_AIR)) (DEFCONCEPT LAUNCHER :TYPEOF (C­ART_AIR C­VEHICLE)) (DEFCONCEPT ROCKET :TYPEOF (S­ARMS C­VEHICLE)) (DEFCONCEPT SHUTTLE :TYPEOF (C­ART_AIR C­VEHICLE)) (DEFCONCEPT VEHICLE :TYPEOF (C­ART_LAND C­ART_AIR C­VEHICLE)) (DEFCONCEPT A­PLANE  :TYPEOF (C­PLANE)) (DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER  CHOPPER) :TYPEOF (C­PLANE)) (DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C­ART_LAND)) (DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C­ART_LAND))  (DEFCONCEPT CRUISER :TYPEOF (C­ART_LAND C­ART_WATER)) (DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C­ART_LAND)) (DEFCONCEPT PATHFINDER :TYPEOF (C­ART_LAND)) (DEFCONCEPT SUBWAY :TYPEOF (C­ART_LAND)) (DEFCONCEPT TANK :TYPEOF (C­ART_LAND)) (DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C­ART_LAND)) (DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C­ART_LAND)) (DEFCONCEPT A­SHIP :TYPEOF (C­ART_WATER))  (DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C­ART_WATER)) (DEFCONCEPT FERRY :TYPEOF (C­ART_WATER)) (DEFCONCEPT FLEET :TYPEOF (C­ART_WATER)) (DEFCONCEPT FRIGATE :TYPEOF (C­ART_WATER)) (DEFCONCEPT LIFEBOAT :TYPEOF (C­ART_WATER)) (DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C­ART_WATER)) (DEFCONCEPT SUBMARINE :TYPEOF (C­ART_WATER))
  • 24. Структура онтологии ДЕРЕВО Лексикон (английский язык) КОНЦЕПТОВ 1. Имплицитный: - отношение ОБЩЕЕ- - если имя концепта состоит ЧАСТНОЕ (IS-A) из одного слова, оно также рассматривается как слово, - множественное обозначающее этот концепт, наследование которое может встретиться в - возможность тексте приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 25. Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 26. Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний Русскоязычный лексикон - Слова - Словосочетания (в виде специальных образцов)
  • 27. Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы Переводы словарей на свойства непосредственно в дерево русский язык концептов 2. Эксплицитный - Лексикон словосочетаний Русскоязычный лексикон - Слова - Словосочетания (в виде специальных образцов)
  • 28. Общая схема работы системы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 30. Образцы np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW) •Жесткий порядок слов •Проверки семантических классов •Проверки грамматических категорий (вообще говоря, любых, чаще всего – частей речи) •Некоторые элементы могут быть необязательны или повторяться •Можно использовать образцы низкого уровня (каскад)
  • 31. Правила Если - найдено событие типа CRISIS - в тексте упоминается контрабанда То - тип события меняется на SMUGGLE
  • 32. Правила  Работают на семантическом уровне  Никакие “физические” характеристики, кроме близости, не проверяются  Благодаря этому, покрывают гораздо большее число языковых явлений (в том числе, стилистических)  И не зависят от языка (sic!)  Не очень точны и не могут использоваться без образцов.
  • 34. Русский язык Адаптация системы на = Образцы + Словарь другой язык  Все остальное (по крайней мере, теоретически) может заимствоваться из уже работающей системы  База образцов – ключевой компонент системы, который отражает не только особенности языка и сценария, но также стилистические особенности текста
  • 35. Образцы: адаптация к русскому Английский язык Русский язык •GUI, где образцы легко создаются Образцы пишутся на основе фрагментов текста напрямую в коде •Система парафраза •Автоматическая генерация образцов •154 образца в медицинском сценарии, 308 образцов для пограничной безопасности Фиксированный порядок слов Свободный порядок слов
  • 36. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала • Арестовала преступника полиция • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 37. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 38. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 39. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника арестовала полиция • Арестовала полиция преступника
  • 40. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала полиция преступника
  • 41. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала наша доблестная полиция преступника только после того, как поступил звонок “сверху”
  • 42. Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала наша доблестная полиция преступника только после того как поступил звонок “сверху” • Даже в новостных текстах!
  • 43. Образцы-триггеры  Порядок слов неинформативен  Однако отказ от учета порядка слов в образце потребовал бы существенной переделки механизма поиска образцов в тексте  Другое решение: образцы-триггеры, которые создают событие  Максимальная опора на правила вывода, которые уточняют и дополняют событие
  • 44. Образец из одного слова?  Неодназначность: Эксперты осудили действия активистов. Hас моментально обвинили бы в проведении политики "Апартеида". ...урезание бюджета приведет к сокращению программы "Кипат барзель", и задержит приобретение новых четырех батарей.  В некоторых случаях синтаксическая информация определяет тип события:  Полицейский поймал преступника → ARREST Полицейского поймал преступник → KIDNAPPING  Совсем без синтаксиса обойтись не удастся
  • 45. Итоговая форма образца  Триггер + объект ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>) ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант) СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован) СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)
  • 46. Итоговая форма образца  Триггер + объект ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>) ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант) СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован) СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется) Два образца (для учета порядка слов) + разумное число ограничений
  • 47. Образцы и правила (русский язык) • Security: – 23 образца, большая часть из них создает событие типа CRISIS – Правила дополняют событие и меняют его тип • Medical: – 4 образца: некто заболел, заболел некто, эпидемия болезни, случай заболевания – В случае, если правила не могут найти в тексте конкретную болезнь, событие уничтожается
  • 48. Онтология, образцы и правила  Образцы: требуется формальная онтология  A person arrested on a border → ILLEGAL-ENTRY  Goods arrested on a border → SMUGGLING  Правила: скорее, нужен тезаурус  Border, border-guard, illegal entry → ILLEGAL-ENTRY  Customs, customs-officer, contraband → SMUGGLING  Онтология  баланс полноты и точности  противоречия между правилами и образцами  некоторые допущения, сделанные для упрощения работы в одноязычной системе при добавлении второго языка могут приводить к нелогичному поведению системы  решение: дополнительные тезаурусные отношения
  • 49. Оценка: Security  64 документа  Часть из них размечалась до создания системы  Часть – на основе анализа работы раннего прототипа системы (студентами СПбГУ)  65 событий  Около трети документов не содержат событий
  • 50. Оценка: Security  64 документа  Часть из них размечалась до создания системы  Часть – на основе анализа работы раннего прототипа системы (студентами СпбГУ)  65 событий  Около трети документов не содержат событий
  • 51. Классификатор релевантности • Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
  • 52. Классификатор релевантности • Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
  • 53. Классификатор релевантности • Релевантность – характеризует полезность извлеченных фактов, независимо от их правильности
  • 54. Классификатор релевантности • Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов • Два типа свойств: – Lexical features: слова из текста – Discourse features: расположение событий в тексте, содержание слотов • Классификация событий на актуальные (4), устаревшие (2) и бесполезные (0) • Оценивая качество работы медицинского сценария для русского языка, мы так же пытались оценить возможности классификатора релевантности
  • 55. Классификатор релевантности • Машинное обучение с учителем • SVM, Naïve Bayes, 200-300 документов • Два типа свойств: – Lexical features: слова из текста – Discourse features: расположение событий в тексте, содержание слотов • Классификация событий на актуальные (4), устаревшие (2) и бесполезные (0) • Оценивая качество работы медицинского сценария для русского языка, мы также пытались оценить возможности классификатора релевантности
  • 56. Эксперимент • Классификатор: – натренирован на английских документах – использует только discourse features • 307 документов, 491 событий, подправленных человеком и оцененных по 5-ти бальной шкале – 264 релевантных события (2-5), 114 – высокорелевантных (4-5)
  • 57. Эксперимент • Классификатор: – натренирован на английских документах – использует только discourse features • 307 документов, 491 событие, подправленные человеком и оцененные по 5-ти бальной шкале – 264 релевантных события (2-5), 114 – высокорелевантных (4-5)
  • 58. Релевантность: первые выводы • Использование классификатора релевантности повышает точность работы системы за счет полноты • F-мера при этом не уменьшается или растет • Содержательно: классификатор релевантности дополняет образцы-триггеры и «облегчает» базу образцов • Гибридная оценка отражает качество работы системы с точки зрения пользователя
  • 59. Дальнейшая работа • Развитие базы образцов, пополнение словарей • Обучение классификатора на русских документах • Система парафраза, автоматическая генерация образцов…
  • 60. Публикации  Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event Extraction for Infectious Disease Outbreaks In Proceedings of the 3rd Annual Human Language Technology Conference HLT-2002 (2002) San Diego, CA  M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V Zavarella. Automated event extraction in the domain of Border Security In Proceedings of MINUCS-2009: Workshop on Mining User-Generated Content for Security, at the UCMedia-2009: ICST Conference on User- Centric Media (2009) Venice, Italy  Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber. Relevance prediction in information extraction using discourse and lexical features Nodalida-2011: Nordic Conference on Computational Linguistics (2011) Riga, Latvia  Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia Tarbeeva, Roman Yangarber. Building support tools for Russian-language information extraction BSNLP-2011: Balto-Slavonic Natural Language Processing (2011) Plzeň, Czech Republic