SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Downloaden Sie, um offline zu lesen
Анализ текстов
на логические противоречия
     ООО «Онтологика», Москва, 2012
Мотивация

50 лет назад: 60-е годы
   Экспоненциальный рост потоков информации в эпоху НТР
   Люди перестают справляться с их обработкой
   Решение: машины обрабатывают данные

Проблемы нашего времени
   Лавинообразный рост
    доступного человеку знания
   Нет физической возможности
    просто прочитать объем
    публикаций по необходимой
    тематике
   Решение: машины должны
    обрабатывать знания
Систематизация знаний
Выделение знаний
 Источники - структурированные и неструктурированные данные
 Неструктурированные данные - тексты на естественном языке
 Интеллектуальная обработка текстов - выделение знаний из них
 Цель выделения знаний - их автоматическая систематизация

Методы систематизации
 Классификация текста
 Реферирование текста
 Копирайтный анализ текста
 Анализ тональности текста


Методы работают на символьном и лексическом
уровнях.
 Зависимость от языка текста
 Недостаточная точность
 Отсутствие контекста обработки
Уровни представления языка
Символьный уровень                        Лексический уровень
   Классы символов: символы алфавитов,      Языковые словари.
    пробелы, знаки препинания и т.д.         Знание о словоизменении. (отображение
   Использование: копирайтный анализ,        словоформ в слова из словаря)
    определение авторства и т.п.             Использование: копирайтный анализ,
«Классы символов: символы алфавитов,          поиск и т.п.
пробелы, знаки препинания и т.д.»
                                          «Мама мыла раму»
«классысимволов» «символыалфавитов»
                                          мать (сущ.) [мыть (глагол), мыло
«пробелы» «знакипрепинания» «итд»
                                          (сущ.)] рама (сущ.)
Синтаксический уровень                    Семантический уровень
   Грамматики.                              Объекты онтологии.
   Согласование.                            Согласование на уровне объектов.
   Использование: выделение                 Использование: выделение правильных
    «правильных» словосочетаний,              смысловых конструкций
    терминологический анализ              «Рама мыла маму»
«Мама мыла раму»                          рама (неодушевл.) мыть (действие)
мать (субъект) мыть (предикат) рама       мать (одушевл.)
(объект)
Анализ на семантическом уровне

Семантическая структура текста
   Онтология - формальное описание знаний для машин и людей
   Система автоматически выделяет знания из текстового документа и создает онтологию
   Онтология текста - независимое от языка машинное представление смыслового
    содержания текста

Инструменты манипуляции онтологиями
   Языки RDF (Resource Description
    Framework) и OWL (Web Ontology
    Language)
   Jena - открытая реализация языков RDF и
    OWL с возможностью логического
    вывода
   Онтология текста - логическая теория,
    записанная на языке OWL (RDF)
Логический анализ текстов
Семантика и языковые конструкции
 Для предметной области строится скелет онтологии - концептуальная схема
 Концептуальная схема - набор классов и отношений между классами
 Элементы концептуальной схемы связываются с языковыми выражениями
Выделение знаний
 На входе текст и онтология с языковыми
  выражениями
 Текст анализируется и выделяются объекты
  онтологии - экземпляры классов и
  отношений концептуальной схемы
Логический анализ
 Набор логических правил, определяющих
  условия корректности элементов онтологии
 Логические формулы для выражения
  вопросов о корректности
 Процедура верификации онтологий на
  наличие противоречий
Пример - Онтология событий

Онтология событий
 События - происшествия, спортивные соревнования, встречи
  государственных деятелей и т.п.
 Список участников события содержит информацию о персонах
 Объекты класса Персона - экземпляр класса В.В. Путин
Языковые выражения экземпляра        class Person
класса персона - В.В. Путин           First Name: string
 В.В. Путин                          Second Name: string

 В. Путин                            Birth Date: date

 Владимир Владимирович Путин
                                      Position: string
                                      Location List: list of (place, date)
 Президент Путин                     Spouse: string
 Президент России [временной         Children: list of sting
  контекст: 7 мая 2000 года -7 мая    …
  2008 года, 7 мая 2012 года -
  настоящее время]
Выделение объектов и фактов
Информационные статьи
   Президент России Владимир Путин и федеральный канцлер Германии начали
    переговоры в Берлине 1 июня 2012 года. На них планируют обсудить не только
    развитие двусторонних отношений, но и международную проблематику.
   Ожидается, что на переговорах будут затронуты темы взаимодействия в
    экономике и энергетической сфере, а также развитие отношений с
    Евросоюзом, Сирию, Иран, Афганистан и тематику ПРО.
                                          Putin : Person

Онтология документа                        First Name: Vladimir
                                           Second Name: Putin
   Объект класса Событие – {«Встреча      Birth Date: 7 of October, 1952
    глав государств», 01.06.2012,          Position: President
    Участники(В. Путин, А. Меркель), …}
                                           Location List: …
   Объект класса Персона – {«Путин»,      Spouse: …
    «Владимир», 07.10.1952,…}              Children: …
                                           …
Выявление противоречий
Выявление противоречий на этапе выделения объектов
   Допустим, статья из примера обозначена датой: 1 июня 2011
   Языковое выражение «Президент России Владимир Путин»
    противоречиво т.к. временной контекст сообщения (1 июня 2011)
    противоречит содержанию соответствующего объекта класса Персона -
    Президент России [временной контекст: 7 мая 2000 - 7 мая 2008, 7 мая
    2012 - настоящее время]
Выявление противоречий на этапе логического анализа
   Допустим, имеется статья с текстом «1 июня 2012 года В.В. Путин
    посетил с инспекцией мост на остров Русский в г. Владивосток»
   Выделяется объект класса Событие. Объект конфликтует с фактом в
    онтологии событий «встреча глав государств» т.к. время событий
    совпадает, а места событий разные
Вопросы и контактная информация
Контакты:
   ООО «Онтологика», 119634, Россия, г. Москва, Боровское
    шоссе, дом 44, кв. 3
   www.онтологика.рф, www.ontologs.ru, www.ontologs.com
   Email: info.ontologs.ru

Weitere ähnliche Inhalte

Andere mochten auch

Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииChristina Ovcharova
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеYandex
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)Smolensk Computer Science Club
 
Ответы по русскому
Ответы по русскомуОтветы по русскому
Ответы по русскомуVadimPiven
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросыLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 

Andere mochten auch (8)

Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действии
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в Яндексе
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 
Ответы по русскому
Ответы по русскомуОтветы по русскому
Ответы по русскому
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 

Ähnlich wie Логический анализ текстов на противоречия

Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Cognitive thesauri_popular_potanin
 Cognitive thesauri_popular_potanin Cognitive thesauri_popular_potanin
Cognitive thesauri_popular_potaninPhilippovich Andrey
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction OverviewNLPseminar
 
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...Kirrrr123
 
Логика 02. Логика и язык
Логика 02. Логика и языкЛогика 02. Логика и язык
Логика 02. Логика и языкVictor Gorbatov
 
итоговое сочинение в 11 классе 2014 г.
итоговое сочинение в 11 классе 2014 г.итоговое сочинение в 11 классе 2014 г.
итоговое сочинение в 11 классе 2014 г.Татьяна Богданова
 
Prezsemantic
PrezsemanticPrezsemantic
PrezsemanticVic N
 
Смысловое чтение в контексте ФГОС
Смысловое чтение в контексте ФГОССмысловое чтение в контексте ФГОС
Смысловое чтение в контексте ФГОСMaria Zilberman
 
написание научной статьи. Т. Ю. Быстрова
написание научной статьи. Т. Ю. Быстрованаписание научной статьи. Т. Ю. Быстрова
написание научной статьи. Т. Ю. БыстроваТаня Быстрова
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
07. обществознание фкгос 6 9 кл
07. обществознание фкгос 6 9 кл07. обществознание фкгос 6 9 кл
07. обществознание фкгос 6 9 клrassyhaev
 
дроздова. выступление о ядв. рига 2014
дроздова. выступление о ядв. рига 2014дроздова. выступление о ядв. рига 2014
дроздова. выступление о ядв. рига 2014Svetlana Kuprjashova
 

Ähnlich wie Логический анализ текстов на противоречия (20)

Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Cognitive thesauri_popular_potanin
 Cognitive thesauri_popular_potanin Cognitive thesauri_popular_potanin
Cognitive thesauri_popular_potanin
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction Overview
 
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...
16.урок информации в 11 классе изучение родословной л.н. толстого по базам да...
 
Логика 02. Логика и язык
Логика 02. Логика и языкЛогика 02. Логика и язык
Логика 02. Логика и язык
 
итоговое сочинение в 11 классе 2014 г.
итоговое сочинение в 11 классе 2014 г.итоговое сочинение в 11 классе 2014 г.
итоговое сочинение в 11 классе 2014 г.
 
Prezsemantic
PrezsemanticPrezsemantic
Prezsemantic
 
Смысловое чтение в контексте ФГОС
Смысловое чтение в контексте ФГОССмысловое чтение в контексте ФГОС
Смысловое чтение в контексте ФГОС
 
написание научной статьи. Т. Ю. Быстрова
написание научной статьи. Т. Ю. Быстрованаписание научной статьи. Т. Ю. Быстрова
написание научной статьи. Т. Ю. Быстрова
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
07. обществознание фкгос 6 9 кл
07. обществознание фкгос 6 9 кл07. обществознание фкгос 6 9 кл
07. обществознание фкгос 6 9 кл
 
дроздова. выступление о ядв. рига 2014
дроздова. выступление о ядв. рига 2014дроздова. выступление о ядв. рига 2014
дроздова. выступление о ядв. рига 2014
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
15 ege b8
15 ege b815 ege b8
15 ege b8
 

Логический анализ текстов на противоречия

  • 1. Анализ текстов на логические противоречия ООО «Онтологика», Москва, 2012
  • 2. Мотивация 50 лет назад: 60-е годы  Экспоненциальный рост потоков информации в эпоху НТР  Люди перестают справляться с их обработкой  Решение: машины обрабатывают данные Проблемы нашего времени  Лавинообразный рост доступного человеку знания  Нет физической возможности просто прочитать объем публикаций по необходимой тематике  Решение: машины должны обрабатывать знания
  • 3. Систематизация знаний Выделение знаний  Источники - структурированные и неструктурированные данные  Неструктурированные данные - тексты на естественном языке  Интеллектуальная обработка текстов - выделение знаний из них  Цель выделения знаний - их автоматическая систематизация Методы систематизации  Классификация текста  Реферирование текста  Копирайтный анализ текста  Анализ тональности текста Методы работают на символьном и лексическом уровнях.  Зависимость от языка текста  Недостаточная точность  Отсутствие контекста обработки
  • 4. Уровни представления языка Символьный уровень Лексический уровень  Классы символов: символы алфавитов,  Языковые словари. пробелы, знаки препинания и т.д.  Знание о словоизменении. (отображение  Использование: копирайтный анализ, словоформ в слова из словаря) определение авторства и т.п.  Использование: копирайтный анализ, «Классы символов: символы алфавитов, поиск и т.п. пробелы, знаки препинания и т.д.» «Мама мыла раму» «классысимволов» «символыалфавитов» мать (сущ.) [мыть (глагол), мыло «пробелы» «знакипрепинания» «итд» (сущ.)] рама (сущ.) Синтаксический уровень Семантический уровень  Грамматики.  Объекты онтологии.  Согласование.  Согласование на уровне объектов.  Использование: выделение  Использование: выделение правильных «правильных» словосочетаний, смысловых конструкций терминологический анализ «Рама мыла маму» «Мама мыла раму» рама (неодушевл.) мыть (действие) мать (субъект) мыть (предикат) рама мать (одушевл.) (объект)
  • 5. Анализ на семантическом уровне Семантическая структура текста  Онтология - формальное описание знаний для машин и людей  Система автоматически выделяет знания из текстового документа и создает онтологию  Онтология текста - независимое от языка машинное представление смыслового содержания текста Инструменты манипуляции онтологиями  Языки RDF (Resource Description Framework) и OWL (Web Ontology Language)  Jena - открытая реализация языков RDF и OWL с возможностью логического вывода  Онтология текста - логическая теория, записанная на языке OWL (RDF)
  • 6. Логический анализ текстов Семантика и языковые конструкции  Для предметной области строится скелет онтологии - концептуальная схема  Концептуальная схема - набор классов и отношений между классами  Элементы концептуальной схемы связываются с языковыми выражениями Выделение знаний  На входе текст и онтология с языковыми выражениями  Текст анализируется и выделяются объекты онтологии - экземпляры классов и отношений концептуальной схемы Логический анализ  Набор логических правил, определяющих условия корректности элементов онтологии  Логические формулы для выражения вопросов о корректности  Процедура верификации онтологий на наличие противоречий
  • 7. Пример - Онтология событий Онтология событий  События - происшествия, спортивные соревнования, встречи государственных деятелей и т.п.  Список участников события содержит информацию о персонах  Объекты класса Персона - экземпляр класса В.В. Путин Языковые выражения экземпляра class Person класса персона - В.В. Путин First Name: string  В.В. Путин Second Name: string  В. Путин Birth Date: date  Владимир Владимирович Путин Position: string Location List: list of (place, date)  Президент Путин Spouse: string  Президент России [временной Children: list of sting контекст: 7 мая 2000 года -7 мая … 2008 года, 7 мая 2012 года - настоящее время]
  • 8. Выделение объектов и фактов Информационные статьи  Президент России Владимир Путин и федеральный канцлер Германии начали переговоры в Берлине 1 июня 2012 года. На них планируют обсудить не только развитие двусторонних отношений, но и международную проблематику.  Ожидается, что на переговорах будут затронуты темы взаимодействия в экономике и энергетической сфере, а также развитие отношений с Евросоюзом, Сирию, Иран, Афганистан и тематику ПРО. Putin : Person Онтология документа First Name: Vladimir Second Name: Putin  Объект класса Событие – {«Встреча Birth Date: 7 of October, 1952 глав государств», 01.06.2012, Position: President Участники(В. Путин, А. Меркель), …} Location List: …  Объект класса Персона – {«Путин», Spouse: … «Владимир», 07.10.1952,…} Children: … …
  • 9. Выявление противоречий Выявление противоречий на этапе выделения объектов  Допустим, статья из примера обозначена датой: 1 июня 2011  Языковое выражение «Президент России Владимир Путин» противоречиво т.к. временной контекст сообщения (1 июня 2011) противоречит содержанию соответствующего объекта класса Персона - Президент России [временной контекст: 7 мая 2000 - 7 мая 2008, 7 мая 2012 - настоящее время] Выявление противоречий на этапе логического анализа  Допустим, имеется статья с текстом «1 июня 2012 года В.В. Путин посетил с инспекцией мост на остров Русский в г. Владивосток»  Выделяется объект класса Событие. Объект конфликтует с фактом в онтологии событий «встреча глав государств» т.к. время событий совпадает, а места событий разные
  • 10. Вопросы и контактная информация Контакты:  ООО «Онтологика», 119634, Россия, г. Москва, Боровское шоссе, дом 44, кв. 3  www.онтологика.рф, www.ontologs.ru, www.ontologs.com  Email: info.ontologs.ru