2. Мотивация
50 лет назад: 60-е годы
Экспоненциальный рост потоков информации в эпоху НТР
Люди перестают справляться с их обработкой
Решение: машины обрабатывают данные
Проблемы нашего времени
Лавинообразный рост
доступного человеку знания
Нет физической возможности
просто прочитать объем
публикаций по необходимой
тематике
Решение: машины должны
обрабатывать знания
3. Систематизация знаний
Выделение знаний
Источники - структурированные и неструктурированные данные
Неструктурированные данные - тексты на естественном языке
Интеллектуальная обработка текстов - выделение знаний из них
Цель выделения знаний - их автоматическая систематизация
Методы систематизации
Классификация текста
Реферирование текста
Копирайтный анализ текста
Анализ тональности текста
Методы работают на символьном и лексическом
уровнях.
Зависимость от языка текста
Недостаточная точность
Отсутствие контекста обработки
4. Уровни представления языка
Символьный уровень Лексический уровень
Классы символов: символы алфавитов, Языковые словари.
пробелы, знаки препинания и т.д. Знание о словоизменении. (отображение
Использование: копирайтный анализ, словоформ в слова из словаря)
определение авторства и т.п. Использование: копирайтный анализ,
«Классы символов: символы алфавитов, поиск и т.п.
пробелы, знаки препинания и т.д.»
«Мама мыла раму»
«классысимволов» «символыалфавитов»
мать (сущ.) [мыть (глагол), мыло
«пробелы» «знакипрепинания» «итд»
(сущ.)] рама (сущ.)
Синтаксический уровень Семантический уровень
Грамматики. Объекты онтологии.
Согласование. Согласование на уровне объектов.
Использование: выделение Использование: выделение правильных
«правильных» словосочетаний, смысловых конструкций
терминологический анализ «Рама мыла маму»
«Мама мыла раму» рама (неодушевл.) мыть (действие)
мать (субъект) мыть (предикат) рама мать (одушевл.)
(объект)
5. Анализ на семантическом уровне
Семантическая структура текста
Онтология - формальное описание знаний для машин и людей
Система автоматически выделяет знания из текстового документа и создает онтологию
Онтология текста - независимое от языка машинное представление смыслового
содержания текста
Инструменты манипуляции онтологиями
Языки RDF (Resource Description
Framework) и OWL (Web Ontology
Language)
Jena - открытая реализация языков RDF и
OWL с возможностью логического
вывода
Онтология текста - логическая теория,
записанная на языке OWL (RDF)
6. Логический анализ текстов
Семантика и языковые конструкции
Для предметной области строится скелет онтологии - концептуальная схема
Концептуальная схема - набор классов и отношений между классами
Элементы концептуальной схемы связываются с языковыми выражениями
Выделение знаний
На входе текст и онтология с языковыми
выражениями
Текст анализируется и выделяются объекты
онтологии - экземпляры классов и
отношений концептуальной схемы
Логический анализ
Набор логических правил, определяющих
условия корректности элементов онтологии
Логические формулы для выражения
вопросов о корректности
Процедура верификации онтологий на
наличие противоречий
7. Пример - Онтология событий
Онтология событий
События - происшествия, спортивные соревнования, встречи
государственных деятелей и т.п.
Список участников события содержит информацию о персонах
Объекты класса Персона - экземпляр класса В.В. Путин
Языковые выражения экземпляра class Person
класса персона - В.В. Путин First Name: string
В.В. Путин Second Name: string
В. Путин Birth Date: date
Владимир Владимирович Путин
Position: string
Location List: list of (place, date)
Президент Путин Spouse: string
Президент России [временной Children: list of sting
контекст: 7 мая 2000 года -7 мая …
2008 года, 7 мая 2012 года -
настоящее время]
8. Выделение объектов и фактов
Информационные статьи
Президент России Владимир Путин и федеральный канцлер Германии начали
переговоры в Берлине 1 июня 2012 года. На них планируют обсудить не только
развитие двусторонних отношений, но и международную проблематику.
Ожидается, что на переговорах будут затронуты темы взаимодействия в
экономике и энергетической сфере, а также развитие отношений с
Евросоюзом, Сирию, Иран, Афганистан и тематику ПРО.
Putin : Person
Онтология документа First Name: Vladimir
Second Name: Putin
Объект класса Событие – {«Встреча Birth Date: 7 of October, 1952
глав государств», 01.06.2012, Position: President
Участники(В. Путин, А. Меркель), …}
Location List: …
Объект класса Персона – {«Путин», Spouse: …
«Владимир», 07.10.1952,…} Children: …
…
9. Выявление противоречий
Выявление противоречий на этапе выделения объектов
Допустим, статья из примера обозначена датой: 1 июня 2011
Языковое выражение «Президент России Владимир Путин»
противоречиво т.к. временной контекст сообщения (1 июня 2011)
противоречит содержанию соответствующего объекта класса Персона -
Президент России [временной контекст: 7 мая 2000 - 7 мая 2008, 7 мая
2012 - настоящее время]
Выявление противоречий на этапе логического анализа
Допустим, имеется статья с текстом «1 июня 2012 года В.В. Путин
посетил с инспекцией мост на остров Русский в г. Владивосток»
Выделяется объект класса Событие. Объект конфликтует с фактом в
онтологии событий «встреча глав государств» т.к. время событий
совпадает, а места событий разные
10. Вопросы и контактная информация
Контакты:
ООО «Онтологика», 119634, Россия, г. Москва, Боровское
шоссе, дом 44, кв. 3
www.онтологика.рф, www.ontologs.ru, www.ontologs.com
Email: info.ontologs.ru