SlideShare a Scribd company logo
1 of 25
Download to read offline
Пользовательские интерфейсы
систем лингвистической разметки
текстов
Автор: Смолина Мария, 425 группа
Содержание
1. Основные виды лингвистической
разметки
2. Стандарты разметки
3. Этапы лингвистической разметки
4. Требования к системе разметки
5. Обзор систем разметки
6. Разрабатываемый программный
инструмент
2
Основные виды лингвистической
разметки
• Лингвистическая разметка необходима для машинной
обработки текстов на естественном языке.
• В размеченном виде тексты удобно хранить и подавать на
вход различным программным инструментам.
Основные виды разметки:
 Метаразметка (автор текста, название, место издания и т.п.)
 Графематическая (границы слов, заголовки, числа)
 Морфологическая (часть речи, падеж, начальная форма)
 Синтаксическая (отражение синтаксической структуры
предложений)
 Семантическая (отношения род-вид, часть-целое, синонимия)
3
Пример графематической разметки
(проект Диалинг-АОТ)
4
5
Основные стандарты разметки
Существует ряд международных стандартов
представления размеченных текстов:
 Проект TEI
(использовался при создании НКРЯ)
 Рекомендации EAGLES
 CDIF
 CES
 XCES
6
Пример морфологической разметки в
стандарте TEI
<s>
<w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w>
<w><ana lex=“наступать” gr=“V”></ana>наступают</w>
<w><ana lex=“на” gr=“PR”></ana>на</w>
<w><ana lex=“пятка” gr=“S”></ana>пятки</w>.
</s>
Тег <w> обозначает слово, <s> - предложение
Этапы лингвистической разметки
• Естественный язык сложен и постоянно изменяется.
• Разметка текстов, как правило, неоднозначна.
• Системы автоматической разметки работают с ошибками
Графематическая разметка:
А. Кот смотрел на Ильина Б. В. Шпак смотрел на…
Морфологическая разметка:
слово ПЕЧЬ может быть как глаголом, так и
существительным
Как правило, разметка текста производится в два
этапа:
1. Автоматическая разметка текста (корпуса текстов)
2. Ручная корректировка результатов экспертом
7
8
Требования к системе разметки
Система разметки должна обладать следующими
свойствами:
 Доступность
 Простота использования, наличие документации
 Поддержка основных видов разметки
 Сохранение результатов в соответствующем
стандарту виде
 Поддержка русского языка
 Удобный пользовательский интерфейс для ручной
корректировки результата
 Плюсом является поддержка дополнительных видов
разметки
9
Системы разметки
 UAM CorpusTool
Автор: Mick O` Donnell, 2011 год
 BRAT rapid annotation tool
Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić,
Япония, Великобритания, 2012 год
 NooJApp
Автор: Max Silberztein, Франция, 2002 год
Проекты
 OpenCorpora
Цель проекта – создать открытый размеченный корпус
текстов на русском языке
10
UAM CorpusTool: основные функции
 Создание собственного корпуса текстов
 Автоматическая разметка для англоязычных текстов
 Исправление автоматической разметки
 Разметка текста вручную
 Добавление собственных дескрипторов
 Сохранение разметки в формате XML
11
UAM CorpusTool: интерфейс
12
UAM CorpusTool: особенности
 Система доступна для скачивания, проста в
установке, но ее исходный код закрыт
 Проста в использовании, имеет полную
документацию
 Поддерживаются основные виды разметки для
англоязычных текстов
 Результат сохраняется в формате stand-off xml
 Нет автоматической разметки для русского языка
 Интерфейс для ручной корректировки результата
разметки прост и понятен
13
BRAT rapid annotation tool:
основные функции
 Автоматическая разметка для англоязычных текстов
 Исправление автоматической разметки
 Извлечение некоторой информации из текстов
(имен, названий географических объектов)
 Разметка текста вручную
14
BRAT rapid annotation tool:
интерфейс
15
BRAT rapid annotation tool:
особенности
 Система доступна для скачивания, процесс установки
сложен, открытый исходный код
 Не очень сложна в использовании, имеет
документацию
 Для англоязычных текстов поддерживаются
основные виды разметки
 Результат сохраняется в формате stand-off ann
 Для русского языка поддерживается только
автоматическая графематическая разметка
 Интерфейс для ручной корректировки результата
разметки прост и понятен
16
NooJApp: основные функции
 Автоматическая графематическая, морфологическая
и синтаксическая разметка для английского языка
 Исправление автоматической разметки
 Разметка текста вручную
 Подсчет количества букв, токенов и других
статистических данных
17
NooJApp: интерфейс
18
NooJApp: особенности
 Система доступна для скачивания, процесс установки
легкий, открытый исходный код
 Не очень сложна в использовании, имеет
документацию
 Основные виды разметки поддерживаются только
для английского языка
 Результаты сохраняются в формате not, xml
(стандарт TEI)
 Автоматическая разметка поддерживается только
для английского языка
 Интерфейс системы не очень удобен для работы
19
Проект OpenCorpora
• Проект предназначен для создания размеченного
корпуса русскоязычных текстов силами сообщества.
• Каждый может принять участие в его создании.
• Сначала тексты размечаются автоматически, затем
участникам предлагается исправить ошибки
автоматической разметки.
Интерфейс
20
Итог
• На данный момент существует множество систем разметки,
но все они ориентированы на работу с англоязычными
текстами.
• Некоторые из этих систем недостаточно удобные и требуют
немало времени для освоения своего интерфейса.
Необходим программный инструмент:
1. Доступный, простой в использовании
2. Поддерживающий основные виды разметки
3. Отвечающий стандартам
4. Ориентированный на работу с русскоязычными
текстами
5. Обладающий удобным пользовательским
интерфейсом для корректировки результата
21
Linguistic annotation system:
основные функции
 Автоматическая графематическая разметка для
русского языка
 Исправление автоматической разметки
 Сохранение разметки в формате XML
В дальнейшем будут добавлены модули
морфологической и терминологической
разметки, возможность сохранения разметки в
соответствии со стандартом TEI.
22
Linguistic annotation system: интерфейс
23
Linguistic annotation system: интерфейс
24
Linguistic annotation system: особенности
 Доступное web-приложение, установка не требуется
 Простота использования
 Поддержка графематической разметки, в
дальнейшем и других основных видов разметки
 Полностью ориентировано на работу с
русскоязычными текстами
 Есть интуитивно понятный интерфейс для ручной
корректировки результата
 Поддержка дополнительных видов разметки
(терминологическая разметка)
Спасибо за внимание!
25

More Related Content

What's hot

Programming Concepts
Programming ConceptsProgramming Concepts
Programming ConceptsMister_Lee
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonPyNSK
 
Эмин Р. "Языки Программирования"
Эмин Р. "Языки Программирования"Эмин Р. "Языки Программирования"
Эмин Р. "Языки Программирования"Emin Rahmanov
 
языки программирования
языки программированияязыки программирования
языки программированияanastastish
 
ньюансы разработки видео для мобильных устройств
ньюансы разработки видео для мобильных устройствньюансы разработки видео для мобильных устройств
ньюансы разработки видео для мобильных устройствВладимир Кожаев
 
Локализация программных продуктов и тестирование локализации
Локализация программных продуктов и тестирование локализацииЛокализация программных продуктов и тестирование локализации
Локализация программных продуктов и тестирование локализацииSQALab
 
презентация языки программирования
презентация языки программированияпрезентация языки программирования
презентация языки программированияnhfkzkz
 
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)Sergey Polazhenko
 
Тестирование Локализации и Интернализации
Тестирование Локализации и ИнтернализацииТестирование Локализации и Интернализации
Тестирование Локализации и ИнтернализацииLilia Gorbachik
 
языки программирования презетнация
языки программирования презетнацияязыки программирования презетнация
языки программирования презетнацияsonyadark
 
Профессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseПрофессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseAlexander Granin
 
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958409bb948 9463-4d6b-b885-63955ea67f1e-210512195958
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958vavaxd
 
First byte - участник #1 Global Chatbots Hackathon with Webinar.ru
First byte - участник #1 Global Chatbots Hackathon with Webinar.ruFirst byte - участник #1 Global Chatbots Hackathon with Webinar.ru
First byte - участник #1 Global Chatbots Hackathon with Webinar.ruchatbotscommunity
 

What's hot (19)

Programming Concepts
Programming ConceptsProgramming Concepts
Programming Concepts
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на Python
 
Эмин Р. "Языки Программирования"
Эмин Р. "Языки Программирования"Эмин Р. "Языки Программирования"
Эмин Р. "Языки Программирования"
 
языки программирования
языки программированияязыки программирования
языки программирования
 
ньюансы разработки видео для мобильных устройств
ньюансы разработки видео для мобильных устройствньюансы разработки видео для мобильных устройств
ньюансы разработки видео для мобильных устройств
 
Локализация программных продуктов и тестирование локализации
Локализация программных продуктов и тестирование локализацииЛокализация программных продуктов и тестирование локализации
Локализация программных продуктов и тестирование локализации
 
Процесс майнинг
Процесс майнингПроцесс майнинг
Процесс майнинг
 
презентация языки программирования
презентация языки программированияпрезентация языки программирования
презентация языки программирования
 
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)
Language oriented programming_(lop)_в_действии_(максим_мазин,_add-2011)
 
Тестирование Локализации и Интернализации
Тестирование Локализации и ИнтернализацииТестирование Локализации и Интернализации
Тестирование Локализации и Интернализации
 
языки программирования презетнация
языки программирования презетнацияязыки программирования презетнация
языки программирования презетнация
 
лекция 3
лекция 3лекция 3
лекция 3
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
Профессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseПрофессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом Enterprise
 
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958409bb948 9463-4d6b-b885-63955ea67f1e-210512195958
409bb948 9463-4d6b-b885-63955ea67f1e-210512195958
 
43828
4382843828
43828
 
Pascal+
Pascal+Pascal+
Pascal+
 
First byte - участник #1 Global Chatbots Hackathon with Webinar.ru
First byte - участник #1 Global Chatbots Hackathon with Webinar.ruFirst byte - участник #1 Global Chatbots Hackathon with Webinar.ru
First byte - участник #1 Global Chatbots Hackathon with Webinar.ru
 
Фишки и прелести TypeScript
Фишки и прелести TypeScriptФишки и прелести TypeScript
Фишки и прелести TypeScript
 

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 

Viewers also liked (20)

Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 

Similar to Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

C++ Базовый. Занятие 01.
C++ Базовый. Занятие 01.C++ Базовый. Занятие 01.
C++ Базовый. Занятие 01.Igor Shkulipa
 
10 по общего назначения, эл текст, табл, бд
10 по общего назначения, эл текст, табл, бд10 по общего назначения, эл текст, табл, бд
10 по общего назначения, эл текст, табл, бдSergey Lomakin
 
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.IT-Доминанта
 
Qasimli aysel 9 r2 klassifikasiya proqrammnoqo obespeceniya
Qasimli aysel 9 r2  klassifikasiya proqrammnoqo obespeceniyaQasimli aysel 9 r2  klassifikasiya proqrammnoqo obespeceniya
Qasimli aysel 9 r2 klassifikasiya proqrammnoqo obespeceniyaaysel9r2
 
Qasimli Aysel 9r2
Qasimli Aysel 9r2  Qasimli Aysel 9r2
Qasimli Aysel 9r2 aysel9r2
 
языки программирования
языки программированияязыки программирования
языки программированияDmitry Kulikov
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчanna_vereshchagina
 
9 структура компонентных приложений
9 структура компонентных приложений9 структура компонентных приложений
9 структура компонентных приложенийKewpaN
 
Занятие № 4 Языки и системы программирования. Их назначение и характеристики
Занятие № 4 Языки и системы программирования. Их назначение и характеристикиЗанятие № 4 Языки и системы программирования. Их назначение и характеристики
Занятие № 4 Языки и системы программирования. Их назначение и характеристикиAibek9
 
Программирование
ПрограммированиеПрограммирование
Программированиеalecsa
 
Domain-Specific Languages
Domain-Specific LanguagesDomain-Specific Languages
Domain-Specific LanguagesPavel Maltsev
 
Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...SBTech
 
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...Anthony Marchenko
 
Aspect-Oriented Programming in PHP
Aspect-Oriented Programming in PHPAspect-Oriented Programming in PHP
Aspect-Oriented Programming in PHPAlexander Lisachenko
 
Algorithms and programming lecture in ru
Algorithms and programming lecture in ruAlgorithms and programming lecture in ru
Algorithms and programming lecture in russuser0562f1
 
Алгоритмизация и программирование С/С++
Алгоритмизация и  программирование С/С++Алгоритмизация и  программирование С/С++
Алгоритмизация и программирование С/С++ssuser0562f1
 

Similar to Смолина Пользовательские интерфейсы систем лингвистической разметки текстов (20)

C++ Базовый. Занятие 01.
C++ Базовый. Занятие 01.C++ Базовый. Занятие 01.
C++ Базовый. Занятие 01.
 
10 по общего назначения, эл текст, табл, бд
10 по общего назначения, эл текст, табл, бд10 по общего назначения, эл текст, табл, бд
10 по общего назначения, эл текст, табл, бд
 
1
11
1
 
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
 
378 васильев куницын
378 васильев куницын378 васильев куницын
378 васильев куницын
 
Dotnet
DotnetDotnet
Dotnet
 
Qasimli aysel 9 r2 klassifikasiya proqrammnoqo obespeceniya
Qasimli aysel 9 r2  klassifikasiya proqrammnoqo obespeceniyaQasimli aysel 9 r2  klassifikasiya proqrammnoqo obespeceniya
Qasimli aysel 9 r2 klassifikasiya proqrammnoqo obespeceniya
 
Qasimli Aysel 9r2
Qasimli Aysel 9r2  Qasimli Aysel 9r2
Qasimli Aysel 9r2
 
языки программирования
языки программированияязыки программирования
языки программирования
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
9 структура компонентных приложений
9 структура компонентных приложений9 структура компонентных приложений
9 структура компонентных приложений
 
Занятие № 4 Языки и системы программирования. Их назначение и характеристики
Занятие № 4 Языки и системы программирования. Их назначение и характеристикиЗанятие № 4 Языки и системы программирования. Их назначение и характеристики
Занятие № 4 Языки и системы программирования. Их назначение и характеристики
 
Программирование
ПрограммированиеПрограммирование
Программирование
 
Domain-Specific Languages
Domain-Specific LanguagesDomain-Specific Languages
Domain-Specific Languages
 
9773
97739773
9773
 
Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...
 
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...
Встраивание Python в мобильные приложения – нюансы interoperation, новые подх...
 
Aspect-Oriented Programming in PHP
Aspect-Oriented Programming in PHPAspect-Oriented Programming in PHP
Aspect-Oriented Programming in PHP
 
Algorithms and programming lecture in ru
Algorithms and programming lecture in ruAlgorithms and programming lecture in ru
Algorithms and programming lecture in ru
 
Алгоритмизация и программирование С/С++
Алгоритмизация и  программирование С/С++Алгоритмизация и  программирование С/С++
Алгоритмизация и программирование С/С++
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (11)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Смолина Пользовательские интерфейсы систем лингвистической разметки текстов

  • 1. Пользовательские интерфейсы систем лингвистической разметки текстов Автор: Смолина Мария, 425 группа
  • 2. Содержание 1. Основные виды лингвистической разметки 2. Стандарты разметки 3. Этапы лингвистической разметки 4. Требования к системе разметки 5. Обзор систем разметки 6. Разрабатываемый программный инструмент 2
  • 3. Основные виды лингвистической разметки • Лингвистическая разметка необходима для машинной обработки текстов на естественном языке. • В размеченном виде тексты удобно хранить и подавать на вход различным программным инструментам. Основные виды разметки:  Метаразметка (автор текста, название, место издания и т.п.)  Графематическая (границы слов, заголовки, числа)  Морфологическая (часть речи, падеж, начальная форма)  Синтаксическая (отражение синтаксической структуры предложений)  Семантическая (отношения род-вид, часть-целое, синонимия) 3
  • 5. 5 Основные стандарты разметки Существует ряд международных стандартов представления размеченных текстов:  Проект TEI (использовался при создании НКРЯ)  Рекомендации EAGLES  CDIF  CES  XCES
  • 6. 6 Пример морфологической разметки в стандарте TEI <s> <w><ana lex=“конкурент” gr=“S”></ana>Конкуренты</w> <w><ana lex=“наступать” gr=“V”></ana>наступают</w> <w><ana lex=“на” gr=“PR”></ana>на</w> <w><ana lex=“пятка” gr=“S”></ana>пятки</w>. </s> Тег <w> обозначает слово, <s> - предложение
  • 7. Этапы лингвистической разметки • Естественный язык сложен и постоянно изменяется. • Разметка текстов, как правило, неоднозначна. • Системы автоматической разметки работают с ошибками Графематическая разметка: А. Кот смотрел на Ильина Б. В. Шпак смотрел на… Морфологическая разметка: слово ПЕЧЬ может быть как глаголом, так и существительным Как правило, разметка текста производится в два этапа: 1. Автоматическая разметка текста (корпуса текстов) 2. Ручная корректировка результатов экспертом 7
  • 8. 8 Требования к системе разметки Система разметки должна обладать следующими свойствами:  Доступность  Простота использования, наличие документации  Поддержка основных видов разметки  Сохранение результатов в соответствующем стандарту виде  Поддержка русского языка  Удобный пользовательский интерфейс для ручной корректировки результата  Плюсом является поддержка дополнительных видов разметки
  • 9. 9 Системы разметки  UAM CorpusTool Автор: Mick O` Donnell, 2011 год  BRAT rapid annotation tool Авторы: Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Япония, Великобритания, 2012 год  NooJApp Автор: Max Silberztein, Франция, 2002 год Проекты  OpenCorpora Цель проекта – создать открытый размеченный корпус текстов на русском языке
  • 10. 10 UAM CorpusTool: основные функции  Создание собственного корпуса текстов  Автоматическая разметка для англоязычных текстов  Исправление автоматической разметки  Разметка текста вручную  Добавление собственных дескрипторов  Сохранение разметки в формате XML
  • 12. 12 UAM CorpusTool: особенности  Система доступна для скачивания, проста в установке, но ее исходный код закрыт  Проста в использовании, имеет полную документацию  Поддерживаются основные виды разметки для англоязычных текстов  Результат сохраняется в формате stand-off xml  Нет автоматической разметки для русского языка  Интерфейс для ручной корректировки результата разметки прост и понятен
  • 13. 13 BRAT rapid annotation tool: основные функции  Автоматическая разметка для англоязычных текстов  Исправление автоматической разметки  Извлечение некоторой информации из текстов (имен, названий географических объектов)  Разметка текста вручную
  • 14. 14 BRAT rapid annotation tool: интерфейс
  • 15. 15 BRAT rapid annotation tool: особенности  Система доступна для скачивания, процесс установки сложен, открытый исходный код  Не очень сложна в использовании, имеет документацию  Для англоязычных текстов поддерживаются основные виды разметки  Результат сохраняется в формате stand-off ann  Для русского языка поддерживается только автоматическая графематическая разметка  Интерфейс для ручной корректировки результата разметки прост и понятен
  • 16. 16 NooJApp: основные функции  Автоматическая графематическая, морфологическая и синтаксическая разметка для английского языка  Исправление автоматической разметки  Разметка текста вручную  Подсчет количества букв, токенов и других статистических данных
  • 18. 18 NooJApp: особенности  Система доступна для скачивания, процесс установки легкий, открытый исходный код  Не очень сложна в использовании, имеет документацию  Основные виды разметки поддерживаются только для английского языка  Результаты сохраняются в формате not, xml (стандарт TEI)  Автоматическая разметка поддерживается только для английского языка  Интерфейс системы не очень удобен для работы
  • 19. 19 Проект OpenCorpora • Проект предназначен для создания размеченного корпуса русскоязычных текстов силами сообщества. • Каждый может принять участие в его создании. • Сначала тексты размечаются автоматически, затем участникам предлагается исправить ошибки автоматической разметки. Интерфейс
  • 20. 20 Итог • На данный момент существует множество систем разметки, но все они ориентированы на работу с англоязычными текстами. • Некоторые из этих систем недостаточно удобные и требуют немало времени для освоения своего интерфейса. Необходим программный инструмент: 1. Доступный, простой в использовании 2. Поддерживающий основные виды разметки 3. Отвечающий стандартам 4. Ориентированный на работу с русскоязычными текстами 5. Обладающий удобным пользовательским интерфейсом для корректировки результата
  • 21. 21 Linguistic annotation system: основные функции  Автоматическая графематическая разметка для русского языка  Исправление автоматической разметки  Сохранение разметки в формате XML В дальнейшем будут добавлены модули морфологической и терминологической разметки, возможность сохранения разметки в соответствии со стандартом TEI.
  • 22. 22 Linguistic annotation system: интерфейс
  • 23. 23 Linguistic annotation system: интерфейс
  • 24. 24 Linguistic annotation system: особенности  Доступное web-приложение, установка не требуется  Простота использования  Поддержка графематической разметки, в дальнейшем и других основных видов разметки  Полностью ориентировано на работу с русскоязычными текстами  Есть интуитивно понятный интерфейс для ручной корректировки результата  Поддержка дополнительных видов разметки (терминологическая разметка)