Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

Корпусная лингвистика проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011

О докладчике Виктор Бочаров: ,[object Object]

Участник инициативы Mathlingvo и проекта Открытый корпус,[object Object]

Какие бывают корпуса текстов?

Какие задачи решает компьютерная лингвистика?

Зачем нужен ещё один корпус и каким он должен быть?,[object Object]

Термины (2) Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка. NaturalLanguageProcessing (NLP) — автоматическая обработка естественного языка.

Использование корпусов

Лингвистические корпуса

Морфологическая разметка

Морфологическая омонимия Эти типы стали есть в цехе. Человек человеку волк, а зомби зомбизомби. Косил косой косойкосой. «стали», «стекло» - сущ. или глагол? «раме» - дательный или предложный? «стол» - именительный или винительный? «море» - МОР или МОРЕ или МОРА? «из» - предлог ИЗ или имя ИЗА? «для» - предлог ДЛЯ или глагол ДЛИТЬ? «при» - предлог ПРИ или глагол ПЕРЕТЬ?

Синтаксическая разметка Многословные сущности: ФИО, названия компаний, городов, ... . «Локальный синтаксис»: СУЩ + ПРИЛ («красный стол», «железная дорога», …), НАР + ГЛ («быстро бежал», «давно ждёт», …) Синтаксис предложения: Разрешение анафоры («Василий ждёт Михаила. Он всегда опаздывает»)

Синтаксическая разметка «Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»

Семантическая разметка Выбор правильного значения слова: «Коса» - причёска, инструмент, оружие, форма рельефа, … «Ключ» - для открывания замка, часть иероглифа, родник, скрипичный, телеграфный, … Построение семантического графа; Снятие объектной омонимии: ЦСКА — Москва, Киев, Баку, София, Ереван, …

Лингвистические корпуса Создание корпуса — это долго и дорого. Один корпус можно использовать много раз: Для разных задач Разными людьми Многократное использование одного корпуса даёт возможность сравнивать результаты.

Компьютерная лингвистика

Инструменты Корпус Инструмент Алгоритм

Инструменты Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, JoakimNivre TnT tagger PoStagger для русского НКРЯ SynTagRus Синтаксический анализатор для русского MaltParser

Задачи Извлечение фактов Классификация текстов Автоматический перевод Автоматическое реферирование Определение тональности высказывания Распознавание / синтез речи OCR Диалоговые системы

Народное хозяйство Корпус Инструменты Решения задач Алгоритмы лингвистика не лингвистика Продукты Другие технологии

Компьютерная лингвистика Сделать информацию из текстов доступной для автоматической обработки: Извлечение фактов (из текста в БД) Сделать информацию удобной для потребления человеком: OCR, распознавание речи, реферирование, перевод Разложить тексты по полочкам: Классификация, поиск

Корпуса русских текстов Национальный корпус русского языка (НКРЯ) Всего 341 млн словоупотреблений Со снятой морфологической омонимией 6 млн словоупотреблений Ссинтаксической разметкой (SynTagRus) 600 тыс словоупотреблений* www.ruscorpora.ru

Корпуса русских текстов НКРЯ 180 тыс словоупотреблений доступно Только поиск, есть разметка (в том числе ручная) Упсальский корпус Доступен, нет разметки Тюбингенский корпус Только поиск, есть разметка (автоматическая) ХАНКО — хельсинский аннотированный корпус Только поиск, есть разметка

Проблемы Авторские права на тексты Решения: Случайный порядок предложений Доступ только для поиска Убеждённость, что для научных целей можно Высокая стоимость ручной разметки Решения: Автоматическая разметка Автоматическая разметка с ручной проверкой

Какой нужен корпус

OpenCorpora - источники «Частный корреспондент» Раздел Википедии на русском языке Раздел Викиновостей на русском языке Худ. литература в общественном достоянии Блоги под совместимой лицензией Научно-техническая литература под совместимой лицензией ...

OpenCorpora - разметка Метатекстовая Типографская* Графематическая Морфологическая (автоматическая, без снятия омонимии) Снятие морфологической омонимии Синтаксическая

Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (7)

Ähnlich wie Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

Ähnlich wie Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве (20)

Mehr von Witology

Mehr von Witology (20)

Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве