7. Термины (2) Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка. NaturalLanguageProcessing (NLP) — автоматическая обработка естественного языка.
14. Морфологическая омонимия Эти типы стали есть в цехе. Человек человеку волк, а зомби зомбизомби. Косил косой косойкосой. «стали», «стекло» - сущ. или глагол? «раме» - дательный или предложный? «стол» - именительный или винительный? «море» - МОР или МОРЕ или МОРА? «из» - предлог ИЗ или имя ИЗА? «для» - предлог ДЛЯ или глагол ДЛИТЬ? «при» - предлог ПРИ или глагол ПЕРЕТЬ?
15. Синтаксическая разметка Многословные сущности: ФИО, названия компаний, городов, ... . «Локальный синтаксис»: СУЩ + ПРИЛ («красный стол», «железная дорога», …), НАР + ГЛ («быстро бежал», «давно ждёт», …) Синтаксис предложения: Разрешение анафоры («Василий ждёт Михаила. Он всегда опаздывает»)
17. Семантическая разметка Выбор правильного значения слова: «Коса» - причёска, инструмент, оружие, форма рельефа, … «Ключ» - для открывания замка, часть иероглифа, родник, скрипичный, телеграфный, … Построение семантического графа; Снятие объектной омонимии: ЦСКА — Москва, Киев, Баку, София, Ереван, …
18. Лингвистические корпуса Создание корпуса — это долго и дорого. Один корпус можно использовать много раз: Для разных задач Разными людьми Многократное использование одного корпуса даёт возможность сравнивать результаты.
21. Инструменты Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, JoakimNivre TnT tagger PoStagger для русского НКРЯ SynTagRus Синтаксический анализатор для русского MaltParser
22. Задачи Извлечение фактов Классификация текстов Автоматический перевод Автоматическое реферирование Определение тональности высказывания Распознавание / синтез речи OCR Диалоговые системы
25. Народное хозяйство Корпус Инструменты Решения задач Алгоритмы лингвистика не лингвистика Продукты Другие технологии
26. Компьютерная лингвистика Сделать информацию из текстов доступной для автоматической обработки: Извлечение фактов (из текста в БД) Сделать информацию удобной для потребления человеком: OCR, распознавание речи, реферирование, перевод Разложить тексты по полочкам: Классификация, поиск
27. Корпуса русских текстов Национальный корпус русского языка (НКРЯ) Всего 341 млн словоупотреблений Со снятой морфологической омонимией 6 млн словоупотреблений Ссинтаксической разметкой (SynTagRus) 600 тыс словоупотреблений* www.ruscorpora.ru
28. Корпуса русских текстов НКРЯ 180 тыс словоупотреблений доступно Только поиск, есть разметка (в том числе ручная) Упсальский корпус Доступен, нет разметки Тюбингенский корпус Только поиск, есть разметка (автоматическая) ХАНКО — хельсинский аннотированный корпус Только поиск, есть разметка
29. Проблемы Авторские права на тексты Решения: Случайный порядок предложений Доступ только для поиска Убеждённость, что для научных целей можно Высокая стоимость ручной разметки Решения: Автоматическая разметка Автоматическая разметка с ручной проверкой
32. OpenCorpora - источники «Частный корреспондент» Раздел Википедии на русском языке Раздел Викиновостей на русском языке Худ. литература в общественном достоянии Блоги под совместимой лицензией Научно-техническая литература под совместимой лицензией ...