SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Корпусная лингвистика проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011
О докладчике Виктор Бочаров: ,[object Object]
Участник инициативы Mathlingvo и проекта Открытый корпус,[object Object]
Какие бывают корпуса текстов?
Какие задачи решает компьютерная лингвистика?
Зачем нужен ещё один корпус и каким он должен быть?,[object Object]
Термины (2) Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка. NaturalLanguageProcessing (NLP) — автоматическая обработка естественного языка.
Использование корпусов
Лингвистические корпуса
Разметка
Разметка
Разметка
Морфологическая разметка
Морфологическая омонимия Эти типы стали есть в цехе. Человек человеку волк, а зомби зомбизомби. Косил косой косойкосой. «стали», «стекло» - сущ. или глагол? «раме» - дательный или предложный? «стол» - именительный или винительный? «море» - МОР или МОРЕ или МОРА? «из» - предлог ИЗ или имя ИЗА? «для» - предлог ДЛЯ или глагол ДЛИТЬ? «при» - предлог ПРИ или глагол ПЕРЕТЬ?
Синтаксическая разметка Многословные сущности: ФИО, названия компаний, городов, ... . «Локальный синтаксис»: СУЩ + ПРИЛ («красный стол», «железная дорога», …), НАР + ГЛ («быстро бежал», «давно ждёт», …) Синтаксис предложения: Разрешение анафоры («Василий ждёт Михаила. Он всегда опаздывает»)
Синтаксическая разметка 	«Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»
Семантическая разметка Выбор правильного значения слова: «Коса» - причёска, инструмент, оружие, форма рельефа, … «Ключ» - для открывания замка, часть иероглифа, родник, скрипичный, телеграфный, … Построение семантического графа; Снятие объектной омонимии: ЦСКА — Москва, Киев, Баку, София, Ереван, …
Лингвистические корпуса Создание корпуса — это долго и дорого. Один корпус можно использовать много раз: Для разных задач Разными людьми Многократное использование одного корпуса даёт возможность сравнивать результаты.
Компьютерная лингвистика
Инструменты Корпус Инструмент Алгоритм
Инструменты Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, JoakimNivre TnT tagger PoStagger для русского НКРЯ SynTagRus Синтаксический анализатор для русского MaltParser
Задачи Извлечение фактов Классификация текстов Автоматический перевод Автоматическое реферирование Определение тональности высказывания Распознавание / синтез речи OCR Диалоговые системы
Продукты
Продукты (2)
Народное хозяйство Корпус Инструменты Решения задач Алгоритмы лингвистика не лингвистика Продукты Другие технологии
Компьютерная лингвистика Сделать информацию из текстов доступной для автоматической обработки: Извлечение фактов (из текста в БД) Сделать информацию удобной для потребления человеком: OCR, распознавание речи, реферирование, перевод Разложить тексты по полочкам: Классификация, поиск
Корпуса русских текстов Национальный корпус русского языка (НКРЯ) Всего 341 млн словоупотреблений Со снятой морфологической омонимией 6 млн словоупотреблений Ссинтаксической разметкой (SynTagRus) 600 тыс словоупотреблений* www.ruscorpora.ru
Корпуса русских текстов НКРЯ 180 тыс словоупотреблений доступно Только поиск, есть разметка (в том числе ручная) Упсальский корпус Доступен, нет разметки Тюбингенский корпус Только поиск, есть разметка (автоматическая) ХАНКО — хельсинский аннотированный корпус Только поиск, есть разметка
Проблемы Авторские права на тексты Решения: Случайный порядок предложений Доступ только для поиска Убеждённость, что для научных целей можно Высокая стоимость ручной разметки Решения: Автоматическая разметка Автоматическая разметка с ручной проверкой
Какой нужен корпус
OpenCorpora
OpenCorpora - источники «Частный корреспондент» Раздел Википедии на русском языке Раздел Викиновостей на русском языке Худ. литература в общественном достоянии Блоги под совместимой лицензией Научно-техническая литература под совместимой лицензией ...
OpenCorpora - разметка Метатекстовая Типографская* Графематическая Морфологическая (автоматическая, без снятия омонимии) Снятие морфологической омонимии Синтаксическая
OpenCorpora - объем

Weitere ähnliche Inhalte

Was ist angesagt?

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...ЗПШ СПбГУ
 
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистикаAndreySemenyuk
 
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...ivanov156633595
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture0120110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture01Computer Science Club
 

Was ist angesagt? (7)

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
 
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистика
 
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture0120110224 systems of_typed_lambda_calculi_moskvin_lecture01
20110224 systems of_typed_lambda_calculi_moskvin_lecture01
 

Ähnlich wie Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Сообщество eLearning PRO
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами NLProc.by
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011Nick
 
эволюция языков программирования
эволюция языков программированияэволюция языков программирования
эволюция языков программированияAndrey Radionov
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011Nick
 
Ai lab
Ai labAi lab
Ai labaaa
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonPyNSK
 
языки и методы программирования
языки и методы программированияязыки и методы программирования
языки и методы программированияkoriv51
 
Первая встреча студенческого клуба информационных технологий
Первая встреча студенческого клуба информационных технологийПервая встреча студенческого клуба информационных технологий
Первая встреча студенческого клуба информационных технологийAnton Kheystver
 
содержательно 1
содержательно 1содержательно 1
содержательно 1guestd40fac0
 
лингвистическое обеспечение электронных_библиотек
лингвистическое обеспечение электронных_библиотеклингвистическое обеспечение электронных_библиотек
лингвистическое обеспечение электронных_библиотекИван Иванов
 

Ähnlich wie Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве (20)

17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
OntoEd
OntoEdOntoEd
OntoEd
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011
 
эволюция языков программирования
эволюция языков программированияэволюция языков программирования
эволюция языков программирования
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011
 
Ai lab
Ai labAi lab
Ai lab
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на Python
 
языки и методы программирования
языки и методы программированияязыки и методы программирования
языки и методы программирования
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Первая встреча студенческого клуба информационных технологий
Первая встреча студенческого клуба информационных технологийПервая встреча студенческого клуба информационных технологий
Первая встреча студенческого клуба информационных технологий
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
содержательно 1
содержательно 1содержательно 1
содержательно 1
 
лингвистическое обеспечение электронных_библиотек
лингвистическое обеспечение электронных_библиотеклингвистическое обеспечение электронных_библиотек
лингвистическое обеспечение электронных_библиотек
 

Mehr von Witology

Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...
Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...
Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...Witology
 
Интерактивные общественные советы | Приложение 1
Интерактивные общественные советы | Приложение 1Интерактивные общественные советы | Приложение 1
Интерактивные общественные советы | Приложение 1Witology
 
Интерактивные общественные советы | Обращение
Интерактивные общественные советы | ОбращениеИнтерактивные общественные советы | Обращение
Интерактивные общественные советы | ОбращениеWitology
 
Брошюра о проекте "Сбербанк21 Будущее"
Брошюра о проекте "Сбербанк21 Будущее"Брошюра о проекте "Сбербанк21 Будущее"
Брошюра о проекте "Сбербанк21 Будущее"Witology
 
Отчет по проекту Совершенствование таможенного администрирования
Отчет по проекту Совершенствование таможенного администрированияОтчет по проекту Совершенствование таможенного администрирования
Отчет по проекту Совершенствование таможенного администрированияWitology
 
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...Witology
 
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативы
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативыОтзывы Рабочей группы в рамках Национальной предпринимательской инициативы
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативыWitology
 
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...Witology
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинараWitology
 
Witology company presentation
Witology company presentationWitology company presentation
Witology company presentationWitology
 
Мировой и российский рынки People as the platform
Мировой и российский рынки People as the platformМировой и российский рынки People as the platform
Мировой и российский рынки People as the platformWitology
 
Social Organization
Social OrganizationSocial Organization
Social OrganizationWitology
 
"Социально-сетевой анализ форумов при помощи пакета UCINet"
"Социально-сетевой анализ форумов при помощи пакета UCINet""Социально-сетевой анализ форумов при помощи пакета UCINet"
"Социально-сетевой анализ форумов при помощи пакета UCINet"Witology
 
Алгоритмы анализа графов социальных связей
Алгоритмы анализа графов социальных связей Алгоритмы анализа графов социальных связей
Алгоритмы анализа графов социальных связей Witology
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииWitology
 
Интересные результаты RUSSIR'11: WEB of DATA
Интересные результаты RUSSIR'11: WEB of DATAИнтересные результаты RUSSIR'11: WEB of DATA
Интересные результаты RUSSIR'11: WEB of DATAWitology
 
Модели когнитивной психологии и задачи искусственного интеллекта
Модели когнитивной психологии и задачи искусственного интеллектаМодели когнитивной психологии и задачи искусственного интеллекта
Модели когнитивной психологии и задачи искусственного интеллектаWitology
 
Основы теории менеджмента знаний
Основы теории менеджмента знанийОсновы теории менеджмента знаний
Основы теории менеджмента знанийWitology
 
Анализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyАнализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyWitology
 
Методы агрегирования информации и краудсорсинг
Методы агрегирования информации и краудсорсингМетоды агрегирования информации и краудсорсинг
Методы агрегирования информации и краудсорсингWitology
 

Mehr von Witology (20)

Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...
Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...
Жизнь как игра. Комментарий Ростислава Яворского о геймификации в журнале "Ко...
 
Интерактивные общественные советы | Приложение 1
Интерактивные общественные советы | Приложение 1Интерактивные общественные советы | Приложение 1
Интерактивные общественные советы | Приложение 1
 
Интерактивные общественные советы | Обращение
Интерактивные общественные советы | ОбращениеИнтерактивные общественные советы | Обращение
Интерактивные общественные советы | Обращение
 
Брошюра о проекте "Сбербанк21 Будущее"
Брошюра о проекте "Сбербанк21 Будущее"Брошюра о проекте "Сбербанк21 Будущее"
Брошюра о проекте "Сбербанк21 Будущее"
 
Отчет по проекту Совершенствование таможенного администрирования
Отчет по проекту Совершенствование таможенного администрированияОтчет по проекту Совершенствование таможенного администрирования
Отчет по проекту Совершенствование таможенного администрирования
 
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...
Промежуточные итоги реализации краудсорсинга в рамках Национальной предприним...
 
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативы
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативыОтзывы Рабочей группы в рамках Национальной предпринимательской инициативы
Отзывы Рабочей группы в рамках Национальной предпринимательской инициативы
 
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...
Отчет по проекту Поддержка доступа на рынки зарубежных стран и поддержка эк...
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
Witology company presentation
Witology company presentationWitology company presentation
Witology company presentation
 
Мировой и российский рынки People as the platform
Мировой и российский рынки People as the platformМировой и российский рынки People as the platform
Мировой и российский рынки People as the platform
 
Social Organization
Social OrganizationSocial Organization
Social Organization
 
"Социально-сетевой анализ форумов при помощи пакета UCINet"
"Социально-сетевой анализ форумов при помощи пакета UCINet""Социально-сетевой анализ форумов при помощи пакета UCINet"
"Социально-сетевой анализ форумов при помощи пакета UCINet"
 
Алгоритмы анализа графов социальных связей
Алгоритмы анализа графов социальных связей Алгоритмы анализа графов социальных связей
Алгоритмы анализа графов социальных связей
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
 
Интересные результаты RUSSIR'11: WEB of DATA
Интересные результаты RUSSIR'11: WEB of DATAИнтересные результаты RUSSIR'11: WEB of DATA
Интересные результаты RUSSIR'11: WEB of DATA
 
Модели когнитивной психологии и задачи искусственного интеллекта
Модели когнитивной психологии и задачи искусственного интеллектаМодели когнитивной психологии и задачи искусственного интеллекта
Модели когнитивной психологии и задачи искусственного интеллекта
 
Основы теории менеджмента знаний
Основы теории менеджмента знанийОсновы теории менеджмента знаний
Основы теории менеджмента знаний
 
Анализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyАнализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в Witology
 
Методы агрегирования информации и краудсорсинг
Методы агрегирования информации и краудсорсингМетоды агрегирования информации и краудсорсинг
Методы агрегирования информации и краудсорсинг
 

Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

  • 1. Корпусная лингвистика проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве Докладчик: Бочаров Виктор июль 2011
  • 2.
  • 3.
  • 5. Какие задачи решает компьютерная лингвистика?
  • 6.
  • 7. Термины (2) Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка. NaturalLanguageProcessing (NLP) — автоматическая обработка естественного языка.
  • 14. Морфологическая омонимия Эти типы стали есть в цехе. Человек человеку волк, а зомби зомбизомби. Косил косой косойкосой. «стали», «стекло» - сущ. или глагол? «раме» - дательный или предложный? «стол» - именительный или винительный? «море» - МОР или МОРЕ или МОРА? «из» - предлог ИЗ или имя ИЗА? «для» - предлог ДЛЯ или глагол ДЛИТЬ? «при» - предлог ПРИ или глагол ПЕРЕТЬ?
  • 15. Синтаксическая разметка Многословные сущности: ФИО, названия компаний, городов, ... . «Локальный синтаксис»: СУЩ + ПРИЛ («красный стол», «железная дорога», …), НАР + ГЛ («быстро бежал», «давно ждёт», …) Синтаксис предложения: Разрешение анафоры («Василий ждёт Михаила. Он всегда опаздывает»)
  • 16. Синтаксическая разметка «Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»
  • 17. Семантическая разметка Выбор правильного значения слова: «Коса» - причёска, инструмент, оружие, форма рельефа, … «Ключ» - для открывания замка, часть иероглифа, родник, скрипичный, телеграфный, … Построение семантического графа; Снятие объектной омонимии: ЦСКА — Москва, Киев, Баку, София, Ереван, …
  • 18. Лингвистические корпуса Создание корпуса — это долго и дорого. Один корпус можно использовать много раз: Для разных задач Разными людьми Многократное использование одного корпуса даёт возможность сравнивать результаты.
  • 21. Инструменты Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, JoakimNivre TnT tagger PoStagger для русского НКРЯ SynTagRus Синтаксический анализатор для русского MaltParser
  • 22. Задачи Извлечение фактов Классификация текстов Автоматический перевод Автоматическое реферирование Определение тональности высказывания Распознавание / синтез речи OCR Диалоговые системы
  • 25. Народное хозяйство Корпус Инструменты Решения задач Алгоритмы лингвистика не лингвистика Продукты Другие технологии
  • 26. Компьютерная лингвистика Сделать информацию из текстов доступной для автоматической обработки: Извлечение фактов (из текста в БД) Сделать информацию удобной для потребления человеком: OCR, распознавание речи, реферирование, перевод Разложить тексты по полочкам: Классификация, поиск
  • 27. Корпуса русских текстов Национальный корпус русского языка (НКРЯ) Всего 341 млн словоупотреблений Со снятой морфологической омонимией 6 млн словоупотреблений Ссинтаксической разметкой (SynTagRus) 600 тыс словоупотреблений* www.ruscorpora.ru
  • 28. Корпуса русских текстов НКРЯ 180 тыс словоупотреблений доступно Только поиск, есть разметка (в том числе ручная) Упсальский корпус Доступен, нет разметки Тюбингенский корпус Только поиск, есть разметка (автоматическая) ХАНКО — хельсинский аннотированный корпус Только поиск, есть разметка
  • 29. Проблемы Авторские права на тексты Решения: Случайный порядок предложений Доступ только для поиска Убеждённость, что для научных целей можно Высокая стоимость ручной разметки Решения: Автоматическая разметка Автоматическая разметка с ручной проверкой
  • 32. OpenCorpora - источники «Частный корреспондент» Раздел Википедии на русском языке Раздел Викиновостей на русском языке Худ. литература в общественном достоянии Блоги под совместимой лицензией Научно-техническая литература под совместимой лицензией ...
  • 33. OpenCorpora - разметка Метатекстовая Типографская* Графематическая Морфологическая (автоматическая, без снятия омонимии) Снятие морфологической омонимии Синтаксическая