SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Корпусная лингвистика:
компиляция корпуса устной речи
Наталья Карлова-Бурбонус
natali.karlova-bourbonus@zmi.uni-giessen.de
Университет имени Юстуса Либиха
(г. Гиссен, Германия)
План лекции
 Что такое корпус? Корпус устной речи?
 Виды
 Корпусы устной речи (фокус: слявянские языки)
 Компиляция корпуса устной речи: основные этапы,
принципы, инструменты
2
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Что такое корпус?
Корпус устной речи?
 Корпус = совокупность текстов (письменных и
устных) в электронной форме.
 Корпус устной речи = коллекция аудиозаписей устной
речи включая транскрипты к ним.
 Корпус устной речи обычно дополняет
– информация о словах и частоте их употребления
– метаданные (основная информация о корпусе)
3
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Зачем нужен корпус устной речи?
 Основной материал для анализа устной речи
 Примеры использования
– Сравнение произношений в различных диалектах
– Сравнение произношения мужчин и женщин
– Анализ спонтанной речи
– Разработка систем для автоматического распознавания и
синтеза речи (заказ авиабилета)
4
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Виды корпусов устной речи (1)
 Начитанная речь
– Список слов
– Отрывки из книг
– Новостная лента
– Последовательность чисел
 Спонтанная речь
– Диалоги и встречи (свободная беседа между 2-мя и более
собеседниками)
– Стимулированные нарративы (один человек рассказывает
историю)
– Задание назначить встречу (день и место)
– Симуляция естественных ситуаций
5
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Виды корпусов устной речи (2)
 Готовый корпус
– Datenbank Gesprochenes Deutsch (DGD) (немецкий язык)
– CHILDES database, CMU Pittsburgh (английский язык)
– CLAPI: Corpus des langues parlées en interaction
(французский язык)
– CGN: Corpus Gesproken Nederlands (голландский язык)
– Multimedia Corpus of Spoken Bulgarian (болгарский язык)
– Pražský mluvený korpus (Cesky národni korpus (CNC))
(чешский язык)
 Собственный корпус
6
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Корпуса устной речи
(фокус: славянские языки)
 Multimedia Corpus of Spoken Bulgarian
 Pražský mluvený korpus (Český národní korpus (ČNK))
7
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Национальный корпус чешского
языка
8
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Пражский речевой корпус (1)
 Под руководством František Čermák (Карлов
университет в Праге)
 Корпус создан в 2001
 304 аудиозаписи (анонимные), 1988-1996
 675 000 слов
9
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Пражский речевой корпус (2)
 Сбалансированный корпус
 4 переменные и их комбинации (MIBF, MIAF и т.д.)
– пол M-F (male/female)
– возраст I-V (junior- vetus)
– образование (basis-altus)
– формальный/неформальнй тип беседы (formal/non-formal)
• Формальный тип: монолог, секвенция ответов на заранее
подготовленные вопросы, сами вопросы не записываются и не
транскрибируются; темы: школа, работа, молодежные темы
• Неформальный тип: диалог между двумя собеседниками, темы
не были заданы
10
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус
болгарского языка (1)
11
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус
болгарского языка(2)
 2013-2014
 Аудио- и видеозаписи с соответствующими
транскриптами
 Аутентичные диалоги
 Орфографический тип транскрипции
 Транскрипты также содержат информацию о
невербальных средствах (паузы, смех, шум, мимика,
жесты).
 Синхронизация видео- и аудиозаписей с
транскриптами была осуществлена с помощью
EXMARaLDA
 Доступ: онлайн
12
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Многомедийный речевой корпус
болгарского языка(3)
13
Компиляция корпуса
 Появление новых технологий за последние 10 лет
открыло многочисленные возможности для сбора
данных, а также обработки и анализа устной речи.
 Комплексная задача
 Четкое планирование
14
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса
устной речи
 Сбор данных (первичные данные)
 Транскрибирование
 Аннотация и метаданные
 Доступ к данным
15
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса
устной речи
 Сбор данных (первичные данные)
 Транскрибирование
 Аннотация и метаданные
 Доступ к данным
16
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (1)
 Составление заявлений о согласии автора /
интервьюируемого о последующем использовании записи
 Заявление о согласии д.б. подписано интервьюируемыми
 Выбор форматов для записей, оборудования, места и
условий, где будет сделана запись и т.д.
 Процесс сбора данных:
– В лабораторных условиях
– В естественных условиях
 Выбор фокуса: количество или деталь
 Данные д.б. релевантны и репрезентативны
17
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (2)
 Технические рекомендации*:
– Данные в цифровом формате
• Flash mobile recorder
• Ноутбук (звуковая карта высокого качества, внешний микрофон,
ноутбук в хорошем техническом состоянии, качественная
программа для записи – напр. Audicity)
• Для видеозаписей подходят обычые камеры (MPEG2 или
MPEG4/H.264 с высоким битрейтом)
– Условия и инструменты для аудио- и видеозаписи высокого
качества
* Рекомендации Немецкого научно-исследовательского института (DFG)
18
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Сбор данных (3)
 Технические рекомендации:
– Записи без потери качества из-за сжатия файла
– Конвертация форматов для использования записей в
выбранных инструментах для машинной обработки
– Форматы:
• Аудио: несжатый линейный формат PCM (.WAV) (при
отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz )
• Видео:
– Стандартное качество: 720px x 576px или 704px x 480px с сжатием
MPEG-2 до 9Mbit/s (3.5 Mbit/s)
– Высокое качество (подходит для анализа жестов и мимики):
1280px x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC
до 48Mbit/s (9Mbit/s)
– Резервное сохранение оригинальных записей
19
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса
устной речи
 Сбор данных (первичные данные)
 Транскрибирование
 Аннотация и метаданные
 Доступ к данным
20
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Транскрибирование (1)
 Сложность работы с записями устной речи
– Представление устной речи с помощью символов
(орфография, интонация, сбои речи, невербальные
средства)
 Синхронизация аудио-/видеозаписи с транскрипцией
 Выбор типа транскрипции:
• Орфографическая
• Фонетическая
21
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Орфографический вид транскрипции
 Ориентир:
– Орфографический словарь (нормированная
орфография слов)
 Как кодировать в транскрипции „не“, „че“?
Нормированная орфографическая передача?
Xарактериcтика речи интервьюируемого.
 Иностранные слова:
– Твит(т)ер, фе(э)йсбук или twitter и facebook
22
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Орфографический вид транскрипции
 Представление невербальной информации
(контекстуальная информация, жесты, паузы,
частичное наложение) в транскрипте:
– Паузы:
• Главное отличие устной речи от письменной
• Колебания, паузы-хезитации(мэканье)
• Короткие паузы vs. долгие паузы  сколько по времени длятся?
• Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от
функции паузы
– Самоисправления
– Наложение речи
– Смех
– Шум
23
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Нормы
 Для орфографического типа транскрипции:
– CHAT
– GAT (Selting et al. 1998)
– HIAT (Ehlich/Rehbein 1976) [3]
 Для фонетического типа транскрипции:
– IPA (International Phonetic Association)
24
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
IPA для русского языка
*Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm
25
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Рекомендации для
транскрибирования
 Ориентация на аудио- и видеозапись, а не на
собственные языковые представления
 Единые правила для составления транскрипции 
консистенция в процессе
 Транскрипции должны быть четкими и
удобочитаемыми
 Выбор программы, которая
– основана на UNICODE
– с достаточной документацией
– позволяет синхронизацию аудио-/видеозаписи с
транскрипцией
– работает с форматами (XML), которые совместимы с
другими программами
26
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса
устной речи
 Сбор данных (первичные данные)
 Транскрибирование
 Аннотация и метаданные
 Доступ к данным
27
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Стандарты для аннотирования
 Морфосинтаксический тип аннотации
– STTS
 Синтаксический тип аннотации
– Tiger
 Семантический тип аннотации
– SALSA
 Грамматические отношения и одушевленность имен
существительных в дискурсе
– GRAID
 Просодия и интонация
– ToBi
28
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Метаданные
 Сфера функционирования: публичная,
непубличная, кино
 Тип: беседа, интервью, микродиалог и пр.
 Тематика: частная жизнь, медицина и здоровье,
политика и общественная жизнь и пр.
 Место и время записи
 Характеристики говорящих: возраст, пол,
национальность
29
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Стандарты для метаданных
 Dublin Core Metadata Initiative (DCMI)
 Open Language Archives Community (OLAC)
 Component MetaData Infrastructure (CMDI)
 Data Category Registry (ISOcat)
 ISLE Meta Data Initiative (IMDI)
30
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Инструменты
 ANVIL
 ELAN
 FOLKER
 EXMARaLDA*
 Praat
 Phon
• Workshop “Компиляция и транскрибирование корпуса устной
речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00)
31
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Что такое EXMARaLDA?
 Extensible Markup Language for Discourse Annotation
 Набор инструментов для работы с видео и
аудиофайлами
 Разработан в Университете Гамбурга (Universität
Hamburg)
 Написан в Java
 Поддерживается Windows, Mac OS, Linux
32
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Почему EXMARaLDA?
 Доступен для бесплатного (законного) скачивания и
использования (некоммерческая лицензия)
 Основан на стандарте UNICODE (многоязычность)
 Отличная документация + обучающие уроки (на англ.
и нем. языках)
 Все необходимые инструменты для компиляции
корпуса устной речи и работы с ним
– Partitur-Editor: инструмент для многоуровневого
транскрибирования и аннотирования аудио- и видеофайлов
– COMA: инструмент для организации/компиляции корпуса и
его управления
– Exakt: инструмент для поиска и анализа корпуса
33
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Проекты и EXMARaLDA
34
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Praat
 Бесплатный инструмент для детального
фонетического анализа
 Аспекты анализа:
– duration
– vowel formants
– fundamental frequency – pitch
– intensity – loudness
 Обучающее видео / руководство
35
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные этапы компиляции корпуса
устной речи
 Сбор данных (первичные данные)
 Транскрибирование
 Аннотация и метаданные
 Доступ к данным
36
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Доступ
 Виды
– Оффлайн (возможность скачивания)
– Онлайн
– Платный / бесплатный
– Необходимость регистрации
 Весь корпус целиком? Отдельные элементы. Только
транскрипции или аудиозаписи также?
 Формат? HTML, SGML
37
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Вопросы?
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
Основные источники
 DFG-Handreichung "Empfehlungen zu datentechnischen Standards
und Tools bei der Erhebung von Sprachkorpora".
 DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der
Handhabung von Sprachkorpora".
 Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken
English on Computer. London: Longman.
39
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015

Weitere ähnliche Inhalte

Was ist angesagt?

Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
телекоммуникационные технологии
телекоммуникационные технологиителекоммуникационные технологии
телекоммуникационные технологииЕлена Ключева
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Denis Samoylov
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 

Was ist angesagt? (12)

Tomita
TomitaTomita
Tomita
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
телекоммуникационные технологии
телекоммуникационные технологиителекоммуникационные технологии
телекоммуникационные технологии
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 

Andere mochten auch

Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...AINL Conferences
 
Компиляция и транскрибирование корпуса устной речи с EXMARaLDA
Компиляция и транскрибирование корпуса устной речи с EXMARaLDAКомпиляция и транскрибирование корпуса устной речи с EXMARaLDA
Компиляция и транскрибирование корпуса устной речи с EXMARaLDANLProc.by
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...AINL Conferences
 
Зачем нужен компилятор?
Зачем нужен компилятор?Зачем нужен компилятор?
Зачем нужен компилятор?DEVTYPE
 
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)Ontico
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введениеeibolshakova
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыАлександр Дьяконов
 
Минимизация булевых функций с малым числом нулей в классе нормальных форм
Минимизация булевых функций с малым числом нулей в классе нормальных формМинимизация булевых функций с малым числом нулей в классе нормальных форм
Минимизация булевых функций с малым числом нулей в классе нормальных формАлександр Дьяконов
 
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Александр Дьяконов
 
Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлександр Дьяконов
 
Определение курильщика по кардиограмме
Определение курильщика по кардиограммеОпределение курильщика по кардиограмме
Определение курильщика по кардиограммеАлександр Дьяконов
 
Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Александр Дьяконов
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаДмитрий Севальнев
 

Andere mochten auch (20)

Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
Компиляция и транскрибирование корпуса устной речи с EXMARaLDA
Компиляция и транскрибирование корпуса устной речи с EXMARaLDAКомпиляция и транскрибирование корпуса устной речи с EXMARaLDA
Компиляция и транскрибирование корпуса устной речи с EXMARaLDA
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
 
Практика SEO: выпуск 2 на MegaIndex TV
Практика SEO: выпуск 2 на MegaIndex TVПрактика SEO: выпуск 2 на MegaIndex TV
Практика SEO: выпуск 2 на MegaIndex TV
 
Зачем нужен компилятор?
Зачем нужен компилятор?Зачем нужен компилятор?
Зачем нужен компилятор?
 
SEO-практикум [Пиксель Плюс]
SEO-практикум [Пиксель Плюс]SEO-практикум [Пиксель Плюс]
SEO-практикум [Пиксель Плюс]
 
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
Автоматическая рубрикация текстов / Злата Обуховская (Рамблер)
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методы
 
Минимизация булевых функций с малым числом нулей в классе нормальных форм
Минимизация булевых функций с малым числом нулей в классе нормальных формМинимизация булевых функций с малым числом нулей в классе нормальных форм
Минимизация булевых функций с малым числом нулей в классе нормальных форм
 
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
Устранение шума в анализе твитов, связь смежности и модулярности при разбиени...
 
Введение в scikit-learn
Введение в scikit-learnВведение в scikit-learn
Введение в scikit-learn
 
Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложения
 
Определение курильщика по кардиограмме
Определение курильщика по кардиограммеОпределение курильщика по кардиограмме
Определение курильщика по кардиограмме
 
Решение задачи Search Results Relevance
Решение задачи Search Results RelevanceРешение задачи Search Results Relevance
Решение задачи Search Results Relevance
 
Спектральная теория графов
Спектральная теория графовСпектральная теория графов
Спектральная теория графов
 
Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)Matrix Laboratory (эффективное программирование)
Matrix Laboratory (эффективное программирование)
 
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования ЯндексаАналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
Аналитика SEO. Выпуск 3. Алгоритм ранжирования Яндекса
 
Теория нечётких множеств
Теория нечётких множествТеория нечётких множеств
Теория нечётких множеств
 
Pandas: обзор основных функций
Pandas: обзор основных функцийPandas: обзор основных функций
Pandas: обзор основных функций
 

Корпусная лингвистика:
компиляция корпуса устной речи

  • 1. Корпусная лингвистика: компиляция корпуса устной речи Наталья Карлова-Бурбонус natali.karlova-bourbonus@zmi.uni-giessen.de Университет имени Юстуса Либиха (г. Гиссен, Германия)
  • 2. План лекции  Что такое корпус? Корпус устной речи?  Виды  Корпусы устной речи (фокус: слявянские языки)  Компиляция корпуса устной речи: основные этапы, принципы, инструменты 2 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 3. Что такое корпус? Корпус устной речи?  Корпус = совокупность текстов (письменных и устных) в электронной форме.  Корпус устной речи = коллекция аудиозаписей устной речи включая транскрипты к ним.  Корпус устной речи обычно дополняет – информация о словах и частоте их употребления – метаданные (основная информация о корпусе) 3 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 4. Зачем нужен корпус устной речи?  Основной материал для анализа устной речи  Примеры использования – Сравнение произношений в различных диалектах – Сравнение произношения мужчин и женщин – Анализ спонтанной речи – Разработка систем для автоматического распознавания и синтеза речи (заказ авиабилета) 4 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 5. Виды корпусов устной речи (1)  Начитанная речь – Список слов – Отрывки из книг – Новостная лента – Последовательность чисел  Спонтанная речь – Диалоги и встречи (свободная беседа между 2-мя и более собеседниками) – Стимулированные нарративы (один человек рассказывает историю) – Задание назначить встречу (день и место) – Симуляция естественных ситуаций 5 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 6. Виды корпусов устной речи (2)  Готовый корпус – Datenbank Gesprochenes Deutsch (DGD) (немецкий язык) – CHILDES database, CMU Pittsburgh (английский язык) – CLAPI: Corpus des langues parlées en interaction (французский язык) – CGN: Corpus Gesproken Nederlands (голландский язык) – Multimedia Corpus of Spoken Bulgarian (болгарский язык) – Pražský mluvený korpus (Cesky národni korpus (CNC)) (чешский язык)  Собственный корпус 6 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 7. Корпуса устной речи (фокус: славянские языки)  Multimedia Corpus of Spoken Bulgarian  Pražský mluvený korpus (Český národní korpus (ČNK)) 7 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 8. Национальный корпус чешского языка 8 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 9. Пражский речевой корпус (1)  Под руководством František Čermák (Карлов университет в Праге)  Корпус создан в 2001  304 аудиозаписи (анонимные), 1988-1996  675 000 слов 9 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 10. Пражский речевой корпус (2)  Сбалансированный корпус  4 переменные и их комбинации (MIBF, MIAF и т.д.) – пол M-F (male/female) – возраст I-V (junior- vetus) – образование (basis-altus) – формальный/неформальнй тип беседы (formal/non-formal) • Формальный тип: монолог, секвенция ответов на заранее подготовленные вопросы, сами вопросы не записываются и не транскрибируются; темы: школа, работа, молодежные темы • Неформальный тип: диалог между двумя собеседниками, темы не были заданы 10 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 11. Многомедийный речевой корпус болгарского языка (1) 11 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 12. Многомедийный речевой корпус болгарского языка(2)  2013-2014  Аудио- и видеозаписи с соответствующими транскриптами  Аутентичные диалоги  Орфографический тип транскрипции  Транскрипты также содержат информацию о невербальных средствах (паузы, смех, шум, мимика, жесты).  Синхронизация видео- и аудиозаписей с транскриптами была осуществлена с помощью EXMARaLDA  Доступ: онлайн 12 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 14. Компиляция корпуса  Появление новых технологий за последние 10 лет открыло многочисленные возможности для сбора данных, а также обработки и анализа устной речи.  Комплексная задача  Четкое планирование 14 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 15. Основные этапы компиляции корпуса устной речи  Сбор данных (первичные данные)  Транскрибирование  Аннотация и метаданные  Доступ к данным 15 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 16. Основные этапы компиляции корпуса устной речи  Сбор данных (первичные данные)  Транскрибирование  Аннотация и метаданные  Доступ к данным 16 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 17. Сбор данных (1)  Составление заявлений о согласии автора / интервьюируемого о последующем использовании записи  Заявление о согласии д.б. подписано интервьюируемыми  Выбор форматов для записей, оборудования, места и условий, где будет сделана запись и т.д.  Процесс сбора данных: – В лабораторных условиях – В естественных условиях  Выбор фокуса: количество или деталь  Данные д.б. релевантны и репрезентативны 17 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 18. Сбор данных (2)  Технические рекомендации*: – Данные в цифровом формате • Flash mobile recorder • Ноутбук (звуковая карта высокого качества, внешний микрофон, ноутбук в хорошем техническом состоянии, качественная программа для записи – напр. Audicity) • Для видеозаписей подходят обычые камеры (MPEG2 или MPEG4/H.264 с высоким битрейтом) – Условия и инструменты для аудио- и видеозаписи высокого качества * Рекомендации Немецкого научно-исследовательского института (DFG) 18 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 19. Сбор данных (3)  Технические рекомендации: – Записи без потери качества из-за сжатия файла – Конвертация форматов для использования записей в выбранных инструментах для машинной обработки – Форматы: • Аудио: несжатый линейный формат PCM (.WAV) (при отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz ) • Видео: – Стандартное качество: 720px x 576px или 704px x 480px с сжатием MPEG-2 до 9Mbit/s (3.5 Mbit/s) – Высокое качество (подходит для анализа жестов и мимики): 1280px x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC до 48Mbit/s (9Mbit/s) – Резервное сохранение оригинальных записей 19 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 20. Основные этапы компиляции корпуса устной речи  Сбор данных (первичные данные)  Транскрибирование  Аннотация и метаданные  Доступ к данным 20 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 21. Транскрибирование (1)  Сложность работы с записями устной речи – Представление устной речи с помощью символов (орфография, интонация, сбои речи, невербальные средства)  Синхронизация аудио-/видеозаписи с транскрипцией  Выбор типа транскрипции: • Орфографическая • Фонетическая 21 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 22. Орфографический вид транскрипции  Ориентир: – Орфографический словарь (нормированная орфография слов)  Как кодировать в транскрипции „не“, „че“? Нормированная орфографическая передача? Xарактериcтика речи интервьюируемого.  Иностранные слова: – Твит(т)ер, фе(э)йсбук или twitter и facebook 22 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 23. Орфографический вид транскрипции  Представление невербальной информации (контекстуальная информация, жесты, паузы, частичное наложение) в транскрипте: – Паузы: • Главное отличие устной речи от письменной • Колебания, паузы-хезитации(мэканье) • Короткие паузы vs. долгие паузы  сколько по времени длятся? • Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от функции паузы – Самоисправления – Наложение речи – Смех – Шум 23 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 24. Нормы  Для орфографического типа транскрипции: – CHAT – GAT (Selting et al. 1998) – HIAT (Ehlich/Rehbein 1976) [3]  Для фонетического типа транскрипции: – IPA (International Phonetic Association) 24 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 25. IPA для русского языка *Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm 25 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 26. Рекомендации для транскрибирования  Ориентация на аудио- и видеозапись, а не на собственные языковые представления  Единые правила для составления транскрипции  консистенция в процессе  Транскрипции должны быть четкими и удобочитаемыми  Выбор программы, которая – основана на UNICODE – с достаточной документацией – позволяет синхронизацию аудио-/видеозаписи с транскрипцией – работает с форматами (XML), которые совместимы с другими программами 26 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 27. Основные этапы компиляции корпуса устной речи  Сбор данных (первичные данные)  Транскрибирование  Аннотация и метаданные  Доступ к данным 27 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 28. Стандарты для аннотирования  Морфосинтаксический тип аннотации – STTS  Синтаксический тип аннотации – Tiger  Семантический тип аннотации – SALSA  Грамматические отношения и одушевленность имен существительных в дискурсе – GRAID  Просодия и интонация – ToBi 28 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 29. Метаданные  Сфера функционирования: публичная, непубличная, кино  Тип: беседа, интервью, микродиалог и пр.  Тематика: частная жизнь, медицина и здоровье, политика и общественная жизнь и пр.  Место и время записи  Характеристики говорящих: возраст, пол, национальность 29 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 30. Стандарты для метаданных  Dublin Core Metadata Initiative (DCMI)  Open Language Archives Community (OLAC)  Component MetaData Infrastructure (CMDI)  Data Category Registry (ISOcat)  ISLE Meta Data Initiative (IMDI) 30 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 31. Инструменты  ANVIL  ELAN  FOLKER  EXMARaLDA*  Praat  Phon • Workshop “Компиляция и транскрибирование корпуса устной речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00) 31 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 32. Что такое EXMARaLDA?  Extensible Markup Language for Discourse Annotation  Набор инструментов для работы с видео и аудиофайлами  Разработан в Университете Гамбурга (Universität Hamburg)  Написан в Java  Поддерживается Windows, Mac OS, Linux 32 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 33. Почему EXMARaLDA?  Доступен для бесплатного (законного) скачивания и использования (некоммерческая лицензия)  Основан на стандарте UNICODE (многоязычность)  Отличная документация + обучающие уроки (на англ. и нем. языках)  Все необходимые инструменты для компиляции корпуса устной речи и работы с ним – Partitur-Editor: инструмент для многоуровневого транскрибирования и аннотирования аудио- и видеофайлов – COMA: инструмент для организации/компиляции корпуса и его управления – Exakt: инструмент для поиска и анализа корпуса 33 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 34. Проекты и EXMARaLDA 34 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 35. Praat  Бесплатный инструмент для детального фонетического анализа  Аспекты анализа: – duration – vowel formants – fundamental frequency – pitch – intensity – loudness  Обучающее видео / руководство 35 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 36. Основные этапы компиляции корпуса устной речи  Сбор данных (первичные данные)  Транскрибирование  Аннотация и метаданные  Доступ к данным 36 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 37. Доступ  Виды – Оффлайн (возможность скачивания) – Онлайн – Платный / бесплатный – Необходимость регистрации  Весь корпус целиком? Отдельные элементы. Только транскрипции или аудиозаписи также?  Формат? HTML, SGML 37 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 38. Вопросы? Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
  • 39. Основные источники  DFG-Handreichung "Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora".  DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora".  Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken English on Computer. London: Longman. 39 Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015