Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы, принципы, инструменты
Корпусная лингвистика: компиляция корпуса устной речи
1. Корпусная лингвистика:
компиляция корпуса устной речи
Наталья Карлова-Бурбонус
natali.karlova-bourbonus@zmi.uni-giessen.de
Университет имени Юстуса Либиха
(г. Гиссен, Германия)
2. План лекции
Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы,
принципы, инструменты
2
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
3. Что такое корпус?
Корпус устной речи?
Корпус = совокупность текстов (письменных и
устных) в электронной форме.
Корпус устной речи = коллекция аудиозаписей устной
речи включая транскрипты к ним.
Корпус устной речи обычно дополняет
– информация о словах и частоте их употребления
– метаданные (основная информация о корпусе)
3
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
4. Зачем нужен корпус устной речи?
Основной материал для анализа устной речи
Примеры использования
– Сравнение произношений в различных диалектах
– Сравнение произношения мужчин и женщин
– Анализ спонтанной речи
– Разработка систем для автоматического распознавания и
синтеза речи (заказ авиабилета)
4
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
5. Виды корпусов устной речи (1)
Начитанная речь
– Список слов
– Отрывки из книг
– Новостная лента
– Последовательность чисел
Спонтанная речь
– Диалоги и встречи (свободная беседа между 2-мя и более
собеседниками)
– Стимулированные нарративы (один человек рассказывает
историю)
– Задание назначить встречу (день и место)
– Симуляция естественных ситуаций
5
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
6. Виды корпусов устной речи (2)
Готовый корпус
– Datenbank Gesprochenes Deutsch (DGD) (немецкий язык)
– CHILDES database, CMU Pittsburgh (английский язык)
– CLAPI: Corpus des langues parlées en interaction
(французский язык)
– CGN: Corpus Gesproken Nederlands (голландский язык)
– Multimedia Corpus of Spoken Bulgarian (болгарский язык)
– Pražský mluvený korpus (Cesky národni korpus (CNC))
(чешский язык)
Собственный корпус
6
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
7. Корпуса устной речи
(фокус: славянские языки)
Multimedia Corpus of Spoken Bulgarian
Pražský mluvený korpus (Český národní korpus (ČNK))
7
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
9. Пражский речевой корпус (1)
Под руководством František Čermák (Карлов
университет в Праге)
Корпус создан в 2001
304 аудиозаписи (анонимные), 1988-1996
675 000 слов
9
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
10. Пражский речевой корпус (2)
Сбалансированный корпус
4 переменные и их комбинации (MIBF, MIAF и т.д.)
– пол M-F (male/female)
– возраст I-V (junior- vetus)
– образование (basis-altus)
– формальный/неформальнй тип беседы (formal/non-formal)
• Формальный тип: монолог, секвенция ответов на заранее
подготовленные вопросы, сами вопросы не записываются и не
транскрибируются; темы: школа, работа, молодежные темы
• Неформальный тип: диалог между двумя собеседниками, темы
не были заданы
10
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
12. Многомедийный речевой корпус
болгарского языка(2)
2013-2014
Аудио- и видеозаписи с соответствующими
транскриптами
Аутентичные диалоги
Орфографический тип транскрипции
Транскрипты также содержат информацию о
невербальных средствах (паузы, смех, шум, мимика,
жесты).
Синхронизация видео- и аудиозаписей с
транскриптами была осуществлена с помощью
EXMARaLDA
Доступ: онлайн
12
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
14. Компиляция корпуса
Появление новых технологий за последние 10 лет
открыло многочисленные возможности для сбора
данных, а также обработки и анализа устной речи.
Комплексная задача
Четкое планирование
14
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
15. Основные этапы компиляции корпуса
устной речи
Сбор данных (первичные данные)
Транскрибирование
Аннотация и метаданные
Доступ к данным
15
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
16. Основные этапы компиляции корпуса
устной речи
Сбор данных (первичные данные)
Транскрибирование
Аннотация и метаданные
Доступ к данным
16
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
17. Сбор данных (1)
Составление заявлений о согласии автора /
интервьюируемого о последующем использовании записи
Заявление о согласии д.б. подписано интервьюируемыми
Выбор форматов для записей, оборудования, места и
условий, где будет сделана запись и т.д.
Процесс сбора данных:
– В лабораторных условиях
– В естественных условиях
Выбор фокуса: количество или деталь
Данные д.б. релевантны и репрезентативны
17
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
18. Сбор данных (2)
Технические рекомендации*:
– Данные в цифровом формате
• Flash mobile recorder
• Ноутбук (звуковая карта высокого качества, внешний микрофон,
ноутбук в хорошем техническом состоянии, качественная
программа для записи – напр. Audicity)
• Для видеозаписей подходят обычые камеры (MPEG2 или
MPEG4/H.264 с высоким битрейтом)
– Условия и инструменты для аудио- и видеозаписи высокого
качества
* Рекомендации Немецкого научно-исследовательского института (DFG)
18
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
19. Сбор данных (3)
Технические рекомендации:
– Записи без потери качества из-за сжатия файла
– Конвертация форматов для использования записей в
выбранных инструментах для машинной обработки
– Форматы:
• Аудио: несжатый линейный формат PCM (.WAV) (при
отсутствии посторонних звуков 16бит/22kHz – 16бит/48kHz )
• Видео:
– Стандартное качество: 720px x 576px или 704px x 480px с сжатием
MPEG-2 до 9Mbit/s (3.5 Mbit/s)
– Высокое качество (подходит для анализа жестов и мимики):
1280px x 720px или 1920px x 1080px с сжатием H.264/MPEG-4 AVC
до 48Mbit/s (9Mbit/s)
– Резервное сохранение оригинальных записей
19
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
20. Основные этапы компиляции корпуса
устной речи
Сбор данных (первичные данные)
Транскрибирование
Аннотация и метаданные
Доступ к данным
20
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
21. Транскрибирование (1)
Сложность работы с записями устной речи
– Представление устной речи с помощью символов
(орфография, интонация, сбои речи, невербальные
средства)
Синхронизация аудио-/видеозаписи с транскрипцией
Выбор типа транскрипции:
• Орфографическая
• Фонетическая
21
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
22. Орфографический вид транскрипции
Ориентир:
– Орфографический словарь (нормированная
орфография слов)
Как кодировать в транскрипции „не“, „че“?
Нормированная орфографическая передача?
Xарактериcтика речи интервьюируемого.
Иностранные слова:
– Твит(т)ер, фе(э)йсбук или twitter и facebook
22
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
23. Орфографический вид транскрипции
Представление невербальной информации
(контекстуальная информация, жесты, паузы,
частичное наложение) в транскрипте:
– Паузы:
• Главное отличие устной речи от письменной
• Колебания, паузы-хезитации(мэканье)
• Короткие паузы vs. долгие паузы сколько по времени длятся?
• Обычно варьируются от < 0.2 сек до < 0.5 сек в зависимости от
функции паузы
– Самоисправления
– Наложение речи
– Смех
– Шум
23
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
24. Нормы
Для орфографического типа транскрипции:
– CHAT
– GAT (Selting et al. 1998)
– HIAT (Ehlich/Rehbein 1976) [3]
Для фонетического типа транскрипции:
– IPA (International Phonetic Association)
24
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
25. IPA для русского языка
*Источник http://russisch.urz.uni-leipzig.de/online-woerterbuch/ipadescr.htm
25
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
26. Рекомендации для
транскрибирования
Ориентация на аудио- и видеозапись, а не на
собственные языковые представления
Единые правила для составления транскрипции
консистенция в процессе
Транскрипции должны быть четкими и
удобочитаемыми
Выбор программы, которая
– основана на UNICODE
– с достаточной документацией
– позволяет синхронизацию аудио-/видеозаписи с
транскрипцией
– работает с форматами (XML), которые совместимы с
другими программами
26
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
27. Основные этапы компиляции корпуса
устной речи
Сбор данных (первичные данные)
Транскрибирование
Аннотация и метаданные
Доступ к данным
27
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
28. Стандарты для аннотирования
Морфосинтаксический тип аннотации
– STTS
Синтаксический тип аннотации
– Tiger
Семантический тип аннотации
– SALSA
Грамматические отношения и одушевленность имен
существительных в дискурсе
– GRAID
Просодия и интонация
– ToBi
28
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
29. Метаданные
Сфера функционирования: публичная,
непубличная, кино
Тип: беседа, интервью, микродиалог и пр.
Тематика: частная жизнь, медицина и здоровье,
политика и общественная жизнь и пр.
Место и время записи
Характеристики говорящих: возраст, пол,
национальность
29
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
30. Стандарты для метаданных
Dublin Core Metadata Initiative (DCMI)
Open Language Archives Community (OLAC)
Component MetaData Infrastructure (CMDI)
Data Category Registry (ISOcat)
ISLE Meta Data Initiative (IMDI)
30
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
31. Инструменты
ANVIL
ELAN
FOLKER
EXMARaLDA*
Praat
Phon
• Workshop “Компиляция и транскрибирование корпуса устной
речи с EXMARaLDA“ (ул.Сурганова 6, каб.100, 14:00-16:00)
31
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
32. Что такое EXMARaLDA?
Extensible Markup Language for Discourse Annotation
Набор инструментов для работы с видео и
аудиофайлами
Разработан в Университете Гамбурга (Universität
Hamburg)
Написан в Java
Поддерживается Windows, Mac OS, Linux
32
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
33. Почему EXMARaLDA?
Доступен для бесплатного (законного) скачивания и
использования (некоммерческая лицензия)
Основан на стандарте UNICODE (многоязычность)
Отличная документация + обучающие уроки (на англ.
и нем. языках)
Все необходимые инструменты для компиляции
корпуса устной речи и работы с ним
– Partitur-Editor: инструмент для многоуровневого
транскрибирования и аннотирования аудио- и видеофайлов
– COMA: инструмент для организации/компиляции корпуса и
его управления
– Exakt: инструмент для поиска и анализа корпуса
33
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
35. Praat
Бесплатный инструмент для детального
фонетического анализа
Аспекты анализа:
– duration
– vowel formants
– fundamental frequency – pitch
– intensity – loudness
Обучающее видео / руководство
35
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
36. Основные этапы компиляции корпуса
устной речи
Сбор данных (первичные данные)
Транскрибирование
Аннотация и метаданные
Доступ к данным
36
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
37. Доступ
Виды
– Оффлайн (возможность скачивания)
– Онлайн
– Платный / бесплатный
– Необходимость регистрации
Весь корпус целиком? Отдельные элементы. Только
транскрипции или аудиозаписи также?
Формат? HTML, SGML
37
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015
39. Основные источники
DFG-Handreichung "Empfehlungen zu datentechnischen Standards
und Tools bei der Erhebung von Sprachkorpora".
DFG-Handreichung "Informationen zu rechtlichen Aspekten bei der
Handhabung von Sprachkorpora".
Leech, Geoffrey, Greg Myers & Jenny Thomas, eds. (1995). Spoken
English on Computer. London: Longman.
39
Компиляция корпуса устной речи Наталья Карлова-Бурбонус 26.08.2015