SlideShare ist ein Scribd-Unternehmen logo
1 von 39
Downloaden Sie, um offline zu lesen
Семинар NLP 2010




Построение машинно-
   читаемого словаря
            на основе
Русского Викисловаря

       Санкт-Петербургский институт
    информатики и автоматизации РАН


Крижановский Андрей (andrew.krizhanovsky   ... gmail.com)
Содержание

Викисловарь
 применение
 достоинства и трудности обработки

MRD, парсер и сравнение Викисловарей
Эксперимент
 Корреляция мер семантической близости

Результаты
                                         2
Цель

Сделать возможным

применение данных Викисловаря

(как лингвистического ресурса)

в различных компьютерных программах,

в задачах, связанных с обработкой текста.
Применение Викисловаря
в компьютерных программах:
 текстовые поисковые системы
  расширение / переформулировка запросов с помощью тезаурусов

 запросно-ответные системы
  распознавание запроса

в задачах:
 определение значения многозначного слова
 сравнение онтологий (ontology matching)
 автоматическое создание тезаурусов
 машинный перевод
 компьютерные игры для изучения языков
               Медиа данные (звук + иллюстрации)
Задача
Преобразования данных Викисловаря в

машинную форму, а именно:

машинно-читаемый словарь (MRD).

MRD включает:
 Данные (база данных),
 Алгоритмы и функции (API)
Викисловарь –
много-           Грамматический
функциональный   Толковый
                 Этимологический
многоязычный     Многоязычный
словарь и
тезаурус
Викисловарь = вики + ?

?   Структура статьи = f (язык, ~часть речи)
    ? Определена последовательность частей статьи
    ? Шаблоны:
      ? структурные шаблоны ({{пример|}}, {{морфо|}})
      ? словоизменений, этимологии, родств. слова,
       пометы…

Т.о. жёсткая схема даёт:
  + единообразие, системность
  + возможность автоматически анализировать текст       7
Данные Викисловаря:
     плюсы и трудности
+ Богатство                − Разная степень
  + тезаурус                 стандартизации и
   (синонимы, антонимы…)
  + фразеологизмы
                             формализации
  + этимология               (структура статьи) в
  + произношение             разных Викисловарях
  + примеры употр-ий       − Быстрый рост данных,
  + переводы                 но толпа:
  +…                         − Ручной ввод данных =>
+ Быстрый рост               − Ошибки =>
                               Парсер д.б. устойчив!
+ Интервики (доп. д.)      − Омонимия вне
+ Свободная лицензия         страницы (см. дальше)
                                                   8
Данные Викисловаря:
какие ещё статьи?
Слова
Устойчивые выражения, пословицы,
поговорки, крылатые слова, народные
приметы, загадки, скороговорки,
сокращения
Отдельные морфемы — корни, суффиксы,
приставки и т. д.
Омонимы, омографы, анаграммы,
метаграммы и рифмы
Требования к парсеру, БД
 и процессу разработки
Надёжность и устойчивость (lang=zzz, 8)
  Unit-тесты > 200, визуализация
Гибкость (раскопки форматов и правил)
  Тестирование («живая» документация)
Визуализация (Wiwordik, JavaFX)
Викисловарь ++. (рост в ширину)
  парсер = ядро + языкозависимая часть, ru + en
Инкрементальный подход (рост в глубину)
¿Интеграция?
Структура словарной

статьи в Русском

Викисловаре
Структура статьи и БД
Структура статьи и БД
Структура (толкование)




                третье значение
Внутренние ссылки (1)

# находящийся в [[работа|работе]];
предварительный, пробный, черновой
Внутренние ссылки (2): ?
Частота конкретных форм слова в словаре
 page_inflection . term_freq

Информация о ссылках / ключевых словах
толкования на другие словарные статьи
 в поиск-х алг. (поиск синонимов)

Слова, для которых есть ссылки, но нет
словарных статей – всё равно добавляются
в таблицу «page».
Семантические
   отношения
[[Категория:Имя категории]]
Цель: Автоматизация оглавления, поиск
 Грамматические категории
   Часть речи
   Тип словоизменения                Вшиты
   Одушевлённость                      в
   Грамматический род               шаблоны
 Стилистические свойства
 Служебные
 Семантика
   {{categ|Работа и труд|Рабочие|lang=}}
{{Шаблонизация}}
   всей страны!
+ Шаблоны автоматически проставляются
  ботами при создании статьи
+ Централизованная смена внешнего вида
  сразу многих статей
+ Автоматизация редактирования (ботами,
  парсером), т.к. есть разметка спец-ми
  конструкциями
+ Автоматизация категоризации
  × {{сущ ru m ina}} → категории «Мужской род» и
    «Неодушевлённые»
─ Сложность освоения ☻
{{Шаблонизация}}
   Примеры
× {{-ru-}}, {{пример|}}
× Фонетические: {{transcriptions||}}, {{медиа}}
× {{морфо|под|вод|и|ть|ся}}
× Морфологические:
  × {{сущ ru}}, {{прил ru}}, {{сущ ru m ina}}, {{adv ru}}
  × {{сущ eo}}, {{прил eo}}, {{adv eo}}, {{гл eo}}
× Шаблоны библиографии
  × {{НКРЯ}}, {{Ушаков1940}}, {{Эпитет1913}}
× Технические (из Википедии):
  × {{За}}, {{wikify}}, «вавилонские шаблоны»
Быстрый поиск на
заданном языке (1)
Быстрый поиск на
   заданном языке (2)

                                  1 таблица




                                   + ещё 561 таблица




Список кодов языков: http://ru.wiktionary.org/wiki/шаблон:перев-блок
Схема БД
машинно-
читаемого
словаря
на основе
Викисловаря
              24
А
р
х
и
т
е
к
т
у
р
а
Правила извлечения текста:
     Регулярные выражения (1)

({{)-([-_a-zA-Z]{2,9})-(?:}}||.*?}})|(Q{{заголовок|E)(.*?)}}

1.   {{-ru-}} {{-en-}} {{-de-}} –> ru en de

2.   {{-de-|schwalbe}} -> de

3.   {{заголовок|ka|add=}} -> ka|add=
     {{заголовок|ka}} -> ka
Регулярные выражения (2)

1.   ====?s*Значениеs*====?s*n

2.   (?m)^==s*([^=]+?)s*==s*

      ==рабочий I==, == Существительное I ==


3.   #(REDIRECT|ПЕРЕНАПРАВЛЕНИЕ) [[(.+?)]]

     #ПЕРЕНАПРАВЛЕНИЕ [[нелётный]] -> нелётный
Перенаправления
1.       Указание основной формы слова
     •    маня -> манить
2.       Подсказка
         об ошибке
     всё-равно -> всё равно
3.       Диакритики
     •    зверье –> зверьё, coeur -> cœur
4.       Неточная кодировка
     •    лiс –> ліс (I латиница, І кириллица)
5.       Со строчной буквы на прописную
         москва -> Москва
Реализация 1

Программный код включает наработки:
 synarcher – поиск синонимов в Википедии
 wikidf – индексирование текстов Википедии
Java
База данных:
 MySQL - для разработки и тестирования
 SQLite – в скачиваемом приложении
JUnit тестирование
                                             29
Р
е
а
л
и
з
а
ц
и
я
Размеры Викисловарей




WordNet (2006): 150,000 слов, 115,000 синсетов (наборов синонимов)
Кратчайший путь в
Русском Викисловаре
Корреляция мер
семантической близости
                   Корреляция мер
                   семантической
                   близости слов:
                   1) значения
                   экспертов
                   (набор 353-TC),
                   2) значения
                   вычислены
                   автоматически на
                   основе WordNet,
                   Английской
                   Википедии,
                   Русского
                   Викисловаря
Восемь самых больших
Викисловарей (янв 2010)
Результаты
Создан парсер Русского Викисловаря
  Спроектирована схема БД
  Реализован доступ к БД (API, Java)

Выполнено сравнение результатов поиска
семантически близких слов на основе
Викисловаря и тезауруса WordNet

Сайт проекта (Wiki tool kit)
  http://code.google.com/p/wikokit/
                                         36
Сделано и ещё делать
  (схема БД, парсер)
• Извлекаются (RE)              Русский Викисловарь
  – Толкование                  English Wiktionary
   – определение
   – помета, цитата, картинка   • Уровни
  – Отношение                     – Схема БД (+ table)
   (синонимы…, помета)
                                  – API Базы данных
  – Перевод
                                  – Код (+ class, RE)
  – Фонетика
   – Транскрипция, Аудио
  – Этимология
  – Фразеологизмы,
    поговорки, пословицы
  –…
Планы
Продолжить разработку MRD
 Наращивание функц-ти парсера, отладка
 + English Wiktionary

Визуализация (JavaFX)
 MRD браузер
 Игры и тесты (изучение иностранных языков)
Спасибо за внимание!




   http://ru.wiktionary.org/

Weitere ähnliche Inhalte

Was ist angesagt?

Web осень 2012 лекция 5
Web осень 2012 лекция 5Web осень 2012 лекция 5
Web осень 2012 лекция 5Technopark
 
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений ТрофименкоПереформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений ТрофименкоEugene Trofimenko
 
Personilized search
Personilized searchPersonilized search
Personilized searchNLPseminar
 
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...Nikolay Samokhvalov
 
СУБД осень 2012 лекция 1
СУБД осень 2012  лекция 1СУБД осень 2012  лекция 1
СУБД осень 2012 лекция 1Technopark
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 

Was ist angesagt? (14)

Tomita
TomitaTomita
Tomita
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Html5 css3 занятие 4
Html5 css3 занятие 4Html5 css3 занятие 4
Html5 css3 занятие 4
 
Html5 css3 занятие 3
Html5 css3 занятие 3Html5 css3 занятие 3
Html5 css3 занятие 3
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Web осень 2012 лекция 5
Web осень 2012 лекция 5Web осень 2012 лекция 5
Web осень 2012 лекция 5
 
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений ТрофименкоПереформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Personilized search
Personilized searchPersonilized search
Personilized search
 
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
 
СУБД осень 2012 лекция 1
СУБД осень 2012  лекция 1СУБД осень 2012  лекция 1
СУБД осень 2012 лекция 1
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 

Andere mochten auch

2010 x change-social_media-academy
2010 x change-social_media-academy2010 x change-social_media-academy
2010 x change-social_media-academyAxel Schultze
 
Auckland Party People Supplier Info
Auckland Party People Supplier InfoAuckland Party People Supplier Info
Auckland Party People Supplier InfoLocal Marketing
 
потапов
потаповпотапов
потаповNLPseminar
 
00 summer research-global-economies
00 summer research-global-economies00 summer research-global-economies
00 summer research-global-economiesGreenwich Council
 

Andere mochten auch (6)

2010 x change-social_media-academy
2010 x change-social_media-academy2010 x change-social_media-academy
2010 x change-social_media-academy
 
2011.07 marketing
2011.07 marketing2011.07 marketing
2011.07 marketing
 
Auckland Party People Supplier Info
Auckland Party People Supplier InfoAuckland Party People Supplier Info
Auckland Party People Supplier Info
 
потапов
потаповпотапов
потапов
 
00 summer research-global-economies
00 summer research-global-economies00 summer research-global-economies
00 summer research-global-economies
 
10 Key Benefits of Local Marketing
10 Key Benefits of Local Marketing10 Key Benefits of Local Marketing
10 Key Benefits of Local Marketing
 

Ähnlich wie Ruwikt

Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Дмитрий Севальнев
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаSQALab
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
P3 ozo 1 kurs kav
P3 ozo 1 kurs kavP3 ozo 1 kurs kav
P3 ozo 1 kurs kavavkraynyaya
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Olga Maksimenkova
 

Ähnlich wie Ruwikt (20)

Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проекта
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
559646.pptx
559646.pptx559646.pptx
559646.pptx
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Query expansion
Query expansionQuery expansion
Query expansion
 
P3 ozo 1 kurs kav
P3 ozo 1 kurs kavP3 ozo 1 kurs kav
P3 ozo 1 kurs kav
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)
 
Rgsu04
Rgsu04Rgsu04
Rgsu04
 

Mehr von NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
 
клышинский
клышинскийклышинский
клышинскийNLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловскаяNLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)NLPseminar
 
белканова
белкановабелканова
белкановаNLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикинNLPseminar
 
веселов
веселоввеселов
веселовNLPseminar
 

Mehr von NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 
Mitsov
MitsovMitsov
Mitsov
 
Maleev
MaleevMaleev
Maleev
 

Ruwikt

  • 1. Семинар NLP 2010 Построение машинно- читаемого словаря на основе Русского Викисловаря Санкт-Петербургский институт информатики и автоматизации РАН Крижановский Андрей (andrew.krizhanovsky ... gmail.com)
  • 2. Содержание Викисловарь применение достоинства и трудности обработки MRD, парсер и сравнение Викисловарей Эксперимент Корреляция мер семантической близости Результаты 2
  • 3. Цель Сделать возможным применение данных Викисловаря (как лингвистического ресурса) в различных компьютерных программах, в задачах, связанных с обработкой текста.
  • 4. Применение Викисловаря в компьютерных программах: текстовые поисковые системы расширение / переформулировка запросов с помощью тезаурусов запросно-ответные системы распознавание запроса в задачах: определение значения многозначного слова сравнение онтологий (ontology matching) автоматическое создание тезаурусов машинный перевод компьютерные игры для изучения языков Медиа данные (звук + иллюстрации)
  • 5. Задача Преобразования данных Викисловаря в машинную форму, а именно: машинно-читаемый словарь (MRD). MRD включает: Данные (база данных), Алгоритмы и функции (API)
  • 6. Викисловарь – много- Грамматический функциональный Толковый Этимологический многоязычный Многоязычный словарь и тезаурус
  • 7. Викисловарь = вики + ? ? Структура статьи = f (язык, ~часть речи) ? Определена последовательность частей статьи ? Шаблоны: ? структурные шаблоны ({{пример|}}, {{морфо|}}) ? словоизменений, этимологии, родств. слова, пометы… Т.о. жёсткая схема даёт: + единообразие, системность + возможность автоматически анализировать текст 7
  • 8. Данные Викисловаря: плюсы и трудности + Богатство − Разная степень + тезаурус стандартизации и (синонимы, антонимы…) + фразеологизмы формализации + этимология (структура статьи) в + произношение разных Викисловарях + примеры употр-ий − Быстрый рост данных, + переводы но толпа: +… − Ручной ввод данных => + Быстрый рост − Ошибки => Парсер д.б. устойчив! + Интервики (доп. д.) − Омонимия вне + Свободная лицензия страницы (см. дальше) 8
  • 9. Данные Викисловаря: какие ещё статьи? Слова Устойчивые выражения, пословицы, поговорки, крылатые слова, народные приметы, загадки, скороговорки, сокращения Отдельные морфемы — корни, суффиксы, приставки и т. д. Омонимы, омографы, анаграммы, метаграммы и рифмы
  • 10. Требования к парсеру, БД и процессу разработки Надёжность и устойчивость (lang=zzz, 8) Unit-тесты > 200, визуализация Гибкость (раскопки форматов и правил) Тестирование («живая» документация) Визуализация (Wiwordik, JavaFX) Викисловарь ++. (рост в ширину) парсер = ядро + языкозависимая часть, ru + en Инкрементальный подход (рост в глубину) ¿Интеграция?
  • 11. Структура словарной статьи в Русском Викисловаре
  • 14. Структура (толкование) третье значение
  • 15. Внутренние ссылки (1) # находящийся в [[работа|работе]]; предварительный, пробный, черновой
  • 16. Внутренние ссылки (2): ? Частота конкретных форм слова в словаре page_inflection . term_freq Информация о ссылках / ключевых словах толкования на другие словарные статьи в поиск-х алг. (поиск синонимов) Слова, для которых есть ссылки, но нет словарных статей – всё равно добавляются в таблицу «page».
  • 17. Семантические отношения
  • 18.
  • 19. [[Категория:Имя категории]] Цель: Автоматизация оглавления, поиск Грамматические категории Часть речи Тип словоизменения Вшиты Одушевлённость в Грамматический род шаблоны Стилистические свойства Служебные Семантика {{categ|Работа и труд|Рабочие|lang=}}
  • 20. {{Шаблонизация}} всей страны! + Шаблоны автоматически проставляются ботами при создании статьи + Централизованная смена внешнего вида сразу многих статей + Автоматизация редактирования (ботами, парсером), т.к. есть разметка спец-ми конструкциями + Автоматизация категоризации × {{сущ ru m ina}} → категории «Мужской род» и «Неодушевлённые» ─ Сложность освоения ☻
  • 21. {{Шаблонизация}} Примеры × {{-ru-}}, {{пример|}} × Фонетические: {{transcriptions||}}, {{медиа}} × {{морфо|под|вод|и|ть|ся}} × Морфологические: × {{сущ ru}}, {{прил ru}}, {{сущ ru m ina}}, {{adv ru}} × {{сущ eo}}, {{прил eo}}, {{adv eo}}, {{гл eo}} × Шаблоны библиографии × {{НКРЯ}}, {{Ушаков1940}}, {{Эпитет1913}} × Технические (из Википедии): × {{За}}, {{wikify}}, «вавилонские шаблоны»
  • 23. Быстрый поиск на заданном языке (2) 1 таблица + ещё 561 таблица Список кодов языков: http://ru.wiktionary.org/wiki/шаблон:перев-блок
  • 26. Правила извлечения текста: Регулярные выражения (1) ({{)-([-_a-zA-Z]{2,9})-(?:}}||.*?}})|(Q{{заголовок|E)(.*?)}} 1. {{-ru-}} {{-en-}} {{-de-}} –> ru en de 2. {{-de-|schwalbe}} -> de 3. {{заголовок|ka|add=}} -> ka|add= {{заголовок|ka}} -> ka
  • 27. Регулярные выражения (2) 1. ====?s*Значениеs*====?s*n 2. (?m)^==s*([^=]+?)s*==s* ==рабочий I==, == Существительное I == 3. #(REDIRECT|ПЕРЕНАПРАВЛЕНИЕ) [[(.+?)]] #ПЕРЕНАПРАВЛЕНИЕ [[нелётный]] -> нелётный
  • 28. Перенаправления 1. Указание основной формы слова • маня -> манить 2. Подсказка об ошибке всё-равно -> всё равно 3. Диакритики • зверье –> зверьё, coeur -> cœur 4. Неточная кодировка • лiс –> ліс (I латиница, І кириллица) 5. Со строчной буквы на прописную москва -> Москва
  • 29. Реализация 1 Программный код включает наработки: synarcher – поиск синонимов в Википедии wikidf – индексирование текстов Википедии Java База данных: MySQL - для разработки и тестирования SQLite – в скачиваемом приложении JUnit тестирование 29
  • 31. Размеры Викисловарей WordNet (2006): 150,000 слов, 115,000 синсетов (наборов синонимов)
  • 32.
  • 34. Корреляция мер семантической близости Корреляция мер семантической близости слов: 1) значения экспертов (набор 353-TC), 2) значения вычислены автоматически на основе WordNet, Английской Википедии, Русского Викисловаря
  • 36. Результаты Создан парсер Русского Викисловаря Спроектирована схема БД Реализован доступ к БД (API, Java) Выполнено сравнение результатов поиска семантически близких слов на основе Викисловаря и тезауруса WordNet Сайт проекта (Wiki tool kit) http://code.google.com/p/wikokit/ 36
  • 37. Сделано и ещё делать (схема БД, парсер) • Извлекаются (RE) Русский Викисловарь – Толкование English Wiktionary – определение – помета, цитата, картинка • Уровни – Отношение – Схема БД (+ table) (синонимы…, помета) – API Базы данных – Перевод – Код (+ class, RE) – Фонетика – Транскрипция, Аудио – Этимология – Фразеологизмы, поговорки, пословицы –…
  • 38. Планы Продолжить разработку MRD Наращивание функц-ти парсера, отладка + English Wiktionary Визуализация (JavaFX) MRD браузер Игры и тесты (изучение иностранных языков)
  • 39. Спасибо за внимание! http://ru.wiktionary.org/