Rozpoznání jazyků

ROZPOZNÁVÁNÍ JAZYKŮ
Evelina Gabašová

Adam Abonyi
2008

„MYSLÍTE, ŽE JE OSTRAVŠTINA
ČEŠTINA?“

ÚKOL






Rozpoznávání jazyků pomocí neuronových sítí
Srovnání výsledků neuronové sítě a
jednoduchého statistického přístupu
Klasifikace jazyků v rámci jazykových rodin

DATA A JEJICH PŘEDZPRACOVÁNÍ
Zdroje dat: Project Gutenberg a další knihovny
elektronických textů
 Četnosti bigramů (dvojic písmen jdoucích za
sebou) v textu


charakteristické pro jednotlivé jazyky
729 dvojic – vektor relativních četností


Zjednodušení abecedy
odstranění diakritiky



PCA analýza

PCA ANALÝZA


Redukce velikosti vstupu z 729 na 10

STATISTICKÝ PŘÍSTUP
Vytvoření vektorů průměrných četností dvojic
písmen pro každý jazyk
 Klasifikace: porovnání vektoru relativních
četností bigramů v rozpoznávaném jazyce s
vytvořenými vektory průměrů pomocí
a) euklidovské vzdálenosti
b) cosinu úhlu mezi vektory
 Obě míry se ukázaly jako ekvivalentní


NEURONOVÉ SÍTĚ


Bez PCA analýzy:
Vstupní vektor velikosti 729
 Pomalé učení
 Velká chybovost




S PCA analýzou
Vstupní vektor velikosti pouze 10
 Rychlé učení
 Neuvěřitelně malá chybovost


VÝSLEDKY ROZPOZNÁVÁNÍ 5 JAZYKŮ
Počet chyb
30
25

NN(10-5) s PCA

20

Cos

15

NN(729-50-5)

10
5
0

44% chyba
7% chyba
0% chyba

• 430 trénovacích vzorů
• 141 testovacích vzorů

VÝSLEDKY ROZPOZNÁVÁNÍ 8 JAZYKŮ
Počet chyb
7
6
5
4

NN(10-8)

3

Cos

2
1
0

10% chyba
0% chyba

• 540 trénovacích vzorů
• 135 testovacích vzorů

JAZYKOVÉ RODINY
Ugrofinské
jazyky

maďarština, finština, estonština, laponština

Indoevropské
jazyky

Románské jazyky

latina, italština,
francouzština,
španělština,
portugalština...

Keltské jazyky

irština, welština

Germánské jazyky

angličtina, němčina,
holandština,
norština...

Slovanské jazyky

čeština, slovenština,
polština, ruština...

NEURONOVÁ SÍŤ

COSÍNOVÁ METODA

Latina
španělština
7%

němčina
7%

francouzšti
na
59%

angličtina
27%

polština
27%
francouzšti
na
31%

Katalánština

španělština
100%

španělština
100%

čeština
21%

angličtina
14%

němčina
7%

NEURONOVÁ SÍŤ

COSÍNOVÁ METODA

Finština
čeština
21%
angličtina
3%

maďarština italština
angličtina
2%
6%
2%
němčina
2%

maďarština
76%

čeština
88%

Esperanto
italština
3%

španělština
97%

italština čeština
28%
28%
polština
3%

španělština
41%

NEURONOVÁ SÍŤ

COSÍNOVÁ METODA

Welština
němčina
8%
polština
42%
angličtina
92%

čeština
25%
angličtina
33%

Slovenština

čeština
100%

čeština
100%

NEURONOVÁ SÍŤ

COSÍNOVÁ METODA

Deník Ostravaka

čeština
100%

čeština
100%

ZÁVĚREM


PCA analýza může pro některé úlohy řádově
snížit velikost vstupního prostoru



V jednoduchosti je síla



Úlohu doporučuje 8 z osmi neuronů

Rozpoznání jazyků

Recommended

Recommended

More Related Content

Featured

Featured (20)

Rozpoznání jazyků