3. ÚKOL
Rozpoznávání jazyků pomocí neuronových sítí
Srovnání výsledků neuronové sítě a
jednoduchého statistického přístupu
Klasifikace jazyků v rámci jazykových rodin
4. DATA A JEJICH PŘEDZPRACOVÁNÍ
Zdroje dat: Project Gutenberg a další knihovny
elektronických textů
Četnosti bigramů (dvojic písmen jdoucích za
sebou) v textu
charakteristické pro jednotlivé jazyky
729 dvojic – vektor relativních četností
Zjednodušení abecedy
odstranění diakritiky
PCA analýza
6. STATISTICKÝ PŘÍSTUP
Vytvoření vektorů průměrných četností dvojic
písmen pro každý jazyk
Klasifikace: porovnání vektoru relativních
četností bigramů v rozpoznávaném jazyce s
vytvořenými vektory průměrů pomocí
a) euklidovské vzdálenosti
b) cosinu úhlu mezi vektory
Obě míry se ukázaly jako ekvivalentní
7. NEURONOVÉ SÍTĚ
Bez PCA analýzy:
Vstupní vektor velikosti 729
Pomalé učení
Velká chybovost
S PCA analýzou
Vstupní vektor velikosti pouze 10
Rychlé učení
Neuvěřitelně malá chybovost
8. VÝSLEDKY ROZPOZNÁVÁNÍ 5 JAZYKŮ
Počet chyb
30
25
NN(10-5) s PCA
20
Cos
15
NN(729-50-5)
10
5
0
44% chyba
7% chyba
0% chyba
• 430 trénovacích vzorů
• 141 testovacích vzorů
9. VÝSLEDKY ROZPOZNÁVÁNÍ 8 JAZYKŮ
Počet chyb
7
6
5
4
NN(10-8)
3
Cos
2
1
0
10% chyba
0% chyba
• 540 trénovacích vzorů
• 135 testovacích vzorů
10. JAZYKOVÉ RODINY
Ugrofinské
jazyky
maďarština, finština, estonština, laponština
Indoevropské
jazyky
Románské jazyky
latina, italština,
francouzština,
španělština,
portugalština...
Keltské jazyky
irština, welština
Germánské jazyky
angličtina, němčina,
holandština,
norština...
Slovanské jazyky
čeština, slovenština,
polština, ruština...
15. ZÁVĚREM
PCA analýza může pro některé úlohy řádově
snížit velikost vstupního prostoru
V jednoduchosti je síla
Úlohu doporučuje 8 z osmi neuronů