Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Presentazione meka
1. ALGORITMI BIOINFORMATICI PER LA
CLASSIFICAZIONE SINTATTICA DELLE
LINGUE
Relatore: Prof. Andrea Sgarro
Correlatore: Prof. Alberto Casagrande
Candidato: Devis Meka
1/13
2. PROBLEMA: CLASSIFICAZIONE DELLE LINGUE
INDO-EUROPEE CONTEMPORANEE USANDO
GLI ALGORITMI BIOINFORMATICI.
Vari studi linguistici per fare una
classificazione delle lingue basandosi sui
parametri sintattici, usando gli algoritmi
bioinformatici.
Confronto tra i metodi basati sui caratteri e i
metodi basati sulle distanze, ricostruendo
alberi filogenetici.
Confronto tra le distanze di Hamming e le
distanze fuzzy di Hamming come misure di
divergenza tra le lingue.
2/13
3. ALGORITMI BIOINFORMATICI
1) Metodi basati sui caratteri:
Prendono in input una matrice di caratteri discreti.
Massima Parsimonia
Algoritmo di Hendy e Penny
Compatibilità
Massima Verosimiglianza
2)Metodi basati sulle distanze
Prendono in input una matrice con le distanze tra
tutte le coppie delle entità.
Neighbor-Joining (NJ)
Unweighted Pair Group Method with Arithmetic
Mean (UPGMA)
3/13
4. MASSIMA PARSIMONIA
4/13
Problemi:
Le lingue
Germaniche
vengono fuse con
le lingue Celtiche.
I dialetti Italiani
vengono
raggruppati
insieme ai dialetti
Greci ed il Greco.
Possibili cause:
Condivisone di
un certo numero
di parametri
sintattici.
Il numero dei
parametri abili a
distinguere i
sottogruppi è
ridotto.
5. MASSIMA PARSIMONIA
ALGORITMO DI HENDY-PENNY
5/13
Problemi:
La
classificazione
del Rumeno con
i dialetti Greci ed
il Greco.
Possibile cause:
Il Rumeno è la
lingua più
esterna al
sottogruppo
delle lingue
Latine.
Condivide un
grande numero
di parametri con
i dialetti Greci.
6. METODO DI MASSIMA
VEROSIMIGLIANZA
6/13
Problemi:
Le lingue
Germaniche
vengono mischiate
con le lingue
Celtiche.
In questo gruppo
viene aggiunta
anche la lingua
Farsi.
Possibili cause:
Le lingue
Germaniche
condividono un
certo numero di
parametri con
quelle Celtiche.
L’attrazione dei
rami lunghi.
7. UPGMA SULLE DISTANZE DI AMMINA
7/13
UPGMA dà i
risultati più
soddisfacenti.
Assume che
il tasso di
evoluzione tra
tutte le lingue
sia uguale o
quasi.
Ricostruisce
un albero
binario e con
radice.
8. NJ SULLE DISTANZE DI HAMMING
8/13
Problemi:
Le lingue
Germaniche
vengono
raggruppate
con le lingue
Celtiche.
La posizione
errata del
Bulgaro.
Possibili cause:
NJ non fa una
classificazione
accurata
quando il tasso
di evoluzione è
uguale.
9. UPGMA SULLE DISTANZE FUZZY DI HAMMING
9/13
Problemi:
Il Bulgaro e
viene
raggruppato
con le lingue
Germaniche.
Possibili
cause:
La distanza
fuzzy di
Hamming
avvicina il
Bulgaro con le
lingue
Germaniche.
10. NJ SULLE DISTANZE FUZZY DI
HAMMING
10/13
Problemi:
La
classificazione
errata del
Bulgaro.
La fusione
dei dialetti
Greci con le
lingue Latine.
Possibili cause:
L’attrazione
tra il Rumeno
ed il Bulgaro e
la posizione
esterna del
Bulgaro.
11. CONFRONTO TRA NJ E UPGMA
11/13
NJ non usa direttamente la matrice delle distanze ma ne
ricostruisce un’altra.
UPGMA unisce al primo passo il Rumeno con le lingue
Latine, mentre NJ unisce il Rumeno con i dialetti Greci.
12. CONCLUSIONI
I metodi basati sulle distanze si comportano meglio
dei metodi basati sui caratteri, quando si vuole fare
una classificazione basata sui parametri sintattici.
Le distanze fuzzy di Hamming non rappresentano
correttamente le vere distanze tra le lingue.
L’algoritmo UPGMA fa una ricostruzione più
accurata rispetto al NJ.
12/13