Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES
1. Juan Gabriel Colonna
Orientador: Eduardo F. Nakamura
Co-orientadora: Eulanda M. dos Santos
Uma Abordagem Para
Classificação de Anuros Baseada
em Vocalizações
Instituto de Computação (IComp)
Universidade Federal do Amazonas (UFAM)
2. Uma Abordagem Para Classificação de
Anuros Baseada em Vocalizações
• Por que anuros e Ciência da Computação?
• Qual é a relação entre RSSF, aprendizagem de máquina e anuros?
• Qual é a abordagem proposta?
• Que conclusões obtivemos?
2
3. Introdução - Motivação Ambiental
• O estudo das condições ambientais é de interesse social para
• manter a qualidade de vida, e
• para conservar as espécies.
• A perda das espécies é um processo irreversível.
• A variação das populações das
espécies possibilita:
• Avaliar problemas ecológicos em
estágios iniciais.
• Estabelecer estratégias de
conservação da diversidade biológica.
3
4. Introdução - Motivação Ambiental
• As mudanças em populações de anfíbios se relacionam com poluição,
desmatamento, urbanização, etc.
• Os anuros podem ser usados como
indicadores para detectar estresse
ecológico.
• Relação intima com o ecossistema.
Figura: Porcentagem de espécies ameaçadas na lista
vermelha. Figura adaptada de [Stuart et al., 2004]. 4
5. Introdução - Motivação Ambiental
• Desta forma, monitorar e classificar anuros é uma ferramenta
importante para preservar as espécies e cuidar de nossa qualidade de
vida.
Figura: Densidade global da biodiversidade de espécies de anfíbios.
5
6. Introdução - Contexto
• A tarefa de monitoramento de anuros, implica no desafio de
desenvolver um método que não precise intervenção humana.
• Atualmente, o processo é realizado de forma manual.
• Muito tempo, dependendo da quantidade de amostras necessárias
• Fica sujeita à experiência da pessoa que realiza esta tarefa.
Como melhorar o método
de monitoramento?
6
7. Introdução - Cenários
Vantagens Desvantagens
I
• Permite recuperar o • Elevada memória de
áudio. armazenamento.
• Baixo custo de • Elevado custo de
processamento. transmissão.
II • Redução de informação • Eleva o processamento.
98,86% • Não é possível recuperar
• Diminui o custo de o áudio.
transmissão. • Confunde ruídos de
• Poupa memória. outras espécies.
III • Redução de informação • Eleva ainda mais
99,98% processamento.
• Diminui o custo de • Não é possível recuperar
transmissão. o áudio.
• Poupa memória. • Confunde ruídos de
outras espécies.
8. Introdução - Objetivos
Classificar espécies de anuros das florestas tropicais
baseando-se nas vocalizações.*
Neste trabalho:
II
• definimos a abordagem
• combinando as características
• junto com técnicas de aprendizagem de
máquina
• maximizar a relação custo-benefício.
* Consideração: Restrições do hardware.
8
9. Introdução – Objetivos Específicos
• Espectros de frequências.
• Extrair e selecionar as características.
• Definir a técnica de classificação.
• Obter o conjunto mínimo de características.
• Obter o custo de processamento das características.
• Correlacionar o custo de processamento e taxa de acerto.
• Identificar uma ou mais espécies.
9
10. Trabalhos Relacionados
Autor Animal Características Classificador Resultados RSSF
Taylor et al. [1996] Bufo marinus Spectrograma C4.5 60% Não
Hu et al. [2005] Bufo marinus Spectrograma C4.5 60% Sim
Yen & Fu [2002]* 4 anuros Wavelet MLP 71% Não
Fisher’s
Clemins [2005] Elefantes MFCCs HMM 69% Não
PLP DTW 73%
Cai et al. [2007] 14 pássaros MFCCs ANN 81% - 86% Sim
Huang et al. [2009]* 5 anuros S - B - ZC k-NN 83% - 100% Não
SVM 82% - 100%
Vaca-Castaño & 10 pássaros MFCCs k-NN 86% Sim
Rodriguez [2010]* 20 anuros PCA 91%
Han et al. [2011]* 9 anuros S - Hs - Hr k-NN 83% - 100% Não
* Trabalhos implementados e utilizados nas comparações.
10
11. Os problemas identificados nos trabalhos
1) Métodos desenvolvidos de forma isolada e projetados para cada
espécie.
2) Cada método utiliza características e técnicas de classificação
diferentes.
3) Estudo comparativo extremamente difícil.
4) Carência de um método padrão.
5) Não existe análise do impacto de custo em RSSF.
11
12. Modelo
Figura: Parametrização das vocalizações.
Figura: Sistema geral de reconhecimento de fala humana, figura
adaptada de Campbell [1997]. 12
19. Obtenção das características
• Transformada discreta de Fourier (DFT). O(N2) [Duhamel & Vetterli, 1990]
N 1 i 2 kn
N
X k
xne ,k 0 ,1 , 2 ,.. N 1
n 0
• Transformada rápida de Fourier (FFT). O(N log2N) [Cooley & Tukey,1965]
Figura: sílaba da espécie Hylaedactylus Figura: espectro da sílaba 19
20. Obtenção das características
• A transformada Wavelet contínua (CWT). [Morettin, 1999]
*
(s, ) f (t ) s,
( t ) dt
• Transformada Wavelet discreta mediante Lifting Scheme. O(L)
[Rein & Reisslein, 2011]
Figura: Função Haar Figura: Função Daubechies
Figura: Lift Scheme
20
21. Obtenção das características
• Mel-frequency cepstral coefficient (MFCCs). [Rabiner & Schafer, 2007]
R
f Hz 1 2 1
f mel 1127 ln 1 mfcc m
log M r
cos r m
700 R r 1 R 2
• Pitch. [Peeters, 2004; Plack et al., 2005]
21
22. Resumo das características
Ordem de Custo
Características
complexidade computacional
Pitch O(L) 3L − 1
B O(Nlog(N)) 2M + 2M + Nlog(N)
12 MFCC’s O(Nlog(N)) Nlog(N) + N + mR
S O(Nlog(N)) 2M + Nlog(N)
H1 O(L) L+i
H2 O(L) L+i
ZC O(L) L
E O(L) L
Pw O(L) L
22
24. Comparação entre características
temporais e espectrais
• IG representa a quantidade de informação que o atributo Y fornece para a
determinação da classe X. [Leite et al., 2006]
24
25. Comparação entre características
temporais e espectrais
• IG representa a quantidade de informação que o atributo Y fornece para a
determinação da classe X. [Leite et al., 2006]
25
26. Comparação entre características
temporais e espectrais
• IG representa a quantidade de informação que o atributo Y fornece para a
determinação da classe X. [Leite et al., 2006]
26
28. Comparação entre características
temporais e espectrais
Matriz de confusão
k-NN, k=5
Espécie
a b c d e f g h i
a 484 34 0 8 1 1 0 0 0
b 10 554 1 0 0 0 4 0 3
c 4 12 191 0 0 0 1 0 53
d 13 0 0 299 1 6 4 2 1
e 3 2 0 3 194 1 30 5 14
f 5 0 0 27 1 60 4 6 0
g 2 18 2 1 7 1 1580 5 68
h 1 7 0 9 8 9 55 95 9
i 1 3 6 5 7 1 95 8 3050
Tabela: apresenta a matriz para o conjunto de características ZCSB e alpha 0,5. Pode-se
observar que as espécies mais confundidas são Hylaedactylus com Rhinella granulosa,
devido à proximidade entre as características sonoras.
28
29. Estudo de caso
Para simular uma situação real quantizamos os áudios uniformemente em 256 níveis (8
bits) e diminuímos a fs a 11kHz, a 8kHz e a 5,5kHz, produzindo uma diminuição na
quantidade de informação adquirida pelos sensores de 75%, 81% e 87% .
Classificação com k-NN, k = 2
Características 32 bits 8 bits 8 bits 8 bits
44,1 kHz 11 kHz 8 kHz 5,5 kHz
ZCSBEPwPitch-MFCCs 99,47% 99,55% 98,83% 97,41%
ZCSB-MFCCs 99,56% 99,52% 98,90% 97,31%
ZCEPwPitch 84,32% 85,06% 81,04% 85,06%
SH1H2 87,02% 83,76% 86,11% 83,76%
ZCSB 91,71% 87,81% 89,03% 86,35%
MFCCs 99,36% 99,42% 98,51% 99,42%
S V max
Ruído de quantização: 1, 76 6 , 02 n 20 log 49 dB
Nq V
29
30. Estudo de caso
fs = 44,1kHz fs = 11kHz
fs = 8kHz fs = 5,5kHz 30
31. Comparação entre características
Conclusões
• Os MFCCs possuem baixo custo e elevada taxa de acerto.
• Os MFCCs mantém o custo e a taxa de acerto independente do
hardware.
• MFCCs mais imunes aos ruídos ambientais.
• MFCCs imunes ao ruído de quantização.
• MFCCs maximizam a relação custo-benefício.
31
32. Comparação entre MFCCs e Wavelet
1. Extração das características formando dois grupos e geração das
bases de dados para o classificador;
2. Aplicação do algoritmo genético (GA) para selecionar os melhores
subconjuntos de características para cada grupo;
3. Avaliação do impacto na classificação dos subconjuntos resultantes
do GA; e
4. Simulação de situações reais, avaliando o impacto da quantização
e a frequência de amostragem na taxa de classificação.
32
33. Comparação entre MFCCs e Wavelet
k-NN
Características
0,4 0,5 0,6
Características Wavelet 96,35%(3) 97,86%(1) 98,22%(1)
Transformada Daubechies
Características Wavelet 96,70%(1) 97,90%(1) 98,38%(1)
Transformada Haar
MFCCs 99,19%(9) 99,36%(2) 99,19%(1)
Tabela : Taxa de cclassificação em relação a alpha, usando validação cruzada fold = 10
• Do teste Wilcoxon, com nível de significância 95% (α = 0.5), concluímos que os MFCCs
possuem melhor desempenho.
33
34. Comparação entre MFCCs e Wavelet
• Vetor de características Wavelet:
d d d d a a a a
[ P , W E , W Pw , W P , W ZC , W E , W Pw , W P , W ZC ] espécie
• Objetivo: determinar o subconjunto ótimo de características aplicando GA.
34
35. Comparação entre MFCCs e Wavelet
Classificação Cruzamento 50% Taxa de Cruzamento 60% Taxa de
Características
antes do GA Mutação 40% classificação Mutação 20% classificação
9 características
97,86%(1) 1,2,3,5 93,73% 1,2,3,4,5,6,8,9 96,83%
utilizando Db
9 características
97,90%(1)* 2,3,4,5,6,8,9 96,47% 1,2,3,4,5,6,7,8,9 97,90%*
utilizando Haar
1,2,3,4,5,6,7,8,9
12 MFCCs 99,36%(2)* 1,2,3,4,5,6,7,11 99,08% 99,33%*
11,12
35
36. Estudo de caso entre MFCCs e Wavelet
fs = 44,1kHz fs = 11kHz
fs = 8kHz fs = 5,5kHz 36
37. Reconhecimento de grupo
• Amostragem estratificada E0=0,05
1 N n0 L n
n0 , n , s
E0 N n0 N
Estratos Total de sílabas Amostragem
Adenomera andreae 528 28
Ameerega trivittata 572 31
Hyla minuta 261 14
Hypsiboas cinerascens 3176 169
Leptodactylus fuscus 252 13
Osteocephalus oophagus 103 5
Rhinella granulosa 1684 90
Scinax ruber 193 10
Hylaedactylus 326 17
Total 7095 377
37
38. Reconhecimento de grupo
• Combinações: duas espécies 36 novas classes; e três espécies 84 novas
classes N!
C
K !( N K )!
Figura: Adenomera andreae - Hyla minuta Figura: Scinax ruber - Hylaedactylus
• Resultados utilizando k-NN e os MFCCs:
• Duas espécies 77,74%
• Três espécies 22,57%
38
39. Conclusões
• Da comparação dos quatro métodos de extração de
características, provenientes da literatura, indicamos como melhor
escolha os 12 MFCCs.
• É possível otimizar os custos utilizando 8 MFCCs, embora o método
perca generalidade.
• Os MFFCs possuem:
• Melhor taxa de acerto;
• Custo constante, independente do hardware; e
• Imunidade aos ruídos ambientais e de quantização.
Nossa contribuição: Framework para classificação de anuros com RSSF
Utilizando: Pré-processamento 12 MFCCs k-NN
39
40. Publicações e trabalhos futuros
• Os resultados das comparações entre características temporais e espectrais
foram publicadas no III Simpósio Brasileiro de Computação Ubíqua e
Pervasiva (SBCUP) (melhor artigo 2º lugar).
• Os resultados das comparações entre Wavelet e MFCCs e otimizações dos
conjuntos de características foram aceitos para publicação no International
Joint Conference on Neural Networks (IJCNN - IEEE).
Trabalhos futuros
• Aperfeiçoar a técnica de segmentação.
• Avaliar o desempenho do método acrescentando mais espécies de anuros
ou de outros animais.
• Melhorar a abordagem de classificação de grupo de espécies utilizando um
classificador multi-nível ou técnicas de separação de áudios.
• Utilização com compressive sensing e detecção de eventos em RSSF.
• Aplicação real e determinação da densidade populacional em um região
específica.
40