UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES

Juan Gabriel Colonna
Orientador: Eduardo F. Nakamura
Co-orientadora: Eulanda M. dos Santos

Uma Abordagem Para
Classificação de Anuros Baseada
em Vocalizações

Instituto de Computação (IComp)
Universidade Federal do Amazonas (UFAM)

Uma Abordagem Para Classificação de
Anuros Baseada em Vocalizações

• Por que anuros e Ciência da Computação?

• Qual é a relação entre RSSF, aprendizagem de máquina e anuros?

• Qual é a abordagem proposta?

• Que conclusões obtivemos?

2

Introdução - Motivação Ambiental

• O estudo das condições ambientais é de interesse social para
• manter a qualidade de vida, e
• para conservar as espécies.
• A perda das espécies é um processo irreversível.

• A variação das populações das
espécies possibilita:
• Avaliar problemas ecológicos em
estágios iniciais.
• Estabelecer estratégias de
conservação da diversidade biológica.

3


• As mudanças em populações de anfíbios se relacionam com poluição,
desmatamento, urbanização, etc.

• Os anuros podem ser usados como
indicadores para detectar estresse
ecológico.

• Relação intima com o ecossistema.

Figura: Porcentagem de espécies ameaçadas na lista
vermelha. Figura adaptada de [Stuart et al., 2004]. 4


• Desta forma, monitorar e classificar anuros é uma ferramenta
importante para preservar as espécies e cuidar de nossa qualidade de
vida.

Figura: Densidade global da biodiversidade de espécies de anfíbios.
5

Introdução - Contexto

• A tarefa de monitoramento de anuros, implica no desafio de
desenvolver um método que não precise intervenção humana.

• Atualmente, o processo é realizado de forma manual.
• Muito tempo, dependendo da quantidade de amostras necessárias
• Fica sujeita à experiência da pessoa que realiza esta tarefa.

Como melhorar o método
de monitoramento?

6

Introdução - Cenários
Vantagens Desvantagens

I
• Permite recuperar o • Elevada memória de
áudio. armazenamento.
• Baixo custo de • Elevado custo de
processamento. transmissão.

II • Redução de informação • Eleva o processamento.
98,86% • Não é possível recuperar
• Diminui o custo de o áudio.
transmissão. • Confunde ruídos de
• Poupa memória. outras espécies.

III • Redução de informação • Eleva ainda mais
99,98% processamento.
• Diminui o custo de • Não é possível recuperar
transmissão. o áudio.
• Poupa memória. • Confunde ruídos de
outras espécies.

Introdução - Objetivos

Classificar espécies de anuros das florestas tropicais
baseando-se nas vocalizações.*

Neste trabalho:
II
• definimos a abordagem
• combinando as características
• junto com técnicas de aprendizagem de
máquina
• maximizar a relação custo-benefício.
* Consideração: Restrições do hardware.

8

Introdução – Objetivos Específicos

• Espectros de frequências.
• Extrair e selecionar as características.
• Definir a técnica de classificação.
• Obter o conjunto mínimo de características.
• Obter o custo de processamento das características.
• Correlacionar o custo de processamento e taxa de acerto.
• Identificar uma ou mais espécies.

9

Trabalhos Relacionados
Autor Animal Características Classificador Resultados RSSF

Taylor et al. [1996] Bufo marinus Spectrograma C4.5 60% Não

Hu et al. [2005] Bufo marinus Spectrograma C4.5 60% Sim

Yen & Fu [2002]* 4 anuros Wavelet MLP 71% Não
Fisher’s
Clemins [2005] Elefantes MFCCs HMM 69% Não
PLP DTW 73%
Cai et al. [2007] 14 pássaros MFCCs ANN 81% - 86% Sim

Huang et al. [2009]* 5 anuros S - B - ZC k-NN 83% - 100% Não
SVM 82% - 100%
Vaca-Castaño & 10 pássaros MFCCs k-NN 86% Sim
Rodriguez [2010]* 20 anuros PCA 91%
Han et al. [2011]* 9 anuros S - Hs - Hr k-NN 83% - 100% Não

* Trabalhos implementados e utilizados nas comparações.

10

Os problemas identificados nos trabalhos

1) Métodos desenvolvidos de forma isolada e projetados para cada
espécie.

2) Cada método utiliza características e técnicas de classificação
diferentes.

3) Estudo comparativo extremamente difícil.

4) Carência de um método padrão.

5) Não existe análise do impacto de custo em RSSF.

11

Modelo

Figura: Parametrização das vocalizações.

Figura: Sistema geral de reconhecimento de fala humana, figura
adaptada de Campbell [1997]. 12

Espécies e vocalizações

14

Espécies e vocalizações
Espécie Banda de Pitch Std (ms)
frequências (kHz)
(a) Adenomera andreae 2,10∼3,00 0,511 0,3
4,00∼6,92
(b) Ameerega trivittata 2,00∼3,00 0,220 0,1
5,50∼7,00
(c) Hyla minuta 1,50∼2,50 0,404 0,1
3,50∼5,00
(d) Hypsiboas cinerascens 1,40∼1,80 0,638 0,1
3,00∼3,50
(e) Leptodactylus fuscus 1,00∼3,50 0,089 0,1
6,50∼7,74
(f) Osteocephalus oophagus 1,50∼3,00 0,914 2,0

(g) Rhinella granulosa 1,70∼3,20 0,022 0,2

(h) Scinax ruber 1,10∼4,15 0,043 0,01

(i) Hylaedactylus 1,50∼2,50 0,466 0,1
3,50∼4,50

* Bandas de frequências sobrepostas. 15

Descrição do pré-processamento

1) Segmentação 2) Pré-ênfase 3) Janelamento

16

Considerações do pré-processamento

Sílabas
Espécie Indivíduos
0,4 0,5 0,6
Adenomera andreae 8 686 528 442
Ameerega trivittata 5 673 572 339
Hyla minuta 11 300 261 225
Hypsiboas cinerascens 2 3364 3176 2898
Leptodactylus fuscus 4 315 252 233
Osteocephalus oophagus 4 130 103 84
Rhinella granulosa 3 1791 1684 1458
Scinax ruber 4 238 193 170
Hylaedactylus 8 358 326 249
Total 49 7855 7095 6098

17

Obtenção das características

Figura: Extração das características.

18

• Transformada discreta de Fourier (DFT). O(N2) [Duhamel & Vetterli, 1990]

N 1 i 2 kn
N
X k
xne ,k 0 ,1 , 2 ,.. N 1
n 0

• Transformada rápida de Fourier (FFT). O(N log2N) [Cooley & Tukey,1965]

Figura: sílaba da espécie Hylaedactylus Figura: espectro da sílaba 19

• A transformada Wavelet contínua (CWT). [Morettin, 1999]

*
(s, ) f (t ) s,
( t ) dt

• Transformada Wavelet discreta mediante Lifting Scheme. O(L)
[Rein & Reisslein, 2011]

Figura: Função Haar Figura: Função Daubechies
Figura: Lift Scheme
20

• Mel-frequency cepstral coefficient (MFCCs). [Rabiner & Schafer, 2007]

R
f Hz 1 2 1
f mel 1127 ln 1 mfcc m
log M r
cos r m
700 R r 1 R 2

• Pitch. [Peeters, 2004; Plack et al., 2005]

21

Resumo das características

Ordem de Custo
Características
complexidade computacional
Pitch O(L) 3L − 1
B O(Nlog(N)) 2M + 2M + Nlog(N)
12 MFCC’s O(Nlog(N)) Nlog(N) + N + mR
S O(Nlog(N)) 2M + Nlog(N)
H1 O(L) L+i
H2 O(L) L+i
ZC O(L) L
E O(L) L
Pw O(L) L

22

Comparação entre características
temporais e espectrais
• IG representa a quantidade de informação que o atributo Y fornece para a
determinação da classe X. [Leite et al., 2006]

24


25


26

k-NN
Características
0,4 0,5 0,6
ZCSBEPitchPwH1H2-MFCCs 99,35%(1)* 99,57%(1)* 99,54%(1)*
ZCSBEPitchPw-MFCCs 99,27%(1)* 99,47%(1)* 99,45%(1)*
ZCSBEPitch-MFCCs 99,26%(1)* 99,52%(1)* 99,49%(1)*
ZCSBPitch-MFCCs 99,26%(1)* 99,53%(1)* 99,49%(1)*
ZCSBEPitch 93,07%(4) 95,19%(3) 96,08%(1)
ZCSBE-MFCCs 99,26%(1)* 99,54%(1)* 99,55%(2)*
ZCSB-MFCCs 99,26%(1)* 99,56%(1)* 99,26%(1)*
ZCSBE 92,47%(4)* 94,77%(3) 95,40%(1)
SH1H2 82,71%(9) 87,02%(11) 87,07%(7)
ZCSBPitch 90,69%(6) 93,51%(6)* 94,67%(3)
ZCEPPw 79,54%(11) 84,32%(11) 79,54%(11)
Pitch-MFCCs 99,22%(1)* 99,37%(1)* 99,22%(1)*
ZCSB 88,63%(7) 91,71%(5) 92,85%(3)
Pitch 74,18%(1) 77,26%(1) 74,18%(1)
ZC-MFCCs 99,24%(1)* 99,45%(1)* 99,24%(1)*
E-MFCCs 99,27%(1)* 99,49%(2)* 99,27%(1)*
B-MFCCs 99,33%(1)* 99,54%(1)* 99,33%(1)*
S-MFCCs 99,21%(1)* 99,42%(1)* 99,21%(1)*
MFCCs 99,19%(9)* 99,36%(2)* 99,19%(1)*

27

Matriz de confusão

k-NN, k=5
Espécie
a b c d e f g h i
a 484 34 0 8 1 1 0 0 0
b 10 554 1 0 0 0 4 0 3
c 4 12 191 0 0 0 1 0 53
d 13 0 0 299 1 6 4 2 1
e 3 2 0 3 194 1 30 5 14
f 5 0 0 27 1 60 4 6 0
g 2 18 2 1 7 1 1580 5 68
h 1 7 0 9 8 9 55 95 9
i 1 3 6 5 7 1 95 8 3050
Tabela: apresenta a matriz para o conjunto de características ZCSB e alpha 0,5. Pode-se
observar que as espécies mais confundidas são Hylaedactylus com Rhinella granulosa,
devido à proximidade entre as características sonoras.

28

Estudo de caso
Para simular uma situação real quantizamos os áudios uniformemente em 256 níveis (8
bits) e diminuímos a fs a 11kHz, a 8kHz e a 5,5kHz, produzindo uma diminuição na
quantidade de informação adquirida pelos sensores de 75%, 81% e 87% .

Classificação com k-NN, k = 2
Características 32 bits 8 bits 8 bits 8 bits
44,1 kHz 11 kHz 8 kHz 5,5 kHz
ZCSBEPwPitch-MFCCs 99,47% 99,55% 98,83% 97,41%

ZCSB-MFCCs 99,56% 99,52% 98,90% 97,31%

ZCEPwPitch 84,32% 85,06% 81,04% 85,06%

SH1H2 87,02% 83,76% 86,11% 83,76%

ZCSB 91,71% 87,81% 89,03% 86,35%

MFCCs 99,36% 99,42% 98,51% 99,42%

S V max
Ruído de quantização: 1, 76 6 , 02 n 20 log 49 dB
Nq V
29

Estudo de caso

fs = 44,1kHz fs = 11kHz

fs = 8kHz fs = 5,5kHz 30

Conclusões

• Os MFCCs possuem baixo custo e elevada taxa de acerto.

• Os MFCCs mantém o custo e a taxa de acerto independente do
hardware.

• MFCCs mais imunes aos ruídos ambientais.

• MFCCs imunes ao ruído de quantização.

• MFCCs maximizam a relação custo-benefício.

31

Comparação entre MFCCs e Wavelet
1. Extração das características formando dois grupos e geração das
bases de dados para o classificador;
2. Aplicação do algoritmo genético (GA) para selecionar os melhores
subconjuntos de características para cada grupo;
3. Avaliação do impacto na classificação dos subconjuntos resultantes
do GA; e
4. Simulação de situações reais, avaliando o impacto da quantização
e a frequência de amostragem na taxa de classificação.

32


k-NN
Características
0,4 0,5 0,6
Características Wavelet 96,35%(3) 97,86%(1) 98,22%(1)
Transformada Daubechies
Características Wavelet 96,70%(1) 97,90%(1) 98,38%(1)
Transformada Haar
MFCCs 99,19%(9) 99,36%(2) 99,19%(1)

Tabela : Taxa de cclassificação em relação a alpha, usando validação cruzada fold = 10

• Do teste Wilcoxon, com nível de signiﬁcância 95% (α = 0.5), concluímos que os MFCCs
possuem melhor desempenho.

33

• Vetor de características Wavelet:
d d d d a a a a
[ P , W E , W Pw , W P , W ZC , W E , W Pw , W P , W ZC ] espécie

• Objetivo: determinar o subconjunto ótimo de características aplicando GA.

34


Classificação Cruzamento 50% Taxa de Cruzamento 60% Taxa de
Características
antes do GA Mutação 40% classificação Mutação 20% classificação

9 características
97,86%(1) 1,2,3,5 93,73% 1,2,3,4,5,6,8,9 96,83%
utilizando Db
9 características
97,90%(1)* 2,3,4,5,6,8,9 96,47% 1,2,3,4,5,6,7,8,9 97,90%*
utilizando Haar
1,2,3,4,5,6,7,8,9
12 MFCCs 99,36%(2)* 1,2,3,4,5,6,7,11 99,08% 99,33%*
11,12

35

Estudo de caso entre MFCCs e Wavelet

fs = 44,1kHz fs = 11kHz

fs = 8kHz fs = 5,5kHz 36

Reconhecimento de grupo
• Amostragem estratificada E0=0,05
1 N n0 L n
n0 , n , s
E0 N n0 N

Estratos Total de sílabas Amostragem
Adenomera andreae 528 28
Ameerega trivittata 572 31
Hyla minuta 261 14
Hypsiboas cinerascens 3176 169
Leptodactylus fuscus 252 13
Osteocephalus oophagus 103 5
Rhinella granulosa 1684 90
Scinax ruber 193 10
Hylaedactylus 326 17
Total 7095 377

37

Reconhecimento de grupo
• Combinações: duas espécies 36 novas classes; e três espécies 84 novas
classes N!
C
K !( N K )!

Figura: Adenomera andreae - Hyla minuta Figura: Scinax ruber - Hylaedactylus

• Resultados utilizando k-NN e os MFCCs:
• Duas espécies 77,74%
• Três espécies 22,57%
38

Conclusões
• Da comparação dos quatro métodos de extração de
características, provenientes da literatura, indicamos como melhor
escolha os 12 MFCCs.
• É possível otimizar os custos utilizando 8 MFCCs, embora o método
perca generalidade.
• Os MFFCs possuem:
• Melhor taxa de acerto;
• Custo constante, independente do hardware; e
• Imunidade aos ruídos ambientais e de quantização.

Nossa contribuição: Framework para classificação de anuros com RSSF
Utilizando: Pré-processamento 12 MFCCs k-NN

39

Publicações e trabalhos futuros
• Os resultados das comparações entre características temporais e espectrais
foram publicadas no III Simpósio Brasileiro de Computação Ubíqua e
Pervasiva (SBCUP) (melhor artigo 2º lugar).
• Os resultados das comparações entre Wavelet e MFCCs e otimizações dos
conjuntos de características foram aceitos para publicação no International
Joint Conference on Neural Networks (IJCNN - IEEE).
Trabalhos futuros
• Aperfeiçoar a técnica de segmentação.
• Avaliar o desempenho do método acrescentando mais espécies de anuros
ou de outros animais.
• Melhorar a abordagem de classificação de grupo de espécies utilizando um
classificador multi-nível ou técnicas de separação de áudios.
• Utilização com compressive sensing e detecção de eventos em RSSF.
• Aplicação real e determinação da densidade populacional em um região
específica.
40

Perguntas?

Agradecimentos

41

UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Empfohlen

Empfohlen (20)

UMA ABORDAGEM PARA CLASSIFICAÇÃO DE ANUROS BASEADA EM VOCALIZAÇÕES