Construindo corpus acento PB

Concebendo e construindo um
corpus
para a questão do acento no
Português
Brasileiro
Bruno Ferrari Guide
Orientação: Marcelo Barra Ferreira
Universidade de São Paulo
2015

Objetivos
 Apresentar a questão do acento no Português Brasileiro:
 Perfil do acento no PB
 Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))
 Alcance das teorias
 Abordagem computacional:
 Criação e Implementação de modelos
 Extração de padrões de copora diversos
 Construindo um corpus:
 Fala versus Escrita
 Os diferentes registros
 Apontamentos

O Acento no PB
 Restrito as últimas três sílabas da palavra:
 Oxítonas: ‘caqui’, ‘sordidez’
 Paroxítonas: ‘corda’, ‘beleza’
 Proparoxítonas: ‘último’, ‘metódico’
 Comportamento previsível:
 ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’
 Flexões verbais;
 Nomes não derivados morfologicamente apresentam um comportamento não
completamente previsível.
 Levando em conta o peso silábico:
 Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.

O Acento no PB - perfil
 Corpus ortográfico wikipedia:
 Dicionário com 40.924 palavras listadas e já separadas de acordo com
categoria acentual.
Total 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%

O acento no PB - perfil
 Maioria das palavras se encaixa nesses dois grupos:
 Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
 Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% do total das palavras está representado aqui.
Paroxítonas 25967 100%
Paroxítonas terminadas em V. 20886 80%
Oxítonas 10183 100%
Oxítonas terminadas em C. 7888 77%

O acento no PB – perfil
 Dos 30% que sobram:
 12% são proparóxitonas
 6% são oxítonas terminadas em vogal [consoante subjacente?]
 12% são paroxítonas terminadas em consoantes [plural]

O acento no PB - Teorias
 Abordagens teóricas (Bisol (1992), Lee (1995))
 Bisol (1992):
Padrão-
 Sílaba pesada final atrai o acento.
 Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
 Lee (1995):
 Padrão (Verbos):
 Na forma final da palavra, faça constituintes binários.
 Elemento proeminente é o mais a esquerda do pé.
(Paroxítonas e proparoxítonas)
 Exceções (Verbos):
 Na forma final da palavra, o acento vai cair no elemento mais à direita.
 (Oxítonas)

 Abordagen teórica (Lee (1995))
 Não verbos:
 Padrão:
 Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
 Exceções:
 No radical da palavra, derivar constituintes binários.
 O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
(Paroxítonas terminadas em consoante, proparoxítonas)
 Abordagem de Lee exige informações morfológicas, dá um novo sentido mas
não elimina a marcação arbitrária.

 Abordagen teórica (Hermans & Wetzels (2012))
 Os autores apresentam uma investigação sobre o acento baseada na
observação do comportamento dos falantes diantes de palavras
novas (neologismos).
 A partir disso, entendem o funcionamento do acento através das
noções de padrão produtivo e padrão improdutivo.
 Padrão produtivo obedece ao peso silábico, o improdutivo não.

Abordagem Computacional
 Criação de modelos
 Implementar as teorias a fim de fundamentar uma discussão quantitativa.
(Alcance das teorias)
 Extração de padrões de copora diversos
 Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?
 A análise de um grande volume de dados, porém, exige um grande
volume de dados

Concebendo e construindo um corpus
fonológico
 Necessidade de automatização
 Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.
 Fala versus Escrita – algumas diferenças
 Correspondência entre sons e escrita:
 Epêntese – “Capta” é paroxítona?
 Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...
 Letra representando mais de um som: ‘r’, ‘s’, ‘x’...

fonológico
 Construindo um transcritor: Programação e Chave de transcrição
 Python
 Linguagem de programação simples e poderosa.
 Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.
 NLTK, Scikit-Learn, Pandas...
 Chave de transcrição baseada em Guide (2013):
 Cada caractere representa um som.
 Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais
 Codificação ASCII

fonológico
 Construindo o Corpus:
 Textos Escritos
 Artigos Acadêmicos (342.847 palavras)
 Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)
 Blogs (215.126 palavras)
 Textos Falados
ProjetoSP: (230.116 palavras)
60 entrevistas com diferentes perfis sociolinguisticos
Iboruna (corpus recebendo tratamento) :
151 entrevistas com diferentes perfis sociolinguisticos
11 de diário de campo
 Total: 2005339 palavras

Apontamentos
 Esse corpus servirá para a extração de padrões para alimentar
algumas abordagens probabilísticas para a questão do acento:
 Acentuador baseado em n-gramas.
 Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento
 Acentuador baseado em um classificador bayesiano ingênuo.
 Traços para a classificação podem incluir classe morfológica, frequência da palavra,
informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...

Bibliografia
 JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
 LEE, S.H (1995) – “Morfologia e
Fonologia lexical do Português
Brasileiro” – Tese de Doutorado –
UNICAMP
 BISOL, L. (Org.) (2010) . Introdução a
estudos de fonologia do português
brasileiro. 5º. ed. Porto Alegre:
ediPUCRS.
 GUIDE, B, F. (2013). Construção de um
silabificador probabilístico para o
português brasileiro. Iniciação científica
pela Universidade de São Paulo.
 Wetzels, W. L. and Hermans, B.
Productive and Unproductive stress
patterns in brazilian portuguese. (2012)
Revista Letras & Letras. v. 28.
 BYBEE, Joan. (2001). Phonology and
language use. Cambridge: Cambridge
University Press.
 BERBER SARDINHA, Tony. "O que é um
corpus representativo." Direct Papers
44 (2000).

Construindo corpus acento PB

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Construindo corpus acento PB

Ähnlich wie Construindo corpus acento PB (20)

Construindo corpus acento PB