As abordagens computacionais utilizadas no desenvolvimento de análises de questões linguísticas são fortemente baseadas no uso de corpora.
O desenvolvimento e constituição da linguística computacional como uma abordagem científica se deu fortemente através da visão da computação como uma ferramenta de construção de corpus linguístico com um volume de informação sem precedentes. Além da construção, o desenvolvimento de algoritmos para a análise dessas enormes quantidades de informação está no cerne da linguística computacional.
É dentro deste contexto que se insere o projeto desenvolvido desde o começo do ano de 2014 junto ao departamento de linguística da Universidade de São Paulo, intitulado 'Abordagem computacional para a questão do acento no Português Brasileiro', desenvolvido por Bruno Guide e orientado pelo professor doutor Marcelo Ferreira.
A ideia do projeto é analisar as principais teorias que investigam a questão do acento (Bisol 1992 e Lee 1994) e ao mesmo tempo traçar um perfil detalhado do comportamento do acento no idioma.
O perfil traçado foi feito a partir da montagem de um corpus relevante para a ocasião, o que levanta uma série de questões metodológicas: O que é, em termos quantitativos e qualitativos, um corpus relevante para a questão do acento? É possível construir o corpus, que tratará de fonologia prosódica, a partir de textos escritos? Quais variáveis devem ser levadas em conta na constituição do corpus?
A fim de responder tais perguntas e conceber um corpus que seguisse as práticas metodológicas oriundas dos estudos especializados da área da linguística de corpus, o desenvolvimento do projeto foi conduzido de modo cuidadoso através da leitura e reconhecimento das práticas explicitadas por grandes pesquisadores da área, como Sardinha (2004).
A presente comunicação irá expor o corpus construído, a ferramenta computacional desenvolvida para fazer a transição escrita-oral (em conjunto com a pesquisadora Aline Benevides) e os primeiros resultados da descrição do perfil do comportamento do acento no Português Brasileiro.
1. Concebendo e construindo um
corpus
para a questão do acento no
Português
Brasileiro
Bruno Ferrari Guide
Orientação: Marcelo Barra Ferreira
Universidade de São Paulo
2015
2. Objetivos
Apresentar a questão do acento no Português Brasileiro:
Perfil do acento no PB
Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))
Alcance das teorias
Abordagem computacional:
Criação e Implementação de modelos
Extração de padrões de copora diversos
Construindo um corpus:
Fala versus Escrita
Os diferentes registros
Apontamentos
3. O Acento no PB
Restrito as últimas três sílabas da palavra:
Oxítonas: ‘caqui’, ‘sordidez’
Paroxítonas: ‘corda’, ‘beleza’
Proparoxítonas: ‘último’, ‘metódico’
Comportamento previsível:
‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’
Flexões verbais;
Nomes não derivados morfologicamente apresentam um comportamento não
completamente previsível.
Levando em conta o peso silábico:
Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
4. O Acento no PB - perfil
Corpus ortográfico wikipedia:
Dicionário com 40.924 palavras listadas e já separadas de acordo com
categoria acentual.
Total 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%
5. O acento no PB - perfil
Maioria das palavras se encaixa nesses dois grupos:
Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% do total das palavras está representado aqui.
Paroxítonas 25967 100%
Paroxítonas terminadas em V. 20886 80%
Oxítonas 10183 100%
Oxítonas terminadas em C. 7888 77%
6. O acento no PB – perfil
Dos 30% que sobram:
12% são proparóxitonas
6% são oxítonas terminadas em vogal [consoante subjacente?]
12% são paroxítonas terminadas em consoantes [plural]
7. O acento no PB - Teorias
Abordagens teóricas (Bisol (1992), Lee (1995))
Bisol (1992):
Padrão-
Sílaba pesada final atrai o acento.
Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
Lee (1995):
Padrão (Verbos):
Na forma final da palavra, faça constituintes binários.
Elemento proeminente é o mais a esquerda do pé.
(Paroxítonas e proparoxítonas)
Exceções (Verbos):
Na forma final da palavra, o acento vai cair no elemento mais à direita.
(Oxítonas)
8. O acento no PB - Teorias
Abordagen teórica (Lee (1995))
Não verbos:
Padrão:
Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
Exceções:
No radical da palavra, derivar constituintes binários.
O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
(Paroxítonas terminadas em consoante, proparoxítonas)
Abordagem de Lee exige informações morfológicas, dá um novo sentido mas
não elimina a marcação arbitrária.
9. O acento no PB - Teorias
Abordagen teórica (Hermans & Wetzels (2012))
Os autores apresentam uma investigação sobre o acento baseada na
observação do comportamento dos falantes diantes de palavras
novas (neologismos).
A partir disso, entendem o funcionamento do acento através das
noções de padrão produtivo e padrão improdutivo.
Padrão produtivo obedece ao peso silábico, o improdutivo não.
10. Abordagem Computacional
Criação de modelos
Implementar as teorias a fim de fundamentar uma discussão quantitativa.
(Alcance das teorias)
Extração de padrões de copora diversos
Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?
A análise de um grande volume de dados, porém, exige um grande
volume de dados
11. Concebendo e construindo um corpus
fonológico
Necessidade de automatização
Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.
Fala versus Escrita – algumas diferenças
Correspondência entre sons e escrita:
Epêntese – “Capta” é paroxítona?
Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...
Letra representando mais de um som: ‘r’, ‘s’, ‘x’...
12. Concebendo e construindo um corpus
fonológico
Construindo um transcritor: Programação e Chave de transcrição
Python
Linguagem de programação simples e poderosa.
Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.
NLTK, Scikit-Learn, Pandas...
Chave de transcrição baseada em Guide (2013):
Cada caractere representa um som.
Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais
Codificação ASCII
13. Concebendo e construindo um corpus
fonológico
Construindo o Corpus:
Textos Escritos
Artigos Acadêmicos (342.847 palavras)
Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)
Blogs (215.126 palavras)
Textos Falados
ProjetoSP: (230.116 palavras)
60 entrevistas com diferentes perfis sociolinguisticos
Iboruna (corpus recebendo tratamento) :
151 entrevistas com diferentes perfis sociolinguisticos
11 de diário de campo
Total: 2005339 palavras
14. Apontamentos
Esse corpus servirá para a extração de padrões para alimentar
algumas abordagens probabilísticas para a questão do acento:
Acentuador baseado em n-gramas.
Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento
Acentuador baseado em um classificador bayesiano ingênuo.
Traços para a classificação podem incluir classe morfológica, frequência da palavra,
informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...
15. Bibliografia
JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
LEE, S.H (1995) – “Morfologia e
Fonologia lexical do Português
Brasileiro” – Tese de Doutorado –
UNICAMP
BISOL, L. (Org.) (2010) . Introdução a
estudos de fonologia do português
brasileiro. 5º. ed. Porto Alegre:
ediPUCRS.
GUIDE, B, F. (2013). Construção de um
silabificador probabilístico para o
português brasileiro. Iniciação científica
pela Universidade de São Paulo.
Wetzels, W. L. and Hermans, B.
Productive and Unproductive stress
patterns in brazilian portuguese. (2012)
Revista Letras & Letras. v. 28.
BYBEE, Joan. (2001). Phonology and
language use. Cambridge: Cambridge
University Press.
BERBER SARDINHA, Tony. "O que é um
corpus representativo." Direct Papers
44 (2000).