SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
Concebendo e construindo um
corpus
para a questão do acento no
Português
Brasileiro
Bruno Ferrari Guide
Orientação: Marcelo Barra Ferreira
Universidade de São Paulo
2015
Objetivos
 Apresentar a questão do acento no Português Brasileiro:
 Perfil do acento no PB
 Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))
 Alcance das teorias
 Abordagem computacional:
 Criação e Implementação de modelos
 Extração de padrões de copora diversos
 Construindo um corpus:
 Fala versus Escrita
 Os diferentes registros
 Apontamentos
O Acento no PB
 Restrito as últimas três sílabas da palavra:
 Oxítonas: ‘caqui’, ‘sordidez’
 Paroxítonas: ‘corda’, ‘beleza’
 Proparoxítonas: ‘último’, ‘metódico’
 Comportamento previsível:
 ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’
 Flexões verbais;
 Nomes não derivados morfologicamente apresentam um comportamento não
completamente previsível.
 Levando em conta o peso silábico:
 Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
O Acento no PB - perfil
 Corpus ortográfico wikipedia:
 Dicionário com 40.924 palavras listadas e já separadas de acordo com
categoria acentual.
Total 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%
O acento no PB - perfil
 Maioria das palavras se encaixa nesses dois grupos:
 Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
 Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% do total das palavras está representado aqui.
Paroxítonas 25967 100%
Paroxítonas terminadas em V. 20886 80%
Oxítonas 10183 100%
Oxítonas terminadas em C. 7888 77%
O acento no PB – perfil
 Dos 30% que sobram:
 12% são proparóxitonas
 6% são oxítonas terminadas em vogal [consoante subjacente?]
 12% são paroxítonas terminadas em consoantes [plural]
O acento no PB - Teorias
 Abordagens teóricas (Bisol (1992), Lee (1995))
 Bisol (1992):
Padrão-
 Sílaba pesada final atrai o acento.
 Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
 Lee (1995):
 Padrão (Verbos):
 Na forma final da palavra, faça constituintes binários.
 Elemento proeminente é o mais a esquerda do pé.
(Paroxítonas e proparoxítonas)
 Exceções (Verbos):
 Na forma final da palavra, o acento vai cair no elemento mais à direita.
 (Oxítonas)
O acento no PB - Teorias
 Abordagen teórica (Lee (1995))
 Não verbos:
 Padrão:
 Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
 Exceções:
 No radical da palavra, derivar constituintes binários.
 O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
(Paroxítonas terminadas em consoante, proparoxítonas)
 Abordagem de Lee exige informações morfológicas, dá um novo sentido mas
não elimina a marcação arbitrária.
O acento no PB - Teorias
 Abordagen teórica (Hermans & Wetzels (2012))
 Os autores apresentam uma investigação sobre o acento baseada na
observação do comportamento dos falantes diantes de palavras
novas (neologismos).
 A partir disso, entendem o funcionamento do acento através das
noções de padrão produtivo e padrão improdutivo.
 Padrão produtivo obedece ao peso silábico, o improdutivo não.
Abordagem Computacional
 Criação de modelos
 Implementar as teorias a fim de fundamentar uma discussão quantitativa.
(Alcance das teorias)
 Extração de padrões de copora diversos
 Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?
 A análise de um grande volume de dados, porém, exige um grande
volume de dados
Concebendo e construindo um corpus
fonológico
 Necessidade de automatização
 Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.
 Fala versus Escrita – algumas diferenças
 Correspondência entre sons e escrita:
 Epêntese – “Capta” é paroxítona?
 Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...
 Letra representando mais de um som: ‘r’, ‘s’, ‘x’...
Concebendo e construindo um corpus
fonológico
 Construindo um transcritor: Programação e Chave de transcrição
 Python
 Linguagem de programação simples e poderosa.
 Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.
 NLTK, Scikit-Learn, Pandas...
 Chave de transcrição baseada em Guide (2013):
 Cada caractere representa um som.
 Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais
 Codificação ASCII
Concebendo e construindo um corpus
fonológico
 Construindo o Corpus:
 Textos Escritos
 Artigos Acadêmicos (342.847 palavras)
 Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)
 Blogs (215.126 palavras)
 Textos Falados
ProjetoSP: (230.116 palavras)
60 entrevistas com diferentes perfis sociolinguisticos
Iboruna (corpus recebendo tratamento) :
151 entrevistas com diferentes perfis sociolinguisticos
11 de diário de campo
 Total: 2005339 palavras
Apontamentos
 Esse corpus servirá para a extração de padrões para alimentar
algumas abordagens probabilísticas para a questão do acento:
 Acentuador baseado em n-gramas.
 Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento
 Acentuador baseado em um classificador bayesiano ingênuo.
 Traços para a classificação podem incluir classe morfológica, frequência da palavra,
informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...
Bibliografia
 JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
 LEE, S.H (1995) – “Morfologia e
Fonologia lexical do Português
Brasileiro” – Tese de Doutorado –
UNICAMP
 BISOL, L. (Org.) (2010) . Introdução a
estudos de fonologia do português
brasileiro. 5º. ed. Porto Alegre:
ediPUCRS.
 GUIDE, B, F. (2013). Construção de um
silabificador probabilístico para o
português brasileiro. Iniciação científica
pela Universidade de São Paulo.
 Wetzels, W. L. and Hermans, B.
Productive and Unproductive stress
patterns in brazilian portuguese. (2012)
Revista Letras & Letras. v. 28.
 BYBEE, Joan. (2001). Phonology and
language use. Cambridge: Cambridge
University Press.
 BERBER SARDINHA, Tony. "O que é um
corpus representativo." Direct Papers
44 (2000).
Obrigado pela atenção!

Weitere ähnliche Inhalte

Was ist angesagt?

Exercicios da-esaf-claudia-kozlowski
Exercicios da-esaf-claudia-kozlowskiExercicios da-esaf-claudia-kozlowski
Exercicios da-esaf-claudia-kozlowskielma vieira
 
Pontuação em redação
Pontuação em redaçãoPontuação em redação
Pontuação em redaçãoCynthia Funchal
 
Reforma ortográfica da língua portuguesa
Reforma ortográfica da língua portuguesaReforma ortográfica da língua portuguesa
Reforma ortográfica da língua portuguesaPortal do Vestibulando
 
Regras ortograficas (1)
Regras ortograficas (1)Regras ortograficas (1)
Regras ortograficas (1)Sonia Beth
 
Apostila Câmara Ribeirão Bonito 2016
Apostila Câmara Ribeirão Bonito 2016Apostila Câmara Ribeirão Bonito 2016
Apostila Câmara Ribeirão Bonito 2016Juliane Cristine
 
Coesão textual e operadores argumentativos
Coesão textual e operadores argumentativosCoesão textual e operadores argumentativos
Coesão textual e operadores argumentativosWillma Frazão
 
Ortografia e acentuação gráfica
Ortografia e acentuação gráficaOrtografia e acentuação gráfica
Ortografia e acentuação gráficaAdeildo Júnior
 
IV encontro de pesquisas do francês_gisele galafacci
IV encontro de pesquisas do francês_gisele galafacciIV encontro de pesquisas do francês_gisele galafacci
IV encontro de pesquisas do francês_gisele galafacciGisele Galafacci
 
Aula 4 concordância parte 2
Aula 4   concordância parte 2Aula 4   concordância parte 2
Aula 4 concordância parte 2J M
 
Power point acordo ortográfico
Power point acordo ortográficoPower point acordo ortográfico
Power point acordo ortográficomargaridafonseca63
 
Novo Acordo Ortografico 1
Novo Acordo Ortografico 1Novo Acordo Ortografico 1
Novo Acordo Ortografico 1Newton Campos
 
Novo Acordo Ortográfico de Língua Portuguesa ( 1990)
Novo Acordo Ortográfico  de Língua Portuguesa ( 1990)Novo Acordo Ortográfico  de Língua Portuguesa ( 1990)
Novo Acordo Ortográfico de Língua Portuguesa ( 1990)Cristina Seiça
 

Was ist angesagt? (20)

Exercicios da-esaf-claudia-kozlowski
Exercicios da-esaf-claudia-kozlowskiExercicios da-esaf-claudia-kozlowski
Exercicios da-esaf-claudia-kozlowski
 
Pontuação em redação
Pontuação em redaçãoPontuação em redação
Pontuação em redação
 
Nova Ortografia
Nova OrtografiaNova Ortografia
Nova Ortografia
 
Aula1.0.pptx
Aula1.0.pptxAula1.0.pptx
Aula1.0.pptx
 
Reforma ortográfica da língua portuguesa
Reforma ortográfica da língua portuguesaReforma ortográfica da língua portuguesa
Reforma ortográfica da língua portuguesa
 
Regras ortograficas (1)
Regras ortograficas (1)Regras ortograficas (1)
Regras ortograficas (1)
 
Apostila Câmara Ribeirão Bonito 2016
Apostila Câmara Ribeirão Bonito 2016Apostila Câmara Ribeirão Bonito 2016
Apostila Câmara Ribeirão Bonito 2016
 
Coesão textual e operadores argumentativos
Coesão textual e operadores argumentativosCoesão textual e operadores argumentativos
Coesão textual e operadores argumentativos
 
Português 10º ano
Português 10º anoPortuguês 10º ano
Português 10º ano
 
Ortografia e acentuação gráfica
Ortografia e acentuação gráficaOrtografia e acentuação gráfica
Ortografia e acentuação gráfica
 
Acordo ortográfico ppt
Acordo ortográfico pptAcordo ortográfico ppt
Acordo ortográfico ppt
 
IV encontro de pesquisas do francês_gisele galafacci
IV encontro de pesquisas do francês_gisele galafacciIV encontro de pesquisas do francês_gisele galafacci
IV encontro de pesquisas do francês_gisele galafacci
 
Aula 4 concordância parte 2
Aula 4   concordância parte 2Aula 4   concordância parte 2
Aula 4 concordância parte 2
 
Novo acordo ortográfico[1]
Novo acordo ortográfico[1]Novo acordo ortográfico[1]
Novo acordo ortográfico[1]
 
Novo acordo ortográfico
Novo acordo ortográficoNovo acordo ortográfico
Novo acordo ortográfico
 
Jacira acentuacao grafica
Jacira acentuacao graficaJacira acentuacao grafica
Jacira acentuacao grafica
 
Power point acordo ortográfico
Power point acordo ortográficoPower point acordo ortográfico
Power point acordo ortográfico
 
Novo Acordo Ortografico 1
Novo Acordo Ortografico 1Novo Acordo Ortografico 1
Novo Acordo Ortografico 1
 
Nova ortografia
Nova ortografiaNova ortografia
Nova ortografia
 
Novo Acordo Ortográfico de Língua Portuguesa ( 1990)
Novo Acordo Ortográfico  de Língua Portuguesa ( 1990)Novo Acordo Ortográfico  de Língua Portuguesa ( 1990)
Novo Acordo Ortográfico de Língua Portuguesa ( 1990)
 

Ähnlich wie Construindo corpus acento PB

Seminário sobre a Escrita Alfabetica.pptx
Seminário sobre a Escrita Alfabetica.pptxSeminário sobre a Escrita Alfabetica.pptx
Seminário sobre a Escrita Alfabetica.pptxRBA
 
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
Pnaic unidade 3   sea - sistema de escrita alfabetica  1º encontroPnaic unidade 3   sea - sistema de escrita alfabetica  1º encontro
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontrotlfleite
 
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
Pnaic unidade 3   sea - sistema de escrita alfabetica  1º encontroPnaic unidade 3   sea - sistema de escrita alfabetica  1º encontro
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontrotlfleite
 
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdf
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdfPortugues Plano de Aula Ortografia Acentuando 4º ano.pdf
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdfAdryasophiaRochapied
 
Bruno Guide- Apresentação de Projeto
Bruno Guide- Apresentação de ProjetoBruno Guide- Apresentação de Projeto
Bruno Guide- Apresentação de ProjetoBruno Guide
 
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...Diogo L. V. G. Rubert
 
Sea sistema de escrita alfabética slide
Sea   sistema de escrita alfabética  slideSea   sistema de escrita alfabética  slide
Sea sistema de escrita alfabética slidetlfleite
 
Lingua portuguesa teoria e testes
Lingua portuguesa teoria e testesLingua portuguesa teoria e testes
Lingua portuguesa teoria e testesDaniele Costa
 
Ens fund gabriela_apres
Ens fund gabriela_apresEns fund gabriela_apres
Ens fund gabriela_apresRosi Whindson
 
Ortografia Slides da Aula
Ortografia Slides da AulaOrtografia Slides da Aula
Ortografia Slides da AulaClaudiaDemolin
 
Exercícios sobre aspectos da língua culta, o subjuntivo
Exercícios sobre aspectos da língua culta, o subjuntivoExercícios sobre aspectos da língua culta, o subjuntivo
Exercícios sobre aspectos da língua culta, o subjuntivoma.no.el.ne.ves
 
Pnaic unidade 3 ensino da ortografia
Pnaic unidade 3   ensino da ortografiaPnaic unidade 3   ensino da ortografia
Pnaic unidade 3 ensino da ortografiatlfleite
 
Pnaic unidade 3 ensino da ortografia
Pnaic unidade 3   ensino da ortografiaPnaic unidade 3   ensino da ortografia
Pnaic unidade 3 ensino da ortografiatlfleite
 
Metas curriculares port_1ciclo
Metas curriculares port_1cicloMetas curriculares port_1ciclo
Metas curriculares port_1cicloHelena Rocha
 
Acentuação gráfica
Acentuação gráficaAcentuação gráfica
Acentuação gráficavinivs
 

Ähnlich wie Construindo corpus acento PB (20)

Seminário sobre a Escrita Alfabetica.pptx
Seminário sobre a Escrita Alfabetica.pptxSeminário sobre a Escrita Alfabetica.pptx
Seminário sobre a Escrita Alfabetica.pptx
 
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
Pnaic unidade 3   sea - sistema de escrita alfabetica  1º encontroPnaic unidade 3   sea - sistema de escrita alfabetica  1º encontro
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
 
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
Pnaic unidade 3   sea - sistema de escrita alfabetica  1º encontroPnaic unidade 3   sea - sistema de escrita alfabetica  1º encontro
Pnaic unidade 3 sea - sistema de escrita alfabetica 1º encontro
 
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdf
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdfPortugues Plano de Aula Ortografia Acentuando 4º ano.pdf
Portugues Plano de Aula Ortografia Acentuando 4º ano.pdf
 
ACENTUAÇÃO.pptx
ACENTUAÇÃO.pptxACENTUAÇÃO.pptx
ACENTUAÇÃO.pptx
 
Bruno Guide- Apresentação de Projeto
Bruno Guide- Apresentação de ProjetoBruno Guide- Apresentação de Projeto
Bruno Guide- Apresentação de Projeto
 
Oficina de ortografia 9 ano
Oficina de ortografia 9 anoOficina de ortografia 9 ano
Oficina de ortografia 9 ano
 
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...
PGBR2015 - O uso de funções de similaridade e distância entre strings adaptad...
 
Sea sistema de escrita alfabética slide
Sea   sistema de escrita alfabética  slideSea   sistema de escrita alfabética  slide
Sea sistema de escrita alfabética slide
 
Lingua portuguesa teoria e testes
Lingua portuguesa teoria e testesLingua portuguesa teoria e testes
Lingua portuguesa teoria e testes
 
Ens fund gabriela_apres
Ens fund gabriela_apresEns fund gabriela_apres
Ens fund gabriela_apres
 
Ortografia Slides da Aula
Ortografia Slides da AulaOrtografia Slides da Aula
Ortografia Slides da Aula
 
Exercícios sobre aspectos da língua culta, o subjuntivo
Exercícios sobre aspectos da língua culta, o subjuntivoExercícios sobre aspectos da língua culta, o subjuntivo
Exercícios sobre aspectos da língua culta, o subjuntivo
 
Pnaic unidade 3 ensino da ortografia
Pnaic unidade 3   ensino da ortografiaPnaic unidade 3   ensino da ortografia
Pnaic unidade 3 ensino da ortografia
 
Pnaic unidade 3 ensino da ortografia
Pnaic unidade 3   ensino da ortografiaPnaic unidade 3   ensino da ortografia
Pnaic unidade 3 ensino da ortografia
 
Metas curriculares port_1ciclo
Metas curriculares port_1cicloMetas curriculares port_1ciclo
Metas curriculares port_1ciclo
 
Gramatica no ensino_basico
Gramatica no ensino_basicoGramatica no ensino_basico
Gramatica no ensino_basico
 
Consciência Fonológica
Consciência FonológicaConsciência Fonológica
Consciência Fonológica
 
Acentuação gráfica
Acentuação gráficaAcentuação gráfica
Acentuação gráfica
 
Oficina de ortografia 3 ano
Oficina de ortografia 3 anoOficina de ortografia 3 ano
Oficina de ortografia 3 ano
 

Construindo corpus acento PB

  • 1. Concebendo e construindo um corpus para a questão do acento no Português Brasileiro Bruno Ferrari Guide Orientação: Marcelo Barra Ferreira Universidade de São Paulo 2015
  • 2. Objetivos  Apresentar a questão do acento no Português Brasileiro:  Perfil do acento no PB  Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))  Alcance das teorias  Abordagem computacional:  Criação e Implementação de modelos  Extração de padrões de copora diversos  Construindo um corpus:  Fala versus Escrita  Os diferentes registros  Apontamentos
  • 3. O Acento no PB  Restrito as últimas três sílabas da palavra:  Oxítonas: ‘caqui’, ‘sordidez’  Paroxítonas: ‘corda’, ‘beleza’  Proparoxítonas: ‘último’, ‘metódico’  Comportamento previsível:  ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’  Flexões verbais;  Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.  Levando em conta o peso silábico:  Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
  • 4. O Acento no PB - perfil  Corpus ortográfico wikipedia:  Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual. Total 40924 100% Oxítonas 10183 25% Paroxítonas 25967 63% Proparoxítonas 4774 12%
  • 5. O acento no PB - perfil  Maioria das palavras se encaixa nesses dois grupos:  Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]  Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER] Aproximadamente 70% do total das palavras está representado aqui. Paroxítonas 25967 100% Paroxítonas terminadas em V. 20886 80% Oxítonas 10183 100% Oxítonas terminadas em C. 7888 77%
  • 6. O acento no PB – perfil  Dos 30% que sobram:  12% são proparóxitonas  6% são oxítonas terminadas em vogal [consoante subjacente?]  12% são paroxítonas terminadas em consoantes [plural]
  • 7. O acento no PB - Teorias  Abordagens teóricas (Bisol (1992), Lee (1995))  Bisol (1992): Padrão-  Sílaba pesada final atrai o acento.  Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à esquerda (troqueu) partindo da borda direita da palavra.  Lee (1995):  Padrão (Verbos):  Na forma final da palavra, faça constituintes binários.  Elemento proeminente é o mais a esquerda do pé. (Paroxítonas e proparoxítonas)  Exceções (Verbos):  Na forma final da palavra, o acento vai cair no elemento mais à direita.  (Oxítonas)
  • 8. O acento no PB - Teorias  Abordagen teórica (Lee (1995))  Não verbos:  Padrão:  Elemento mais a direita do radical da palavra. (Paroxítonas terminadas em vogal, oxítonas)  Exceções:  No radical da palavra, derivar constituintes binários.  O item proeminente do constituinte é o mais a esquerda do pé. (iambo) (Paroxítonas terminadas em consoante, proparoxítonas)  Abordagem de Lee exige informações morfológicas, dá um novo sentido mas não elimina a marcação arbitrária.
  • 9. O acento no PB - Teorias  Abordagen teórica (Hermans & Wetzels (2012))  Os autores apresentam uma investigação sobre o acento baseada na observação do comportamento dos falantes diantes de palavras novas (neologismos).  A partir disso, entendem o funcionamento do acento através das noções de padrão produtivo e padrão improdutivo.  Padrão produtivo obedece ao peso silábico, o improdutivo não.
  • 10. Abordagem Computacional  Criação de modelos  Implementar as teorias a fim de fundamentar uma discussão quantitativa. (Alcance das teorias)  Extração de padrões de copora diversos  Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?  A análise de um grande volume de dados, porém, exige um grande volume de dados
  • 11. Concebendo e construindo um corpus fonológico  Necessidade de automatização  Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.  Fala versus Escrita – algumas diferenças  Correspondência entre sons e escrita:  Epêntese – “Capta” é paroxítona?  Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...  Letra representando mais de um som: ‘r’, ‘s’, ‘x’...
  • 12. Concebendo e construindo um corpus fonológico  Construindo um transcritor: Programação e Chave de transcrição  Python  Linguagem de programação simples e poderosa.  Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.  NLTK, Scikit-Learn, Pandas...  Chave de transcrição baseada em Guide (2013):  Cada caractere representa um som.  Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais  Codificação ASCII
  • 13. Concebendo e construindo um corpus fonológico  Construindo o Corpus:  Textos Escritos  Artigos Acadêmicos (342.847 palavras)  Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)  Blogs (215.126 palavras)  Textos Falados ProjetoSP: (230.116 palavras) 60 entrevistas com diferentes perfis sociolinguisticos Iboruna (corpus recebendo tratamento) : 151 entrevistas com diferentes perfis sociolinguisticos 11 de diário de campo  Total: 2005339 palavras
  • 14. Apontamentos  Esse corpus servirá para a extração de padrões para alimentar algumas abordagens probabilísticas para a questão do acento:  Acentuador baseado em n-gramas.  Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento  Acentuador baseado em um classificador bayesiano ingênuo.  Traços para a classificação podem incluir classe morfológica, frequência da palavra, informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...
  • 15. Bibliografia  JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.  LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado – UNICAMP  BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.  GUIDE, B, F. (2013). Construção de um silabificador probabilístico para o português brasileiro. Iniciação científica pela Universidade de São Paulo.  Wetzels, W. L. and Hermans, B. Productive and Unproductive stress patterns in brazilian portuguese. (2012) Revista Letras & Letras. v. 28.  BYBEE, Joan. (2001). Phonology and language use. Cambridge: Cambridge University Press.  BERBER SARDINHA, Tony. "O que é um corpus representativo." Direct Papers 44 (2000).