Baladão sobre Variação Linguistica para o spaece.pptx
Corpobras:um corpus representativo do portugues do brasil
1. VIII Encontro de Corpus
Novembro, 2009
UERJ
CORPOBRAS:
UM CORPUS REPRESENTATIVO DO
PORTUGUÊS DO BRASIL
Lúcia Pacheco de Oliveira (PUC-Rio)
(PUC-
Rubiane Guilherme Valério (PUC-Rio)
(PUC-
Maria Geralda Pereira Lanziotti (FSB-RJ)
(FSB-
Renata Maria Cantanhede Amarante (PUC-Rio)
(PUC-
5. CORPOBRAS PUC-Rio
Projeto: ‘Compilação de um corpus
Projeto:
representativo do português do
Brasil e análise multidimensional da
variação entre gêneros discursivos’.
discursivos’.
(Edital Universal CNPq 480143/2004-8)
480143/2004-
6. CORPOBRAS PUC-Rio
Objetivos:
Objetivos:
Estudo de diversos gêneros do discurso oral,
escrito e escrito para ser falado.
falado.
Descrição abrangente do português do
Brasil.
Brasil.
Análise da variação multidimensional entre
textos e gêneros discursivos (Biber, 1988).
1988)
7. Análise Multidimensional
Variação entre 23 gêneros do inglês (fala e escrita)
Corpus: aprox. 1.000.000 palavras
Base estatística: Análise Fatorial
(Biber, 1988, 1995)
8. Fases do projeto CORPOBRAS:
a) Coleta inicial:
1997-
1997- 2002: Compilação de gêneros acadêmicos e profissionais
(inglês / português)
227.440 palavras.
b) Ampliação do corpus:
2003 - 2005: Compilação prioritária de gêneros do discurso escrito.
660.000 palavras
c) Ampliação e organização:
2006 - 2007: Compilação prioritária de gêneros do discurso oral e
escrito para ser falado.
2008 - 2009: Compilação mista de gêneros do discurso oral e
escrito.
META: 1.000.000 palavras
9. Organização do corpus:
Textos compilados em fontes diversas,
identificados, codificados e gravados em duas
versões, TXT e DOC.
Metadados para os gêneros, contendo
informações sobre cada texto.
Textos arquivados separadamente e em
conjunto, de acordo com cada gênero
discursivo.
10. Composição do CORPOBRAS:
Corpora cedidos por Projetos de Pesquisa
do Departamento de Letras.
Aquisição de linguagem(LAPAL):
• conversas com crianças
• (84.573 palavras)
Análise da conversa/Sociointeracional
• atendimentos ao cliente
• (215.671 palavras)
11. Composição do CORPOBRAS:
Corpora específicos compilados por alunos de PG para teses e
dissertações:
notícias de jornal do Rio de Janeiro e São Paulo; classificadas
em 5 editorias: cidade, cultura, economia, esportes e país.
cidade, cultura, economia,
(40.409 palavras).
redações de vestibular do Rio de Janeiro e Minas Gerais; 4
universidades; classificadas de acordo com as notas.
(28.523 palavras).
Textos compilados especialmente para o corpus.
12. CORPOBRAS PUC-Rio
Características
Modo: Oral, Escrito e Escrito para ser falado
Tempo: Contemporâneo
Seleção: Amostragem equilibrada
Conteúdo: Diversidade discursiva
Autores: Língua nativa (português L1)
Finalidade: Estudo da variação entre gêneros
Representatividade: Variedade de gêneros
13. Representatividade
O que está sendo representado, ou seja, de que representatividade estamos
falando?
Segundo Sardinha (2004), quando falamos de um corpus representativo,
2004),
temos de considerar três questões: do que, para que, para quem?
questões:
Do que ?
Representação de uma ampla variação das possibilidades da escrita na língua
portuguesa.
portuguesa. (Lanziotti, 2002).
2002)
Gêneros Número de palavras
por gênero
E-mail 1.842
Carta pessoal 7.813
Carta profissional 3.150
Redação 3.387
Artigo científico 13.873
Editorial 7.915
Notícia 4.756
Circular 2.592
Discurso político 7.205
Romance 13.041
Crônica 10.179
Total 75.753
14. Representatividade
Compilação de corpus / Representatividade
Os textos devem ser produzidos por falantes / escritores nativos da língua;
Os textos devem ser produzidos por falantes / escritores únicos;
Os textos devem ser produzidos em diferentes regiões do país para
representar a variedade regional de forma abrangente.
(Oliveira e Dias, no prelo)
15. Variedade regional
Gênero Origem das amostras Quantidade
Jornal O Globo 3
Jornal do Brasil 4
Jornal O Povo do Rio 3
Jornal Estado de São Paulo 1
Jornal de Santa Catarina 1
Editorial Jornal de Brasília 1
Jornal Tribuna de Alagoas 1
Jornal A Notícia 1
Jornal de Hoje 1
Jornal O Globo 3
Jornal do Brasil 4
Jornal O Povo do Rio 3
Jornal Estado de São Paulo 1
Jornal de Santa Catarina 1
Notícia Jornal de Brasília 1
Jornal Tribuna de Alagoas 1
Jornal A Notícia 1
Jornal de Hoje 1
16. Representatividade
Controle quanto à variedade de assuntos dos textos e às áreas de
atuação dos escritores, ou seja, os textos não somente abordam temas
diferentes como também, geralmente, são provenientes de diferentes
áreas de conhecimento;
conhecimento;
Controle do aspecto tempo. A maioria dos textos coletados foram
tempo.
escritos a partir de 1990, e somente as cartas pessoais e os romances
1990,
foram escritos ao longo dos últimos 100 anos (1901-2001);
1901-2001)
Em relação ao tamanho do corpus: valores foram fixados a partir da
corpus:
comparação de valores utilizados em estudos multidimensionais
anteriores (Biber, 1995).
1995)
Em relação ao tamanho das amostras: 1000 palavras são capazes de
amostras:
representar vários traços gramaticais (Biber, Conrad e Reppen, 1998);
1998)
Em relação à quantidade de textos: 10 textos são capazes de
textos:
representar as categorias de gêneros de um corpus (cf. LOB) (Biber,
(cf.
1990)
1990)
17. CORPOBRAS 2009
Tamanho:
Aproximadamente 1.200.000 palavras (Médio-grande)
(Médio-
Total de gêneros: 26
Discurso escrito: 19 Gêneros
Discurso oral: 5 Gêneros
Discurso escrito para ser falado: 2 Gêneros
18. CORPOBRAS PUC-Rio
Fontes dos dados:
Escaneamento
Impressas
Digitação
Fontes Digitalizadas Formatação
Orais Transcrição
67 %
Conversão
em txt
19. CORPOBRAS PUC-Rio
Organização dos Metadados
1. Codificação dos textos:
ex.: CONCAR1PORT1
2. Levantamento de metadados:
Nome do gênero
Assunto do texto
Participantes (idade, sexo, profissão, zona residencial)
Registro (data, duração)
3. Contagem de palavras:
Por texto
Por gênero
20. CORPOBRAS PUC-Rio
Metadados
Duração
Zona da Total
Código Tema Sexo Idade Profissão residencial conversa de palavras
Professor de
CONCAR1PORT1 Alimentação Masculino 29 anos biologia Suburbana 47 minutos 7213
CONCAR2PORT1 Alimentação Feminino 30 anos Advogada Sul 46 minutos 6526
Professor de
CONCAR3PORT1 Alimentação Masculino 44 anos desenho Suburbana 52 minutos 8435
Professora de
CONCAR4PORT1 Alimentação Feminino 37 anos psicologia Suburbana 43 minutos 7470
Administração
CONCAR5PORT1 Alimentação Masculino 55 anos pública Suburbana 48 minutos 6830
Professora de
CONCAR6PORT1 Alimentação Feminino 44 anos filosofia Sul 43 minutos 5511
CONCAR7PORT1 Alimentação Masculino 57 anos Dentista Suburbana 52 minutos 10252
21. CORPOBRAS PUC-Rio 2009
Discurso Escrito
Número de
Gêneros Número de textos palavras
Artigos científico 12 69.274
Cartas ao editor 18 1.054
Cartas de reclamação 136 21.417
Cartas de recomendação 31 6.012
Cartas pessoais 16 7.829
Cartas profissionais 16 3.166
Cartas profissionais acadêmica 15 3.529
Circulares 16 2.608
Contos 14 15.253
Crônicas 26 17.434
Dissertações e Teses (Introduções e Conclusões) 32 69.447
Editoriais 16 7.931
E-mails acadêmicos 15 1.816
E-mails pessoais 16 1.858
Notícias de jornal 99 40.409
Redações de alunos universitários 91 25.065
Redações de ensino médio 40 9.495
Redações de vestibular 139 28.523
Romances 28 27.061
Total 776 349.686
22. CORPOBRAS PUC-Rio 2009
Discurso Oral
Conversas cariocas 53 353.678
Conversas de crianças 94 84.573
Entrevistas (acadêmicas) 17 88.769
Grupos de enfoque 7 40.513
Atendimento ao cliente 393 215.671
Total 564 783.204
Discurso Escrito para ser Falado
Discursos Políticos 27 22.751
Roteiros cinematográficos 18 17.180
Total 55 39.931
Total de palavras no corpus : 1. 172.821
Total de textos no corpus: 1. 395
24. CORPOBRAS PUC-Rio
Gêneros coletados para compilação
Discurso oral:
Check-
Check-in de companhia aérea;
aérea;
Narrativas orais;
Narrativas de sala de aula;
Atendimentos de serviço em empresa de
telefonia;
Reuniões de negócios.
Discurso escrito:
Memorial;
Redações de ensino médio
25. Pesquisas baseadas no
CORPOBRAS PUC-Rio
Análises automáticas (e semi-automáticas) com o
semi-
auxílio de ferramentas computacionais, como o
WordSmith Tools.
Tools.
Análises quantitativas de base estatística, com
auxílio de programas como o SPSS.
SPSS.
Análises de sub-corpora do CORPOBRAS, com
sub-
uso menos intenso do computador para extrair as
evidências lingüísticas.
26. Pesquisas baseadas no CORPOBRAS:
Interfaces
Linguística Sistêmico-Funcional e Linguística de Corpus:
Sistêmico-
Aspecto social da linguagem
Análise de textos reais que ocorrem naturalmente na língua
Base em probabilidades
(Thompson & Hunston, 2007)
Linguística Aplicada e Linguística de Corpus:
Conexão através da lingüística descritiva.
Descrição de fatos lingüísticos para lidar com questões práticas.
Base em uma ‘lingüística realista’, desenvolvida a partir do
discurso e comprovada por ocorrências.
(Hunston, 2002)
27. Pesquisas baseadas no
CORPOBRAS PUC-Rio
Abordagens de corpus com foco na análise do
discursivo em português do Brasil :
1. Investigar características associadas com o uso de um
traço linguístico.
2. Examinar a realização de uma função específica da
língua.
3. Caracterizar uma variedade da língua ou um gênero
discursivo.
(Conrad, 2002)
28. CORPOBRAS:
Características do uso de um traço
linguístico.
Uso de nominalizações em:
Artigos acadêmicos de nutrição e linguística
Introduções e conclusões de teses e dissertações
Teses e dissertações de literatura e lingüística
Redações de ensino médio
WordSmith Tools: Listas de palavras e
Concordâncias
(Valério, Brito e Oliveira, 2007; Oliveira e Valério, aceito; Castro, 2009 )
29. CORPOBRAS:
Nominalizações em artigos acadêmicos
Corpus: Artigos de Pesquisa em inglês
Corpus: Nominalizações
70
e em português de periódicos nas áreas 64,34
de Nutrição e Linguística (approx.
(approx. 60
130.
130.000 palavras).
palavras). 54,5
Amostras : 24 (approx. 1.000 palavras)
(approx. 50
12 em inglês; 12 em português)
inglês; 42,7 40,73
Sessões:
Sessões: introdução, metodologia, 40
Médias
resultados, discussão
Análise: Frequências de 30
nominalazações selecionadas a 20
partir de agnate verbs; buscas
baseadas em sufixação paralela: 10
(e.x.: -tion/ção,ssão; -ance,ence/-
ance,ence/-
cia; -ment/mento; -er/dor); 0
Nutrição Linguística Nutrição Linguística
Concordâncias geradas para cada Inglês Inglês Português Português
sufixo em cada texto.
(Oliveira, 2006)
30. CORPOBRAS:
Realização de uma função específica
da língua.
Análise sistêmico-funcional (Halliday, 1994 , Halliday e Matthiessen,
sistêmico-
2004)
A transitividade em textos de professores sobre a sua profissão
WordSmith Tools: Listas de palavras e concordâncias
Processos em notícias em que jornalistas falam de si mesmos
WordSmith Tools: Listas de palavras e concordâncias
(Barroso, 2009; Amarante, 2009).
31. CORPOBRAS:
Caracterizar uma variedade da
língua ou um gênero discursivo.
Análise multidimensional (Biber, 1988, 1995):
Redações de alunos universitários em português e inglês
Explicitação do contexto em 11 gêneros do discurso escrito
(Oliveira, 2002, Lanziotti, 2002)
32. Análise multidimensional de
redações de alunos universitários
Explicitação do Contexto Situacional e
Estilo Reduzido de Sentença
Cultural
8
Inglês (L1)
0
6
-0,5
Português 4
(L1)
-1
2
-1,5
Escores
Esco res
0
-2
-2
-2,5
-4
Português
-3 Inglês (L1) -6 (L1)
-3,5
-8
Não-Explicitação do contexto situacional e
cultural Estilo Elaborado de Sentença
33. CORPOBRAS PUC-Rio
Projeto atual:
Escrita e inclusão social: análise de corpus e a metáfora
gramatical no ensino médio
(Edital FAPERJ – Humanidades, 2009-2010)
2009-
Grupo de Pesquisa CNPQ: Lingüística sistêmico-funcional, lingüística
sistêmico-
de corpus e análise do discurso (PUC-Rio, 2006)
(PUC-
34. Etapas futuras:
Expansão da compilação: incorporação de gêneros
já coletados
Organização dos novos gêneros: Codificação e
metadados
Autorização das fontes: Próximas e remotas
Anotação do corpus: Linguateca?
Licenciamento
Distribuição parcial on-line (2010)
on-
Distribuição total on-line (2011)
on-
35. Referências
AMARANTE, R. M. C. (2009). Heróis de Papel: A representação do
2009) Papel:
jornalista em notícias de guerra e esporte através da perspectiva
sistêmico-
sistêmico-funcional e de corpus. Tese de Doutorado, Departamento
corpus.
de Letras, Rio de Janeiro: PUC-Rio.
Janeiro: PUC-Rio.
CASTRO, L.A. (2009). Escrita e letramento no Ensino Médio: Uma
2009) Médio:
abordagem sistêmico-funcional e de Lingüística Aplicada. Dissertação
sistêmico- Aplicada.
de Mestrado, Departamento de Letras. Rio de Janeiro: PUC-Rio.
Letras. Janeiro: PUC-Rio.
BARROSO, S. C. (2009). A construção discursiva da profissão
2009)
‘professor’:
‘professor’: Tematizando e representando práticas e crenças. crenças.
Dissertação de Mestrado, Departamento de Letras, PUC-Rio.
PUC-Rio.
BIBER, D. (1988). -Variation Across Speech and Writing.-
1988) Writing.-
Cambridge:
Cambridge: Cambridge University Press.Press.
BIBER, D. (1990). Methodological issues regarding corpus-based
1990) corpus-
analises of linguistic variation. Literary and Linguistics Computing, 5 :
variation. Computing,
257-269.
257-269.
36. BIBER, D. (1995). Dimensions of Register Variation: A Cross-linguistic Comparison.
1995) Variation: Cross- Comparison.
Cambridge:
Cambridge: Cambridge University Press.(Biber, 1995).
Press. 1995)
BIBER, D., CONRAD, S. & REPPEN, R. (1998). Corpus Linguistics: Investigating
1998) Linguistics:
Language Structure and Use. Cambridge
Use.
CONRAD, S. (2002). Corpus linguisitcs approaches for discourse analysis. Annual
2002) analysis.
Review of Applied Linguistics. 22, 75-95.
Linguistics. 22, 75-95.
HALLIDAY, M. A. K (1994). An Introduction to Functional Grammar. London:
1994) Grammar. London:
Edward Arnold. 2ª ed.
Arnold. ed.
HALLIDAY, M. A. K & MATTHIESSEN, C. M (2004). An Introduction to
2004)
Functional Grammar. London: Hodder Arnold. 3ª ed.
Grammar. London: Arnold. ed.
HUSTON, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge
2002) Linguistics. Cambridge:
University Press.
Press.
LANZIOTTI, M.G. P. (2002). Variação de gêneros discursivos: A explicitação do
2002) discursivos:
contexto em um corpus do português escrito. Dissertação de Mestrado, Departamento
escrito.
de Letras, PUC-Rio. (Teubert, 199).
PUC-Rio. 199)
Linguateca: http://www.linguateca.
Linguateca: http://www.linguateca.pt/
NLTK (The Natural Language Toolkit )
http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml
OLIVEIRA, L. P. (2002). Explicitação do contexto em textos de alunos brasileiros e
2002)
americanos.
americanos. Palavra 8, 112-126.
112-126.
OLIVEIRA, L. P. (2006). Grammatical metaphor in research articles: Linguistic and
disciplinary contrasts. Trabalho apresentado na American Association for Applied
Linguistics and the Canadian Association for Applied Linguistics Conference
(AAAL/CAAL), Montreal, Canada
37. OLIVEIRA, L. P. ; DIAS, M. C. P. (no prelo) Compilação de corpus: corpus:
Representatividade e o CORPOBRAS. Calidoscópio.
CORPOBRAS. Calidoscópio.
OLIVEIRA, L.P E VALÉRIO, R. (aceito). A metáfora gramatical na
construção discursiva de gêneros do contexto pedagógico X Forum de Estudos
Linguísticos, Rio de janeiro, UERJ. Publicação on-line.
SARDINHA, T. B. (2004). Lingüística de Corpus. Manole: São Paulo
2004) Corpus. Manole:
THOMPSON, G. & HUNSTON, S. (Eds) (2006). System and Corpus:
Exploring Connections . London: Equinox.
TURUNEN, V. J. (2009). A reversão da relevância: aspectos semânticos e
2009) relevância:
pragmáticos de formações diminutivas no português do Brasil. Tese de
Brasil.
Doutorado, Departamento de Letras. Rio de Janeiro: PUC-Rio.
Letras. Janeiro: PUC-Rio.
VALÉRIO, R. G., BRITO, M. G. & OLIVEIRA, L.P (2007). CORPOBRAS
2007)
PUC-Rio:
PUC-Rio: Um corpus do Português do Brasil e análise do discurso acadêmico.
acadêmico.
Caderno de Resumos do VII Encontro da Ciência Empírica de Letras. Rio de
Letras.
Janeiro:
Janeiro: UFRJ, p.85.
85.