Presentación de Stilus sobre "Lingüística de Corpus aplicada a la corrección automática y profesional" en Lenguando 2014 (Madrid)
Regístrate gratis en mystilus.com
Stilus es una marca de Daedalus, S. A.
1. 29 de marzo de 2014
Lingüística de Corpus aplicada
a la corrección automática y
profesional
Stilus es una marca de Daedalus, S. A.
2. Contenidos
¿Qué es la Lingüística de Corpus (LC)?
Los corpus de la Academia vs. el de Mark Davies
La LC en el ámbito de la corrección automática y profesional
« que es gerundio». Algunos casos prácticos
3. ¿Qué es la Lingüística de Corpus (LC)?
LC, ¿disciplina o metodología?
- de corpus. ???
4. 1. Ha de ser representativo
2. Ha de estar almacenado en formato electrónico
3. Sus contenidos deben estar etiquetados según unos
criterios lingüísticos «útiles»
4. Debe poder responder a tareas de recuperación
específicas
¿Qué es la Lingüística de Corpus (LC)?
El corpus en LC…
La Lingüística de Corpus
permite llevar a cabo
investigaciones empíricas en
contextos «reales».
5. Los corpus de la Academia vs. el de Mark Davies
Corpus RAE
6. Los corpus de la Academia vs. el de Mark Davies
+
=
CORDE CREA
8. Los corpus de la Academia vs. el de Mark Davies
www.corpusdelespanol.org
Pero si los filtros morfológicos de la
Academia no dan de sí, tenemos
otras opciones…
9. Los corpus de la Academia vs. el de Mark Davies
+ Gran volumen: CDH (+ 350 mill. de palabras);
CORPES XXI (se pretenden: 25 mill./año)
+ Codificación cuidadosa (proceso automático +
validación humana)
+ Filtros de búsqueda: año, país, tipo de texto,
área temática… + combinación de parámetros
+/- Filtros de búsqueda morfológica básica
+ Filtros de búsqueda con desambiguación
morfológica
- Incómodo para análisis morfológicos detallados
+ Brillante y cómoda interfaz de consulta: rasgos
formales, filtros morfológicos avanzados, filtros semánticos
(búsqueda por sinónimos)
+ Posible combinación de parámetros mediante
expresiones regulares
+ Rápida capacidad de respuesta
- Incómodo para análisis diacrónicos o diatópicos (filtro
temporal por siglos / filtro diatópico inexistente)
Corpus del españolCDH / CORPES XXI
10. La LC en el ámbito de la corrección automática y profesional
¿Para qué podría utilizar la Lingüística de Corpus
un corrector profesional?
11. La LC en el ámbito de la corrección automática y profesional
¿Por qué me interesa
automatizar procesos de
verificación textual?
Mejora la consistencia de la revisión
Garantiza el cumplimiento de la guía de
estilo / Normalización corporativa
Mejora mi eficiencia y eficacia
Aumenta mi productividad
y mis ingresos
12. La LC en el ámbito de la corrección automática y profesional
1
• Coleccionar patrones de errores frecuentes
2
• Conocer las capacidades del gestor de búsqueda y reemplazo de mi
editor o procesador de textos
3
• Estudiar la viabilidad de automatización de dichos patrones sobre
corpus
4
• Automatizar el reemplazo de los patrones que considere viables (p. ej.,
con macros sobre Word)
5
• Elegir un software de verificación textual sensible al contexto como
complemento
¿Qué puedo hacer yo como corrector autónomo?
13. «Lenguando que es gerundio». Algunos casos prácticos
¿Alguna vez has estado tentado
de automatizar la revisión de las
expresiones incorrectas incluidas en
un manual de dudas?
1. Apunta…
16. «Lenguando que es gerundio». Algunos casos prácticos
A veces, habrá que sopesar si automatizar merece la pena…
1 excepción de 31 casos
96,78 % de precisión
17. «Lenguando que es gerundio». Algunos casos prácticos
Y otras veces la automatización no estará a mi alcance…
/*
<test rule="ReglaHaPorA">
<case>Va <error>ha</error> hacer la reforma de su vida.</case>
<case>Se alquila habitación <error>ha</error> estudiantes.</case>
<case>Va a hacer la reforma de su vida.</case>
<case>Se alquila habitación a estudiantes.</case>
<case>Si ha lugar</case>
</test>
*/
RULE(L"ReglaHaPorA")
FORM_I(POS(N), L"ha") AND
UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG
TagVerbInfinitiveCompound OR_TAG
TagNoun) AND
!FORM_I(POS(N+1), L"lugar")
THEN
SUG_WORD(POS(N),L"a");
ADD_ERROR(Error_Spelling, POS(N), POS(N),
msg(ES, L"Posible confusión al emplear la forma verbal
auxiliar <i>ha</i> en vez de la preposición <i>a</i>.",
A1,
L"ReglaHaPorA");
END_RULE
Aquí entran en juego las
capacidades del verificador
automático que hayas elegido
18. «Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaTratamEnMayúscula#3">
<case>Vimos al <error>Presidente del Gobierno</error></case>
<case>Estuvimos allí durante la visita de la <error>Reina</error></case>
<case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case>
<case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case>
<case>Visitamos el Reina Sofía el domingo pasado </case>
<case>El Prof. Fernández imparte clase en esa universidad </case>
</test>
*/
RULE(L"ReglaTratamEnMayúscula#3")
EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND
!(FORM(POS(N), L"Reina Sofía") AND
FORM_I(POS(N-1), L"el|al|del")) AND
FIRST_LETTER_UPPERCASE(POS(N)) AND
!EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND
!ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND
!IS_FIRST_WORD(POS(N))
THEN
SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N)));
ADD_ERROR(Error_Typographic, POS(N), POS(N),
msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse
con minúscula.",
Check_OLE10,
C2,
L"ReglaTratamEnMayúscula#3");
END_RULE
19. «Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaNoSolo,Pero">
<case>No solo destruyó nuestra historia, <error>pero</error> también cambió
nuestro nombre</case>
<case>No solo destruyó nuestra historia, sino también cambió nuestro
nombre</case>
<case>Fue a comprar el pan, pero también compró chorizo</case>
</test>
*/
RULE(L"ReglaNoSolo,Pero")
EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND
FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND
FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND
EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND
FORM(POS(N+1), L",") AND
FORM_I(POS(N+2), L"pero")
THEN
SUG_WORD(POS(N+2), L"sino");
ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2),
msg(ES, L"Posiblemente no haya utilizado la conjunción
adecuada.",
B2,
L"ReglaNoSolo,Pero");
END_RULE
20. «Lenguando que es gerundio». Algunos casos prácticos
Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad
de verificación sintáctico-semántica, también nos ayuda en la detección masiva
de errores independientes del contexto…
21. ¡Gracias por vuestra atención!
Concepción Polo
Responsable de Lingüística
cpolo@daedalus.es
Daedalus, S. A.
Tel.: +34 913324301
http://www.daedalus.es