SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
29 de marzo de 2014
Lingüística de Corpus aplicada
a la corrección automática y
profesional
Stilus es una marca de Daedalus, S. A.
Contenidos
 ¿Qué es la Lingüística de Corpus (LC)?
 Los corpus de la Academia vs. el de Mark Davies
 La LC en el ámbito de la corrección automática y profesional
 « que es gerundio». Algunos casos prácticos
¿Qué es la Lingüística de Corpus (LC)?
LC, ¿disciplina o metodología?
- de corpus. ???
1. Ha de ser representativo
2. Ha de estar almacenado en formato electrónico
3. Sus contenidos deben estar etiquetados según unos
criterios lingüísticos «útiles»
4. Debe poder responder a tareas de recuperación
específicas
¿Qué es la Lingüística de Corpus (LC)?
El corpus en LC…
La Lingüística de Corpus
permite llevar a cabo
investigaciones empíricas en
contextos «reales».
Los corpus de la Academia vs. el de Mark Davies
Corpus RAE
Los corpus de la Academia vs. el de Mark Davies
+
=
CORDE CREA
Los corpus de la Academia vs. el de Mark Davies
Los corpus de la Academia vs. el de Mark Davies
www.corpusdelespanol.org
Pero si los filtros morfológicos de la
Academia no dan de sí, tenemos
otras opciones…
Los corpus de la Academia vs. el de Mark Davies
+ Gran volumen: CDH (+ 350 mill. de palabras);
CORPES XXI (se pretenden: 25 mill./año)
+ Codificación cuidadosa (proceso automático +
validación humana)
+ Filtros de búsqueda: año, país, tipo de texto,
área temática… + combinación de parámetros
+/- Filtros de búsqueda morfológica básica
+ Filtros de búsqueda con desambiguación
morfológica
- Incómodo para análisis morfológicos detallados
+ Brillante y cómoda interfaz de consulta: rasgos
formales, filtros morfológicos avanzados, filtros semánticos
(búsqueda por sinónimos)
+ Posible combinación de parámetros mediante
expresiones regulares
+ Rápida capacidad de respuesta
- Incómodo para análisis diacrónicos o diatópicos (filtro
temporal por siglos / filtro diatópico inexistente)
Corpus del españolCDH / CORPES XXI
La LC en el ámbito de la corrección automática y profesional
¿Para qué podría utilizar la Lingüística de Corpus
un corrector profesional?
La LC en el ámbito de la corrección automática y profesional
¿Por qué me interesa
automatizar procesos de
verificación textual?
Mejora la consistencia de la revisión
Garantiza el cumplimiento de la guía de
estilo / Normalización corporativa
Mejora mi eficiencia y eficacia
Aumenta mi productividad
y mis ingresos
La LC en el ámbito de la corrección automática y profesional
1
• Coleccionar patrones de errores frecuentes
2
• Conocer las capacidades del gestor de búsqueda y reemplazo de mi
editor o procesador de textos
3
• Estudiar la viabilidad de automatización de dichos patrones sobre
corpus
4
• Automatizar el reemplazo de los patrones que considere viables (p. ej.,
con macros sobre Word)
5
• Elegir un software de verificación textual sensible al contexto como
complemento
¿Qué puedo hacer yo como corrector autónomo?
«Lenguando que es gerundio». Algunos casos prácticos
¿Alguna vez has estado tentado
de automatizar la revisión de las
expresiones incorrectas incluidas en
un manual de dudas?
1. Apunta…
«Lenguando que es gerundio». Algunos casos prácticos
2. Observa…
«Lenguando que es gerundio». Algunos casos prácticos
3. ¡Y dispara!
«Lenguando que es gerundio». Algunos casos prácticos
A veces, habrá que sopesar si automatizar merece la pena…
1 excepción de 31 casos
96,78 % de precisión
«Lenguando que es gerundio». Algunos casos prácticos
Y otras veces la automatización no estará a mi alcance…
/*
<test rule="ReglaHaPorA">
<case>Va <error>ha</error> hacer la reforma de su vida.</case>
<case>Se alquila habitación <error>ha</error> estudiantes.</case>
<case>Va a hacer la reforma de su vida.</case>
<case>Se alquila habitación a estudiantes.</case>
<case>Si ha lugar</case>
</test>
*/
RULE(L"ReglaHaPorA")
FORM_I(POS(N), L"ha") AND
UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG
TagVerbInfinitiveCompound OR_TAG
TagNoun) AND
!FORM_I(POS(N+1), L"lugar")
THEN
SUG_WORD(POS(N),L"a");
ADD_ERROR(Error_Spelling, POS(N), POS(N),
msg(ES, L"Posible confusión al emplear la forma verbal
auxiliar <i>ha</i> en vez de la preposición <i>a</i>.",
A1,
L"ReglaHaPorA");
END_RULE
Aquí entran en juego las
capacidades del verificador
automático que hayas elegido
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaTratamEnMayúscula#3">
<case>Vimos al <error>Presidente del Gobierno</error></case>
<case>Estuvimos allí durante la visita de la <error>Reina</error></case>
<case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case>
<case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case>
<case>Visitamos el Reina Sofía el domingo pasado </case>
<case>El Prof. Fernández imparte clase en esa universidad </case>
</test>
*/
RULE(L"ReglaTratamEnMayúscula#3")
EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND
!(FORM(POS(N), L"Reina Sofía") AND
FORM_I(POS(N-1), L"el|al|del")) AND
FIRST_LETTER_UPPERCASE(POS(N)) AND
!EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND
!ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND
!IS_FIRST_WORD(POS(N))
THEN
SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N)));
ADD_ERROR(Error_Typographic, POS(N), POS(N),
msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse
con minúscula.",
Check_OLE10,
C2,
L"ReglaTratamEnMayúscula#3");
END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaNoSolo,Pero">
<case>No solo destruyó nuestra historia, <error>pero</error> también cambió
nuestro nombre</case>
<case>No solo destruyó nuestra historia, sino también cambió nuestro
nombre</case>
<case>Fue a comprar el pan, pero también compró chorizo</case>
</test>
*/
RULE(L"ReglaNoSolo,Pero")
EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND
FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND
FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND
EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND
FORM(POS(N+1), L",") AND
FORM_I(POS(N+2), L"pero")
THEN
SUG_WORD(POS(N+2), L"sino");
ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2),
msg(ES, L"Posiblemente no haya utilizado la conjunción
adecuada.",
B2,
L"ReglaNoSolo,Pero");
END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad
de verificación sintáctico-semántica, también nos ayuda en la detección masiva
de errores independientes del contexto…
¡Gracias por vuestra atención!
Concepción Polo
Responsable de Lingüística
cpolo@daedalus.es
Daedalus, S. A.
Tel.: +34 913324301
http://www.daedalus.es

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (8)

David Farías
David FaríasDavid Farías
David Farías
 
Act4...evaluacion
Act4...evaluacionAct4...evaluacion
Act4...evaluacion
 
Eloy alfaro
Eloy alfaroEloy alfaro
Eloy alfaro
 
Capítulo 6 educación y sociedad
Capítulo 6 educación y sociedadCapítulo 6 educación y sociedad
Capítulo 6 educación y sociedad
 
Tutorial Plagio
Tutorial PlagioTutorial Plagio
Tutorial Plagio
 
Ejercicio5.1
Ejercicio5.1Ejercicio5.1
Ejercicio5.1
 
Crees en dios (2)
Crees en dios (2)Crees en dios (2)
Crees en dios (2)
 
Empresa
EmpresaEmpresa
Empresa
 

Ähnlich wie Stilus lenguando-lc aplicada a la correccion

Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...eMadrid network
 
lenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPlenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPChelo Vargas
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Naturalmenamigue
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesUniversidad del Valle
 
Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Elia Astorga Mendoza
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2catecara
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2catecara
 
Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Bryan Chasiguano
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada
 
Tutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosTutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosclaudiocastello_1953
 
Diccionario panhispanico de dudas argumento (cumple con su deber)
Diccionario panhispanico de dudas    argumento (cumple con su deber)Diccionario panhispanico de dudas    argumento (cumple con su deber)
Diccionario panhispanico de dudas argumento (cumple con su deber)Dearc
 
Actividad de aprendizaje 8
Actividad de aprendizaje 8Actividad de aprendizaje 8
Actividad de aprendizaje 8AmeLee Camarena
 
Evaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoEvaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoAURA MARTINEZ
 

Ähnlich wie Stilus lenguando-lc aplicada a la correccion (20)

Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
lenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPlenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSP
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRico
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Natural
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formales
 
Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2
 
Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducción
 
Tutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosTutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textos
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
 
Diccionario panhispanico de dudas argumento (cumple con su deber)
Diccionario panhispanico de dudas    argumento (cumple con su deber)Diccionario panhispanico de dudas    argumento (cumple con su deber)
Diccionario panhispanico de dudas argumento (cumple con su deber)
 
Introducción.docx
Introducción.docxIntroducción.docx
Introducción.docx
 
Programación Funcional en Scala
Programación Funcional en ScalaProgramación Funcional en Scala
Programación Funcional en Scala
 
Actividad de aprendizaje 8
Actividad de aprendizaje 8Actividad de aprendizaje 8
Actividad de aprendizaje 8
 
Apoyo para tesis
Apoyo para tesisApoyo para tesis
Apoyo para tesis
 
Compilador2
Compilador2Compilador2
Compilador2
 
Evaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoEvaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y Cálculo
 

Mehr von Sngular Meaning

Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoSngular Meaning
 
Customer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerCustomer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerSngular Meaning
 
s|ngular Data and Analytics Intro
s|ngular Data and Analytics Intros|ngular Data and Analytics Intro
s|ngular Data and Analytics IntroSngular Meaning
 
Stilus corrector ortografico gramatical de estilo en espanol
Stilus   corrector ortografico gramatical de estilo en espanolStilus   corrector ortografico gramatical de estilo en espanol
Stilus corrector ortografico gramatical de estilo en espanolSngular Meaning
 
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014Sngular Meaning
 
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Sngular Meaning
 
Tweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningTweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningSngular Meaning
 
Tecnologías semánticas en sanidad
Tecnologías semánticas en sanidadTecnologías semánticas en sanidad
Tecnologías semánticas en sanidadSngular Meaning
 
Semantic Technologies for Healthcare
Semantic Technologies for HealthcareSemantic Technologies for Healthcare
Semantic Technologies for HealthcareSngular Meaning
 
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Sngular Meaning
 
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Sngular Meaning
 
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Sngular Meaning
 
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Sngular Meaning
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendSngular Meaning
 
Real time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsReal time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsSngular Meaning
 
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Sngular Meaning
 
Textalytics, Meaning as a Service
Textalytics, Meaning as a ServiceTextalytics, Meaning as a Service
Textalytics, Meaning as a ServiceSngular Meaning
 
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaA Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaSngular Meaning
 
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Sngular Meaning
 
Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Sngular Meaning
 

Mehr von Sngular Meaning (20)

Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
 
Customer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerCustomer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of Customer
 
s|ngular Data and Analytics Intro
s|ngular Data and Analytics Intros|ngular Data and Analytics Intro
s|ngular Data and Analytics Intro
 
Stilus corrector ortografico gramatical de estilo en espanol
Stilus   corrector ortografico gramatical de estilo en espanolStilus   corrector ortografico gramatical de estilo en espanol
Stilus corrector ortografico gramatical de estilo en espanol
 
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
 
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
 
Tweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningTweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion mining
 
Tecnologías semánticas en sanidad
Tecnologías semánticas en sanidadTecnologías semánticas en sanidad
Tecnologías semánticas en sanidad
 
Semantic Technologies for Healthcare
Semantic Technologies for HealthcareSemantic Technologies for Healthcare
Semantic Technologies for Healthcare
 
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
 
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
 
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
 
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix Weekend
 
Real time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsReal time semantic search engine for social tv streams
Real time semantic search engine for social tv streams
 
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
 
Textalytics, Meaning as a Service
Textalytics, Meaning as a ServiceTextalytics, Meaning as a Service
Textalytics, Meaning as a Service
 
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaA Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
 
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
 
Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...
 

Kürzlich hochgeladen

ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y maslida630411
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 

Kürzlich hochgeladen (20)

El camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVPEl camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVP
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptx
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y mas
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 

Stilus lenguando-lc aplicada a la correccion

  • 1. 29 de marzo de 2014 Lingüística de Corpus aplicada a la corrección automática y profesional Stilus es una marca de Daedalus, S. A.
  • 2. Contenidos  ¿Qué es la Lingüística de Corpus (LC)?  Los corpus de la Academia vs. el de Mark Davies  La LC en el ámbito de la corrección automática y profesional  « que es gerundio». Algunos casos prácticos
  • 3. ¿Qué es la Lingüística de Corpus (LC)? LC, ¿disciplina o metodología? - de corpus. ???
  • 4. 1. Ha de ser representativo 2. Ha de estar almacenado en formato electrónico 3. Sus contenidos deben estar etiquetados según unos criterios lingüísticos «útiles» 4. Debe poder responder a tareas de recuperación específicas ¿Qué es la Lingüística de Corpus (LC)? El corpus en LC… La Lingüística de Corpus permite llevar a cabo investigaciones empíricas en contextos «reales».
  • 5. Los corpus de la Academia vs. el de Mark Davies Corpus RAE
  • 6. Los corpus de la Academia vs. el de Mark Davies + = CORDE CREA
  • 7. Los corpus de la Academia vs. el de Mark Davies
  • 8. Los corpus de la Academia vs. el de Mark Davies www.corpusdelespanol.org Pero si los filtros morfológicos de la Academia no dan de sí, tenemos otras opciones…
  • 9. Los corpus de la Academia vs. el de Mark Davies + Gran volumen: CDH (+ 350 mill. de palabras); CORPES XXI (se pretenden: 25 mill./año) + Codificación cuidadosa (proceso automático + validación humana) + Filtros de búsqueda: año, país, tipo de texto, área temática… + combinación de parámetros +/- Filtros de búsqueda morfológica básica + Filtros de búsqueda con desambiguación morfológica - Incómodo para análisis morfológicos detallados + Brillante y cómoda interfaz de consulta: rasgos formales, filtros morfológicos avanzados, filtros semánticos (búsqueda por sinónimos) + Posible combinación de parámetros mediante expresiones regulares + Rápida capacidad de respuesta - Incómodo para análisis diacrónicos o diatópicos (filtro temporal por siglos / filtro diatópico inexistente) Corpus del españolCDH / CORPES XXI
  • 10. La LC en el ámbito de la corrección automática y profesional ¿Para qué podría utilizar la Lingüística de Corpus un corrector profesional?
  • 11. La LC en el ámbito de la corrección automática y profesional ¿Por qué me interesa automatizar procesos de verificación textual? Mejora la consistencia de la revisión Garantiza el cumplimiento de la guía de estilo / Normalización corporativa Mejora mi eficiencia y eficacia Aumenta mi productividad y mis ingresos
  • 12. La LC en el ámbito de la corrección automática y profesional 1 • Coleccionar patrones de errores frecuentes 2 • Conocer las capacidades del gestor de búsqueda y reemplazo de mi editor o procesador de textos 3 • Estudiar la viabilidad de automatización de dichos patrones sobre corpus 4 • Automatizar el reemplazo de los patrones que considere viables (p. ej., con macros sobre Word) 5 • Elegir un software de verificación textual sensible al contexto como complemento ¿Qué puedo hacer yo como corrector autónomo?
  • 13. «Lenguando que es gerundio». Algunos casos prácticos ¿Alguna vez has estado tentado de automatizar la revisión de las expresiones incorrectas incluidas en un manual de dudas? 1. Apunta…
  • 14. «Lenguando que es gerundio». Algunos casos prácticos 2. Observa…
  • 15. «Lenguando que es gerundio». Algunos casos prácticos 3. ¡Y dispara!
  • 16. «Lenguando que es gerundio». Algunos casos prácticos A veces, habrá que sopesar si automatizar merece la pena… 1 excepción de 31 casos 96,78 % de precisión
  • 17. «Lenguando que es gerundio». Algunos casos prácticos Y otras veces la automatización no estará a mi alcance… /* <test rule="ReglaHaPorA"> <case>Va <error>ha</error> hacer la reforma de su vida.</case> <case>Se alquila habitación <error>ha</error> estudiantes.</case> <case>Va a hacer la reforma de su vida.</case> <case>Se alquila habitación a estudiantes.</case> <case>Si ha lugar</case> </test> */ RULE(L"ReglaHaPorA") FORM_I(POS(N), L"ha") AND UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG TagVerbInfinitiveCompound OR_TAG TagNoun) AND !FORM_I(POS(N+1), L"lugar") THEN SUG_WORD(POS(N),L"a"); ADD_ERROR(Error_Spelling, POS(N), POS(N), msg(ES, L"Posible confusión al emplear la forma verbal auxiliar <i>ha</i> en vez de la preposición <i>a</i>.", A1, L"ReglaHaPorA"); END_RULE Aquí entran en juego las capacidades del verificador automático que hayas elegido
  • 18. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaTratamEnMayúscula#3"> <case>Vimos al <error>Presidente del Gobierno</error></case> <case>Estuvimos allí durante la visita de la <error>Reina</error></case> <case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case> <case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case> <case>Visitamos el Reina Sofía el domingo pasado </case> <case>El Prof. Fernández imparte clase en esa universidad </case> </test> */ RULE(L"ReglaTratamEnMayúscula#3") EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND !(FORM(POS(N), L"Reina Sofía") AND FORM_I(POS(N-1), L"el|al|del")) AND FIRST_LETTER_UPPERCASE(POS(N)) AND !EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND !ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND !IS_FIRST_WORD(POS(N)) THEN SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N))); ADD_ERROR(Error_Typographic, POS(N), POS(N), msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse con minúscula.", Check_OLE10, C2, L"ReglaTratamEnMayúscula#3"); END_RULE
  • 19. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaNoSolo,Pero"> <case>No solo destruyó nuestra historia, <error>pero</error> también cambió nuestro nombre</case> <case>No solo destruyó nuestra historia, sino también cambió nuestro nombre</case> <case>Fue a comprar el pan, pero también compró chorizo</case> </test> */ RULE(L"ReglaNoSolo,Pero") EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND FORM(POS(N+1), L",") AND FORM_I(POS(N+2), L"pero") THEN SUG_WORD(POS(N+2), L"sino"); ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2), msg(ES, L"Posiblemente no haya utilizado la conjunción adecuada.", B2, L"ReglaNoSolo,Pero"); END_RULE
  • 20. «Lenguando que es gerundio». Algunos casos prácticos Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad de verificación sintáctico-semántica, también nos ayuda en la detección masiva de errores independientes del contexto…
  • 21. ¡Gracias por vuestra atención! Concepción Polo Responsable de Lingüística cpolo@daedalus.es Daedalus, S. A. Tel.: +34 913324301 http://www.daedalus.es