El documento describe la implementación de un analizador sintáctico probabilístico para el idioma español que integra la clasificación semántica de argumentos de verbos. Presenta el modelo de Collins para análisis sintáctico, la implementación del algoritmo CKY, y el entrenamiento de un clasificador SVM para la clasificación semántica de argumentos verbales que se integra al analizador sintáctico probabilístico.
Analizador sintáctico probabilístico español clasificación argumentos verbales
1. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Analizador sintáctico probabilístico con clasicación
de argumentos de verbo para el idioma español.
John Alexander Vargas
Escuela de Ingeniería de Sistemas y Computación
Facultad de Ingeniería
Universidad del Valle
VII Simposio de Investigación, 2014
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
2. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Agenda
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
3. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Análisis sintáctico
Tarea principal
Describir cómo las palabras de la oración se relacionan y cuál es la
función que cada palabra realiza en esa oración, es decir, construir
la estructura de la oración de un lenguaje.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
4. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Análisis sintáctico
Tarea principal
Describir cómo las palabras de la oración se relacionan y cuál es la
función que cada palabra realiza en esa oración, es decir, construir
la estructura de la oración de un lenguaje.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
5. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Ejemplo
Ejemplo de una gramática libre de contexto y de un árbol sintáctico
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
6. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
a1 !b1;a2 !b2; : : : ;an !bn
es p(t) = Õni
=1 q(ai !bi )
where q(a !b) es la probabilidad de la regla a !b
S !NP VP 1;0
NP !Sust 0;4
NP !Det Sust 0;3
VP !V NP 0;7
La probabilidad para el árbol seria
p(t) = 0;84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
7. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
a1 !b1;a2 !b2; : : : ;an !bn
es p(t) = Õni
=1 q(ai !bi )
where q(a !b) es la probabilidad de la regla a !b
S !NP VP 1;0
NP !Sust 0;4
NP !Det Sust 0;3
VP !V NP 0;7
La probabilidad para el árbol seria
p(t) = 0;84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
8. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt2T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
p[i ; j ; X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i : : : j (inclusive)
La meta es calcular maxt2T (s)p(t) = p[1; n; S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
9. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt2T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
p[i ; j ; X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i : : : j (inclusive)
La meta es calcular maxt2T (s)p(t) = p[1; n; S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
10. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt2T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
p[i ; j ; X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i : : : j (inclusive)
La meta es calcular maxt2T (s)p(t) = p[1; n; S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
11. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
El algoritmo CKY
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
12. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
13. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Modelos de análisis de Collins
Tres modelos generativos lexicalizados propuestos por Michael
Collins
Modelo 1: Modelo generativo con cabezas lexicalizadas.
Modelo 2: Modelo 1 + distinción de complementos/adjuntos y
subcategorización.
Modelo 3: Modelo 2 + traza del movimiento de la
núcleo-cabeza.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
14. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Modelo básico
Lo primero que se nota en cada regla de una PCFG
lexicalizada es la forma
P(h)!Ln(ln) : : :L1(l1)H(h)R1(r1) : : :Rm(rm)
H es el núcleo sintáctico de la frase, el cuál hereda la
palabra-núcleo h, de su padre P.
L1 : : :Ln y R1 : : :Rm son modicadores de izquierda y derecha
del núcleo H.
Tanto n como m pueden ser cero, Si n = m = 0, son reglas
unarias.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
15. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Generación del modelo
La generación de RHS de cada regla, dada el LHS, ha sido
descompuesta en tres pasos:
1 Generación de la etiqueta del núcleo constituyente de la frase,
con probabilidad PH(HjP;h).
2 Generación de modicadores a la izquierda del núcleo con
probabilidad Õi=1:::n+1PL(Li (li )jP;h;H), donde
Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al
vocabulario de no-terminales, y el modelo para generando
modicadores a la izquierda donde ha sido generado.
3 Generación de modicadores a la derecha del núcleo con
probabilidad Õi=1:::n+1PR(Ri (ri )jP;h;H), Rm+1(rm+1) es
denida como STOP.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
16. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
l y r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) =
Pl (Li (li ) jH; P; h; l (i 1))
Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) =
Pl (Ri (ri ) jH; P; h; r (i 1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
17. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
l y r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) =
Pl (Li (li ) jH; P; h; l (i 1))
Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) =
Pl (Ri (ri ) jH; P; h; r (i 1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
18. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Modelo 2: Clasicación de modicadores
Añadir un sujo C a los no terminales en los datos de
entrenamiento para los que:
El no terminal es un NP, SBAR, o S cuyo padre es una S, una
NP, SBAR, S, o el vicepresidente cuyo padre es un
vicepresidente, o un S cuyo padre es un SBAR.
La no-terminal no debe tener una de las etiquetas semánticas:
ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.
También marque el primer hijo después de una cabeza PP como
complemento
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
19. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(HjP;h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )jH;P;h;r (i 1);RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )jH;P;h;r (i 1);LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
20. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(HjP;h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )jH;P;h;r (i 1);RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )jH;P;h;r (i 1);LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
21. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(HjP;h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )jH;P;h;r (i 1);RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )jH;P;h;r (i 1);LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
22. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (GjP;h;H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
23. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (GjP;h;H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
24. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
25. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Trabajo de Bikel
Dan Bikel construye un motor de análisis sintáctico
multi-lenguaje con la capacidad de instanciar una gran
variedad de modelos analizadores probabilisticos.
Como modelo línea base apropiado se escoje instanciar los
parámetros del modelo 2 de Collins.
Bikel identicó once pasos de preprocesamiento necesarios
para preparar los árboles de entrenamiento cuando se usa el
modelo de análisis de Collins.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
26. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Preprocesamiento de Bikel
1 Eliminar nodos innecesarios
2 Adicionando nodos base NP
3 Reparando NPs base
4 Adicionando información (solo aplicable al modelo 3)
5 Re-etiquetación de sentencias
6 Removiendo elementos nulos.
7 Levantando puntuación.
8 Identicación de argumentos no-terminales
9 Eliminación de terminales no usados.
10 Reparación Oraciones sin sujeto.
11 Encontrar núcleos sintácticos.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
27. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Reglas para encontrar la cabeza
(grup.verb (r innitiu) (r gerundi) (r vmp) (r vsp) (r vap) (r
vmi))
(S (r grup.verb) (r S) (r sn) )
(sn (r grup.nom))
(sp (l prep))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
28. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
29. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
30. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
31. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Información del corpus usada para el entrenamiento del
analizador
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos Árbol sintáctico completo anotado con constituyentes.
32. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Funciones sintácticas
Sujeto -SUJ
Objeto directo -CD
Objeto indirecto -CI
Atributo -ATR
Complemento predicativo -CPRED
Complemento preposicional -CREG
Complemento agente -CAG
Complemento adverbial -CC
Complemento advervial (locativo) -CCL
Complemento adverbial (temporal) -CCT
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
33. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
34. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Máquinas de vectores de soporte
Las máquinas de vectores de soporte son derivados de la teoría
de aprendizaje estadistico postulado por Vapnik y
Chervonenkis en 1992.
Técnica para clasicación de datos.
Más fácil de utilizar que las redes neuronales.
Trabajan en un espacio de características
Son también conocidas como clasicadores de margen amplio.
Clasicación multiclase
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
35. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Máquinas de vectores de soporte
Hay m observaciones y cada una consiste en un par de datos:
Un vector xi 2 Rn; i : : : ;m
Una etiqueta yi 2 f+1;1g
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
36. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Máquinas de vectores de soporte
Hay m observaciones y cada una consiste en un par de datos:
Un vector xi 2 Rn; i : : : ;m
Una etiqueta yi 2 f+1;1g
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
37. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Kernel de un algoritmo SVM
Idea: Transformar los ejemplos de entrenamiento en un espacio
vectorial de alta dimensión ( N n ) (denominado espacio de
características)
Kernel lineal: k(~x;~y) =~x ~y
Kernel polinómico: k(~x;~y) = (~x ~y +r )p
Kernel gaussiano (función de base radial [RBF]):
k(~x;~y) = e(
kxg~~yk2
2s2 )
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
38. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Preprocesamiento de datos
Cada ejemplo: vector de números reales
Si hay atributos categóricos - convertirlos a datos numéricos
Ejemplo: un atributo con tres categorías posibles {rojo, verde,
azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).
Si el número de categorías del atributo no es muy grande, esta
codicación puede ser más estable que usando un único
número para cada una.
Escalado de los datos antes de aplicar SVM
Ventajas:
Evitar que los atributos que tengan rangos grandes dominen
sobre los que tengan rangos más pequeños
Evitar dicultades numéricas durante el cálculo
Escalar linealmente cada atributo al rango [-1,+1] o [0,1]
Usar el mismo método de escalado para los datos de
entrenamiento y los de prueba
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
39. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Preprocesamiento de datos
Cada ejemplo: vector de números reales
Si hay atributos categóricos - convertirlos a datos numéricos
Ejemplo: un atributo con tres categorías posibles {rojo, verde,
azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0).
Si el número de categorías del atributo no es muy grande, esta
codicación puede ser más estable que usando un único
número para cada una.
Escalado de los datos antes de aplicar SVM
Ventajas:
Evitar que los atributos que tengan rangos grandes dominen
sobre los que tengan rangos más pequeños
Evitar dicultades numéricas durante el cálculo
Escalar linealmente cada atributo al rango [-1,+1] o [0,1]
Usar el mismo método de escalado para los datos de
entrenamiento y los de prueba
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
40. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
41. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Argumentos verbales
Los argumentos son expresiones lingüisticas exigidas
semánticamente por el núcleo.
Los verbos tienen dos tipos básicos de argumentos:
Complementos: Necesarios para el verbo.
Adjuntos (circunstancial): Son complementos no exigidos por
el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
42. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Características línea base
Predicado: El lema del predicado es usado como
característica.
Path: La ruta sintáctica a través del árbol de análisis del
constituyente al predicado clasicado.
Tipo de frase: Esta es la categoría sintáctica.
Posición: Característica binaria identicando si la frase esta
antes o despues del predicado.
Palabra-cabeza: La cabeza sintáctica de la frase.
Subcategorización: Esta es la regla de estructura de frase
expandiendo el nodo padre del predicado en el árbol de análisis.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
43. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Características sintácticas
Posición de la entidad: la entidad puede estar a la izquierda
o derecha del núcleo.
Distancia de la entidad: el número de palabras existentes
entre la entidad y el núcleo.
Información morfológica de la entidad: modo, tiempo,
persona y número.
Longitud de la entidad: la secuencia de los n elementos de
los n-gramas.
Información morfológica del núcleo de la entidad.
Entidad denida: una entidad se considera denida si su
artículo es denido.
Longitud del núcleo: secuencia de los n-elementos de los
n-gramas del núcleo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
44. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
45. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
libSVM: una implementación de SVM
Implementa los tipos de entrenamiento y núcleos mas
comunes.
Permite clasicación multiclase.
Implementa el procedimiento para realizar validación cruzada
Métodos para obtener máquinas que proporcionen además la
probabilidad de la clasicación.
Incluye técnicas para reducir el coste de la constante C.
Implementaciones en C++ y JAVA.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
46. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
Parametrización de libSVM
Se usa un kernel gausiano (RBF) con g = 27
Parámetro de costo C = 32
Se usa á técnica de validación cruzada para anar el conjunto
de características.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
47. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
48. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Modicación del modelo
En el agoritmos CKY, en el método de unión de items, se
clasica el item modicador, cuando el item modicado se
trata de un verbo.
Si la clasicación del item se encuentra dentro de las posibles
subcategorizaciones del verbo, entonces se aumenta la
probabilidad de selección.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
49. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Información semántica de Ancora sobre los verbos
Ancora posee archivos en formato xml para almacenar la
información referente a los argumentos verbales.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
50. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Outline
1 Analizador Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
2 Clasicación semántica con SVM
Máquinas de vectores de soporte
Características lingüisticas para el SVM
Implementación del modelo SVM
3 Análisis sintáctico con clasicación semántica
Integración del clasicador en el analizador
Métricas de evaluación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
51. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizado
manualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# de
constituyentes correctos en T)
Precision: (# de consituyentes correctos en P) / (# de
constituyentes en P)
Medida F: Media armónica entre recall y precisión
F = 2PR=(P +R)
Paréntesis cruzados: Constituyentes para los cuales la
referencia tiene parentizado ((A B) C) y el de nuestro
algoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
52. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizado
manualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# de
constituyentes correctos en T)
Precision: (# de consituyentes correctos en P) / (# de
constituyentes en P)
Medida F: Media armónica entre recall y precisión
F = 2PR=(P +R)
Paréntesis cruzados: Constituyentes para los cuales la
referencia tiene parentizado ((A B) C) y el de nuestro
algoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
53. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizado
manualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# de
constituyentes correctos en T)
Precision: (# de consituyentes correctos en P) / (# de
constituyentes en P)
Medida F: Media armónica entre recall y precisión
F = 2PR=(P +R)
Paréntesis cruzados: Constituyentes para los cuales la
referencia tiene parentizado ((A B) C) y el de nuestro
algoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
54. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Métricas de comparación
Si P es el árbol analizado por el sistema y T el árbol analizado
manualmente (gold standard)
Recall: (# de consituyentes correctos en P) / (# de
constituyentes correctos en T)
Precision: (# de consituyentes correctos en P) / (# de
constituyentes en P)
Medida F: Media armónica entre recall y precisión
F = 2PR=(P +R)
Paréntesis cruzados: Constituyentes para los cuales la
referencia tiene parentizado ((A B) C) y el de nuestro
algoritmo (A (B C))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
55. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Integración del clasicador en el analizador
Métricas de evaluación
Métricas de comparación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
56. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando maquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
57. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando maquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
58. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando maquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
59. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Referencias
Daniel M. Bikel. On the Parameter Space of Generative
Lexicalized Statistical Parsing Models. PhD thesis,
Philadelphia, PA, USA, 2004. AAI3152016.
Michael Collins. Head-driven statistical models for natural
language parsing. Comput. Linguist., 29(4):589637, December
2003.
LIBSVM: A Library for Support Vector Machines. Chih-Chung
Chang and Chih-Jen Lin. 2001
Support Vector Learning for Semantic Argument Classication.
SAMEER PRADHAN, KADRI HACIOGLU. 2005
Using Machine-Learning to Assign Function Labels to Parser
Output for Spanish. Grzegorz Chrupaªa1 and Josef van
Genabith. 2004
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
60. Analizador Sintáctico Probabilístico
Clasicación semántica con SVM
Análisis sintáctico con clasicación semántica
Conclusiones
Referencias
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).
GUSTAVO A. BETANCOURT. 2005
Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis
Sintáctico. 2010
Natural Language Processing:Statistical Parsing. Raymond J.
Mooney
Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís
Màrquez. AnCora: Multilingual and Multilevel Annotated
Corpora. 2007
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)
'AnCora-Verb: A Lexical Resource for the Semantic Annotation
of Corpora'. Proceedings of 6th International Conference on
Language Resources and Evaluation. Marrakesh (Morocco).
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos