SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Raúl Garreta
@raulgarreta
PyDayUruguay 2011
 Subárea de InteligenciaArtificial,
Ciencias de la Computación.
 Estudia métodos que permitan a las
máquinasinteractuar con las
personas mediante lenguaje natural.
 Poder extraer significado,
información,manipular texto.
 Área interdisciplinaria: Lingüística +
CienciasComputación+ Estadística
 Traducciónautomática
 Systran, Google Translate
 Clasificaciónde texto:
 Spam filtering (spam/ham)
 Topic classification (política, negocios, tecnología, deportes, ...)
 Sentiment analysis (pos/neg/neutral)
 Recuperación de Información
 Search engines: Google Search, Lucene
 Textdatabases: MongoDB, CouchDB
 Extracciónde Información
 Resúmenes automáticos, palabras clave, categoría, entidades, fechas,
direcciones, emails. Scraping
 Entendimineto / Generación de lenguaje natural:
 Question & Answering, Chatbots
 CorrecciónAutomática
 Compiladores / Intérpretes
 Muchomás…
 50’s -AlanTuring “Computing
Machinery and Intelligence” “Turing
Test”
 60’ – NoamChomsky “Syntactic
Structures”Sistemas basados en
reglas.Traducción automática
 70’s– Ontologías, Chatbots
 80’s– Sistemas basados en
Aprendizaje Automático.
 90’s– Mayor poder de cómputo.
Teorías Lingüísticas de Chomsky
pierden fuerza. Modelos estadísticos.
 Subárea dentro de Inteligencia
Artificial.
 Estudia algoritmos que tienen la
capacidadde aprender a realizar una
tarea automáticamente.
 Mejoran su performance con la
experiencia.
 Permiten resolver tareas complejas,
cuya solución es muy difícil o
imposible de realizar manualmente.
 Segmentación deOraciones
 Un “.” puede ser decimal, suspensivos, abreviación, etc.
 Segmentación de Palabras (Tokenización)
 Enalgunos lenguajes no es simple
 Análisis Lexicográfico (segmentación de morfemas)
 Stemming / Lemmatizing: Obtener forma canónica, lexema, raíz
 Ej: run, runs, ran, running -> run
 Afijos: prefijos, infijos, sufijos (modifican significado de la palabra)
 EtiquetadoGramatical (POSTagging)
 Asignar una etiqueta gramatical a una palabra, ej: sustantivo, adjetivo, verbo, etc.
 Ej: “La (art) pelota(sust) es(verbo) redonda(adj)”
 Reconocimiento de Entidades (NER)
 Identificar entidades: personas, organizaciones, lugares, etc.
 Análisis Sintáctico (Parsing)
 Identificar estructuras gramaticales en una oración.
 Obtener árbol de parsing a partir de una gramática formal.
 Análisis Semántico
 Ambiguedades lexicas ej:
 “banco” (financiero, plaza)
 “planta” (industrial, natural).
 Ambiguedades sintácticas ej:
“Vi un hombre con un telescopio”
 Múltiples idiomas, traducción
 Semántica,lógica, metáforas,
ironías, anáforas, etc.
 Baterías incluidas para
procesamientode texto:
 Soporte nativo de Unicode
 Muchas funciones para procesamiento
de texto
 Baja barrera de entrada,
prototipadorápido
 Open source (éxito en el mundo
académicoy por lo tanto en PLN)
▪ startswith/endswith
▪ strip
▪ split
▪ upper, lower
▪ find, replace, count
▪ join
▪ Slicing
s[0] s[2:7] s[6:] s[:5] s[-1]
▪ String = list, set
contar vocabulario:
len(set(text))
ordenarvocabulario:
sorted(set(text))
▪ módulo re para
expresiones regulares
▪ parsersde fechas
(dateutil)
▪ y mucho mas…
 Para realizar cosas mas
complejas, necesitamos
más librerías.
 Simple, extensible,
modularizado,
infraestructura:
 ExpresionesRegulares
 Gramáticas
 Parsers
 Modelosestadísticos
 Clasificadores
 Comunidadgrande, académica, tanto de
desarrolladores y usuarios.
 Recomiendotutoriales y demos de Jacob
Perkins:
 streamhacker.com
 text-processing.com
 Tokenizador de palabras
 Tokenizador de oraciones
 Etiquetadorgramatical
 Chunkers
 Reconocedor de entidades
 Expresiones regulares
 Gramáticas
 Parsers
 Stemmers/Lemmatizers
 Wordnet
 Algoritmos de AprendizajeAutomático
 Corpus, grandes colecciones de texto
 Más…
ImportoNLTK
Abro un archivode texto
Tokenizaren oraciones
Tokenizaren palabras
Etiquetado gramatical
Chunking,extracciónde entidades
Importowordnet
Obtengosynset
Obtengolemasde sinónimos
Obtengohipérnimos
Obtengohipónimos
Definoset de atributos
Obtengoejemplos
Generoconjuntos de entrenamientoy testeo
Entrenoun clasificador
Utilizoel clasificador
 ¿Qué más se puede hacer?
 Mucho…
 Dificultades
 Requiere cierto conocimiento de la “teoría”
 Recursos para otros idiomas, ej: Español
 Ventajas
 Simple, rápido, poderoso, extensible
Procesamiento de Lenguaje Natural, Python y NLTK

Weitere ähnliche Inhalte

Was ist angesagt?

Sistemas Operativos I- Algoritmo de QUANTUM
Sistemas Operativos I- Algoritmo de QUANTUMSistemas Operativos I- Algoritmo de QUANTUM
Sistemas Operativos I- Algoritmo de QUANTUMMari Cruz
 
Lenguajes de cuarta generacion
Lenguajes de cuarta generacionLenguajes de cuarta generacion
Lenguajes de cuarta generacionAlexander Campues
 
Aplicaciones de Autómatas y Lenguajes Formales
Aplicaciones de Autómatas y Lenguajes FormalesAplicaciones de Autómatas y Lenguajes Formales
Aplicaciones de Autómatas y Lenguajes FormalesMoises Benzan
 
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...Frans Michel Barrenechea Arias
 
Procesamiento del lenguaje natural
Procesamiento del lenguaje naturalProcesamiento del lenguaje natural
Procesamiento del lenguaje naturalYasuri Puc
 
Politicas de seguridad en linux
Politicas de seguridad en linuxPoliticas de seguridad en linux
Politicas de seguridad en linuxDaniel Zavala
 
Diferencias entre arquitectura y organización
Diferencias entre arquitectura y organizaciónDiferencias entre arquitectura y organización
Diferencias entre arquitectura y organizaciónAngel Aguilar
 
Caracteristicas de las bases de datos
Caracteristicas de las bases de datosCaracteristicas de las bases de datos
Caracteristicas de las bases de datosNelson Rubio
 
Aplicaciones Distribuidas
Aplicaciones DistribuidasAplicaciones Distribuidas
Aplicaciones DistribuidasSorey García
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorJomicast
 

Was ist angesagt? (20)

Lenguaje ensamblador
Lenguaje ensambladorLenguaje ensamblador
Lenguaje ensamblador
 
Sistemas Operativos I- Algoritmo de QUANTUM
Sistemas Operativos I- Algoritmo de QUANTUMSistemas Operativos I- Algoritmo de QUANTUM
Sistemas Operativos I- Algoritmo de QUANTUM
 
Lenguajes de cuarta generacion
Lenguajes de cuarta generacionLenguajes de cuarta generacion
Lenguajes de cuarta generacion
 
Lenguaje de programacion ruby
Lenguaje de programacion rubyLenguaje de programacion ruby
Lenguaje de programacion ruby
 
Decompilador y metacompilador
Decompilador y metacompiladorDecompilador y metacompilador
Decompilador y metacompilador
 
tarea de informatica
tarea de informaticatarea de informatica
tarea de informatica
 
Gestion de Memoria
Gestion de MemoriaGestion de Memoria
Gestion de Memoria
 
Analizador Léxico en C++
Analizador Léxico en C++Analizador Léxico en C++
Analizador Léxico en C++
 
Aplicaciones de Autómatas y Lenguajes Formales
Aplicaciones de Autómatas y Lenguajes FormalesAplicaciones de Autómatas y Lenguajes Formales
Aplicaciones de Autómatas y Lenguajes Formales
 
Bibliotecas de c_
Bibliotecas de c_Bibliotecas de c_
Bibliotecas de c_
 
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
¿Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter...
 
Algebra relacional
Algebra relacionalAlgebra relacional
Algebra relacional
 
Procesamiento del lenguaje natural
Procesamiento del lenguaje naturalProcesamiento del lenguaje natural
Procesamiento del lenguaje natural
 
Politicas de seguridad en linux
Politicas de seguridad en linuxPoliticas de seguridad en linux
Politicas de seguridad en linux
 
Servidor web apache
Servidor web apache Servidor web apache
Servidor web apache
 
Diferencias entre arquitectura y organización
Diferencias entre arquitectura y organizaciónDiferencias entre arquitectura y organización
Diferencias entre arquitectura y organización
 
Caracteristicas de las bases de datos
Caracteristicas de las bases de datosCaracteristicas de las bases de datos
Caracteristicas de las bases de datos
 
Razonamiento monotono
Razonamiento monotonoRazonamiento monotono
Razonamiento monotono
 
Aplicaciones Distribuidas
Aplicaciones DistribuidasAplicaciones Distribuidas
Aplicaciones Distribuidas
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidor
 

Andere mochten auch

Aprendizaje Automático con Python
Aprendizaje Automático con PythonAprendizaje Automático con Python
Aprendizaje Automático con PythonRaúl Garreta
 
Manual de usuario crud django
Manual de usuario crud djangoManual de usuario crud django
Manual de usuario crud djangoDaniel Arevalo
 
Natural Language Processing in Ruby
Natural Language Processing in RubyNatural Language Processing in Ruby
Natural Language Processing in RubyTom Cartwright
 
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...Carlos Gonzalez
 
FORMAS NORMALES DE GREIBACH
FORMAS NORMALES DE GREIBACHFORMAS NORMALES DE GREIBACH
FORMAS NORMALES DE GREIBACHCarlos Manuel
 
La investigación en al didáctica de la lengua
La   investigación  en al didáctica de la lenguaLa   investigación  en al didáctica de la lengua
La investigación en al didáctica de la lenguaAlexander Santaçruz
 
Complex and Social Network Analysis in Python
Complex and Social Network Analysis in PythonComplex and Social Network Analysis in Python
Complex and Social Network Analysis in Pythonrik0
 
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicMachine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicRaúl Garreta
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificialmenamigue
 
Graph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXGraph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXBenjamin Bengfort
 
Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico maryr_
 
Sentiment analysis-by-nltk
Sentiment analysis-by-nltkSentiment analysis-by-nltk
Sentiment analysis-by-nltkWei-Ting Kuo
 
Presentación de power point lengua
Presentación de power point lenguaPresentación de power point lengua
Presentación de power point lenguapaulaycelia
 
El uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de ProyectosEl uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de Proyectosfadminproyectos
 
Las habilidades lingüísticas
Las habilidades lingüísticasLas habilidades lingüísticas
Las habilidades lingüísticasDaniel Gómez
 

Andere mochten auch (20)

Análisis de sentimientos con NLTK
Análisis de sentimientos con NLTKAnálisis de sentimientos con NLTK
Análisis de sentimientos con NLTK
 
Aprendizaje Automático con Python
Aprendizaje Automático con PythonAprendizaje Automático con Python
Aprendizaje Automático con Python
 
Manual de usuario crud django
Manual de usuario crud djangoManual de usuario crud django
Manual de usuario crud django
 
Natural Language Processing in Ruby
Natural Language Processing in RubyNatural Language Processing in Ruby
Natural Language Processing in Ruby
 
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...
Recomendaciones para el uso correcto del lenguaje en temas relacionados con d...
 
FORMAS NORMALES DE GREIBACH
FORMAS NORMALES DE GREIBACHFORMAS NORMALES DE GREIBACH
FORMAS NORMALES DE GREIBACH
 
La investigación en al didáctica de la lengua
La   investigación  en al didáctica de la lenguaLa   investigación  en al didáctica de la lengua
La investigación en al didáctica de la lengua
 
Complex and Social Network Analysis in Python
Complex and Social Network Analysis in PythonComplex and Social Network Analysis in Python
Complex and Social Network Analysis in Python
 
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicMachine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
 
Que Es El Lenguaje
Que Es El LenguajeQue Es El Lenguaje
Que Es El Lenguaje
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Graph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXGraph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkX
 
Arbol analisis sintactico
Arbol analisis sintacticoArbol analisis sintactico
Arbol analisis sintactico
 
Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico
 
Sentiment analysis-by-nltk
Sentiment analysis-by-nltkSentiment analysis-by-nltk
Sentiment analysis-by-nltk
 
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìSticoTema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
 
Didactica De La Lengua Y La Literatura
Didactica De La Lengua Y La LiteraturaDidactica De La Lengua Y La Literatura
Didactica De La Lengua Y La Literatura
 
Presentación de power point lengua
Presentación de power point lenguaPresentación de power point lengua
Presentación de power point lengua
 
El uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de ProyectosEl uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de Proyectos
 
Las habilidades lingüísticas
Las habilidades lingüísticasLas habilidades lingüísticas
Las habilidades lingüísticas
 

Ähnlich wie Procesamiento de Lenguaje Natural, Python y NLTK

Complement del verb
Complement del verbComplement del verb
Complement del verbguest9f5196
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de textoEwing Ma
 
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...RootedCON
 
La inteligencia artificial
La inteligencia artificialLa inteligencia artificial
La inteligencia artificialByron Vera
 
Programación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialProgramación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialEgdares Futch H.
 
Recursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaRecursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaJoaquin Fonoll
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1bGaston Liberman
 
Intro. Inteligencia Artificial
Intro. Inteligencia ArtificialIntro. Inteligencia Artificial
Intro. Inteligencia ArtificialHuascar Génere
 
2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas2. inteligencia artificial - Tareas
2. inteligencia artificial - TareasJose Antonio Vacas
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4OZKAR06
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4OZKAR06
 

Ähnlich wie Procesamiento de Lenguaje Natural, Python y NLTK (20)

Complement del verb
Complement del verbComplement del verb
Complement del verb
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de texto
 
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
 
Inter tecno ai y taxonomia
Inter tecno   ai y taxonomiaInter tecno   ai y taxonomia
Inter tecno ai y taxonomia
 
La inteligencia artificial
La inteligencia artificialLa inteligencia artificial
La inteligencia artificial
 
Inteligencia
InteligenciaInteligencia
Inteligencia
 
Wq1
Wq1Wq1
Wq1
 
Programación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialProgramación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia Artificial
 
Inter tecno clase 04
Inter tecno   clase 04Inter tecno   clase 04
Inter tecno clase 04
 
Recursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaRecursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escrita
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
 
Intro. Inteligencia Artificial
Intro. Inteligencia ArtificialIntro. Inteligencia Artificial
Intro. Inteligencia Artificial
 
2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas
 
Inteligencia artificial
Inteligencia artificialInteligencia artificial
Inteligencia artificial
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4
 

Kürzlich hochgeladen

Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 

Kürzlich hochgeladen (15)

Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Procesamiento de Lenguaje Natural, Python y NLTK

  • 2.  Subárea de InteligenciaArtificial, Ciencias de la Computación.  Estudia métodos que permitan a las máquinasinteractuar con las personas mediante lenguaje natural.  Poder extraer significado, información,manipular texto.  Área interdisciplinaria: Lingüística + CienciasComputación+ Estadística
  • 3.  Traducciónautomática  Systran, Google Translate  Clasificaciónde texto:  Spam filtering (spam/ham)  Topic classification (política, negocios, tecnología, deportes, ...)  Sentiment analysis (pos/neg/neutral)  Recuperación de Información  Search engines: Google Search, Lucene  Textdatabases: MongoDB, CouchDB  Extracciónde Información  Resúmenes automáticos, palabras clave, categoría, entidades, fechas, direcciones, emails. Scraping  Entendimineto / Generación de lenguaje natural:  Question & Answering, Chatbots  CorrecciónAutomática  Compiladores / Intérpretes  Muchomás…
  • 4.  50’s -AlanTuring “Computing Machinery and Intelligence” “Turing Test”  60’ – NoamChomsky “Syntactic Structures”Sistemas basados en reglas.Traducción automática  70’s– Ontologías, Chatbots  80’s– Sistemas basados en Aprendizaje Automático.  90’s– Mayor poder de cómputo. Teorías Lingüísticas de Chomsky pierden fuerza. Modelos estadísticos.
  • 5.  Subárea dentro de Inteligencia Artificial.  Estudia algoritmos que tienen la capacidadde aprender a realizar una tarea automáticamente.  Mejoran su performance con la experiencia.  Permiten resolver tareas complejas, cuya solución es muy difícil o imposible de realizar manualmente.
  • 6.  Segmentación deOraciones  Un “.” puede ser decimal, suspensivos, abreviación, etc.  Segmentación de Palabras (Tokenización)  Enalgunos lenguajes no es simple  Análisis Lexicográfico (segmentación de morfemas)  Stemming / Lemmatizing: Obtener forma canónica, lexema, raíz  Ej: run, runs, ran, running -> run  Afijos: prefijos, infijos, sufijos (modifican significado de la palabra)  EtiquetadoGramatical (POSTagging)  Asignar una etiqueta gramatical a una palabra, ej: sustantivo, adjetivo, verbo, etc.  Ej: “La (art) pelota(sust) es(verbo) redonda(adj)”  Reconocimiento de Entidades (NER)  Identificar entidades: personas, organizaciones, lugares, etc.  Análisis Sintáctico (Parsing)  Identificar estructuras gramaticales en una oración.  Obtener árbol de parsing a partir de una gramática formal.  Análisis Semántico
  • 7.  Ambiguedades lexicas ej:  “banco” (financiero, plaza)  “planta” (industrial, natural).  Ambiguedades sintácticas ej: “Vi un hombre con un telescopio”  Múltiples idiomas, traducción  Semántica,lógica, metáforas, ironías, anáforas, etc.
  • 8.  Baterías incluidas para procesamientode texto:  Soporte nativo de Unicode  Muchas funciones para procesamiento de texto  Baja barrera de entrada, prototipadorápido  Open source (éxito en el mundo académicoy por lo tanto en PLN)
  • 9. ▪ startswith/endswith ▪ strip ▪ split ▪ upper, lower ▪ find, replace, count ▪ join ▪ Slicing s[0] s[2:7] s[6:] s[:5] s[-1] ▪ String = list, set contar vocabulario: len(set(text)) ordenarvocabulario: sorted(set(text)) ▪ módulo re para expresiones regulares ▪ parsersde fechas (dateutil) ▪ y mucho mas…
  • 10.  Para realizar cosas mas complejas, necesitamos más librerías.  Simple, extensible, modularizado, infraestructura:  ExpresionesRegulares  Gramáticas  Parsers  Modelosestadísticos  Clasificadores
  • 11.  Comunidadgrande, académica, tanto de desarrolladores y usuarios.  Recomiendotutoriales y demos de Jacob Perkins:  streamhacker.com  text-processing.com
  • 12.  Tokenizador de palabras  Tokenizador de oraciones  Etiquetadorgramatical  Chunkers  Reconocedor de entidades  Expresiones regulares  Gramáticas  Parsers  Stemmers/Lemmatizers  Wordnet  Algoritmos de AprendizajeAutomático  Corpus, grandes colecciones de texto  Más…
  • 13. ImportoNLTK Abro un archivode texto Tokenizaren oraciones Tokenizaren palabras
  • 16. Definoset de atributos Obtengoejemplos Generoconjuntos de entrenamientoy testeo Entrenoun clasificador Utilizoel clasificador
  • 17.  ¿Qué más se puede hacer?  Mucho…  Dificultades  Requiere cierto conocimiento de la “teoría”  Recursos para otros idiomas, ej: Español  Ventajas  Simple, rápido, poderoso, extensible