SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Downloaden Sie, um offline zu lesen
PROCESAMIENTO de DATOS
Uso de Python para procesamiento de Datos
• Python como lenguaje de programación para Data Science
• Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab)
• Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc)
• Uso de Pandas para análisis de datos
Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática
Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
Python – Lenguaje para tareas de procesamiento
de datos y Data Science (ciencia de datos)
Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado
de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como:
Java, Javascript, C#, C++, Perl
mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y
líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto.
Sin embargo, Python en los años recientes ha
incrementado su utilización, ya que se ajusta no
sólo al campo de la investigación y prototipado
sino también al desarrollo y producción de
software, lo que lo convierte en unos de los
lenguajes más versátiles para cubrir todas las
fases para el desarrollo de cómputo científico,
tanto de producción libre como comercial.
Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
Lenguajes de programación para la ciencia de datos
Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto
a nivel comercial como de opciones de software libre, como lo son:
R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros.
éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica.
Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad
de librerías que extienden su funcionalidad.
Librerías de Python para analítica de datos
• Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas
para manipularlos, implementa de forma interna otras herramientas tales como matplotlib,
pandas, Scipy y sympy.
• Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra
lineal
• Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación
de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar
diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
Lenguajes de programación para la ciencia de datos
Librerías de Python para analítica de datos …
• Matplotlib. Es una biblioteca de visualización de gráficos en 2D.
• Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión,
predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad
y preprocesamiento de datos.
• TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine
Learning,Deep Learning, visión por computadora, entre otras.
• Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de
modelado gráfico de optimización, aprendizaje máquina.
• Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y
evolutivas.
• NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial,
principalmente en el cómputo cognitivo.
• OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control
gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc.
• Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de
aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
Python – Herramientas y plataformas para codificar
Plataformas como Jupyter Notebook se han vuelto muy
populares puesto que ofrecen en una interfaz web de un
entorno de trabajo basado como si se tratara de un IDE de
tipo escritorio, e integran diversas librerías tanto para el
análisis de datos masivos como el modelado de servicios de
inteligencia artificial y proporcionan muchas características
que los desarrolladores aprecian, como:
• Soporte para múltiples lenguajes de programación: Python,
Julia, SCALA, R, SQL, entre otros.
• Precargado de muchas librerías muy útiles, sin necesidad de
instalarlas manualmente.
• Autocompletado, sugerencias en parámetros y variables, etc.
• Previsualización en tiempo real del estilo de texto con marcaje
markdown.
• Información sobre el tiempo de ejecución, dentro del propio
notebook, sin requerir líneas de código para monitorear la
compilación y procesos de los objetos.
• Personalización y previsualización de gráficos de datos, entre
muchas otras.
https://jupyter.org/
Python – Herramientas y plataformas para codificar
Google Colab es una herramienta de Google que
nos proporciona un entorno basado en la nube para
realizar la ejecución de programas en Python para
aprovechar la potencia de los GPUs (procesadores
para paralelización) y TPUs (procesadores
especializados para Inteligencia Artificial) de Google.
Este entorno de programación está basado en
cuadernos de Jupyter notebooks y tiene integración
con GitHub y Drive para compartir código. Se ha
popularizado su uso para la enseñanza de técnicas y
aplicación de métodos para aprendizaje automático y
ciencia de datos.
Con esta plataforma no es necesario instalar o
configurar nada en las computadoras de los usuarios,
ya que solo se requiere tener un navegador web,
conexión a internet y una cuenta de Gmail.
http://colab.research.google.com/
Python – ejemplo de código para leer y graficar datos
De una forma fácil se puede leer un dataset y generar una gráfica de barras
para explorar visualmente el contenido de sus datos.
Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/
En este ejemplo se utiliza
un dataset con datos de
los pasajeros del “titanic”
que está en formato CSV
y del cual se selecciona
únicamente el atributo
“Age” para analizar la
distribución de edad de
los mismos.
Son suficientes 25 líneas
de código para leer datos
y personalizar el gráfico
(10 son de comentarios).
Únicamente se utilizan
dos librerías: Pandas y
Matplotlib
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks
En este ejercicio de procesamiento
de datos con Python y Pandas se
realizará un análisis básico de la
información de ventas empleando
un dataset en CSV y las librerías
Pandas y matplotLib.
Para completar esta actividad, hay que seguir paso a paso el videotutorial,
hacer los ejercicios propuestos en el video,
y además habrá que agregar y resolver otras preguntas, como:
• Q5: ¿Cuál es el promedio de ventas por cada mes?
• Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo?
• Q7: ¿Cuál es el total de piezas pedidas de cada producto?
• Q8: ¿Cuál es el TOP5 de los productos más vendidos?
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks

Weitere ähnliche Inhalte

Was ist angesagt?

Power designer-presentación
Power designer-presentaciónPower designer-presentación
Power designer-presentaciónskrapy95
 
Gestión de proyectos de software - Tema 3: Planificación del proyecto
Gestión de proyectos de software - Tema 3: Planificación del proyectoGestión de proyectos de software - Tema 3: Planificación del proyecto
Gestión de proyectos de software - Tema 3: Planificación del proyectoJair Valenz
 
Técnicas de recolección de requerimientos
Técnicas de recolección de requerimientosTécnicas de recolección de requerimientos
Técnicas de recolección de requerimientosJoaquin Artavia Chaves
 
 Diagramas uml de sistema de cajero automático
 Diagramas uml de sistema de cajero automático Diagramas uml de sistema de cajero automático
 Diagramas uml de sistema de cajero automáticoItzel656131
 
TUTORIAL DE MySQL WORKBENCH
TUTORIAL DE MySQL WORKBENCHTUTORIAL DE MySQL WORKBENCH
TUTORIAL DE MySQL WORKBENCHkelsy98
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)Ronald Rivas
 
Software caja negra y caja blanca
Software caja negra y caja blancaSoftware caja negra y caja blanca
Software caja negra y caja blancaStudentPc
 
Tecnicas y herramientas de desarrollo de software(1)
Tecnicas y herramientas de desarrollo de software(1)Tecnicas y herramientas de desarrollo de software(1)
Tecnicas y herramientas de desarrollo de software(1)Gustavo Gualsema
 
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Micael Gallego
 
Producto medio para generar números aleatorios.
Producto medio para generar números aleatorios.Producto medio para generar números aleatorios.
Producto medio para generar números aleatorios.Leopoldo N. Chavez
 
Arquitectura de los computadores
Arquitectura de los computadoresArquitectura de los computadores
Arquitectura de los computadoresfabio_14
 
Comandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbenchComandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbenchRobedgar MX
 

Was ist angesagt? (20)

Diagrama de clases - Ejemplo monográfico 02
Diagrama de clases - Ejemplo monográfico 02Diagrama de clases - Ejemplo monográfico 02
Diagrama de clases - Ejemplo monográfico 02
 
Tipos de Software
Tipos de SoftwareTipos de Software
Tipos de Software
 
Estándares para el Modelado de Procesos de Negocios
Estándares para el Modelado de Procesos de NegociosEstándares para el Modelado de Procesos de Negocios
Estándares para el Modelado de Procesos de Negocios
 
Power designer-presentación
Power designer-presentaciónPower designer-presentación
Power designer-presentación
 
Gestión de proyectos de software - Tema 3: Planificación del proyecto
Gestión de proyectos de software - Tema 3: Planificación del proyectoGestión de proyectos de software - Tema 3: Planificación del proyecto
Gestión de proyectos de software - Tema 3: Planificación del proyecto
 
Técnicas de recolección de requerimientos
Técnicas de recolección de requerimientosTécnicas de recolección de requerimientos
Técnicas de recolección de requerimientos
 
 Diagramas uml de sistema de cajero automático
 Diagramas uml de sistema de cajero automático Diagramas uml de sistema de cajero automático
 Diagramas uml de sistema de cajero automático
 
TUTORIAL DE MySQL WORKBENCH
TUTORIAL DE MySQL WORKBENCHTUTORIAL DE MySQL WORKBENCH
TUTORIAL DE MySQL WORKBENCH
 
control de concurrencia
control de concurrenciacontrol de concurrencia
control de concurrencia
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)
 
02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software
 
Software caja negra y caja blanca
Software caja negra y caja blancaSoftware caja negra y caja blanca
Software caja negra y caja blanca
 
Eventos, Topicos Avanzados de Programacion
Eventos, Topicos Avanzados de Programacion Eventos, Topicos Avanzados de Programacion
Eventos, Topicos Avanzados de Programacion
 
Sistema de ventas monografia
Sistema de ventas   monografiaSistema de ventas   monografia
Sistema de ventas monografia
 
Tecnicas y herramientas de desarrollo de software(1)
Tecnicas y herramientas de desarrollo de software(1)Tecnicas y herramientas de desarrollo de software(1)
Tecnicas y herramientas de desarrollo de software(1)
 
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
Tema2: Tecnologías de desarrollo web (Desarrollo Aplicaciones Web)
 
Producto medio para generar números aleatorios.
Producto medio para generar números aleatorios.Producto medio para generar números aleatorios.
Producto medio para generar números aleatorios.
 
Arquitectura de los computadores
Arquitectura de los computadoresArquitectura de los computadores
Arquitectura de los computadores
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Comandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbenchComandos básicos para bases de datos mysql y workbench
Comandos básicos para bases de datos mysql y workbench
 

Ähnlich wie Python - Lenguaje de programación para Ciencia de Datos

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...DEMSSHILLLEONELCOUTI
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanishAjay Ohri
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBSistemadeEstudiosMed
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientesalexis ibarra
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxjgs07
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdftechno48
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAlberto Diaz Martin
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 

Ähnlich wie Python - Lenguaje de programación para Ciencia de Datos (20)

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanish
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVB
 
Sesion8_Python.pptx
Sesion8_Python.pptxSesion8_Python.pptx
Sesion8_Python.pptx
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientes
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
 
Tecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicacionesTecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicaciones
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Tipo de Aplicaciones
Tipo de AplicacionesTipo de Aplicaciones
Tipo de Aplicaciones
 
Introducción a python
Introducción a pythonIntroducción a python
Introducción a python
 
Introduccion a-python
Introduccion a-pythonIntroduccion a-python
Introduccion a-python
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
MLOps.pptx
MLOps.pptxMLOps.pptx
MLOps.pptx
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Mehr von Roman Herrera

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Roman Herrera
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceRoman Herrera
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DBRoman Herrera
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantRoman Herrera
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Roman Herrera
 

Mehr von Roman Herrera (6)

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DB
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google Assistant
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 

Kürzlich hochgeladen

Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllJulietaCarbajalOsis
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxCristianCastro978067
 

Kürzlich hochgeladen (20)

Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
 

Python - Lenguaje de programación para Ciencia de Datos

  • 1. PROCESAMIENTO de DATOS Uso de Python para procesamiento de Datos • Python como lenguaje de programación para Data Science • Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab) • Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc) • Uso de Pandas para análisis de datos Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
  • 2. Python – Lenguaje para tareas de procesamiento de datos y Data Science (ciencia de datos) Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como: Java, Javascript, C#, C++, Perl mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto. Sin embargo, Python en los años recientes ha incrementado su utilización, ya que se ajusta no sólo al campo de la investigación y prototipado sino también al desarrollo y producción de software, lo que lo convierte en unos de los lenguajes más versátiles para cubrir todas las fases para el desarrollo de cómputo científico, tanto de producción libre como comercial. Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
  • 3. Lenguajes de programación para la ciencia de datos Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto a nivel comercial como de opciones de software libre, como lo son: R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros. éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica. Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad de librerías que extienden su funcionalidad. Librerías de Python para analítica de datos • Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas para manipularlos, implementa de forma interna otras herramientas tales como matplotlib, pandas, Scipy y sympy. • Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra lineal • Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
  • 4. Lenguajes de programación para la ciencia de datos Librerías de Python para analítica de datos … • Matplotlib. Es una biblioteca de visualización de gráficos en 2D. • Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión, predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad y preprocesamiento de datos. • TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine Learning,Deep Learning, visión por computadora, entre otras. • Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de modelado gráfico de optimización, aprendizaje máquina. • Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y evolutivas. • NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial, principalmente en el cómputo cognitivo. • OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc. • Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
  • 5. Python – Herramientas y plataformas para codificar Plataformas como Jupyter Notebook se han vuelto muy populares puesto que ofrecen en una interfaz web de un entorno de trabajo basado como si se tratara de un IDE de tipo escritorio, e integran diversas librerías tanto para el análisis de datos masivos como el modelado de servicios de inteligencia artificial y proporcionan muchas características que los desarrolladores aprecian, como: • Soporte para múltiples lenguajes de programación: Python, Julia, SCALA, R, SQL, entre otros. • Precargado de muchas librerías muy útiles, sin necesidad de instalarlas manualmente. • Autocompletado, sugerencias en parámetros y variables, etc. • Previsualización en tiempo real del estilo de texto con marcaje markdown. • Información sobre el tiempo de ejecución, dentro del propio notebook, sin requerir líneas de código para monitorear la compilación y procesos de los objetos. • Personalización y previsualización de gráficos de datos, entre muchas otras. https://jupyter.org/
  • 6. Python – Herramientas y plataformas para codificar Google Colab es una herramienta de Google que nos proporciona un entorno basado en la nube para realizar la ejecución de programas en Python para aprovechar la potencia de los GPUs (procesadores para paralelización) y TPUs (procesadores especializados para Inteligencia Artificial) de Google. Este entorno de programación está basado en cuadernos de Jupyter notebooks y tiene integración con GitHub y Drive para compartir código. Se ha popularizado su uso para la enseñanza de técnicas y aplicación de métodos para aprendizaje automático y ciencia de datos. Con esta plataforma no es necesario instalar o configurar nada en las computadoras de los usuarios, ya que solo se requiere tener un navegador web, conexión a internet y una cuenta de Gmail. http://colab.research.google.com/
  • 7. Python – ejemplo de código para leer y graficar datos De una forma fácil se puede leer un dataset y generar una gráfica de barras para explorar visualmente el contenido de sus datos. Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/ En este ejemplo se utiliza un dataset con datos de los pasajeros del “titanic” que está en formato CSV y del cual se selecciona únicamente el atributo “Age” para analizar la distribución de edad de los mismos. Son suficientes 25 líneas de código para leer datos y personalizar el gráfico (10 son de comentarios). Únicamente se utilizan dos librerías: Pandas y Matplotlib
  • 8. EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks En este ejercicio de procesamiento de datos con Python y Pandas se realizará un análisis básico de la información de ventas empleando un dataset en CSV y las librerías Pandas y matplotLib.
  • 9. Para completar esta actividad, hay que seguir paso a paso el videotutorial, hacer los ejercicios propuestos en el video, y además habrá que agregar y resolver otras preguntas, como: • Q5: ¿Cuál es el promedio de ventas por cada mes? • Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo? • Q7: ¿Cuál es el total de piezas pedidas de cada producto? • Q8: ¿Cuál es el TOP5 de los productos más vendidos? EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks