SlideShare ist ein Scribd-Unternehmen logo
1 von 6
Downloaden Sie, um offline zu lesen
María Cristina Dejoz Díez
Herramientas para el Análisis de Big Data
PRÁCTICA TEMA 2
Aplicando la Ciencia de Datos en una organización
Índice
Introducción ..............................................................................................................2
Cuestiones.................................................................................................................4
Conclusiones..............................................................................................................5
Introducción
A continuación se va a desarrollar la práctica relativa a la aplicación de la ciencia
de datos a una organización. Para ello es necesario conocer el contexto de la práctica,
que se trata de la librería de Iztaccihuatl mediante la ciencia de datos y desarrollar una
mejor estrategia para la toma de decisiones. La librería contiene una carpeta denominada
“datasets_books” dentro de la cual se alojan los siguientes archivos: books; top_books;
raitings; to_read.
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del
libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro
del sitio web de la librería.
El archivo “to read” contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Cuestiones
Para la realización de la práctica se va a contestar a una serie de cuestiones
planteadas:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccihuatl?
El lenguaje de programación que emplearía para realizar el análisis de datos de la
Librería Iztaccihuatl, sería un lenguaje de programación compatible con la base de datos
de dicha librería y que además tuviera herramientas o paquetes que permitan realizar el
análisis de datos como por ejemplo el lenguaje de programación de Python o Matlab.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
Se pueden obtener infinidad de datos de la librería Iztaccihuatl, desde simplemente los
datos que esta alberga, como por ejemplo conocer la cantidad de libros diferentes que
se dispone de un mismo autor.
Con el archivo book id se puede conocer qué libros son los que más se prestan y por
tanto ponerlos más a la vista.
También se puede conocer qué clientes se llevan varios libros a la vez y pensar en si
existe relación entre ellos y si es así reorganizar las estanterías para que los libros se
encontraran juntos.
Estas son algunas de las muchas predicciones que se podrían hacer basándonos en la
base de datos de la librería Iztaccihuat.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para
poder realizar un análisis predictivo?
Las adecuaciones que habría que realizar para que se pudiera llevar a cabo un análisis
predictivo de los datos serían principalmente hacer que todos los datos fueran del mismo
tipo y que estuvieran bien clasificados. Es decir, dotar de orden y coherencia a los datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de
la Librería Iztaccihuatl?
La base de datos que yo emplearía para alojar los datos de la Librería Iztaccihuatl, sería
de tipo dinámica, en la cual los datos se pudieran ir modificando a tiempo real cuando
a una persona se le prestara un libro. Además, la crearía con una estructura tipo
relacional para permitir crear datos y relacionarlos entre otros ya existentes, de esta
forma luego el análisis de los datos podría ser llevado a cabo delimitando ciertas
variables y viendo qué relaciones existen entre varias variables.
5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para
alojar la información y el proyecto de ciencia de datos?
Los servicios en la nube que podría contratar la Librería son desde una base de datos en
la nube para liberar espacio de sus propios servidores a un servicio de cloud computing
que permitiera realizar predicciones complejas con mas potencia que los servidores de
la propia librería.
Estos servicios los ofrecen diversas compañías, como google, amazon, alibaba group,
etc.
Desde mi punto de vista el servicio en la nube qué más puede interesar a la librería sería
el de alojar la base de datos para que de esta manera desde diferentes ordenadores
tuvieran acceso a dicha base de datos y pudieran modificarla siempre que se den los
permisos de administración. Esto es útil para que haya más de un librero prestando libros
al mismo tiempo.
Conclusiones
Como conclusiones del proyecto me gustaría recalcar, que se debería emplear un
lenguaje de programación que permitiera realizar análisis estadísticos y predictivos como
Matlab, Python, Java o R. Que sería necesario dotar de coherencia a los datos para poder
obtener información, entre esta coherencia, eliminar duplicidades, evitar outliers, y que
los datos fueran todos del mismo tipo. Además, la base de datos empleada debería tener
la suficiente flexibilidad para que con los permisos de administración y técnicas de
análisis de big data y maching learning se pudieran realizar las predicciones específicas.
En cuanto a los servicios de computación en la nube pueden ser una herramienta de gran
utilidad para no tener alojados los programas en el propio servidor de la librería, sino que
se externalizarían estos servicios. Para determinar qué servicio de cloud computing es el
adecuado haría falta realizar una comparativa de aquellos servidores que trabajan con el
lenguaje de programación que hemos escogido inicialmente, además de ver qué
prestaciones ofrecen con qué calidad y precio.

Weitere ähnliche Inhalte

Was ist angesagt?

Scholarly Communication 101
Scholarly Communication 101Scholarly Communication 101
Scholarly Communication 101Claire Sewell
 
Control Bibliográfico Universal CBU
Control Bibliográfico Universal CBUControl Bibliográfico Universal CBU
Control Bibliográfico Universal CBUPaola Andrea Ramirez
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónDiego Farfan
 
Categories of user and their information needs2
Categories of user and their information needs2Categories of user and their information needs2
Categories of user and their information needs2Aparna Sane
 
Steps for successfully submitting your scientific article
Steps for successfully submitting  your  scientific articleSteps for successfully submitting  your  scientific article
Steps for successfully submitting your scientific articleTamer Hamdy
 
Geographical sources
Geographical sourcesGeographical sources
Geographical sourcesJohan Koren
 
Ensayo de Penetracion Estandar
Ensayo de Penetracion EstandarEnsayo de Penetracion Estandar
Ensayo de Penetracion Estandarcristiansorianoc
 
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECADIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECAMaria Lopez Matias
 
Scopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRScopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRf kersten
 
Densidad natural por el método de la parafina
Densidad natural por el método de la parafinaDensidad natural por el método de la parafina
Densidad natural por el método de la parafinaLizeth Matute Pardo
 
National_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptNational_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptJiwaji university
 
Caso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlCaso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlFraniel Ricoveri
 

Was ist angesagt? (15)

Scholarly Communication 101
Scholarly Communication 101Scholarly Communication 101
Scholarly Communication 101
 
Library portal by Gaurav Boudh
Library portal by Gaurav BoudhLibrary portal by Gaurav Boudh
Library portal by Gaurav Boudh
 
Control Bibliográfico Universal CBU
Control Bibliográfico Universal CBUControl Bibliográfico Universal CBU
Control Bibliográfico Universal CBU
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Categories of user and their information needs2
Categories of user and their information needs2Categories of user and their information needs2
Categories of user and their information needs2
 
Steps for successfully submitting your scientific article
Steps for successfully submitting  your  scientific articleSteps for successfully submitting  your  scientific article
Steps for successfully submitting your scientific article
 
Impact factor
Impact factorImpact factor
Impact factor
 
Geographical sources
Geographical sourcesGeographical sources
Geographical sources
 
Ensayo de Penetracion Estandar
Ensayo de Penetracion EstandarEnsayo de Penetracion Estandar
Ensayo de Penetracion Estandar
 
Altmetrics
Altmetrics Altmetrics
Altmetrics
 
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECADIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
 
Scopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRScopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJR
 
Densidad natural por el método de la parafina
Densidad natural por el método de la parafinaDensidad natural por el método de la parafina
Densidad natural por el método de la parafina
 
National_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptNational_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.ppt
 
Caso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlCaso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatl
 

Ähnlich wie Practica mariadejoz

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxLambofgod1993
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individualFernandoss2
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónKozhayaSfeir
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfCarlosChin
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaCamilo Sanhueza Nuñez
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big DataJulio Burgos
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxSebastiaFerran
 

Ähnlich wie Practica mariadejoz (20)

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
 
Proyecto de evaluación de pares
Proyecto de evaluación de paresProyecto de evaluación de pares
Proyecto de evaluación de pares
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhueza
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
 
Herramientas de búsqueda
Herramientas de búsquedaHerramientas de búsqueda
Herramientas de búsqueda
 
libreria sistema.docx
libreria sistema.docxlibreria sistema.docx
libreria sistema.docx
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
 
Big data ejercicio
Big data ejercicioBig data ejercicio
Big data ejercicio
 

Kürzlich hochgeladen

Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 

Kürzlich hochgeladen (20)

Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 

Practica mariadejoz

  • 1. María Cristina Dejoz Díez Herramientas para el Análisis de Big Data PRÁCTICA TEMA 2 Aplicando la Ciencia de Datos en una organización
  • 3. Introducción A continuación se va a desarrollar la práctica relativa a la aplicación de la ciencia de datos a una organización. Para ello es necesario conocer el contexto de la práctica, que se trata de la librería de Iztaccihuatl mediante la ciencia de datos y desarrollar una mejor estrategia para la toma de decisiones. La librería contiene una carpeta denominada “datasets_books” dentro de la cual se alojan los siguientes archivos: books; top_books; raitings; to_read. El archivo “books” contiene los siguientes datos: • Id - Identificador del registro • Book Id - Identificador del libro • Number Editions - Número de ediciones • ISBN - Clave estándar internacional del libro • ISBN13 - Clave estándar extendida internacional del libro • Authors - Autor del libro • Original Publication - Fecha de publicación • Original Title - Título original del libro • Title - Título del libro • Language Code - Clave de idioma del libro • Average Rating - Promedio de la clasificación del libro • Image - Enlace a la imagen de la portada del libro • Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos: • Position - Posición del libro en la clasificación del libro • ISBN - Clave estándar extendida internacional del libro • Title - Título del libro • Author - Autor del libro • Imprint - Editorial
  • 4. • Publisher Group - Grupo Editorial • Volume - Volumen de ventas hasta el 2010 • Value - Ventas determinadas por el volumen • RRP - Precio recomendado para minoristas • ASP - Precio promedio para venta • Binding - Tipo de encuadernación • Publ Date - Fecha de publicación • Product Class - Clasificación del libro • Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos: • Book Id - Identificador del libro • User Id - Identificador del cliente/usuario que clasifico un libro • Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos: • User Id - Identificador del cliente/usuario que clasifico un libro • Book Id - Identificador del libro El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. El archivo “to read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer.
  • 5. Cuestiones Para la realización de la práctica se va a contestar a una serie de cuestiones planteadas: 1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? El lenguaje de programación que emplearía para realizar el análisis de datos de la Librería Iztaccihuatl, sería un lenguaje de programación compatible con la base de datos de dicha librería y que además tuviera herramientas o paquetes que permitan realizar el análisis de datos como por ejemplo el lenguaje de programación de Python o Matlab. 2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? Se pueden obtener infinidad de datos de la librería Iztaccihuatl, desde simplemente los datos que esta alberga, como por ejemplo conocer la cantidad de libros diferentes que se dispone de un mismo autor. Con el archivo book id se puede conocer qué libros son los que más se prestan y por tanto ponerlos más a la vista. También se puede conocer qué clientes se llevan varios libros a la vez y pensar en si existe relación entre ellos y si es así reorganizar las estanterías para que los libros se encontraran juntos. Estas son algunas de las muchas predicciones que se podrían hacer basándonos en la base de datos de la librería Iztaccihuat. 3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo? Las adecuaciones que habría que realizar para que se pudiera llevar a cabo un análisis predictivo de los datos serían principalmente hacer que todos los datos fueran del mismo tipo y que estuvieran bien clasificados. Es decir, dotar de orden y coherencia a los datos. 4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl? La base de datos que yo emplearía para alojar los datos de la Librería Iztaccihuatl, sería de tipo dinámica, en la cual los datos se pudieran ir modificando a tiempo real cuando a una persona se le prestara un libro. Además, la crearía con una estructura tipo relacional para permitir crear datos y relacionarlos entre otros ya existentes, de esta forma luego el análisis de los datos podría ser llevado a cabo delimitando ciertas variables y viendo qué relaciones existen entre varias variables.
  • 6. 5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? Los servicios en la nube que podría contratar la Librería son desde una base de datos en la nube para liberar espacio de sus propios servidores a un servicio de cloud computing que permitiera realizar predicciones complejas con mas potencia que los servidores de la propia librería. Estos servicios los ofrecen diversas compañías, como google, amazon, alibaba group, etc. Desde mi punto de vista el servicio en la nube qué más puede interesar a la librería sería el de alojar la base de datos para que de esta manera desde diferentes ordenadores tuvieran acceso a dicha base de datos y pudieran modificarla siempre que se den los permisos de administración. Esto es útil para que haya más de un librero prestando libros al mismo tiempo. Conclusiones Como conclusiones del proyecto me gustaría recalcar, que se debería emplear un lenguaje de programación que permitiera realizar análisis estadísticos y predictivos como Matlab, Python, Java o R. Que sería necesario dotar de coherencia a los datos para poder obtener información, entre esta coherencia, eliminar duplicidades, evitar outliers, y que los datos fueran todos del mismo tipo. Además, la base de datos empleada debería tener la suficiente flexibilidad para que con los permisos de administración y técnicas de análisis de big data y maching learning se pudieran realizar las predicciones específicas. En cuanto a los servicios de computación en la nube pueden ser una herramienta de gran utilidad para no tener alojados los programas en el propio servidor de la librería, sino que se externalizarían estos servicios. Para determinar qué servicio de cloud computing es el adecuado haría falta realizar una comparativa de aquellos servidores que trabajan con el lenguaje de programación que hemos escogido inicialmente, además de ver qué prestaciones ofrecen con qué calidad y precio.