3. Introducción
A continuación se va a desarrollar la práctica relativa a la aplicación de la ciencia
de datos a una organización. Para ello es necesario conocer el contexto de la práctica,
que se trata de la librería de Iztaccihuatl mediante la ciencia de datos y desarrollar una
mejor estrategia para la toma de decisiones. La librería contiene una carpeta denominada
“datasets_books” dentro de la cual se alojan los siguientes archivos: books; top_books;
raitings; to_read.
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del
libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
4. • Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro
del sitio web de la librería.
El archivo “to read” contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
5. Cuestiones
Para la realización de la práctica se va a contestar a una serie de cuestiones
planteadas:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccihuatl?
El lenguaje de programación que emplearía para realizar el análisis de datos de la
Librería Iztaccihuatl, sería un lenguaje de programación compatible con la base de datos
de dicha librería y que además tuviera herramientas o paquetes que permitan realizar el
análisis de datos como por ejemplo el lenguaje de programación de Python o Matlab.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
Se pueden obtener infinidad de datos de la librería Iztaccihuatl, desde simplemente los
datos que esta alberga, como por ejemplo conocer la cantidad de libros diferentes que
se dispone de un mismo autor.
Con el archivo book id se puede conocer qué libros son los que más se prestan y por
tanto ponerlos más a la vista.
También se puede conocer qué clientes se llevan varios libros a la vez y pensar en si
existe relación entre ellos y si es así reorganizar las estanterías para que los libros se
encontraran juntos.
Estas son algunas de las muchas predicciones que se podrían hacer basándonos en la
base de datos de la librería Iztaccihuat.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para
poder realizar un análisis predictivo?
Las adecuaciones que habría que realizar para que se pudiera llevar a cabo un análisis
predictivo de los datos serían principalmente hacer que todos los datos fueran del mismo
tipo y que estuvieran bien clasificados. Es decir, dotar de orden y coherencia a los datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de
la Librería Iztaccihuatl?
La base de datos que yo emplearía para alojar los datos de la Librería Iztaccihuatl, sería
de tipo dinámica, en la cual los datos se pudieran ir modificando a tiempo real cuando
a una persona se le prestara un libro. Además, la crearía con una estructura tipo
relacional para permitir crear datos y relacionarlos entre otros ya existentes, de esta
forma luego el análisis de los datos podría ser llevado a cabo delimitando ciertas
variables y viendo qué relaciones existen entre varias variables.
6. 5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para
alojar la información y el proyecto de ciencia de datos?
Los servicios en la nube que podría contratar la Librería son desde una base de datos en
la nube para liberar espacio de sus propios servidores a un servicio de cloud computing
que permitiera realizar predicciones complejas con mas potencia que los servidores de
la propia librería.
Estos servicios los ofrecen diversas compañías, como google, amazon, alibaba group,
etc.
Desde mi punto de vista el servicio en la nube qué más puede interesar a la librería sería
el de alojar la base de datos para que de esta manera desde diferentes ordenadores
tuvieran acceso a dicha base de datos y pudieran modificarla siempre que se den los
permisos de administración. Esto es útil para que haya más de un librero prestando libros
al mismo tiempo.
Conclusiones
Como conclusiones del proyecto me gustaría recalcar, que se debería emplear un
lenguaje de programación que permitiera realizar análisis estadísticos y predictivos como
Matlab, Python, Java o R. Que sería necesario dotar de coherencia a los datos para poder
obtener información, entre esta coherencia, eliminar duplicidades, evitar outliers, y que
los datos fueran todos del mismo tipo. Además, la base de datos empleada debería tener
la suficiente flexibilidad para que con los permisos de administración y técnicas de
análisis de big data y maching learning se pudieran realizar las predicciones específicas.
En cuanto a los servicios de computación en la nube pueden ser una herramienta de gran
utilidad para no tener alojados los programas en el propio servidor de la librería, sino que
se externalizarían estos servicios. Para determinar qué servicio de cloud computing es el
adecuado haría falta realizar una comparativa de aquellos servidores que trabajan con el
lenguaje de programación que hemos escogido inicialmente, además de ver qué
prestaciones ofrecen con qué calidad y precio.