Este documento resume el análisis de datos de una librería para mejorar su desempeño. Los datos analizados incluyen ratings, recomendaciones y categorías de libros. Se encontró que los libros mejor calificados tienen más recomendaciones, y que las categorías más populares son ciencia ficción y literatura juvenil. Sin embargo, otras categorías como crimen y cocina tienen mayores ventas generalmente. Esto sugiere oportunidades para la librería de enfocarse más en estas categorías de alta venta.
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
Practica magr
1. CURSO DE VISUALIZACIÓN DE
DATOS Y STORYTELLING
PRÁCTICA: Aplicando la Ciencia de Datos en una
organización.
ALUMNO: Manuel Alejandro Godoy Rodríguez
2. ÍNDICE
INTRODUCCIÓN..................................................................................................................................3
CLASIFICACIÓN DE LOS ARCHIVOS (DATA SETS)....................................................................................3
DATOS RELEVANTES DE LOS DATA SETS ...............................................................................................3
ANÁLISIS DE DATOS DE LA LIBRERÍA IZTACCIHUATL: RATINGS Y RECOMENDACIONES .........................4
ANÁLISIS DE DATOS DE LOS LIBROS MÁS VENDIDOS EN 2010 ............................................................5
COMPARACIÓN DE DATOS DE LA LIBRERÍA IZTACCIHUATL Y LIBROS MÁS VENDIDOS ..........................6
PREDICCIONES PARA LA TOMA DE DECISIONES ....................................................................................8
CONCLUSIONES..................................................................................................................................9
3. INTRODUCCIÓN
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar
un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez
desarrollarunamejorestrategiaenla tomadedecisiones. Paraellosecuentanconlossiguientesarchivos:
El archivo “books” contiene los datos generales de cada libro existente en la librería y además
menciona el promedio de clasificación de cada libro de acuerdo,a las votaciones y compras del
cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos, de acuerdo, a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio
web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio
web sobre libros para leer.
CLASIFICACIÓN DE LOS ARCHIVOS (DATA SETS)
Revisando el contenido de los archivos, se observa que proceden de dos sets de datos distintos:
1. El inventario de la librería Iztaccihuatl (books.csv), así como los ratings (ratings.csv) y
recomendaciones de su sitio web (to_read.csv).
2. Un listadogeneral (top_books.csv) de los20 librosmás vendidosporgénero.No se especificala
procedenciade estelistado,perodado queconcentramásde 23millonesdeventas yquealgunos
títulosnose encuentranenelinventariode lalibreríaIztaccihuatl,se asumeque esunareferencia
externa.
DATOS RELEVANTES DE LOS DATA SETS
El setde datos de lalibreríaIztaccihuatl nocontiene datosde ventas.Laretroalimentaciónde losclientes
con laque se cuentasonlosratingsylacantidadde recomendacionesenel sitioweb.Se proponegraficar
un scatter chart para determinar si hay una correlación entre los libros más recomendados y los libros
mejor evaluados.
El listado general de librosmás vendidos sí incluye estadísticas de ventas globales,por lo cual se puede
obtener la composición estática (pie chart) de los siguientes datos para el 2010 (año de generación del
archivo):
Las ventassegúnlaclasificacióndelproducto,paraconocerquécategoríacuentaconmayores
ventas.
4. Las ventas de acuerdo con el año de publicación del libro, para determinar si el año de
publicación está correlacionado con altas ventas.
ANÁLISIS DE DATOS DE LA LIBRERÍA IZTACCIHUATL: RATINGS Y RECOMENDACIONES
Como se comentó previamente,la retroalimentaciónde los clientes de la librería Iztaccihuatl que están
disponibles son los ratings y la cantidad de recomendaciones en el sitio web. Una primera pregunta es
determinar si hay una correlación entre la cantidad de recomendaciones y el valor de las calificaciones
(ratings) otorgadas. Para ello podemos graficar los pares de cantidad de recomendaciones y ratings de
cada libro en un scatter chart:
GRÁFICA 1. – Correlación entre libros mejor evaluados y libros más recomendados.
Tenemosentonces811 puntosgraficadosenunplanocartesiano,endonde eleje X corresponde al rating
promedio y el eje Y a la cantidad de recomendaciones del sitio. De acuerdo con esta gráfica podemos
establecer 3 rangos:
Los libros con un rating de 2.8 a 3.39 se encuentran en un margen de 1 a 137
recomendaciones.
Los libroscon 3.4 a 4.19 cuentan con 1 a 1352 recomendaciones,aunque lagranmayoría de
estos libros no pasan de 400 recomendaciones.
5. Los librosconunrankingsuperiora4.2 cuentanconmayor probabilidadde tenermásde 600
recomendaciones, especialmente aquellos con un ranking superior a 4.42.
Tanto el rango inferior (<3.39) como el rango superior (>4.2) pueden ayudar a predecir de manera
temprana la cantidad de recomendaciones -pocas o muchas- que tendrá un libro enel sitio. En el rango
de 3.4 a 4.19 hay mayor incertidumbre.
ANÁLISIS DE DATOS DE LOS LIBROS MÁS VENDIDOS EN 2010
Revisando el archivo “top books”, podemos agrupar los libros más vendidos de acuerdo con su
clasificación.El siguiente pie chart agrupa lasventas(entérminosmonetarios,node unidadesvendidas)
según su clasificación. Podemos identificar 5 categorías que concentran más del 75% de las ventas
incluidas en el set de datos:
Ficción Literaria y General
Crimen, Thriller y Aventura
Comida y Bebida
Ficción Juvenil
Autobiografía: las artes
GRÁFICA 2. – Libros más vendidos de acuerdo con su clasificación.
6. También se puede graficar un pie chart de acuerdo con el año de publicación, para determinar el
porcentaje de libros más vendidos que han sido publicados recientemente:
GRÁFICA 3. – Libros más vendidos de acuerdo con su año de publicación
De acuerdocon estas dosgráficas,podemosobservarque hay 5 categorías que concentranmás del 75%
de lasventas,yque un80% de las ventascorrespondenalibrospublicadosen2010, esdecir,librosrecién
publicados en el momento de generar la estadística.
COMPARACIÓN DE DATOS DE LA LIBRERÍA IZTACCIHUATL Y LIBROS MÁS VENDIDOS
Desafortunadamente losdatosdel inventariode Iztaccihuatl no incluyendatosdel númerode ventasola
categoría a la que pertenecen los libros, sin embargo, es posible tomar los libros más populares
(considerando la cantidad de recomendaciones y el rating) e investigar a qué categoría pertenecen.
Para este ejercicio,se propone multiplicarlacantidad de recomendacionesporel rating promedio,para
calcular un índice de popularidad. Con este índice se pueden seleccionar los 40 libros más populares,
asignarles una clasificación de acuerdo con las categorías de “top_books” y comparar los resultados:
7. TABLA 1. – Libros más populares en el inventario de la librería Iztaccihuatl
Tomando los 40 libros con mayor popularidad (cantidad de recomendaciones x rating promedio) y
agrupándolos de acuerdo con su clasificación (género) encontramos que un 87% de los libros más
populares pertenecen a las siguientes categorías:
Ciencia ficción y fantasía.
Ficción juvenil.
Ficción literaria y general.
GRÁFICA 4. – Libros más populares por género en la librería Iztaccihuatl
8. De estas3categorías,dosde ellastambiénregistranaltasventasde acuerdoconel listadode “top_books”
de 2010: Ficción Juvenil y Ficción Literaria y General.
PREDICCIONES PARA LA TOMA DE DECISIONES
De acuerdo con los hallazgos antes mencionados, es posible predecir que:
1. Loslibrosconunratingmenora3.4 tendránpocasrecomendacionesenelsitioweb.Sinembargo,
es necesario determinar si esto se refleja también en pocas ventas.
2. Los libros con un rating mayor a 4.42 cuentan con altas probabilidades de tener muchas
recomendacionesenel sitioweb.De igual manera,esnecesariodeterminarsi estaalta cantidad
de recomendaciones se refleja en muchas ventas, el cual es un dato que no aparece en el
inventario de Iztaccihuatl.
3. De acuerdo con los datos de “top_books”, hay 3 categorías con alto volumen de ventas que no
figuranentre lasmáspopularesdel sitiowebde Iztaccihuatl.Esmuyposible que estascategorías
representenunafuenteimportantede ingresos, porlocual la libreríadeberíaconsiderarlaspara
su próxima planeación de inventarios, ventas y publicidad:
o Crimen, Thriller y Aventura
o Comida y Bebida
o Autobiografía: las artes
4. También de acuerdo con los datos de “top_books”, los libros más vendidos son aquellos recién
editados,porlo que la libreríaIztaccihuatl puede tomaren cuentaeste dato para su planeación,
especialmente paralibrosenlas categorías identificadascomomás popularesdentrode su sitio
web, y las categorías más vendidas de acuerdo al listado global de “top book”.
9. CONCLUSIONES
De acuerdo con los datos podemos observar que las categorías más populares de la librería Iztaccihuatl
representan a un público joven, ya que un 87% de los libros más populares se clasifican dentro de:
Ciencia ficción y fantasía.
Ficción juvenil.
Ficción literaria y general.
Dado que estosdatos estánrelacionadoscon lasrecomendacionesdel sitioweb,esnormal que algunas
categorías, especialmente la ciencia ficción, estén sobrerrepresentadas, por lo cual es necesario que la
libreríaIztaccihuatl comience aregistrarcomo se traducenestosratings y recomendacionesenventas,e
incluso trate de capitalizar este interés, a través de publicidad, descuentos, o alguna otra estrategia
comercial.
Por otrolado,de acuerdo con losdatosdel archivo“topbooks”,hayotrascategorías que generanunalto
volumende ventasy que no figuranentre los librosmáspopularesdel sitiode la libreríaIztaccihuatl ,las
cuales son:
Crimen, Thriller y Aventura
Comida y Bebida
Autobiografía: las artes
EstascategoríasrepresentanunaoportunidadparaIztaccihuatl,quepodríaofrecerunaselecciónde libros
reciénpublicados, que sonlosque más altasventas registrande acuerdo con el archivo de “top_books”,
y medir el éxitoque tengan,para así buscar ampliar su mercado, más allá de los lectores jóvenes. Esta
selección puede ser tan amplia o reducida como se quiera, dependiendo del nivel de riesgo que sea
aceptable para la librería.
En resumen,lalibreríaIztaccihuatl tiene dosoportunidadesenpuerta.Una enlo que se refiere asu base
actual de clientes,parapodercapitalizarel interésde lascategoríasmáspopularesensusitioweb,yotra
enlas categoríasque más se venden a nivel general y que Iztaccihuatl no está cubriendo actualmente.