Estructura sociodemográfica del voto en Argentina: un análisis desde la minería de datos

Estructura sociodemográﬁca del voto en Argentina: un
análisis desde la minería de datos
Universidad de Buenos Aires
Especialización en Minería de Datos y Descubrimiento del Conocimiento
Trabajo ﬁnal
Juan Pablo Pilorget
Marzo de 2018

Resumen
Existe una vasta literatura acerca de la relación entre los resultados de las elecciones y los aspectos
sociales de una población. En el caso de Argentina, los trabajos fundacionales de Peter Smith
(1972, 1974) buscaron dar cuenta de las estructuras sociodemográﬁcas asociadas al voto peronista y
continuaron en la década de los ‘80 con los análisis de sociología electoral de Manuel Mora y Araujo
(1980). Más adelante, los estudios de federalismo distributivo de Calvo y Gibson (2000) buscaron
incorporar otras variables a la comprensión del fenómeno. El presente trabajo busca ser un aporte
más en este sentido, aplicando técnicas de minería de datos al análisis electoral de las elecciones
primarias a Senador Nacional en 2017 en la Provincia de Buenos Aires.
Palabras clave: elecciones, ciencia política, minería de datos, estadística.

Índice general
1. Introducción 2
2. Características de la investigación 3
2.1. Métodos a utilizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Resultados 5
3.1. Asociación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1. Análisis descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.2. Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.3. Escalamiento multidimensional (Análisis de Coordenadas Principales) . . . . 12
3.2. Agrupamiento en clústeres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.1. Agrupamiento jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2. Agrupamiento no jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3.1. Deﬁnición de la clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.2. Regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.3. Regresión LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.4. Regresión Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4. Conclusiones 27
5. Bibliografía 28
6. Anexo: Mapa de ganador según distrito 29
1

Capítulo 1
Introducción
Existe una vasta literatura acerca de la relación entre los resultados de las elecciones y los aspectos
sociales de una población. En el caso de Argentina, los trabajos fundacionales de Peter Smith
(1972, 1974) buscaron dar cuenta de las estructuras sociodemográficas asociadas al voto peronista y
continuaron en la década de los ‘80 con los análisis de sociología electoral de Manuel Mora y Araujo
(1980). Más adelante, los estudios de federalismo distributivo de Calvo y Gibson (2000) buscaron
incorporar otras variables a la comprensión del fenómeno.
La novedad en este tipo de estudios residía en la aplicación de técnicas estadísticas multivariadas,
particularmente de la denominada “inferencia ecológica”. Esta técnica consiste en utilizar información
agregada (denominada ecológica) para inferir relaciones de interés a nivel de individuos cuando la
información, a ese nivel de desagregación, no se encuentra disponible.
Con el fin de aportar al análisis cuantitativo en ciencia política y construir un puente disciplinario
con la ciencia de datos, el presente trabajo pretende estudiar la vinculación entre el voto a Presidente
en las elecciones y las características sociodemográficas de la población nacional.
Para ello, se aplicarán técnicas exploratorias y de clasificación supervisada y no supervisada a
información obtenida, principalmente, de dos fuentes: el Censo Nacional de Población, Hogares y
Viviendas 2010 y los resultados de la elección general a presidente de octubre de 2015. El primer
conjunto de datos mencionado se obtuvo del Instituto Nacional de Estadística y Censos (INDEC) y
el segundo de la Dirección Nacional Electoral (también disponible en el portal de Datos abiertos de
la República Argentina).
2

Capítulo 2
Características de la investigación
2.1. Métodos a utilizar
Se pretende utilizar un conjunto de métodos provenientes de la minería de datos, partiendo de
técnicas exploratorias que permiten observar correlaciones entre variables, descubrir variables latentes
y reducir la dimensionalidad del fenómeno como es el caso del Análisis de Componentes Principales.
Las técnicas de clasificación no supervisadas, como el agrupamiento en clústeres por particiones
alrededor de un medoide, permitirán observar vinculaciones interesantes entre la información sin
necesidad de determinar una etiqueta para los datos. Finalmente, utilizando métodos supervisados
-en nuestro caso, modelos lineales generalizados y ensambles de árboles- podremos ver cómo se
comportan los atributos con relación a una determinada clase y cuál es su importancia a la hora de
evaluar su etiqueta.
La visualización de la información es un atributo clave en la comprensión de los datos. Por ello,
el presente trabajo busca presentar las técnicas mediante gráficos de tipo biplot para analizar los
componentes principales, las coordenadas principales, gráficos de dispersión de las observaciones para
el estudio de los agrupamientos -incluyendo, para determinar la cantidad de grupos, la distribución
de la varianza contenida en los mismos- y, quizá lo más relevante para tener una idea intuitiva de la
distribución cuando se trabaja con datos geográficos, los mapas de la distribución de las variables
bajo estudio.
Para la construcción de la información sociodemográfica de los municipios se tomó la identificación
de cada radio censal -la unidad más pequeña sobre la que se obtiene información en las bases de
microdatos de los censos de población- y se asignó a cada uno su correspondiente ID de municipio,
según el nomenclador del INDEC. Posteriormente, a cada municipio se lo vinculó con su resultado
electoral a partir de la combinación de los valores de Provincia, Departamento y nombre del
municipio.
Para el análisis de la importancia de las variables y su capacidad de explicar el fenómeno de la
fuerza que se impuso en un municipio se utilizarán modelos lineales generalizados como la regresión
logística y las regresiones LASSO y Ridge. La regresión LASSO, al ser un método de reducción
de los coeficientes al origen y penalizar linealmente la complejidad del modelo, funciona como
selección automática de variables (Hastie et al, 2008). La regresión Ridge nos permitirá trabajar
con el conjunto de datos completo -eliminando variables categóricas y estandarizando, al igual que
en LASSO- y construir un modelo que no sufra la multicolinealidad. La regresión logística, por su
3

parte, nos permitirá contar con un modelo insesgado de importancia de las variables a partir de la
observación de atributos como los odds ratio y la deviance explicada por el modelo.
Finalmente, se realizará un análisis de agrupamientos en clústeres. El método de Partición Alrededor
de Medioides (Partition Around Medoids, en inglés) permite no sólo utilizar distancias no euclídeas
-por ejemplo, para analizar variables no numéricas- sino además contar con objetos prototípicos para
cada grupos, identificados como medioides. Este último aspecto garantiza, a diferencia del enfoque
de k-medias, que siempre existe una observación que será representativa de cada agrupamiento.
El presente trabajo se realizará con el software R y su interfaz de desarrollo RStudio siguiendo
el método tidy desarrollado por Hadley Wickham (Wickham & Grolemund, 2016), utilizando
principalmente con el universo de librerías tidyverse y el flujo de escritura de código asociado1. La
confección del documento se hará a través de LaTex y RMarkdown.
2.2. Descripción de los datos
Debido a problemas en el relevamiento de datos censales, un 8 % de municipios (que representan
menos del 1 % de la población) no pudieron ser integrados a la base por tener valores faltantes en
las categorías. Por tal motivo, la base de datos a utilizar cuenta con 2135 registros correspondientes
a municipios del país y surge de vincular, para cada uno, los resultados de los tres binomios de
candidatos a Presidente con más votos en las elecciones generales de 2015 (Daniel Scioli por el Frente
para la Victoria, Mauricio Macri por Cambiemos y Sergio Massa por UNA) con información censal.
En lo que resta del apartado se presentarán algunos resultados descriptivos de las 24 variables del
conjunto de datos. En primer lugar, describiremos las variables, que se dividen en tres grupos:
1. Electorales: las columnas FpV, Cambiemos y UNA indican el porcentaje de votos válidos
obtenidos por cada alianza electoral en el municipio. La columna Electores marca la cantidad
de personas que votaron en la elección. La columna Ganador indica el partido que obtuvo un
mayor porcentaje (además de los mencionados se incluye a la Alianza Compromiso Federal de
Adolfo Rodríguez Saá).
2. Estructurales: las columnas NBI, InCalServ e InMat indican el porcentaje de hogares
con insufuciencia en necesidades básicas y deficiencia en la calidad de los servicios y de los
materiales constructivos de la vivienda, respectivamente2.
3. Sociales: la columna JNivIns indica el porcentaje de hogares cuyo jefe cuenta con un nivel
de instrucción igual u superior a Secundario completo; JCondAct marca el porcentaje de
hogares con jefe ocupado; TotPers indica la cantidad promedio de personas residentes en
hogares del municipio. Además de los tres grupos mencionados, se encuentran las variables de
identificación de cada municipio (ID y Provincia).
Se presentan como Anexo los mapas correspondientes a los ganadores por departamento del país.
1
Para más información ver: https://www.tidyverse.org/
2
Se puede encontrar mayor información sobre la definición y construcción de los indicadores en http://200.51.91.
245/redarg/CENSOS/CPV2010rad/Docs/base.pdf
4

Capítulo 3
Resultados
3.1. Asociación entre variables
En esta sección observaremos la asociación entre variables a partir de la asociación entre las variables.
Un primer paso es observar al correlación mediante un correlograma, que combina el tamaño, el
sentido y el valor de las correlaciones de los atributos.
3.1.1. Análisis descriptivo
A continuación observamos los gráficos para las variables sin estandarizar. En primer lugar, analiza-
remos la distribución de los ganadores por municipio:
0
300
600
900
1200
ACF Cambiemos FpV UNA
Lista
Frecuencia
Total del país
Figura 1. Fuerza ganadora en el municipio
Lo primero que se aprecia es la diferencia en las medianas de las distribuciones y la asimetría a la
derecha de la distribución, principalmente en el caso de ACF pero también de UNA. Respecto de
las variables sociodemográficas, el siguiente gráfico nos permite observar que las distribuciones de
calidad de servicios y de materiales constructivos deficientes parece ser la más normal, sin valores
5

extremos. Lo contrario ocurre con el porcentaje de hogares con NBI y con jefe con secundario
completo, que presentan claras asimetrías a derecha. En el caso del porcentaje de hogares con jefe
ocupado, lo que se puede ver es que la distribución contiene una gran dispersión hacia las colas:
cantnbi
incalserv_def
inmat_def
jcondact
jnivins
0.00 0.25 0.50 0.75 1.00
Porcentaje
Lista
Por municipios del país
Figura 2. Distribución de los indicadores
Respecto de la distribución geográﬁca y, en vistas de la literatura existente (Mora y Araujo, 1980),
es relevante ver la distribución de municipios por región geográﬁca:
Cuyo
GBA
NEANOA
Pamp.
Pat.
Según región estadística
Figura 3.1. Municipios
Cuyo
GBA
NEANOA
Pamp.
Pat.
Por región estadística
Figura 3.2. Electores
Como se observa, el grueso de los municipios -aproximadamente el 55 %- se encuentran en la región
Pampeana, que abarca a las provincias de Córdoba, Entre Ríos, La Pampa, Santa Fe y los municipios
6

de la provincia de Buenos Aires no comprendidos en el Gran Buenos Aires1. Sin embargo, en la
distribución de los electores se observa que el peso del Gran Buenos Aires es considerable (31,3 %),
llegando a niveles similares a los de la región Pampeana (36,4 %). Esta importante concentración
de electores en un bajo número de municipios (24 del conurbano bonaerense y 15 comunas en la
ciudad) que se aprecia en el gráfico 3.2 podría indicar algún patrón interesante a la hora de analizar
cómo se estructura el voto en la región, en consonancia con lo relevado en la literatura mencionada
anteriormente.
El segundo análisis descriptivo que realizaremos consiste en un correlograma de las variables
numéricas estandarizadas, que utiliza la matriz triangular inferior para tener una idea intuitiva de
la correlación (a través del color del cuadrado y su tamaño) y la matriz triangular superior para
observar los coeficientes de correlación en cada caso:
−0.8 −0.4 0.6 0.3 0.5 −0.3 −0.4 0.5
0.1 −0.5 −0.2 −0.5 0.3 0.3 −0.4
−0.2 −0.2 −0.1 0.2 0.2 −0.2
0.4 0.7 −0.4 −0.4 0.6
0.3 0 −0.6 0.1
−0.5 −0.5 0.5
0.3 −0.3
−0.3
FpV_
Cambiemos
UNA
NBI
INCALSERV
INMAT
Jefe_ocupado
Jefe_sec._comp.
Cant._miembros
[−1,−0.6]
(−0.6,−0.2]
(−0.2,0.2]
(0.2,0.6]
(0.6,1]
Figura 4. Correlograma de las variables continuas
Se observa que la mayor correlación negativa es entre FpV y Cambiemos, los dos principales
competidores de la elección. La tercera fuerza, UNA, correciona negativamente con el FpV y no
parece tener asociación con Cambiemos.
En lo que respecta a las variables sociodemográficas, el gráfico 4 permite comenzar a delinear un tipo
de votante (o, mejor dicho, un tipo de municipio donde la fuerza es preponderante) para cada alianza:
en el caso del FpV, se observa una asociación positiva fundamentalmente con el porcentaje de NBI
y de calidad deficiente en servicios y materiales de la vivienda, así como en cantidad promedio
de miembros del hogar; la asociación negativa se da, en distintas magnitudes, con el porcentaje
de hogares cuyo jefe está ocupado o tiene secundario completo o más. Cambiemos presenta el
1
Para más información, https://www.indec.gov.ar/nuevaweb/cuadros/4/folleto%20gba.pdf.
7

comportamiento inverso en todas las variables, con magnitudes similares en la mayoría de los casos.
El perfil de UNA no parece tener asociaciones muy fuertes con las variables, es decir, presenta una
cierta transversalidad, aunque su comportamiento se asemeja más al de Cambiemos.
En términos generales, las mayores correlaciones entre el porcentaje de las fuerzas y las características
sociodemográficas a nivel de municipio se aprecian en el porcentaje de hogares con alguna Necesidad
Básica Insatisfecha, el porcentaje de hogares con calidad constructiva de la vivienda insuficiente y
tamaños promedio de hogar más grandes.
3.1.2. Análisis de Componentes Principales
El primer método exploratorio proveniente de la minería de datos a utilizar será el Análisis de
Componentes Principales, que consiste en reducir la dimensión del problema mediante la combinación
de variables, intentando captar la mayor cantidad de varianza en la menor cantidad de variables.
Para aplicar este método estandarizaremos las variables continuas del conjunto de datos.
El gráfico de sedimentación permite observar cómo decrece la captación de la varianza de cada
componente, cuándo se “rompe” el bastón y evaluar, conjuntamente con otros métodos -como el
criterio de Káiser o el test de esfericidad de Bartlett- cuántas componentes elegir:
45%
13.4%
11.4%
9.9%
7.4%
4.9% 3.9% 3%
1.1%
0
10
20
30
40
50
1 2 3 4 5 6 7 8 9
Dimensiones
Porcentajedevarianzaexplicada
Análisis de Componentes Principales
Figura 5. Gráfico de sedimentación
Como se puede observar en el gráfico 5, la primera componente es claramente la que mayor
variabilidad capta, un 45 %. Si siguiéramos el criterio de Káiser, podríamos quedarnos con las tres
primeras componentes, que explican el 70 % de la varianza total.
8

Una vez seleccionada la cantidad de componentes, procedemos a analizar las cargas o loadings, esto
es, los términos de cada autovector asociados a los autovalores.
Lo primero que se observa es que las componentes -todas de forma, esto es, con cargas positivas y
negativas en la misma componente- son consistentes con el análisis descriptivo inicial, señalando
patrones similares a los del correlograma. La primera componente parece describir el voto al FpV,
con valores altos en porcentaje de NBI, tamaño del hogar y calidad de servicios deficiente.
Cuadro 3.1: Tabla 1. Cargas de las tres primeras componentes
principales
rowname Dim.1 Dim.2 Dim.3
1 0.817 0.131 -0.373
2 -0.732 -0.337 0.032
3 -0.362 0.273 0.828
4 0.820 0.082 0.110
5 0.492 -0.739 0.125
6 0.797 0.043 0.343
7 -0.543 -0.245 -0.047
8 -0.635 0.538 -0.230
9 0.682 0.318 0.046
La segunda parece distinguir al voto rural de Cambiemos, con el término de porcentaje de votos a
dicha fuerza y el término de proporción de viviendas con calidad de servicios deficitarios positivos y
los términos de cantidad de electores y las variables sociales negativos. Como veremos a continuación,
el gráfico biplot es consistente con este análisis:
9

FpV
Cambiemos
UNA
NBI
INCALSERV
INMAT
Jefe ocupado
Jefe sec. comp.
Cant. miembros
−4
−2
0
2
−6 −3 0 3 6
Dim1 (45%)
Dim2(13.4%)
Ganador
FpV
Cambiemos
UNA
ACF
Dimensiones 1 y 2 del ACP
Figura 6. Municipios según fuerzas ganadoras
Es interesante ver, en este biplot, la asociación negativa entre FpV y Cambiemos, que presentan un
ángulo de casi 180° entre sí.
La tercera componente parece captar el voto a UNA que, como se analizó en el apartado descriptivo,
no parece tener asociaciones demasiado fuertes con las variables del conjunto. En este caso, se
observa en el gráﬁco 7 que el otro término con signo positivo, el porcentaje de viviendas con calidad
de materiales deﬁciente, es prácticamente ortogonal -esto es, independiente- respecto del porcentaje
de UNA:
10

FpV
Cambiemos
UNA
NBIINCALSERV
INMAT
Jefe ocupado
Jefe sec. comp.
Cant. miembros
−2
0
2
4
−6 −3 0 3 6
Dim1 (45%)
Dim3(11.4%)
Ganador
FpV
Cambiemos
UNA
ACF
Figura 7. Municipios según fuerzas ganadoras
A cotinuación observaremos la distribución de los municipios coloreados por región. A este respecto,
existen similitudes y diferencias con el análisis por ganador hecho previamente. Por un lado, parece
haber una cierta segmentación en la primera componente entre los municipios de la Región Pampeana,
por un lado, y del Norte (NEA y NOA), por el otrof. En este sentido, la primera componente parece
lograr una segmentación relativamente clara, como se apreció al colorear los ganadores en cada
municipio. Sin embargo, no se logra apreciar un patrón claro para la mayoría de las regiones, lo que
se evidencia aquí como una nube de puntos cerca del origen.
11

FpV
Cambiemos
UNA
NBI
INCALSERV
INMAT
Jefe ocupado
Jefe sec. comp.
Cant. miembros
−4
−2
0
2
−6 −3 0 3 6
Dim1 (45%)
Dim2(13.4%)
Ganador
NEA
Pamp.
NOA
GBA
Pat.
Cuyo
Figura 8. Municipios según región
Una de las limitaciones del Análisis de Componentes Principales es que no es conveniente utilizar
conjuntamente variables continuas y categóricas, por lo que existe la posibilidad de que haya patrones
subyacentes en los datos que no se observan mediante esta técnica. Más adelante utilizaremos el
método de escalamiento multidimensinal para lograr explotar ambos tipos de variables.
3.1.3. Escalamiento multidimensional (Análisis de Coordenadas Principales)
El método de escalamiento multidimiensional (MDS, por su sigla en inglés), también conocido
como escalamiento Torgenson-Gower es similar al Análisis de Componentes Principales (PCA, por
su sigla en inglés). Sin embargo, mientras que éste toma con conjunto de variables posiblemente
correlacionadas y reduce su dimensión mediante dos vectores ortogonales que buscan captar la
mayor variabilidad posible, el MDS toma como insumo una matriz de disimilaridad para luego -al
igual que en el PCA- obtener los autovalores y autovectores asociados perdiendo la menor cantidad
de información posible. También es conocido como Análisis de Coordenadas Principales.
Antes de proceder al análisis de agrupamientos aplicaremos esta técnica para observar el ordenamiento
de las observaciones mediante Análisis de Coordenadas Principales partiendo de una matriz de
disimilaridades (en la próxima sección profundizaremos en este aspecto).
12

−0.2
−0.1
0.0
0.1
0.2
−0.3 −0.2 −0.1 0.0 0.1 0.2
Variable 1
Variable2
Escalamiento multidimensional clásico
Figura 9. Municipios según ganador
El resultado del análisis nos permite contar con algunas claves interesantes de cara al estudio del
agrupamiento de las observaciones que realizaremos en el siguiente acápite. En primer lugar, se
aprecian en el gráﬁco 9 tres nubes de casos separados por la primera variable y que parecieran
discriminar entre los municipios donde ganó Cambiemos y aquellos donde ganó alguna de las otras
tres fuerzas. Sin embargo, dentro de esa nube existe un conjunto de casos similares en características
pero donde la fuerza que más votos obtuvo fue UNA. Por otro lado, dentro de las dos nubes de
municipios donde la fuerza más votada fue el FpV, en una se aprecian casos que corresponden a
UNA y en otros a ACF, por lo que es razonable pensar que existe un conjunto de características
compartidas por estos. El caso más interesante parece ser el de UNA, donde se nota claramente la
división entre dos grupos de municipios donde son la fuerza mayoritaria.
3.2. Agrupamiento en clústeres
A la hora de analizar el comportamiento electoral de los distintos municipios de acuerdo a sus
características sociodemográﬁcas es interesante evaluar cómo se aglutinan entre sí. Para ello, las
técnicas de clustering pueden ser muy útiles, dado que no sólo permiten observar la vinculación
sino contar con criterios que nos pueden indicar cuántos grupos subyacen en la estructura de la
información existente.
En el presente apartado trabajaremos con técnicas de clustering jerárquico y no jerárquico, utilizando
métodos de validación externa e interna de los agrupamientos obtenidos, de modo de obtener algunas
aproximaciones a la comprensión del fenómeno bajo estudio.
13

3.2.1. Agrupamiento jerárquico
Para el agrupamiento jerárquico compararemos los índices asociados a los dendrogramas de modo
de analizar cuál es la cantidad óptima de grupos y qué valores se obtienen en cada uno.
En primer lugar, utilizaremos el Elbow method, que -tomando la suma total de cuadrados entre los
grupos- indica con un quiebre similar a un codo el número óptimo de grupos. Como se aprecia en
el siguiente gráﬁco (Figura 10), la suma total de cuadrados entre grupos cae de uno a dos grupos,
donde se ameseta hasta encontrar otro descenso entre cinco y seis grupos.
79
80
81
82
83
1 2 3 4 5 6 7 8 9 10
Número de grupos
SumadelCuadradodelosErrores
Figura 10. Cantidad óptima de clústeres
La librería NbClust nos permite calcular una batería de indicadores -el índice de Hubert y el índice
D, entre otros- y realiza una votación simple para deﬁnir el mejor número de clústeres. Tomando
una matriz de distancia de Gower y agrupando las observaciones mediante el método de Ward
-que minimiza la varianza- se llega a la conclusión de que el mejor número de clústeres es 2. A
continuación se presenta la distribución:
## Among all indices:
## ===================
## * 2 proposed 0 as the best number of clusters
##
14

## Conclusion
## =========================
## * According to the majority rule, the best number of clusters is 2 .
0.0
2.5
5.0
7.5
10.0
0 1 10 2 3 4 6 7
Cantidad de grupos
Frecuenciadeelecciónentreíndices
Matriz de distancia de Gower
Figura 11. Criterio de NbClust
Se observa en el gráfico 11 que la mayor frecuencia la obtiene un k igual a 2, seguido por un k
igual a 4, algo que no se evidenció al analizar los agrupamientos con el método del codo. Resulta
interesante observar que dichas cantidades corresponden a los dos agrupamientos que se plantearon
en la clase definida: por un lado, oficialismo-oposición y, por otro, las cuatro fuerzas que ganaron en
al menos un municipio.
3.2.2. Agrupamiento no jerárquico
Una vez analizado el agrupamiento jerárquico, es interesante trabajar con métodos de agrupamiento
no jerárquico. Para ello, constuiremos una matriz de disimilitud con la métrica de Gower, que escala
las variables y calcula la disimilaridad entre los objetos -registros- como una media ponderada de
las contribuciones de cada variable (Gower, 1971). Luego, estudiaremos el comportamiento de los
distintos agrupamientos según los resultados que obtenga en términos del coeficiente de Silhouette,
un método de interpretación y validación de agrupamientos mediante el análisis de la cohesión y la
separación (Rousseeuw, 1987).
A continuación observaremos el desempeño del agrupamiento según coeficiente de Silhouette, que
puede variar entre -1 y 1, para diferentes agrupamientos. Es importante destacar que valores cercanos
al cero implican un bajo nivel de cohesión y separación:
15

−0.25
0.00
0.25
0.50
0.75
1.00
Coeficiente(Si)
cluster
1
2
0.0
0.5
1.0
Coeficiente(Si)
cluster
1
2
3
0.0
0.4
0.8
Coeficiente(Si)
cluster
1
2
3
4 0.0
0.4
0.8
Coeficiente(Si)
cluster
1
2
3
4
5
Figura 12. Silhouette según cantidad de grupos
Como se observa, el coeficiente de Silhouette promedio más alto se obtiene con dos grupos, donde
también se aprecia el coeficiente individual más elevado. Si bien los valores no son muy elevados, el
resultado es consistente con lo obtenido al agrupar con métodos jerárquicos.
Esto es consistente con la interpretación que se obtiene utilizando otras librerías, como fpc, que itera
con distintos números k de grupos y calcula el coeficiente de Silhouette promedio para cada k. La
presentación de este resultado se aprecia en el gráfico 13.
16

0.0
0.1
0.2
0.3
1 2 3 4 5 6 7 8 9 10
Cantidad de grupos
CoeficientedeSilhouettepromedio Matriz de distancia de Gower
Figura 13. Distribución de los Silhouette
Para validar el agrupamiento haremos uso del índice Rand ajustado, que toma el índice original -
una medida de similaridad que considera la coincidencia entre la clasificación en los grupos y las
etiquetas de clase que poseen las observaciones - y le aplica una corrección que tiene en cuenta la
posibilidad de que el agrupamiento observado haya ocurrido por azar (Hubert & Arabie, 1985).
El índice Rand ajustado para el agrupamiento definido, al compararlo con el vector de ganadores
para todos los municipios, por PAM es de 0.4618165.
Los medioides de los dos grupos son:
Del grupo 1, el municipio de Las Cejas, en el departamento de Cruz Alta, provincia de Tucumán.
En ese lugar el Frente para la Victoria obtuvo el 63 % de los votos y las dos fuerzas que lo
siguieron -Cambiemos y UNA- consiguieron 19 % y 15 % respectivamente. Es un municipio
con una alto porcentaje de hogares con al menos un indicador de NBI, baja tasa de jefatura
del hogar con secundario completo, un tamaño de hogar mayor al promedio y alto porcentaje
de hogares con calidad deficiente en sus materiales constructivos. Contaba, al momento del
último censo, con cerca de 500 hogares.
Del grupo 2, el municipio de Alejandro Roca, en el departamento de Juárez Celman, al sur de
la provincia de Córdoba. Allí, Cambiemos obtuvo más de 20 puntos porcentuales de diferencia
respecto del Frente para la Victoria, que quedó en el tercer lugar. En el segundo lugar, UNA
obtuvo 15 puntos porcentuales menos, un desempeño coincidente con el buen desempeño de la
fuerza en dicha provincia -más adelante se analizarán las causas. Es un municipio con una alta
tasa de ocupación de la jefatura del hogar, un tamaño de hogar menor al promedio y contaba,
al momento del último Censo, con algo menos de dos mil hogares.
17

3.3. Análisis de regresión
Como se mencionó en la Introducción, los modelos lineales generalizados (GLM, por su sigla en
inglés) nos permiten obtener estimaciones respecto de la importancia de las variables a utilizar
en los modelos, así como la pertinencia de su utilización para la clasificación de un determinado
atributo. En este apartado utilizaremos una regresión logística y regresiones con penalización como
Ridge y LASSO para predecir al ganador a la candidatura presidencial en cada municipio.
A diferencia de la regresión lineal por mínimos cuadrados ordinarios, en los métodos lineales
generalizados no es necesario que los datos sean lineales y homoscedásticos en su distribución, una
ventaja que nos permite trabajar con el conjunto de datos sin efectuar ninguna transformación
de los mismos más allá de la estandarización que se requiere para las regresiones Ridge y LASSO.
Estas últimas, si bien obtienen estimadores sesgados al llevar los coeficientes de la regresión al
origen mediante un parámetro de penalización -de donde proviene su nombre en inglés de shrinkage-
siempre reducen la varianza y hallan un valor de dicho parámetro tal que su error cuadrático medio
es estríctamente menor que el de los mínimos cuadrados ordinarios. Otra ventaja de este tipo de
regresiones es que, al penalizar por la complejidad del modelo, suelen prevenir el sobreajuste (en
inglés overfitting).
Para la elección del parámetro de penalización lambda óptimo se utiliza el método de validación
cruzada.
Uno de los mayores desafíos que presenta el conjunto de datos a utilizar es el desbalanceo en la clase
multinomial, donde las dos primeras fuerzas concentran el 94 % de los casos. Ese fenómeno se puede
apreciar en los siguientes gráficos:
18

0
200
400
600
0.00 0.25 0.50 0.75 1.00
Raíz cuadrada del porcentaje
Frecuencia
Lista
FpV
ACF
Cambiemos
UNA
Sobre votos válidos
Figura 14.1. Porcentajes por municipio
FpV
ACF
Cambiemos
UNA
0.00 0.25 0.50 0.75 1.00
Raíz cuadrada del porcentaje
Lista
Sobre votos válidos
Figura 14.2. Porcentajes por municipio
Para suavizar las distribuciones se tomaron los cuadrados de los porcentajes obtenidos y, a partir de
ello, se graficaron los polígonos de frecuencia y los boxplots.
3.3.1. Definición de la clase
En términos de la concentración geográfica de los municipios en los que obtuvo mayor cantidad de
votos que el resto de las fuerzas, el caso de UNA es similar al de la Alianza Compromiso Federal,
aunque con matices.De los 81 municipios, 38 corresponden a Córdoba y 12 a Jujuy y 10 a Salta.
Se observa, entonces, que el grueso de los municipios donde se impuso no se encuentran en la
provincia de donde proviene el candidato presidencial -Sergio Massa, de Buenos Aires- sino de
aquellas tres donde contó con referentes competitivos provenientes de otras fuerzas: Carlos Haquim,
electo vicegobernador de Jujuy en alianza con Cambiemos; Gustavo Sáenz, intendente de Salta
Capital y candidato a vicepresidente por UNA; José Manuel De la Sota, precandidato presidencial
de UNA y gobernador de Córdoba al momento de la elección.
Si bien la elección presidencial toma como distrito único el país, dado que en el presente apartado
nos proponemos identificar la fuerza que más votos obtuvo en cada municipio a partir de sus
características sociodemográficas, este desbalanceo en la distribución es particularmente importante.
Una posibilidad, entonces, es agrupar etiquetas de la clase siguien algún criterio a determinar. Las
correlaciones entre variables realizado previamente y la exploración mediante análisis de componentes
principales pueden aportar evidencia en este sentido.
La literatura citada indica que la estructura sociodemográfica del voto suele poder caracterizarse
19

como peronista-no peronista, lo que daría lugar a un agrupamiento de clases posible. Sin embargo, no
sería tan claro dónde ubicar a las fuerzas no oficialistas -esto es, claramente opositoras políticamente al
Frente para la Victoria- que se presentan por fuera de la Alianza Cambiemos. ¿Adónde correspondería
ubicar a José Manuel De la Sota, Sergio Massa y Adolfo Rodríguez Saá? Ellos, así como también
Gustavo Sáenz y Carlos Haquim, formaron parte de gobiernos peronistas e incluso fueron referentes
en su estructura nacional y local (Cafiero, 2011; Labaqui, 2005; Genoud, 2015).
Una cuestión a tener en cuenta son las alianzas que estas fuerzas desarrollaron en sus territorios. En
los casos de UNA, tanto Carlos Haquim como Gustavo Sáenz fueron parte, en 2015, de alianzas
provinciales con Cambiemos. Lo propio hizo José Manuel De la Sota, al apoyar en el ballotage a la
lista de dicha alianza. Sería razonable, entonces, asumir que esa fuerza forma parte de una oposición
más similar a Cambiemos que de un oficialismo comparable al Frente para la Victoria.
Respecto de la Alianza Compromiso Federal, una solución posible es observar los componentes
principales y estudiar a cuáles se asemejan, es decir, si a los del oficialismo o de la oposición. Luego
de realizar ese análisis se llega a la conclusión de que lo más atinado es incluirla en el grupo de la
oposición.
3.3.2. Regresión logística
El primer análisis que realizaremos es una regresión logística, de modo de tener un benchmark
de variables y variabilidad explicada (mediante la deviance, un concepto que desarrollaremos más
adelante). Para esta regresión -así como también para las regresiones LASSO y Ridge que se
realizarán más adelante- la variable dependiente es un atributo binario que indica, según los criterios
definidos en el apartado anterior, si en un determinado municipio obtuvo más votos el oficialismo o
la oposición.
Una primera aproximación que nos permite observar las características del modelo son sus coeficientes
y la distribución de los residuos. En este sentido, se presentan a continuación los coeficientes con
su respectiva significatividad. Para el análisis de los residuos trabajaremos, más adelante en este
apartado, con los valores de deviance y los grados de libertad para evaluar si su distribución es la
correcta.
Cuadro 3.2: Tabla 2. Coeficientes de la regresión logística
Variable Valor
(Intercept) 0.54
validos 0.00
masvotos -0.67
canthogares 0.00
cantnbi 4.73
incalserv_def 0.75
inmat_def 0.29
jcondact -2.16
jnivins -2.49
totpers 0.38
idregion2 -1.10
idregion3 2.73
20

Variable Valor
idregion4 1.23
idregion5 -1.86
idregion6 2.66
Los odds-ratio (Hosmer & Lemeshow, 2005) del modelo indican el efecto de la covariable en la
variable predictora en el caso de que ocurra dicho resultado y son un elemento muy importante
a la hora de contrastar hipótesis respecto de la importancia de una variable en un determinado
resultado.
Cuadro 3.3: Tabla 3 - Odds-ratio de las variables
Variable Valor
(Intercept) 1.72
validos 1.00
masvotos 0.51
canthogares 1.00
cantnbi 113.49
incalserv_def 2.11
inmat_def 1.34
jcondact 0.12
jnivins 0.08
totpers 1.47
idregion2 0.33
idregion3 15.38
idregion4 3.43
idregion5 0.16
idregion6 14.33
Ademaś de observar coeficients que no convergen es evidente, al ver los odds-ratio en la Tabla 3, que
el modelo trabaja con muy pocas variables -el porcentaje de hogares con al menos un indicador de
NBI, de viviendas con calidad de materiales deficientes y las regiones- y, con esto, busca predecir si
allí obtendrá más votos el oficialismo o la oposición. Es clave señalar que la multicolinealidad es un
problema relevante en este conjunto de datos, al punto de que existe al menos una variable que es
perfectamente colinear con las otras. Más adelante intentaremos resolverlo mediante otros modelos.
Para observar el desempeño de una regresión logística una de las herramientas más útiles es la
deviance residual, esto es, la variablidad que no capta el modelo respecto de un modelo saturado. La
deviance explicada compara la del modelo construido con un modelo nulo, es decir, que sólo tenga el
coeficiente β0. En este caso, el valor de la deviance explicada es de {r logit_model$deviance /
logit_model$null.deviance}. El test R2 de McFadden indica algo similar a la deviance explicada,
tomando valores cercanos a 1 cuando el modelo tiene poder predictivo y cercanos a cero (o cero)
cuando no lo tiene. En este caso, el coeficiente es 0,38.
Respecto de los residuos, una manera de evaluar si el modelo es bueno es el test de bondad de
ajuste de Hosmer-Lemeshow, que indica si los residuos del modelo tienen una distribución χ2. Sin
21

embargo, resultan muy sensibles a la elección de la cantidad de grupos (debido a la frecuencia
esperada). Por ese motivo, utilizaremos el test de Likelihood Ratio que también compara contra
una distribución χ2. Este test, cuya hipótesis nula indica que el modelo nulo es verdadero, da un
p-valor considerablemente menor a 0,001, por lo que se considera que el modelo desarrollado es
significativamente distinto de un modelo nulo.
Como indica la literatura mencionada anteriormente cada registro a predecir obtiene, a partir de la
regresión, un valor (denominado score) que indica, en una escala de 0 a 1 -siendo 0 y 1 los valores
de una clase binaria-, cuán cercano a una u otra clase se encuentra. Observa la distribución de
scores puede servirnos, entonces, para ver la capacidad de discriminar entre clases del modelo. Si
bien habitualmente se suelen graficar como una función sigmoidea que recorre el espacio de 0 a 1
mencionado, existen otras representaciones interesantes. Una de ellas es la siguiente, que contrasta
los valores predichos por el modelo con los valores observados para cada clase:
0.00
0.25
0.50
0.75
1.00
0 1
Observados
Predichos
Figura 15. Distribución de los scores según clase
Al graficar los scores en el eje de las ordenadas de un gráfico de violín como el de la figura 15
podemos ver cómo son las distribuciones de cada clase predicha -graficada en el eje de las abscisas-,
así como también el solapamiento de las mismas. Para facilitar este último aspecto graficamos, como
se aprecia, los cuartiles de la distribución de cada clase: esto permite ver que, tomando un score de
0,5 como punto de corte, el modelo estaría identificando de manera correcta más del 75 % de los
casos de cada clase.
3.3.3. Regresión LASSO
Como se mencionó anteriormente, las regresiones de tipo LASSO pueden utilizarse como métodos
de selección automática de variables. Esto es así dado que el parámetro de penalización que utilizan
consiste en el producto de un coeficiente lambda y el valor absoluto de los coeficientes o betas de
22

la regresión (este producto también es llamado penalización lineal o L1)2. Por este motivo, los
coeficientes pueden llegar a cero, sobreviviendo al shrinkage aquellos más importantes, es decir, los
que corresponden a atributos más relevantes para la clasificación. En el siguiente gráfico se aprecia
dicho proceso:
0 2 4 5 8 8 9
−0.75
−0.50
−0.25
0.00
0.25
0 1 2
L1 Norm
Coeficientes
variable
canthogares
cantnbi
idprov
idregion
incalserv_def
inmat_def
jcondact
jnivins
masvotos
totpers
validos
Figura 16. Supervivencia de los coeficientes
Las dos variables más destacadas de las once utilizadas como insumo del modelo que busca predecir
si en un determinado municipio va a obtener más votos el candidato a presidente del oficialismo
o de la oposición son el porcentaje de hogares con al menos un indicador de Necesidades Básicas
Insatisfechas y la región a la que pertenece el municipio. Por otro lado, la provincia de pertenencia
y la cantidad de hogares en el municipio no parece tener importancia.
2
La ecuación de que satisface el estimador del modelo es ˆβlasso(λ) = argminβ||Y − Xβ||2
2 + λ||β||1. Para más
información ver Tibshirani (1996).
23

0.35
0.40
0.45
0.50
0.001 0.010 0.100
Lambda (escala logarítmica)
ErrorCuadráticoMedio
Figura 17. Desempeño según valor de Lambda
Para el análisis de desempeño del modelo se utilizó el método de validación cruzada con 100 folds
(esto es, subconjuntos de la muestra sobre los que se calculó la performance) aleatorios, donde
el error se acumula y se computa para el total. Como se observa en el gráfico, el menor Error
Cuadrático Medio, de 0,32 -contra uno de 0,49 del modelo nulo, es decir, sólo con el β0 (0 intercept,
en inglés)-, se obtiene con un lambda de 0,00266. El menor lambda con un margen de hasta un
error estándar se presenta como línea punteada y, para facilitar la comprensión, la escala del eje de
abscisas se graficó de forma logarítmica.
El mejor modelo, esto es, el del lambda correspondiente la línea negra sólida, considera a todas las
variables excepto la provincia, la cantidad de hogares y el porcentaje de viviendas con materiales
constructivos deficientes. Si bien puede resultar extraño que esta última variable no participe en
el modelo, una explicación posible es que la información contenida en ella sea muy similar a otro
atributo y que, para la regresión, ese otro atributo sea el que vale. Este fenómeno, conocido como
multicolinealidad, es el que busca evitar la regresión Ridge que veremos a continuación.
3.3.4. Regresión Ridge
La regularización mediante penalización cuadrática conocida como Ridge pretende reducir la alta
variabilidad observada en situaciones de multicolinealidad, algo que se evidencia en el conjunto
de datos que está siendo utilizado. A diferencia de LASSO, donde la penalización puede llevar los
coeficientes a cero, en Ridge sobreviven todas las variables convergiendo de manera asintótica al
origen. A continuación observaremos ese fenómeno y analizaremos las variables más destacadas en
un modelo cuya variable dependiente -como se indicó previamente- es un atributo binario que señala
si en el municipio obtuvo maś votos a presidente el oficialismo o la oposición.
24

11 11 11 11 11 11 11
−0.6
−0.4
−0.2
0.0
0.2
0 1 2
L1 Norm
Coeficientes
variable
canthogares
cantnbi
idprov
idregion
incalserv_def
inmat_def
jcondact
jnivins
masvotos
totpers
validos
Figura 18. Reducción de los coeficientes
El porcentaje de hogares con jefatura que posea secundario completo, con jefatura que se encuentre
ocupada y con al menos un indicador de NBI, así como la región de pertenencia, parecen ser las
variables más importantes del modelo.
25

0.35
0.40
0.45
0.50
1 100
Lambda (escala logarítmica)
ErrorCuadráticoMedio
Figura 19. Desempeño según valor de Lambda
El desempeño del modelo, utilizando también 100-fold cross-validation, indica que con un lambda
de 0,025 puede llegarse a un Error Cuadrático Medio de 0,324 -contra un 0,495 del peor modelo.
26

Capítulo 4
Conclusiones
El análisis descriptivo y las técnicas utilizadas en el presente trabajo parecen dar a entender que
existe una estructura sociodemográfica distinta para cada una de las principales fuerzas electorales
que participaron en la elección presidencial de 2015.
El correlograma permitió describir las primeras asociaciones entre variables, identificando ciertos
patrones que luego serían corroborados -o no- con las técnicas aplicadas.
Por un lado, el Análisis de Componentes Principales permitió caracterizar un voto del Frente para
la Victoria (lo que podría denominarse como voto peronista), así como un voto de Cambiemos
asociado a localidades pequeñas (lo que históricamente podría denominarse como voto radical).
El análisis en regresión dio como resultado un conjunto de funciones que mostraron un desempeño
aceptable -aunque claramente perfectible- utilizando sólo las variables sociodemográficas. La sofisti-
cación de este tipo de modelos, así como la aplicación de Máquinas de Soporte Vectorial (SVM, por
su nombre en inglés), puede ser una línea de trabajo a futuro.
La aplicación de técnicas de clustering no jerárquico permitió visualizar la distribución en el espacio
de los grupos, dando cuenta de que existían dos grandes conjuntos con una densidad importante
en su intersección. Tanto al utilizar para la visualización los componentes principales como los
porcentajes de votos de las fuerzas se lograron identificar dos grupos de observaciones, utilizando
para su agrupamiento únicamente las variables sociodemográficas. Sin embargo, esta técnica no dio
resultados tan claros como la otra, habida cuenta de la gran densidad del conjunto intermedio y de
la cercanía de los centroides de ambos.
Otras características de las unidades de análisis, como distancia a la capital provincial o a la cabecera
de departamento, clima, topografía, años de existencia del municipio o antigüedad de la principal
ciudad del mismo, pueden enriqucer considerablemente el análisis.
Se presentan como desafíos a futuro la desagregación de la información electoral y sociodemográfica,
analizando con mayor detalle las estructuras y tendencias a nivel de circuito electoral o radio censal.
La complejidad que puede requerir este tipo de análisis, que implica vincular entre sí unidades a
priori distintas -en su confección y su finalidad- como los circuitos electorales y los radios censales,
puede permitir una mayor riqueza en el estudio de las estructuras sociodemográficas del voto en la
Argentina, aportando a una línea de investigación que comenzó hace más de 40 años pero que aún
tiene mucho camino por recorrer.
27

Capítulo 5
Bibliografía
Cafiero, A. (2011), Militancia sin tiempo. Mi vida en el justicialismo, Buenos Aires : Sudame-
ricana.
Calvo, E. & Gibson, E. (2000), “Federalism and Low Manteinance Constituencies: Territo-
rial Dimensions of Economic Reform in Argentina”, Studies in Comparative International
Development, 35:3.
Genoud, F. (2015), Massa. La biografía no autorizada, Buenos Aires: Sudamericana.
Gower, J. C. (1971) “A general coefficient of similarity and some of its properties”“, Biometrics
27, 857–874.
Hastie, T., Tibshirani, R. and Friedman, J H. (2008), The Elements of Statistical Learning:
Data Mining, Inference, and Prediction. New York: Springer.
Hosmer, D. & Lemeshow, S. (2005), Applied Logistic Regression, 2nd edition. John Wiley &
Sons.
Hubert, L. & Arabie, P. (1985). “Comparing Partitions”, Journal of the Classification, 2:193-
218.
Mitchell, T. (1997), Machine learning, McGraw-Hill.
Mora y Araujo, M. & Llorente, I. (1980), El voto peronista, Buenos Aires : Sudamericana.
Rousseeuw, P.J. (1987), “Silhouettes: A graphical aid to the interpretation and validation of
cluster analysis”, Journal of Computational and Applied Mathematics, Vol#20, 53-65.
Smith, P. (1972), “The Social Base of Peronism”, Hispanic American Historical Review, Vol#52,
55-73.
Smith, P. (1974), “Las elecciones argentinas de 1946 y las inferencias ecológicas”, Desarrollo
Económico, Vol#14, 385-398.
Tibshirani, R. (1996), “Regression Shrinkage and Selection via the Lasso”. Journal of the
Royal statistical society, Vol#58, Issue 1, 267-288.
Wickham, H., Grolemund, G. (2016), R for Data Science, O’Reilly Media.
28

Capítulo 6
Anexo: Mapa de ganador según
distrito
A continuación se presenta el mapa de la República Argentina coloreado según la fuerza que más votos
obtuvo en cada municipio para la categoría presidente. Así, los municipios en los que resultó ganador
el Frente Para la Victoria están coloreados en celeste, aquellos donde ganó Cambiemos en amarillo
y los que registraron mayor cantidad de votos de ACF y UNA en verde y rojo, respectivamente.
29

Mapa de ganador según municipio del país
30

Estructura sociodemográfica del voto en Argentina: un análisis desde la minería de datos

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (17)

Ähnlich wie Estructura sociodemográfica del voto en Argentina: un análisis desde la minería de datos

Ähnlich wie Estructura sociodemográfica del voto en Argentina: un análisis desde la minería de datos (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Estructura sociodemográfica del voto en Argentina: un análisis desde la minería de datos