2. 2 Javier Trejos
1. Introducci´n
o
La clasificaci´n autom´tica tiene por objetivo reconocer grupos de individuos homog´neos, de tal
o a e
forma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritos
por una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por una
tabla de proximidades.
Lo que se entiende por individuos homog´neos es que los individuos que pertenezcan a un mismo
e
grupo tengan, ya sea caracter´ ısticas iguales o similares en el caso de que sean descritos por una tabla
con variables, o bien que est´n pr´ximos unos de otros en el caso de que sean descritos por una tabla de
e o
proximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a
a ı,
un individuo de otra clase.
La clasificaci´n autom´tica tambi´n es conocida bajo otros nombres, como por ejemplo an´lisis de
o a e a
grupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal-
a o a a e
mente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaci´n autom´tica porque el
e e o a
objetivo es buscar una clasificaci´n (o varias clasificaciones, seg´n sea el m´todo usado) de los individuos
o u e
u objetos a agrupar, y como esta clasificaci´n es desconocida a priori, el m´todo debe hacer la clasi-
o e
ficaci´n autom´ticamente sin que intervenga ning´n agente externo. Contrariamente, la discriminaci´n
o a u o
trata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaci´n no es autom´tica
o a
sino supervisada (se trata de que la regla de asignaci´n a los grupos dados minimice los posibles errores
o
a clases incorrectas).
Existe gran cantidad de m´todos de clasificaci´n autom´tica, entre los que podemos distinguir los
e o a
siguientes:
los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan
e a
representarse mediante un ´rbol;
a
los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten
e a
a una clase de nivel inferior estar contenida en dos clases de nivel superior;
los m´todos de particionamiento, que buscan una sola partici´n del conjunto de individuos;
e o
los m´todos de clasificaci´n no exclusiva, que buscan grupos en los datos de tal manera que un
e o
individuo pueda pertenecer a varios grupos al mismo tiempo;
los m´todos de clasificaci´n difusa, que buscan grupos homog´neos de individuos pero que dan
e o e
el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase;
los m´todos de clasificaci´n cruzada, que tratan de hacer la clasificaci´n simult´neamente sobre
e o o a
dos conjuntos de individuos (o uno de individuos y uno de variables).
En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti-
e a a
cionamiento. As´ abordaremos los m´todos llamados de clasificaci´n jer´rquica ascendente y los de nubes
ı, e o a
din´micas, por ser los m´s populares y f´ciles de usar. Tanto los m´todos jer´rquicos como algunos del
a a a e a
tipo nubes din´micas est´n implementados en la mayor´ de los paquetes estad´
a a ıa ısticos.
3. ´
modelos de clasificacion 3
2. Medidas de Semejanza
Los m´todos de clasificaci´n autom´tica usan ampliamente el concepto de similitud o disimilitud entre
e o a
los individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir los
m´todos de clasificaci´n propiamente dichos. A lo largo del cap´
e o ıtulo denotaremos con Ω al conjunto de
individuos a clasificar, y supondremos que posee n elementos.
2.1. Distancias y disimilitudes
Las similitudes y disimilitudes son los conceptos b´sicos que nos permitir´n determinar si dos indi-
a a
viduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cu´n similares son dos
a
individuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s
a a
cercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cu´n diferentes son dos
a a
individuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero
a
sea la disimilitud menos diferentes ser´n los individuos (es decir, es m´s posible que pertenezcan a una
a a
misma clase) y entre mayor sea ´sta m´s diferentes ser´n.
e a a
2.2. Similitudes
Una similitud es una funci´n s : Ω × Ω −→ R+ tal que:
o
1. para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω};
a
2. para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i).
ıa:
Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi-
o
viduos. Ahora bien, la definici´n de una similitud depender´ de c´mo es la descripci´n de los individuos,
o a o o
es decir, qu´ tipo de variables son las que los describen.
e
2.2.1. Caso de variables binarias
Un caso frecuente para usar similitudes es cuando los individuos est´n descritos por variables binarias,
a
es decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo
o
presenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”,
que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”,
es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambi´n aparecen con frecuencia
ıa e
este tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la
a
parcela”.
En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar los
siguientes elementos:
pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j
u
qij : es el n´mero de atributos que presenta s´lo uno de los dos
u o
p: es el n´mero total de atributos (n´mero de variables).
u u
Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuaci´no
solamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´
a ındices
[12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´
ındices de similitud m´s usados para datos binarios son:
a
el ´
ındice de Jaccard:
pij
s(i, j) =
pij + qij
4. 4 Javier Trejos
el ´
ındice de Russel y Rao:
pij
s(i, j) =
p
Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´
e ındice de Jaccard alcanza
su valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre
a a
el n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos
u o
el valor del ´
ındice de Russel y Rao ser´ 1.
a
Ejemplo 1 Sup´ngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 .
o
Los datos son:
v1 v2 v3 v4
a 1 0 1 1
b 0 1 1 1
c 0 0 0 0
d 1 0 1 1
e 0 1 0 0
f 1 1 1 1
Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o
u
para los que son diferentes, se obtienen los valores de pij y qij dados a continuaci´n:
o
pij b c d e f qij b c d e f
a 2 0 3 0 3 a 2 3 0 4 1
b 0 2 1 3 b 3 2 2 1
c 0 0 0 c 3 1 4
d 0 3 d 4 1
e 1 e 3
Al calcular los ´ndices de Jaccard y de Russel & Rao, se obtiene:
ı
Jaccard Russel&Rao
s(i, j) a b c d e f s(i, j) a b c d e f
a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75
b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75
c 1 0 0 0 c 1 0 0 0
d 1 0 0,75 d 1 0 0,75
e 1 0,25 e 1 0,25
f 1 f 1
En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores.
El valor de 1 para s(i, j) calculado con el ´ndice de Jaccard refleja este hecho, lo cual no se aprecia con
ı
el ´ndice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j)
ı
calculado con ambos ´ndices refleja este hecho.
ı
2.2.2. Similitudes entre variables
Generalmente, cualquier ´ındice de asociaci´n entre variables sirve como similitud entre variables. As´
o ı,
para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaci´n
o
lineal
n
¯ ¯
(xi − x)(yi − y)
r(x, y) = i=1
sx sy
5. ´
modelos de clasificacion 5
donde sx , sy son las desviaciones est´ndar de x y y, respectivamente. En general, cualquier ´
a ındice de cor-
relaci´n servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo
o ıa o
para su uso en clasificaci´n. Por ejemplo, para el caso del coeficiente de correlaci´n lineal se suele usar
o o
d(x, y) = 1 − |r(x, y)|
ındice de disimilitud, en el caso de tomar como fuerte asociaci´n el caso r(x, y) ≈ −1, o bien
como ´ o
d(x, y) = 2 − r(x, y)
en el caso contrario.
Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec-
tivamente, se suele tomar el ´
ındice de asociaci´n de chi-cuadrado como similitud
o
p q
1 (nnjk − nj· n·k )2
χ2 (x, y) =
j=1 k=1
n nj· n·k
donde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son los
m´rgenes. Ahora bien, el ´
a ındice de χ2 tiene el inconveniente de no estar normalizado y no permite
comparar ´
ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero
u u
de modalidades. Por ello, se suele usar m´s bien el ´
a ındice T 2 de Chuprov, normalizado en el intervalo
[0, 1]:
χ2 (x, y)
T 2 (x, y) = .
n(p − 1)(q − 1)
2.3. Disimilitudes
Una disimilitud es una funci´n d : Ω × Ω −→ R+ tal que:
o
1. para cada i ∈ Ω se tiene d(i, i) = 0
2. para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i)
ıa:
Si a la definici´n anterior uno le a˜ade:
o n
3. d(i, j) = 0 ⇔ i = j
4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que llamamos una distancia.
2.3.1. Caso cuantitativo
La disimilitud m´s usada es la distancia eucl´
a ıdea cl´sica:
a
p
d(i, j) = (xk − xk )2
i j
k=1
Recu´rdese de lo estudiado en el cap´
e ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partir
de una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner
e e ıa
d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´
ı, ıdea cl´sica coincide con el caso en
a
que se usa como m´trica la identidad de orden p.
e
El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son
a
cuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay
o
que mencionar que esta distancia tiene un inconveniente si se usa sin precauci´n: debido a que cada t´rmino
o e
6. 6 Javier Trejos
de la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandes
diferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´ ıpico
se traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado,
a a
siempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersi´n
o
deber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias.
ıa ı
Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
p
d(i, j) = |xk − xk |
i j
k=1
Otra distancia usada en ocasiones, es la llamada distancia de Chebychev:
d(i, j) = m´x{|xk − xk |/k = 1, . . . , p}
a i j
Ejemplo 2 Sup´ngase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , seg´n
o u
se muestra en la tabla siguiente:
v1 , v2 v3 v4 v5
a 2 3,5 0 4 7
b 4 3 1,5 5 6
c 0 6 4 2 3
d 3 3 1 4 77
El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son:
a ı a
Eucl´dea
ı City-block
d(i, j) a b c d d(i, j) a b c d
a 0 2,915 6,801 70,02 a 0 6 14,5 72,5
b 0 7,018 71,02 b 0 15,5 73,5
c 0 74,21 c 0 85
d 0 d 0
Chebychev
d(i, j) a b c d
a 0 2 4 70
b 0 4 71
c 0 74
d 0
De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidos
para las cinco variables, y su cercan´a es reflejadapor el bajo valor de las distancias. Por su parte, d
ı
tambi´n tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una
e
gran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplo
debido a un error de un digitador a la hora de pasar los datos del papel a la computadora (sup´ngase que
o
el dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distancias
mostradas son muy sensibles a los valores de estos casos at´picos.
ı
1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Jo´e,
s
donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo
ı,
las calles pasando por las esquinas, y no en l´
ınea recta
7. ´
modelos de clasificacion 7
2.3.2. Caso binario
Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variables
binarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) =
a
1 − s(i, j). As´ se definen la disimilitud de Jaccard:
ı,
qij
d(i, j) = 1 −
pij + qij
usando las notaciones de la secci´n 2.2.1, y la disimilitud de Russel & Rao:
o
p − pij
d(i, j) =
p
Ejemplo 3 Usando los datos del ejemplo 1, tendr´amos los siguientes valores para las disimilitudes de
ı
Jaccard y de Russel & Rao:
Jaccard Russel&Rao
d(i, j) a b c d e f d(i, j) a b c d e f
a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25
b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25
c 0 1 1 1 c 0 1 1 1
d 0 1 0,25 d 0 1 0,25
e 0 0,75 e 0 0,75
f 0 f 0
2.3.3. Caso cualitativo
Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati-
ıa
vas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntiva
completa, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En este
caso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo
ıan
usual es usar adaptaciones especiales de las distancias eucl´ ıdeas, como la distancia eucl´ ıdea cl´sica y la
a
distancia de χ2 (chi-cuadrado).
ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp
La distancia eucl´ a
es:
p
k
d(i, j) = 2 δij
k=1
k 1 si xk = xk
i j
donde δij = .
0 si xk = xk
i j
La distancia de χ2 es:
p
1 1 1 k
d(i, j) = 2 + δij
p
k=1
s(xk ) s(xk )
i j
donde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la
k
i u i a
k
variable x .
2.3.4. Agregaciones
Los m´todos de clasificaci´n autom´tica usan generalmente una noci´n de proximidad entre grupos
e o a o
de elementos, para medir la separaci´n entre las clases que se buscan. Para ellos, se introduce el concepto
o
de agregaci´n, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la
o a
agregaci´n entre A y B es:
o
δ(A, B)
tal que δ es una disimilitud en el conjunto de partes P(Ω):
8. 8 Javier Trejos
i) δ(A, A) = 0 para todo A ∈ P(Ω)
ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω)
Usualmente, la medida de agregaci´n est´ basada en la disimilitud d medida sobre Ω. En efecto,
o a
denotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son:
a
1. Agregaci´n del salto m´
o ınimo o del vecino m´s cercano:
a
δm´ (A, B) = m´
ın ın{d(a, b)|a ∈ A, b ∈ B}
2. Agregaci´n del salto m´ximo:
o a
δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B}
a a
3. Agregaci´n del salto promedio:
o
1
δprom (A, B) = d(a, b)
card(A) + card(B) a∈A
b∈B
En el caso cuantitativo se tiene adem´s:
a
4. Agregaci´n de Ward:
o
card(A)card(B)
δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
card(A) + card(B)
donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´ ıdea e I(A) es la
inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaci´n, tambi´n llamada
o e
del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´
o a ıdeo, es decir,
cuando se dispone de variables cuantitativas.
Existen otras agregaciones tambi´n citadas en la literatura, como por ejemplo la distancia entre los
e
centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir
ıa e
inversiones en el algoritmo de clasificaci´n jer´rquica ascendente que veremos en la siguiente secci´n.
o a o
9. ´
modelos de clasificacion 9
3. Clasificaci´n Jer´rquica
o a
3.1. Jerarqu´
ıas
Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en
e a
el pr´ximo cap´
o ıtulo– encuentran en cada ejecuci´n una sola partici´n en un n´mero dado a priori de
o o u
clases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman
u u
en la configuraci´n de los datos.
o
Por ejemplo, consid´rese la siguiente configuraci´n de puntos en R2 :
e o
r
r r
r rr
r
r r r
rr r
rr r
r r rr
Puede apreciarse que de forma natural se forman 3 clases de individuos seg´n la cercan´ de los puntos.
u ıa
Ahora bien, si el usuario no conoce esta configuraci´n (para efectos de simplificaci´n la hemos dado en dos
o o
dimensiones, pero el lector puede pensar que se trata de una configuraci´n en muchas m´s dimensiones),
o a
entonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por
u
ejemplo en 2 clases o en 5 clases.
Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para varios
n´meros de clases al mismo tiempo, y escoger luego la que m´s conviene seg´n las necesidades. Una
u a u
manera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se
a a
muestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}.
a b c d e
Figura 1: Ejemplo de ´rbol jer´rquico
a a
Una ´rbol jer´rquico tiene la ventaja de que es de f´cil interpretaci´n. En efecto, para el ´rbol de la
a a a o a
figura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol,
a a a
esto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} con
el individuo c, y finalmente se obtiene el grupo total Ω.
El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos
a a a
en el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias
10. 10 Javier Trejos
entre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos
´
escoger una agregaci´n δ.
o
Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´
a a ıa.
Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que:
ıa
1. Ω ∈ H,
2. ∀i ∈ Ω, {i} ∈ H,
3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h.
Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada
ıa a a a
nodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene
a a a a
una ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria.
ız a ıa
La clasificaci´n jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos
o a ıa
m´s parecidos formen nodos, y los grupos de individuos m´s similares tambi´n formen nodos.
a a e
Se puede asociar un ´ındice f a la jerarqu´ tal que:
ıa,
1. f (h) ≥ 0,
2. ∀i ∈ Ω : f ({i}) = 0,
3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ).
Se dice entonces que (H, f ) es una jerarqu´ indexada.
ıa
Pueden consultarse las siguientes referencias como una introducci´n a estos conceptos: [6, pp. 119–138,
o
tomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s
a a
accesible sea [19].
3.2. Clasificaci´n jer´rquica ascendente
o a
El algoritmo general de clasificaci´n jer´rquica ascendente (CJA) construye, en cada paso
o a
una partici´n en k clases, que denotaremos Pk , mediante la fusi´n de los dos conjuntos de la partici´n
o o o
anterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la
a
siguiente manera:
1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω};
2. k := k + 1 ;
3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´
ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 };
sea H := H ∪ {h};
4. calcular f (h) y δ(h, h ), para todo h ∈ H;
5. mientras k < n − 1 ir al paso 2;
6. H = H ∪ Ω;
El H obtenido es la jerarqu´ deseada. Se define un ´
ıa ındice f , como una funci´n f : H −→ R+ definida
o
por:
0 si h es un conjunto unitario
f (h) =
δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h
Esta indexaci´n hace que el ´rbol de clasificaci´n sea m´s f´cilmente interpretable, pues da la idea de la
o a o a a
altura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que est´n
a a a a
debajo del nodo.
11. ´
modelos de clasificacion 11
3.2.1. Ejemplos did´cticos
a
Ejemplo 4 Sup´ngase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}:
o
a b c d
a 0 1 3 5,5
b 0 2 4,5
c 0 2,5
d 0
Puede verse que el m´nimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es
ı
1. Por lo tanto, se agregan estos dos individuos y al usar la agregaci´n del salto m´nimo δm´ se obtiene
o ı ın
la nueva tabla:
{a, b} c d
{a, b} 0 2 4,5
c 0 2,5
d 0
Ahora, el m´nimo valor es para δ({a, b}, c) = 2, por lo
ı que se fusionan {a, b} y c, obteni´ndose la
e
nueva tabla:
{a, b, c} d
{a, b, c} 0 2,5
d 0
De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2.
a a
3
2
1
a b c d
Figura 2: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto m´
o o ınimo
Ejemplo 5 En caso de usarse la agregaci´n del salto m´ximo δm´x sobre los datos anteriores, se obten-
o a a
dr´an sucesivamente las dos tablas siguientes:
ı
{a, b} c d
{a, b} {c, d}
{a, b} 0 3 5,5
{a, b} 0 5,5
c 0 2,5
{c, d} 0
d 0
y el ´rbol de clasificaci´n ser´a el presentado en la figura 3.
a o ı
12. 12 Javier Trejos
5
4
3
2
1
a b c d
Figura 3: Arbol de clasificaci´n opbtenido al usar la agregaci´n del salto m´ximo
o o a
Ejemplo 6 Por otra parte, si se usa la agregaci´n del salto promedio δprom sobre los datos anteriores,
o
se obtienen las tablas:
{a, b} c d
{a, b, c} d
{a, b} 0 2,5 5
{a, b, c} 0 4,16
c 0 2,5
d 0
d 0
Puede verse que en la primera tabla se alcanza el m´nimo para dos valores diferentes: δ({a, b}, c) = 2,5 =
ı
δ(c, d). Ante esta situaci´n, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo
o a
que se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4.
a
4
3
2
1
a b c d
Figura 4: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio
o o
El lector puede comprobar que de haber escogido la fusi´n de c con d al ´rbol de clasificaci´n hubiera
o a o
tenido una forma diferente.
2 En
los programas de computaci´n, normalmente se decide autom´ticamente cual fusi´n se har´; por ejemplo, se sugiere
o a o a
hacer aqu´lla que involucre al menor ´
e ındice de individuo.
13. ´
modelos de clasificacion 13
3.2.2. F´rmula de recurrencia
o
Seg´n los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusi´n deben calcu-
u o
larse algunos valores de la agregaci´n: aqu´llos que involucran al grupo reci´n creado, y que adem´s se
o e e a
suprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definici´n de los
o
´
ındices de agregaci´n dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no
o
a partir de la tabla reci´n calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este
e
c´lculo de actualizaci´n solamente a partir de la ultima tabla de que se dispone, es que se han encontrado
a o ´
f´rmulas de recurrencia o actualizaci´n de las agregaciones. Estas f´rmulas son especialmente utiles para
o o o ´
las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionan
en una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaci´n para δprom y δward son:
o o
card(a)δprom (h, a) + card(b)δprom (h, b)
δprom (h, a ∪ b) =
card(a) + card(b)
(card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b)
δward (h, a ∪ b) =
card(a) + card(b)
donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.
Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud:
e
a b c d e
a 0 25 18 25 10
b 0 30 40 34
c 0 10 15
d 0 18
e 0
Usando la agregaci´n del salto promedio δprom , se obtiene la secuencia de tablas:
o
a b {c, d} e
{a, e} b {c, d}
a 0 25 21,5 10 {a, c, d, e} b
{a, e} 0 29,5 19
b 0 35 34 {a, c, d, e} 0 32,25
b 0 35
{c, d} 0 16,5 b 0
{c, d} 0
e 0
y el ´rbol de clasificaci´n mostrado en la figura 5.
a o
3.2.3. Inversiones
Se dice que una clasificaci´n jer´rquica produce una inversi´n cuando se construye h = a ∪ b con
o a o
f (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia
o o o
para que no se produzcan inversiones. Los cuatro ´ ındices de agregaci´n no producen inversiones como se
o
puede verificar sobre el teorema de Diday, pero hay otros ´ ındices que s´ pueden producir, como el de la
ı
distancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 .
3.3. Algoritmos ascendentes acelerados
A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las
a
jerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos
ıas.
rec´
ıprocos.
El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindarios
reducibles, en cada paso de la construcci´n jer´rquica ascendente, solamente se examinan los vecinos
o a
14. 14 Javier Trejos
30
20
10
c d a e b
Figura 5: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio
o o
m´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368–
a
380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de
a o o
lanza & Williams, para caracterizar a los ´ ındices de agregaci´n que cumplen la propiedad de vecindarios
o
reducibles.
El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´ ıprocos: dos grupos
a y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcci´n jer´rquica
a o a
ascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´ ıprocos. Una vez
hechas estas fusiones, se calculan los vecinos rec´
ıprocos de los grupos formados y se recomienza, alternando
este paso de fusi´n con el desarrollo normal del algoritmo de clasificaci´n jer´rquica ascendente. Puede
o o a
encontrarse una descripci´n del procedimiento en [15, 176–177].
o
Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dos
enfoques acelerados anteriores y el algoritmo usual de clasificaci´n jer´rquica ascendente.
o a
3.3.1. Ejemplo de notas escolares
Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0
y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espa˜ol y educaci´n f´
a n o ısica.
La clasificaci´n jer´rquica usando la agregaci´n de Ward con la distancia eucl´
o a o ıdea, da como resultado:
Luc´ıa
Mar´
ıa
Carlos
Andr´s
e
Luis
Sonia
Pedro
In´s
e
Ana
Jos´
e
Puede verse que hay una clara clasificaci´n en tres clases, que es:
o
15. ´
modelos de clasificacion 15
C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos},
e
C2 = {Luis,Sonia},
C3 = {Pedro,In´s,Ana,Jos´}.
e e
Si se quiere hacer una clasificaci´n en dos clases, entonces se unen C1 y C2 .
o
El lector deseoso de consultar aplicaciones de la clasificaci´n jer´rquica, puede encontrar 13 aplica-
o a
ciones en [6, pp. 321–538, tomo 1].
3.4. Aproximaciones por ultram´tricas
e
Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa.
ıa e
La demostraci´n de esta propiedad, llamada teorema de Johnson–Benz´cri, puede consultarse en: [6, pp.
o e
138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15].
La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar
ıa,
un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como
e
M. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco a
poco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una
e e
ultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la
e e e
construcci´n de un ´rbol de longitud m´
o a ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. Tambi´n Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω,
e ıa
construyendo cada vez un tri´ngulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]).
a o
3.5. Clasificaci´n jer´rquica descendente
o a
Debe notarse que la construcci´n de un ´rbol de clasificaci´n podr´ tambi´n hacerse descendente-
o a o ıa e
mente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico-
tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el
e
criterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert,
ıa. e a
de Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251–
e
276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobre
un m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp.
e a
82–88].
3.6. Observaciones sobre la clasificaci´n jer´rquica
o a
La clasificaci´n jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y
o a
sobre los que hay que insistir:
En primer lugar, los resultados dependen de la agregaci´n que se escoja. Por ello, siempre se
o
recomienda al usuario que haga una reflexi´n antes de aplicar el m´todo, en el sentido de ensoger
o e
la agregaci´n que tenga un mejor sentido en el problema que se est´ tratando.
o e
En segundo lugar, en el caso en que haya igualdad en el valor de la agregaci´n para dos parejas
o
diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados
a
diferentes.
Finalmente, se debe tomar en cuenta que la clasificaci´n jer´rquica aproxima siempre una tabla de datos
o a
a una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo.
e e
3 Un a
´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son
a
elementos de Ω, y la suma de los valores de las aristas es m´
ınima entre todos los ´rboles con esas caracter´
a ısticas.
16. 16 Javier Trejos
4. Clasificaci´n por Particiones
o
Los m´todos de clasificaci´n por particiones buscan una sola partici´n de Ω, mediante la optimizaci´n
e o o o
de alg´n criterio. Existen b´sicamente dos tipos de m´todos:
u a e
los que fijan a priori el n´mero de clases,
u
los que no fijan este n´mero.
u
Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventaja
obvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de
u ´
un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaci´n no es f´cil
u a o a
sin una adecuada experimentaci´n y pr´ctica. Ejemplos de estos m´todos son Isodata y Wishart.
o a e
En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado
o e
de Nubes Din´micas.
a
Los m´todos de nubes din´micas est´n basados en el principio que una clase puede ser representada por
e a a
alg´n objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de
u e
par´metros, etc; a este representante lo llamaremos n´cleo. El primer algoritmo de este tipo fue propuesto
a u
por Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc.
La idea subyacente es:
asignar los individuos al n´cleo m´s cercano,
u a
calcular los n´cleos con las clases formadas en el paso anterior,
u
iterar los pasos anteriores hasta obtener estabilidad.
Se parte de una configuraci´n inicial de n´cleos, y se puede probar que el m´todo converge a una
o u e
partici´n que no mejora el criterio. Dependiendo del contexto y del tipo de n´cleo, se define un criterio
o u
a ser mejorado.
4.1. Problema combinatorio
Es necesario hacer notar que, cuando se quiere obtener una partici´n en K clases de un conjunto con
o
n individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en K
clases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de
a o
ilustraci´n, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es
o u
aproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el
n´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaci´n
u o
de recurrencia
S(n, K) = S(n − 1, K − 1) + kS(n − 1, K)
Esto lleva a que
K
1 K
S(n, K) = (−1)K−i in
K! i
i=1
De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluci´n
e o
satisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluci´n
o
en todos los casos.
4.2. Criterio de la inercia
Como se ha mencionado, se quiere obtener clases lo m´s homog´neas posibles y tal que est´n suficien-
a e e
temente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad:
e
17. ´
modelos de clasificacion 17
sup´ngase que se est´ en presencia de una partici´n P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son
o a o
los centros de gravedad de las clases:
1
gk = xi ,
n
i∈Ck
g es el centro de gravedad total:
n
1
g= xi .
n i=1
1 n 2
Si se denota I = n i=1 xi − g la inercia total de la nube de puntos,
K
|Ck |
B(P ) = ||gk − g||2 (1)
n
k=1
la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total,
y
K K
1 2
W (P ) = I(Ck ) = xi − gk (2)
n
k=1 k=1 i∈Ck
la inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher:
I = B + W. Obs´rvese que B mide precisamente la “separaci´n” de la nube de puntos, al medir la
e o
inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad est´n a
bastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si W
es peque˜o entonces cada I(Ck ) es peque˜o y as´ la dispersi´n al interior de cada clase es peque˜a.
n n ı o n
Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti- a
camente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaci´n entre o
las clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes
ı, e
din´micas es encontrar una partici´n P de Ω y representantes de las clases, tales que W (P ) sea m´
a o ınima.
Existen otros criterios de clasificaci´n, como por ejemplo det(W )/ det(B) → m´ o criterios de en-
o ın,
trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto.
ıa. a
4.3. M´todo de k-medias
e
Existe un poco de confusi´n en la literatura acerca del m´todo de las k-medias, ya que hay dos
o e
m´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un
e
primer m´todo de reasignaci´n-recentraje que consiste b´sicamente en la iteraci´n sucesiva, hasta obtener
e o a o
convergencia, de las dos operaciones siguientes:
Representar una clase por su centro de gravedad, esto es, por su vector de promedios
Asignar los objetos a la clase del centro de gravedad m´s cercano.
a
Poco despu´s, McQueen [37] propone un m´todo muy similar, donde tambi´n se representan las clases por
e e e
su centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia
a
con el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro
e e
de ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los
e ıa
centros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo
e e
de McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la
ıa e
b´squeda de una partici´n de consenso, llamada partici´n central. Variantes del m´todo de Forgy son
u o o e
propuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17].
e a
Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, a´n si estos m´todos
u e
tambi´n reciben nombres como nubes din´micas, centros m´viles, o reasignaci´n-recentraje.
e a o o
18. 18 Javier Trejos
4.3.1. M´todo de Forgy
e
Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que est´n descritos
a
por p variables cuantitativas x1 , x2 , . . . , xp .
En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y
a a
de distancias eucl´
ıdeas. Por lo tanto, tambi´n tiene sentido que cada clase est´ representada por su centro
e e
de gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variables
para los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente.
a a
Generalemente, se usar´ la distancia eucl´
a ıdea cl´sica en este contexto.
a
Como se mencion´ anteriormente, el m´todo de las k-medias consiste en:
o e
1. Escoger una partici´n inicial, al azar o con base en alg´n otro criterio.
o u
2. Calcular los centros de gravedad de la partici´n.
o
3. Asignar cada objeto a la clase del centro de gravedad m´s cercano.
a
4. Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene
estabilidad en la partici´n.
o
Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19].
e e
Conviene hacer notar que, en una implementaci´n computacional, la escogencia al azar es m´s bien de
o a
una muestra de K objetos iniciales que servir´n de n´cleos iniciales, y luego se asignan todos los dem´s
a u a
objetos a la clase del n´cleo m´s cercano, form´ndose entonces la partici´n inicial.
u a a o
4.3.2. Ejemplo de las notas escolares
El resultado de la aplicaci´n del m´todo de k-medias, depender´ de la escogencia inicial de los n´cleos.
o e a u
Por ello, se recomienda correr varias veces el m´todo y escoger la mejor soluci´n obtenida en esas corridas.
e o
Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obteni´ndose
o e
en 17 de ellas la soluci´n ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con
o o e a
agregaci´n de Ward). La tabla siguiente muestra los resultados obtenidos:
o
Partici´n
o N´mero de veces
u W (P ) B(P )
obtenida
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa} 17 0.75 4.97
C2 = {Luis,Sonia}
C3 = {Pedro,In´s,Ana,Jos´}
e e
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa,Luis,Sonia} 3 2.48 3.24
C2 = {Pedro,In´s}
e
C3 = {Ana,Jos´}
e
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa,Luis,Sonia} 2 2.52 3.20
C2 = {In´s,Ana,Jos´}
e e
C3 = {Pedro}
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa,Luis,Sonia} 1 2.55 3.17
C2 = {In´s,Ana}
e
C3 = {Pedro,Jos´}e
C1 = {Luc´ıa,Andr´s,Carlos,Luis,Sonia}
e 1 2.72 3.00
C2 = {Pedro,In´s}
e
C3 = {Ana,Jos´,Mar´
e ıa}
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa,Pedro,In´s,Ana,Jos´}
e e 1 3.06 2.66
C2 = {Luis}
C3 = {Sonia}
19. ´
modelos de clasificacion 19
4.3.3. M´todo de transferencias
e
Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi-
e
nalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y
e
otra, de un unico elemento de Ω a la vez, haciendo mejorar alg´n criterio en cada iteraci´n.
´ u o
El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaci´n, no necesariamente
ı o
la inercia intra-clases):
1. Se da una partici´n inicial P = (C1 , C2 , . . . , Ck ) de Ω.
o
k
2. Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la partici´n de Pk consistente
o
en transferir x de Ck hacia Ck en la partici´n P y dejar las dem´s clases iguales.
o a
3. Sea P ∗ tal que W (P ∗ ) = m´
ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ .
k
4. Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω.
5. Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia.
En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de
a
una distancia eucl´ıdea. Se busca la partici´n P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases
o
W . Por tanto, al pasar x de Ck a Ck se debe minimizar
k
W (Ck (x)) = I(Ch ) + I(Ck {x}) + I(Ck ∪ {x}).
h∈{k,k }
/
En el caso general, Ω es arbitrario, con d un ´
ındice de disimilitud sobre Ω. El criterio W que se define
sobre la partici´n P toma en cuenta la relaci´n de equivalencia R asociada a P :
o o
W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}.
Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que:
sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }.
Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambi´n la partici´n final P ∗ depende
e ı e o
de la partici´n inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambi´n
o ı u e
se pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero
u u
“natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambi´n se puede usar el
e
m´todo de Polos de Atracci´n [35].
e o
4.4. M´todos de nubes din´micas
e a
Se quiere obtener una partici´n de Ω en K clases bien agregadas, bien separadas y de intersecci´n
o o
vac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza.
ıa. u
Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa
e e
en que cada clase debe tener una representaci´n (llamada n´cleo), y luego se hace una b´squeda iterada
o u u
de n´cleos y de particiones, hasta optimizar un cierto criterio.
u
En el m´todo general de nubes din´micas, cada clase estar´ representada por un n´cleo, que ser´ un
e a a u a
elemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el
a
siguiente:
1. Se da una partici´n inicial de Ω.
o
2. Se calculan los n´cleos, mediante una funci´n de representaci´n.
u o o
3. Se forma una partici´n, asignando cada elemento al n´cleo m´s pr´ximo, mediante una funci´n de
o u a o o
asignaci´n.
o
20. 20 Javier Trejos
4. Se repiten los pasos 2 y 3 hasta que las clases se estabilicen.
La escogencia de los n´cleos iniciales, se hace generalmente de manera aleatoria. En el caso general,
u
se escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo
K
W (P ) = D(xi , Nk )
k=1 xi ∈Ck
donde Nk es el n´cleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo,
u
una agregaci´n) entre los objetos xi y los n´cleos Nk (que son conjuntos de objetos). El n´cleo Nk se
o u u
define como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ).
Se puede probar que [19] en cada iteraci´n se mejora W y adem´s se converge a una clase estable.
o a
Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los n´cleos
e e a u
son centros de gravedad.
4.4.1. Variantes del m´todo de nubes din´micas
e a
Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas
e a a
se debe definir el criterio a optimizar, los n´cleos (funci´n de representaci´n), y la forma de asignar
u o o
elementos a las clases (funci´n de asignaci´n).
o o
M´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis-
e e e
ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma
´
forma de dispersi´n, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro-
o a e
longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricci´n
o
de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar
a
iterativamente la distancia que mejor se adapte a los datos.
En presencia de objetos descritos por variables cuantitativas, el criterio es
K
2
W (P ) = x i − gk M
k=1 i∈Ck
para el caso de una sola m´trica M , o bien
e
K
2
W (P ) = x i − gk Mk
k=1 i∈Ck
para el caso en que se tiene una m´trica Mk asociada a cada clase Ck .
e
En cada iteraci´n del algoritmo, se calcula no solo los centros de gravedad gk, sino tambi´n las
o e
m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases,
e
mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra-
clases de clase Ck .
Regresi´n tipol´gica. Se pretende detectar K comportamientos locales de regresi´n lineal y las rectas
o o o
asociadas, de manera que se minimice un criterio de adecuaci´n de las muestras con sus representa-
o
ciones lineales (criterio de m´
ınimos cuadrados ) [18].
La idea es dar una partici´n del espacio Ω de n individuos a los que se han medido m variables
o
explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresi´n asociados a cada
ı o
una de las clases de tal partici´n.
o
El n´cleo de una clase es el vector de coeficientes de regresi´n Bk = (b1 , . . . , bm )t asociados a la
u o k k
regresi´n en Ck . El criterio a minimizar es
o
K K nk
k k
W (P ) = Y −X Bk 2 nk
R = (yi − xk bi )
k
i k
k=1 k=1 i=1
21. ´
modelos de clasificacion 21
donde nk = |Ck |.
Se asigna un individuo zi = (x1 , . . . , xp , yi ) a la clase Ck que minimice d(zi , Bk ) = (yi − xi Bk )2 .
i i
Mezclas de distribuciones. Se dispone de una muestra Ω cuyos elementos siguen distintas distribu-
ciones de probabilidad. Se quiere estimar los par´metros de tales distribuciones. Este es uno de los
a
problemas m´s viejos de la Estad´
a ıstica Inferencial, que aqu´ se aborda desde el punto de vista de la
ı
Clasificaci´n Autom´tica, en particular con el m´todo de Nubes Din´micas.
o a e a
Se tiene una muestra Ω = {x1 , . . . , xn } de una variable aleatoria X en Rs , cuya ley admite la
K
densidad f (x) = k=1 pk f (x, ak ), donde pk > 0, ∀k, pk = 1. Se supone que f (·, ak ) es una
densidad que depende del par´metro ak ∈ Rs (donde s es el n´mero de componentes del par´metro),
a u a
y pk es la probabilidad de que un punto de la muestra siga la ley f (·, ak ). Se quiere estimar las K
componentes y los par´metros desconocidos pk y ak . Tomamos pk = |Ck |/n como estimador de pk .
a
Como se busca una partici´n P = (c1 , . . . , cK ) tal que cada clase Ck sea asimilable a la ley f (·, ak ),
o
el n´cleo de la clase k-´sima es el par´metro ak ∈ Rs . El criterio a maximizar es
u e a
K
W (P ) = ln V (Ck , ak ),
k=1
donde V (Ck , ak ) = x∈Ck f (x, ak ) es la funci´n de verosimilitud de la submuestra Ck para la
o
ley f (·, ak ). Un objeto x se asigna a la clase k que maximiza f (x, ak ). El n´cleo ak maximiza la
u
verosimilitud del par´metro de la densidad asociada a la muestra Ck . En el caso normal o Gaussiano,
a
se tiene ak = (µk , Γk ), donde:
1
µk = x
|Ck |
x∈Ck
1
Γk = (x − µk ) (x − µk )t .
|Ck |
x∈Ck
Hay que hacer notar que, a pesar de que este m´todo converge r´pidamente, la precisi´n es mejor
e a o
con los m´todos cl´sicos de estimaci´n de par´metros, por ejemplo con los algoritmos tipo EM y
e a o a
SEM [18].
Conceptos conjuntistas. Ilustramos este tipo de n´cleo con el ejemplo mostrado en la figura 6.
u
y
5 6• A • C
• • • •
4 • •
•
3 •
• •
2 • B
• •• •
1 •
• -
0 1 2 3 4 5 6x
Figura 6: Los n´cleos son conceptos conjuntistas: A = [x < 4]; B = [x ≥ 4] [y < 3]; C = [x ≥ 4] [y ≥ 3].
u
Otros. El n´cleo puede ser un plano factorial, un hiperplano discriminante, etc. [18]
u
4.5. M´todo de Fisher
e
El M´todo de Fisher [23] es ´ptimo para particionar un conjunto descrito por una unica variable
e o ´
cuantitativa en K clases. Usa el criterio intra-clase y se fundamenta en el orden total asociado a la variable
cuantitativa (o cualitativa-ordinal) inducido por ´sta sobre el conjunto de individuos. La partici´n ´ptima
e o o
deber´ ser compatible con ´ste orden.
a e