Modelos de clasificación

CURSO
Modelos de Clasificaciń
o
Javier Trejos Zelaya
CIMPA, Universidad de Costa Rica,
E-Mail: jtrejos@cariari.ucr.ac.cr

´
Indice
1. Introducciń
o 2

2. Medidas de Semejanza 3
2.1. Distancias y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Clasificaciń Jer´rquica
o a 9
3.1. Jerarqu´ . . . . . . . . . . . . . . . . . . . .
ıas . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2. Clasificaciń jer´rquica ascendente . . . . . .
o a . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4. Aproximaciones por ultram´tricas . . . . . . .
e . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5. Clasificaciń jer´rquica descendente . . . . .
o a . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.6. Observaciones sobre la clasificaciń jer´rquica
o a . . . . . . . . . . . . . . . . . . . . . . . . . 15

4. Clasificaciń por Particiones
o 16
4.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3. M´todo de k-medias . . . . . .
e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.4. M´todos de nubes din´micas .
e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.5. M´todo de Fisher . . . . . . . .
e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.6. Uso de heur´ ısticas modernas de optimizaciń
o . . . . . . . . . . . . . . . . . . . . . . . . . 22

5. M´todos Arb´reos No Jer´rquicos
e o a 23
5.1. Arboles aditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2. Pir´mides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
a 24

6. Otros M´todos
e 25
6.1. Clasificaciń
o bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
o difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
o neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
o probabil´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

7. Validaciń de Resultados
o 31
7.1. Descripciń de una particiń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o o 31
7.2. N´mero de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
u 31
7.3. Pruebas de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
o 32

1

2 Javier Trejos

1. Introducciń
o
La clasificaciń autom´tica tiene por objetivo reconocer grupos de individuos homogńeos, de tal
o a e
forma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritos
por una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por una
tabla de proximidades.
Lo que se entiende por individuos homogńeos es que los individuos que pertenezcan a un mismo
e
grupo tengan, ya sea caracter´ ısticas iguales o similares en el caso de que sean descritos por una tabla
con variables, o bien que estń pr´ximos unos de otros en el caso de que sean descritos por una tabla de
e o
proximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a
a ı,
un individuo de otra clase.
La clasificaciń autom´tica tambiń es conocida bajo otros nombres, como por ejemplo an´lisis de
o a e a
grupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal-
a o a a e
mente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaciń autom´tica porque el
e e o a
objetivo es buscar una clasificaciń (o varias clasificaciones, segń sea el m´todo usado) de los individuos
o u e
u objetos a agrupar, y como esta clasificaciń es desconocida a priori, el m´todo debe hacer la clasi-
o e
ficaciń autom´ticamente sin que intervenga ningń agente externo. Contrariamente, la discriminaciń
o a u o
trata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaciń no es autom´tica
o a
sino supervisada (se trata de que la regla de asignaciń a los grupos dados minimice los posibles errores
o
a clases incorrectas).

Existe gran cantidad de m´todos de clasificaciń autom´tica, entre los que podemos distinguir los
e o a
siguientes:
los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan
e a
representarse mediante un ´rbol;
a
los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten
e a
a una clase de nivel inferior estar contenida en dos clases de nivel superior;
los m´todos de particionamiento, que buscan una sola particiń del conjunto de individuos;
e o
los m´todos de clasificaciń no exclusiva, que buscan grupos en los datos de tal manera que un
e o
individuo pueda pertenecer a varios grupos al mismo tiempo;
los m´todos de clasificaciń difusa, que buscan grupos homogńeos de individuos pero que dan
e o e
el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase;
los m´todos de clasificaciń cruzada, que tratan de hacer la clasificaciń simultńeamente sobre
e o o a
dos conjuntos de individuos (o uno de individuos y uno de variables).
En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti-
e a a
cionamiento. As´ abordaremos los m´todos llamados de clasificaciń jer´rquica ascendente y los de nubes
ı, e o a
din´micas, por ser los m´s populares y fćiles de usar. Tanto los m´todos jer´rquicos como algunos del
a a a e a
tipo nubes din´micas estń implementados en la mayor´ de los paquetes estad´
a a ıa ısticos.

´
modelos de clasificacion 3

2. Medidas de Semejanza
Los m´todos de clasificaciń autom´tica usan ampliamente el concepto de similitud o disimilitud entre
e o a
los individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir los
m´todos de clasificaciń propiamente dichos. A lo largo del cap´
e o ıtulo denotaremos con Ω al conjunto de
individuos a clasificar, y supondremos que posee n elementos.

2.1. Distancias y disimilitudes
Las similitudes y disimilitudes son los conceptos b´sicos que nos permitirń determinar si dos indi-
a a
viduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cuń similares son dos
a
individuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s
a a
cercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cuń diferentes son dos
a a
individuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero
a
sea la disimilitud menos diferentes serń los individuos (es decir, es m´s posible que pertenezcan a una
a a
misma clase) y entre mayor sea ´sta m´s diferentes serń.
e a a

2.2. Similitudes
Una similitud es una funciń s : Ω × Ω −→ R+ tal que:
o

1. para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω};
a

2. para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i).
ıa:

Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi-
o
viduos. Ahora bien, la definiciń de una similitud depender´ de c´mo es la descripciń de los individuos,
o a o o
es decir, qu´ tipo de variables son las que los describen.
e

2.2.1. Caso de variables binarias
Un caso frecuente para usar similitudes es cuando los individuos estń descritos por variables binarias,
a
es decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo
o
presenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”,
que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”,
es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambiń aparecen con frecuencia
ıa e
este tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la
a
parcela”.
En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar los
siguientes elementos:

pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j
u

qij : es el n´mero de atributos que presenta s´lo uno de los dos
u o

p: es el n´mero total de atributos (n´mero de variables).
u u

Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuacińo
solamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´
a ındices
[12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´
ındices de similitud m´s usados para datos binarios son:
a

el ´
ındice de Jaccard:
pij
s(i, j) =
pij + qij

4 Javier Trejos

el ´
ındice de Russel y Rao:
pij
s(i, j) =
p

Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´
e ındice de Jaccard alcanza
su valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre
a a
el n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos
u o
el valor del ´
ındice de Russel y Rao ser´ 1.
a

Ejemplo 1 Supńgase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 .
o
Los datos son:
v1 v2 v3 v4
a 1 0 1 1
b 0 1 1 1
c 0 0 0 0
d 1 0 1 1
e 0 1 0 0
f 1 1 1 1

Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o
u
para los que son diferentes, se obtienen los valores de pij y qij dados a continuaciń:
o

pij b c d e f qij b c d e f
a 2 0 3 0 3 a 2 3 0 4 1
b 0 2 1 3 b 3 2 2 1
c 0 0 0 c 3 1 4
d 0 3 d 4 1
e 1 e 3

Al calcular los ńdices de Jaccard y de Russel & Rao, se obtiene:
ı

Jaccard Russel&Rao
s(i, j) a b c d e f s(i, j) a b c d e f
a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75
b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75
c 1 0 0 0 c 1 0 0 0
d 1 0 0,75 d 1 0 0,75
e 1 0,25 e 1 0,25
f 1 f 1

En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores.
El valor de 1 para s(i, j) calculado con el ńdice de Jaccard refleja este hecho, lo cual no se aprecia con
ı
el ńdice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j)
ı
calculado con ambos ńdices refleja este hecho.
ı

2.2.2. Similitudes entre variables
Generalmente, cualquier ´ındice de asociaciń entre variables sirve como similitud entre variables. As´
o ı,
para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaciń
o
lineal
n
¯ ¯
(xi − x)(yi − y)
r(x, y) = i=1
sx sy

´

donde sx , sy son las desviaciones estńdar de x y y, respectivamente. En general, cualquier ´
a ındice de cor-
relaciń servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo
o ıa o
para su uso en clasificaciń. Por ejemplo, para el caso del coeficiente de correlaciń lineal se suele usar
o o

d(x, y) = 1 − |r(x, y)|

ındice de disimilitud, en el caso de tomar como fuerte asociaciń el caso r(x, y) ≈ −1, o bien
como ´ o

d(x, y) = 2 − r(x, y)

en el caso contrario.
Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec-
tivamente, se suele tomar el ´
ındice de asociaciń de chi-cuadrado como similitud
o
p q
1 (nnjk − nj· n·k )2
χ2 (x, y) =
j=1 k=1
n nj· n·k

donde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son los
m´rgenes. Ahora bien, el ´
a ındice de χ2 tiene el inconveniente de no estar normalizado y no permite
comparar ´
ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero
u u
de modalidades. Por ello, se suele usar m´s bien el ´
a ındice T 2 de Chuprov, normalizado en el intervalo
[0, 1]:
χ2 (x, y)
T 2 (x, y) = .
n(p − 1)(q − 1)

2.3. Disimilitudes
Una disimilitud es una funciń d : Ω × Ω −→ R+ tal que:
o
1. para cada i ∈ Ω se tiene d(i, i) = 0
2. para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i)
ıa:
Si a la definiciń anterior uno le aãde:
o n
3. d(i, j) = 0 ⇔ i = j
4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que llamamos una distancia.

2.3.1. Caso cuantitativo
La disimilitud m´s usada es la distancia eucl´
a ıdea cl´sica:
a
p
d(i, j) = (xk − xk )2
i j
k=1

Recu´rdese de lo estudiado en el cap´
e ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partir
de una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner
e e ıa
d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´
ı, ıdea cl´sica coincide con el caso en
a
que se usa como m´trica la identidad de orden p.
e

El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son
a
cuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay
o
que mencionar que esta distancia tiene un inconveniente si se usa sin precauciń: debido a que cada t´rmino
o e

6 Javier Trejos

de la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandes
diferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´ ıpico
se traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado,
a a
siempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersiń
o
deber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias.
ıa ı

Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
p
d(i, j) = |xk − xk |
i j
k=1

Otra distancia usada en ocasiones, es la llamada distancia de Chebychev:

d(i, j) = m´x{|xk − xk |/k = 1, . . . , p}
a i j

Ejemplo 2 Supńgase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , segń
o u
se muestra en la tabla siguiente:
v1 , v2 v3 v4 v5
a 2 3,5 0 4 7
b 4 3 1,5 5 6
c 0 6 4 2 3
d 3 3 1 4 77

El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son:
a ı a

Eucl´dea
ı City-block
d(i, j) a b c d d(i, j) a b c d
a 0 2,915 6,801 70,02 a 0 6 14,5 72,5
b 0 7,018 71,02 b 0 15,5 73,5
c 0 74,21 c 0 85
d 0 d 0

Chebychev
d(i, j) a b c d
a 0 2 4 70
b 0 4 71
c 0 74
d 0

De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidos
para las cinco variables, y su cercaná es reflejadapor el bajo valor de las distancias. Por su parte, d
ı
tambiń tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una
e
gran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplo
debido a un error de un digitador a la hora de pasar los datos del papel a la computadora (supńgase que
o
el dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distancias
mostradas son muy sensibles a los valores de estos casos at´picos.
ı

1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Joé,
s
donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo
ı,
las calles pasando por las esquinas, y no en l´
ınea recta

´

2.3.2. Caso binario
Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variables
binarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) =
a
1 − s(i, j). As´ se definen la disimilitud de Jaccard:
ı,
qij
d(i, j) = 1 −
pij + qij
usando las notaciones de la secciń 2.2.1, y la disimilitud de Russel & Rao:
o
p − pij
d(i, j) =
p
Ejemplo 3 Usando los datos del ejemplo 1, tendrámos los siguientes valores para las disimilitudes de
ı
Jaccard y de Russel & Rao:
Jaccard Russel&Rao
d(i, j) a b c d e f d(i, j) a b c d e f
a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25
b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25
c 0 1 1 1 c 0 1 1 1
d 0 1 0,25 d 0 1 0,25
e 0 0,75 e 0 0,75
f 0 f 0

2.3.3. Caso cualitativo
Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati-
ıa
vas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntiva
completa, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En este
caso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo
ıan
usual es usar adaptaciones especiales de las distancias eucl´ ıdeas, como la distancia eucl´ ıdea cl´sica y la
a
distancia de χ2 (chi-cuadrado).
ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp
La distancia eucl´ a
es:
p
k
d(i, j) = 2 δij
k=1

k 1 si xk = xk
i j
donde δij = .
0 si xk = xk
i j
La distancia de χ2 es:
p
1 1 1 k
d(i, j) = 2 + δij
p
k=1
s(xk ) s(xk )
i j

donde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la
k
i u i a
k
variable x .

2.3.4. Agregaciones
Los m´todos de clasificaciń autom´tica usan generalmente una nociń de proximidad entre grupos
e o a o
de elementos, para medir la separaciń entre las clases que se buscan. Para ellos, se introduce el concepto
o
de agregaciń, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la
o a
agregaciń entre A y B es:
o
δ(A, B)
tal que δ es una disimilitud en el conjunto de partes P(Ω):

8 Javier Trejos

i) δ(A, A) = 0 para todo A ∈ P(Ω)
ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω)
Usualmente, la medida de agregaciń est´ basada en la disimilitud d medida sobre Ω. En efecto,
o a
denotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son:
a
1. Agregaciń del salto m´
o ınimo o del vecino m´s cercano:
a

δm´ (A, B) = m´
ın ın{d(a, b)|a ∈ A, b ∈ B}

2. Agregaciń del salto m´ximo:
o a

δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B}
a a

3. Agregaciń del salto promedio:
o
1
δprom (A, B) = d(a, b)
card(A) + card(B) a∈A
b∈B

En el caso cuantitativo se tiene adem´s:
a

4. Agregaciń de Ward:
o

card(A)card(B)
δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
card(A) + card(B)

donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´ ıdea e I(A) es la
inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaciń, tambiń llamada
o e
del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´
o a ıdeo, es decir,
cuando se dispone de variables cuantitativas.

Existen otras agregaciones tambiń citadas en la literatura, como por ejemplo la distancia entre los
e
centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir
ıa e
inversiones en el algoritmo de clasificaciń jer´rquica ascendente que veremos en la siguiente secciń.
o a o

´

3. Clasificaciń Jer´rquica
o a
3.1. Jerarqu´
ıas
Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en
e a
el pr´ximo cap´
o ıtulo– encuentran en cada ejecuciń una sola particiń en un n´mero dado a priori de
o o u
clases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman
u u
en la configuraciń de los datos.
o
Por ejemplo, consid´rese la siguiente configuraciń de puntos en R2 :
e o

r
r r
r rr
r
r r r
rr r
rr r
r r rr

Puede apreciarse que de forma natural se forman 3 clases de individuos segń la cercan´ de los puntos.
u ıa
Ahora bien, si el usuario no conoce esta configuraciń (para efectos de simplificaciń la hemos dado en dos
o o
dimensiones, pero el lector puede pensar que se trata de una configuraciń en muchas m´s dimensiones),
o a
entonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por
u
ejemplo en 2 clases o en 5 clases.
Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para varios
n´meros de clases al mismo tiempo, y escoger luego la que m´s conviene segń las necesidades. Una
u a u
manera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se
a a
muestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}.

a b c d e

Figura 1: Ejemplo de ´rbol jer´rquico
a a

Una ´rbol jer´rquico tiene la ventaja de que es de fćil interpretaciń. En efecto, para el ´rbol de la
a a a o a
figura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol,
a a a
esto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} con
el individuo c, y finalmente se obtiene el grupo total Ω.
El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos
a a a
en el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias

10 Javier Trejos

entre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos
´
escoger una agregaciń δ.
o
Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´
a a ıa.
Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que:
ıa

1. Ω ∈ H,

2. ∀i ∈ Ω, {i} ∈ H,

3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h.

Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada
ıa a a a
nodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene
a a a a
una ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria.
ız a ıa
La clasificaciń jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos
o a ıa
m´s parecidos formen nodos, y los grupos de individuos m´s similares tambiń formen nodos.
a a e
Se puede asociar un ´ındice f a la jerarqu´ tal que:
ıa,

1. f (h) ≥ 0,

2. ∀i ∈ Ω : f ({i}) = 0,

3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ).

Se dice entonces que (H, f ) es una jerarqu´ indexada.
ıa

Pueden consultarse las siguientes referencias como una introducciń a estos conceptos: [6, pp. 119–138,
o
tomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s
a a
accesible sea [19].

3.2. Clasificaciń jer´rquica ascendente
o a
El algoritmo general de clasificaciń jer´rquica ascendente (CJA) construye, en cada paso
o a
una particiń en k clases, que denotaremos Pk , mediante la fusiń de los dos conjuntos de la particiń
o o o
anterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la
a
siguiente manera:

1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω};

2. k := k + 1 ;

3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´
ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 };
sea H := H ∪ {h};

4. calcular f (h) y δ(h, h ), para todo h ∈ H;

5. mientras k < n − 1 ir al paso 2;

6. H = H ∪ Ω;

El H obtenido es la jerarqu´ deseada. Se define un ´
ıa ındice f , como una funciń f : H −→ R+ definida
o
por:
0 si h es un conjunto unitario
f (h) =
δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h
Esta indexaciń hace que el ´rbol de clasificaciń sea m´s fćilmente interpretable, pues da la idea de la
o a o a a
altura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que estń
a a a a
debajo del nodo.

´

3.2.1. Ejemplos didćticos
a
Ejemplo 4 Supńgase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}:
o

a b c d
a 0 1 3 5,5
b 0 2 4,5
c 0 2,5
d 0

Puede verse que el mńimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es
ı
1. Por lo tanto, se agregan estos dos individuos y al usar la agregaciń del salto mńimo δm´ se obtiene
o ı ın
la nueva tabla:
{a, b} c d
{a, b} 0 2 4,5
c 0 2,5
d 0

Ahora, el mńimo valor es para δ({a, b}, c) = 2, por lo
ı que se fusionan {a, b} y c, obtenińdose la
e
nueva tabla:
{a, b, c} d
{a, b, c} 0 2,5
d 0
De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2.
a a

3

2

1

a b c d

Figura 2: Arbol de clasificaciń obtenido al usar la agregaciń del salto m´
o o ınimo

Ejemplo 5 En caso de usarse la agregaciń del salto m´ximo δm´x sobre los datos anteriores, se obten-
o a a
drán sucesivamente las dos tablas siguientes:
ı

{a, b} c d
{a, b} {c, d}
{a, b} 0 3 5,5
{a, b} 0 5,5
c 0 2,5
{c, d} 0
d 0

y el ´rbol de clasificaciń será el presentado en la figura 3.
a o ı

12 Javier Trejos

5

4

3

2

1

a b c d

Figura 3: Arbol de clasificaciń opbtenido al usar la agregaciń del salto m´ximo
o o a

Ejemplo 6 Por otra parte, si se usa la agregaciń del salto promedio δprom sobre los datos anteriores,
o
se obtienen las tablas:
{a, b} c d
{a, b, c} d
{a, b} 0 2,5 5
{a, b, c} 0 4,16
c 0 2,5
d 0
d 0
Puede verse que en la primera tabla se alcanza el mńimo para dos valores diferentes: δ({a, b}, c) = 2,5 =
ı
δ(c, d). Ante esta situaciń, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo
o a
que se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4.
a

4

3

2

1

a b c d

Figura 4: Arbol de clasificaciń obtenido al usar la agregaciń del salto promedio
o o

El lector puede comprobar que de haber escogido la fusiń de c con d al ´rbol de clasificaciń hubiera
o a o
tenido una forma diferente.
2 En
los programas de computaciń, normalmente se decide autom´ticamente cual fusiń se har´; por ejemplo, se sugiere
o a o a
hacer aqu´lla que involucre al menor ´
e ındice de individuo.

´

3.2.2. F´rmula de recurrencia
o
Segń los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusiń deben calcu-
u o
larse algunos valores de la agregaciń: aqu´llos que involucran al grupo reciń creado, y que adem´s se
o e e a
suprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definiciń de los
o
´
ındices de agregaciń dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no
o
a partir de la tabla reciń calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este
e
c´lculo de actualizaciń solamente a partir de la ultima tabla de que se dispone, es que se han encontrado
a o ´
f´rmulas de recurrencia o actualizaciń de las agregaciones. Estas f´rmulas son especialmente utiles para
o o o ´
las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionan
en una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaciń para δprom y δward son:
o o

card(a)δprom (h, a) + card(b)δprom (h, b)
δprom (h, a ∪ b) =
card(a) + card(b)

(card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b)
δward (h, a ∪ b) =
card(a) + card(b)
donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.

Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud:
e

a b c d e
a 0 25 18 25 10
b 0 30 40 34
c 0 10 15
d 0 18
e 0

Usando la agregaciń del salto promedio δprom , se obtiene la secuencia de tablas:
o

a b {c, d} e
{a, e} b {c, d}
a 0 25 21,5 10 {a, c, d, e} b
{a, e} 0 29,5 19
b 0 35 34 {a, c, d, e} 0 32,25
b 0 35
{c, d} 0 16,5 b 0
{c, d} 0
e 0

y el ´rbol de clasificaciń mostrado en la figura 5.
a o

3.2.3. Inversiones
Se dice que una clasificaciń jer´rquica produce una inversiń cuando se construye h = a ∪ b con
o a o
f (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia
o o o
para que no se produzcan inversiones. Los cuatro ´ ındices de agregaciń no producen inversiones como se
o
puede verificar sobre el teorema de Diday, pero hay otros ´ ındices que s´ pueden producir, como el de la
ı
distancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 .

3.3. Algoritmos ascendentes acelerados
A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las
a
jerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos
ıas.
rec´
ıprocos.
El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindarios
reducibles, en cada paso de la construcciń jer´rquica ascendente, solamente se examinan los vecinos
o a

14 Javier Trejos

30

20

10

c d a e b

Figura 5: Arbol de clasificaciń obtenido al usar la agregaciń del salto promedio
o o

m´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368–
a
380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de
a o o
lanza & Williams, para caracterizar a los ´ ındices de agregaciń que cumplen la propiedad de vecindarios
o
reducibles.
El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´ ıprocos: dos grupos
a y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcciń jer´rquica
a o a
ascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´ ıprocos. Una vez
hechas estas fusiones, se calculan los vecinos rec´
ıprocos de los grupos formados y se recomienza, alternando
este paso de fusiń con el desarrollo normal del algoritmo de clasificaciń jer´rquica ascendente. Puede
o o a
encontrarse una descripciń del procedimiento en [15, 176–177].
o
Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dos
enfoques acelerados anteriores y el algoritmo usual de clasificaciń jer´rquica ascendente.
o a

3.3.1. Ejemplo de notas escolares
Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0
y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espaõl y educaciń f´
a n o ısica.
La clasificaciń jer´rquica usando la agregaciń de Ward con la distancia eucl´
o a o ıdea, da como resultado:
Luc´ıa
Mar´
ıa
Carlos
Andr´s
e
Luis
Sonia
Pedro
In´s
e
Ana
Jos´
e

Puede verse que hay una clara clasificaciń en tres clases, que es:
o

´

C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos},
e
C2 = {Luis,Sonia},
C3 = {Pedro,In´s,Ana,Jos´}.
e e
Si se quiere hacer una clasificaciń en dos clases, entonces se unen C1 y C2 .
o

El lector deseoso de consultar aplicaciones de la clasificaciń jer´rquica, puede encontrar 13 aplica-
o a
ciones en [6, pp. 321–538, tomo 1].

3.4. Aproximaciones por ultram´tricas
e
Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa.
ıa e
La demostraciń de esta propiedad, llamada teorema de Johnson–Benzćri, puede consultarse en: [6, pp.
o e
138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15].

La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar
ıa,
un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como
e
M. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco a
poco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una
e e
ultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la
e e e
construcciń de un ´rbol de longitud m´
o a ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. Tambiń Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω,
e ıa
construyendo cada vez un trińgulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]).
a o

3.5. Clasificaciń jer´rquica descendente
o a
Debe notarse que la construcciń de un ´rbol de clasificaciń podr´ tambiń hacerse descendente-
o a o ıa e
mente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico-
tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el
e
criterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert,
ıa. e a
de Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251–
e
276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobre
un m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp.
e a
82–88].

3.6. Observaciones sobre la clasificaciń jer´rquica
o a
La clasificaciń jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y
o a
sobre los que hay que insistir:
En primer lugar, los resultados dependen de la agregaciń que se escoja. Por ello, siempre se
o
recomienda al usuario que haga una reflexiń antes de aplicar el m´todo, en el sentido de ensoger
o e
la agregaciń que tenga un mejor sentido en el problema que se est´ tratando.
o e
En segundo lugar, en el caso en que haya igualdad en el valor de la agregaciń para dos parejas
o
diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados
a
diferentes.
Finalmente, se debe tomar en cuenta que la clasificaciń jer´rquica aproxima siempre una tabla de datos
o a
a una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo.
e e

3 Un a
´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son
a
elementos de Ω, y la suma de los valores de las aristas es m´
ınima entre todos los ´rboles con esas caracter´
a ısticas.

16 Javier Trejos

4. Clasificaciń por Particiones
o
Los m´todos de clasificaciń por particiones buscan una sola particiń de Ω, mediante la optimizaciń
e o o o
de algń criterio. Existen b´sicamente dos tipos de m´todos:
u a e

los que fijan a priori el n´mero de clases,
u

los que no fijan este n´mero.
u

Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventaja
obvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de
u ´
un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaciń no es fćil
u a o a
sin una adecuada experimentaciń y prćtica. Ejemplos de estos m´todos son Isodata y Wishart.
o a e
En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado
o e
de Nubes Din´micas.
a
Los m´todos de nubes din´micas estń basados en el principio que una clase puede ser representada por
e a a
algń objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de
u e
par´metros, etc; a este representante lo llamaremos nćleo. El primer algoritmo de este tipo fue propuesto
a u
por Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc.
La idea subyacente es:

asignar los individuos al nćleo m´s cercano,
u a

calcular los nćleos con las clases formadas en el paso anterior,
u

iterar los pasos anteriores hasta obtener estabilidad.

Se parte de una configuraciń inicial de nćleos, y se puede probar que el m´todo converge a una
o u e
particiń que no mejora el criterio. Dependiendo del contexto y del tipo de nćleo, se define un criterio
o u
a ser mejorado.

4.1. Problema combinatorio
Es necesario hacer notar que, cuando se quiere obtener una particiń en K clases de un conjunto con
o
n individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en K
clases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de
a o
ilustraciń, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es
o u
aproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el
n´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaciń
u o
de recurrencia
S(n, K) = S(n − 1, K − 1) + kS(n − 1, K)
Esto lleva a que
K
1 K
S(n, K) = (−1)K−i in
K! i
i=1

De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluciń
e o
satisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluciń
o
en todos los casos.

4.2. Criterio de la inercia
Como se ha mencionado, se quiere obtener clases lo m´s homogńeas posibles y tal que estń suficien-
a e e
temente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad:
e

´

supńgase que se est´ en presencia de una particiń P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son
o a o
los centros de gravedad de las clases:
1
gk = xi ,
n
i∈Ck

g es el centro de gravedad total:
n
1
g= xi .
n i=1
1 n 2
Si se denota I = n i=1 xi − g la inercia total de la nube de puntos,

K
|Ck |
B(P ) = ||gk − g||2 (1)
n
k=1

la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total,
y
K K
1 2
W (P ) = I(Ck ) = xi − gk (2)
n
k=1 k=1 i∈Ck

la inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher:
I = B + W. Obs´rvese que B mide precisamente la “separaciń” de la nube de puntos, al medir la
e o
inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad estń a
bastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si W
es pequeõ entonces cada I(Ck ) es pequeõ y as´ la dispersiń al interior de cada clase es pequeã.
n n ı o n
Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti- a
camente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaciń entre o
las clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes
ı, e
din´micas es encontrar una particiń P de Ω y representantes de las clases, tales que W (P ) sea m´
a o ınima.
Existen otros criterios de clasificaciń, como por ejemplo det(W )/ det(B) → m´ o criterios de en-
o ın,
trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto.
ıa. a

4.3. M´todo de k-medias
e
Existe un poco de confusiń en la literatura acerca del m´todo de las k-medias, ya que hay dos
o e
m´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un
e
primer m´todo de reasignaciń-recentraje que consiste b´sicamente en la iteraciń sucesiva, hasta obtener
e o a o
convergencia, de las dos operaciones siguientes:

Representar una clase por su centro de gravedad, esto es, por su vector de promedios

Asignar los objetos a la clase del centro de gravedad m´s cercano.
a

Poco despu´s, McQueen [37] propone un m´todo muy similar, donde tambiń se representan las clases por
e e e
su centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia
a
con el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro
e e
de ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los
e ıa
centros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo
e e
de McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la
ıa e
b´squeda de una particiń de consenso, llamada particiń central. Variantes del m´todo de Forgy son
u o o e
propuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17].
e a
Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, ań si estos m´todos
u e
tambiń reciben nombres como nubes din´micas, centros m´viles, o reasignaciń-recentraje.
e a o o

18 Javier Trejos

4.3.1. M´todo de Forgy
e
Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que estń descritos
a
por p variables cuantitativas x1 , x2 , . . . , xp .
En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y
a a
de distancias eucl´
ıdeas. Por lo tanto, tambiń tiene sentido que cada clase est´ representada por su centro
e e
de gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variables
para los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente.
a a
Generalemente, se usar´ la distancia eucl´
a ıdea cl´sica en este contexto.
a
Como se mencion´ anteriormente, el m´todo de las k-medias consiste en:
o e

1. Escoger una particiń inicial, al azar o con base en algń otro criterio.
o u

2. Calcular los centros de gravedad de la particiń.
o

3. Asignar cada objeto a la clase del centro de gravedad m´s cercano.
a

4. Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene
estabilidad en la particiń.
o

Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19].
e e
Conviene hacer notar que, en una implementaciń computacional, la escogencia al azar es m´s bien de
o a
una muestra de K objetos iniciales que servirń de nćleos iniciales, y luego se asignan todos los dem´s
a u a
objetos a la clase del nćleo m´s cercano, formńdose entonces la particiń inicial.
u a a o

4.3.2. Ejemplo de las notas escolares
El resultado de la aplicaciń del m´todo de k-medias, depender´ de la escogencia inicial de los nćleos.
o e a u
Por ello, se recomienda correr varias veces el m´todo y escoger la mejor soluciń obtenida en esas corridas.
e o
Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obtenińdose
o e
en 17 de ellas la soluciń ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con
o o e a
agregaciń de Ward). La tabla siguiente muestra los resultados obtenidos:
o

Particiń
o N´mero de veces
u W (P ) B(P )
obtenida
C1 = {Luc´ıa,Andr´s,Carlos,Mar´
e ıa} 17 0.75 4.97
C2 = {Luis,Sonia}
C3 = {Pedro,In´s,Ana,Jos´}
e e
e ıa,Luis,Sonia} 3 2.48 3.24
C2 = {Pedro,In´s}
e
C3 = {Ana,Jos´}
e
C2 = {In´s,Ana,Jos´}
e e
C3 = {Pedro}
C2 = {In´s,Ana}
e
C3 = {Pedro,Jos´}e
C1 = {Luc´ıa,Andr´s,Carlos,Luis,Sonia}
e 1 2.72 3.00
C2 = {Pedro,In´s}
e
C3 = {Ana,Jos´,Mar´
e ıa}
e ıa,Pedro,In´s,Ana,Jos´}
e e 1 3.06 2.66
C2 = {Luis}
C3 = {Sonia}

´

4.3.3. M´todo de transferencias
e
Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi-
e
nalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y
e
otra, de un unico elemento de Ω a la vez, haciendo mejorar algń criterio en cada iteraciń.
´ u o
El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaciń, no necesariamente
ı o
la inercia intra-clases):
1. Se da una particiń inicial P = (C1 , C2 , . . . , Ck ) de Ω.
o
k
2. Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la particiń de Pk consistente
o
en transferir x de Ck hacia Ck en la particiń P y dejar las dem´s clases iguales.
o a
3. Sea P ∗ tal que W (P ∗ ) = m´
ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ .
k

4. Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω.
5. Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia.
En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de
a
una distancia eucl´ıdea. Se busca la particiń P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases
o
W . Por tanto, al pasar x de Ck a Ck se debe minimizar
k
W (Ck (x)) = I(Ch ) + I(Ck {x}) + I(Ck ∪ {x}).
h∈{k,k }
/

En el caso general, Ω es arbitrario, con d un ´
ındice de disimilitud sobre Ω. El criterio W que se define
sobre la particiń P toma en cuenta la relaciń de equivalencia R asociada a P :
o o

W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}.

Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que:

sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }.

Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambiń la particiń final P ∗ depende
e ı e o
de la particiń inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambiń
o ı u e
se pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero
u u
“natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambiń se puede usar el
e
m´todo de Polos de Atracciń [35].
e o

4.4. M´todos de nubes din´micas
e a
Se quiere obtener una particiń de Ω en K clases bien agregadas, bien separadas y de intersecciń
o o
vac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza.
ıa. u
Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa
e e
en que cada clase debe tener una representaciń (llamada nćleo), y luego se hace una b´squeda iterada
o u u
de nćleos y de particiones, hasta optimizar un cierto criterio.
u
En el m´todo general de nubes din´micas, cada clase estar´ representada por un nćleo, que ser´ un
e a a u a
elemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el
a
siguiente:

1. Se da una particiń inicial de Ω.
o
2. Se calculan los nćleos, mediante una funciń de representaciń.
u o o
3. Se forma una particiń, asignando cada elemento al nćleo m´s pr´ximo, mediante una funciń de
o u a o o
asignaciń.
o

20 Javier Trejos

4. Se repiten los pasos 2 y 3 hasta que las clases se estabilicen.
La escogencia de los nćleos iniciales, se hace generalmente de manera aleatoria. En el caso general,
u
se escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo
K
W (P ) = D(xi , Nk )
k=1 xi ∈Ck

donde Nk es el nćleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo,
u
una agregaciń) entre los objetos xi y los nćleos Nk (que son conjuntos de objetos). El nćleo Nk se
o u u
define como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ).
Se puede probar que [19] en cada iteraciń se mejora W y adem´s se converge a una clase estable.
o a
Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los nćleos
e e a u
son centros de gravedad.

4.4.1. Variantes del m´todo de nubes din´micas
e a
Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas
e a a
se debe definir el criterio a optimizar, los nćleos (funciń de representaciń), y la forma de asignar
u o o
elementos a las clases (funciń de asignaciń).
o o
M´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis-
e e e
ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma
´
forma de dispersiń, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro-
o a e
longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricciń
o
de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar
a
iterativamente la distancia que mejor se adapte a los datos.
En presencia de objetos descritos por variables cuantitativas, el criterio es
K
2
W (P ) = x i − gk M
k=1 i∈Ck

para el caso de una sola m´trica M , o bien
e
K
2
W (P ) = x i − gk Mk
k=1 i∈Ck

para el caso en que se tiene una m´trica Mk asociada a cada clase Ck .
e
En cada iteraciń del algoritmo, se calcula no solo los centros de gravedad gk, sino tambiń las
o e
m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases,
e
mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra-
clases de clase Ck .
Regresiń tipol´gica. Se pretende detectar K comportamientos locales de regresiń lineal y las rectas
o o o
asociadas, de manera que se minimice un criterio de adecuaciń de las muestras con sus representa-
o
ciones lineales (criterio de m´
ınimos cuadrados ) [18].
La idea es dar una particiń del espacio Ω de n individuos a los que se han medido m variables
o
explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresiń asociados a cada
ı o
una de las clases de tal particiń.
o
El nćleo de una clase es el vector de coeficientes de regresiń Bk = (b1 , . . . , bm )t asociados a la
u o k k
regresiń en Ck . El criterio a minimizar es
o
K K nk
k k
W (P ) = Y −X Bk 2 nk
R = (yi − xk bi )
k
i k
k=1 k=1 i=1

´

donde nk = |Ck |.
Se asigna un individuo zi = (x1 , . . . , xp , yi ) a la clase Ck que minimice d(zi , Bk ) = (yi − xi Bk )2 .
i i

Mezclas de distribuciones. Se dispone de una muestra Ω cuyos elementos siguen distintas distribu-
ciones de probabilidad. Se quiere estimar los par´metros de tales distribuciones. Este es uno de los
a
problemas m´s viejos de la Estad´
a ıstica Inferencial, que aqu´ se aborda desde el punto de vista de la
ı
Clasificaciń Autom´tica, en particular con el m´todo de Nubes Din´micas.
o a e a
Se tiene una muestra Ω = {x1 , . . . , xn } de una variable aleatoria X en Rs , cuya ley admite la
K
densidad f (x) = k=1 pk f (x, ak ), donde pk > 0, ∀k, pk = 1. Se supone que f (·, ak ) es una
densidad que depende del par´metro ak ∈ Rs (donde s es el n´mero de componentes del par´metro),
a u a
y pk es la probabilidad de que un punto de la muestra siga la ley f (·, ak ). Se quiere estimar las K
componentes y los par´metros desconocidos pk y ak . Tomamos pk = |Ck |/n como estimador de pk .
a
Como se busca una particiń P = (c1 , . . . , cK ) tal que cada clase Ck sea asimilable a la ley f (·, ak ),
o
el nćleo de la clase k-´sima es el par´metro ak ∈ Rs . El criterio a maximizar es
u e a
K
W (P ) = ln V (Ck , ak ),
k=1

donde V (Ck , ak ) = x∈Ck f (x, ak ) es la funciń de verosimilitud de la submuestra Ck para la
o
ley f (·, ak ). Un objeto x se asigna a la clase k que maximiza f (x, ak ). El nćleo ak maximiza la
u
verosimilitud del par´metro de la densidad asociada a la muestra Ck . En el caso normal o Gaussiano,
a
se tiene ak = (µk , Γk ), donde:

1
µk = x
|Ck |
x∈Ck
1
Γk = (x − µk ) (x − µk )t .
|Ck |
x∈Ck

Hay que hacer notar que, a pesar de que este m´todo converge r´pidamente, la precisiń es mejor
e a o
con los m´todos cl´sicos de estimaciń de par´metros, por ejemplo con los algoritmos tipo EM y
e a o a
SEM [18].

Conceptos conjuntistas. Ilustramos este tipo de nćleo con el ejemplo mostrado en la figura 6.
u
y
5 6• A • C
• • • •
4 • •
•
3 •
• •
2 • B
• •• •
1 •
• -
0 1 2 3 4 5 6x

Figura 6: Los nćleos son conceptos conjuntistas: A = [x < 4]; B = [x ≥ 4] [y < 3]; C = [x ≥ 4] [y ≥ 3].
u

Otros. El nćleo puede ser un plano factorial, un hiperplano discriminante, etc. [18]
u

4.5. M´todo de Fisher
e
El M´todo de Fisher [23] es ´ptimo para particionar un conjunto descrito por una unica variable
e o ´
cuantitativa en K clases. Usa el criterio intra-clase y se fundamenta en el orden total asociado a la variable
cuantitativa (o cualitativa-ordinal) inducido por ´sta sobre el conjunto de individuos. La particiń ´ptima
e o o
deber´ ser compatible con ´ste orden.
a e

Modelos de clasificación

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Modelos de clasificación

Ähnlich wie Modelos de clasificación (20)

Mehr von Facultad de Ciencias, UCR

Mehr von Facultad de Ciencias, UCR (16)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Modelos de clasificación