SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
CURSO
                                   Modelos de Clasificaci´n
                                                        o
                                       Javier Trejos Zelaya
                                 CIMPA, Universidad de Costa Rica,
                                E-Mail: jtrejos@cariari.ucr.ac.cr


´
Indice
1. Introducci´n
             o                                                                                                                                                                         2

2. Medidas de Semejanza                                                                                                                                                                3
   2.1. Distancias y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                                             3
   2.2. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                                            3
   2.3. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                                            5

3. Clasificaci´n Jer´rquica
              o      a                                                                                                                                                                  9
   3.1. Jerarqu´ . . . . . . . . . . . . . . . . . . . .
                ıas                                                                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    9
   3.2. Clasificaci´n jer´rquica ascendente . . . . . .
                   o    a                                                          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
   3.3. Algoritmos ascendentes acelerados . . . . . .                              .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   13
   3.4. Aproximaciones por ultram´tricas . . . . . . .
                                    e                                              .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   15
   3.5. Clasificaci´n jer´rquica descendente . . . . .
                   o    a                                                          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   15
   3.6. Observaciones sobre la clasificaci´n jer´rquica
                                         o      a                                  .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   15

4. Clasificaci´n por Particiones
              o                                                                                                                                                                        16
   4.1. Problema combinatorio . . . .              . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   16
   4.2. Criterio de la inercia . . . . . .         . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   16
   4.3. M´todo de k-medias . . . . . .
          e                                        . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   17
   4.4. M´todos de nubes din´micas .
          e                    a                   . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   19
   4.5. M´todo de Fisher . . . . . . . .
          e                                        . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   21
   4.6. Uso de heur´ ısticas modernas de           optimizaci´n
                                                              o                    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   22

5. M´todos Arb´reos No Jer´rquicos
      e          o                a                                                                                                                                                    23
   5.1. Arboles aditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                                                           23
   5.2. Pir´mides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
           a                                                                                                                                                                           24

6. Otros M´todos
            e                                                                                                                                                                          25
   6.1. Clasificaci´n
                  o    bimodal . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   25
   6.2. Clasificaci´n
                  o    difusa . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   27
   6.3. Clasificaci´n
                  o    neuronal . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   28
   6.4. Clasificaci´n
                  o    probabil´ıstica .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   30

7. Validaci´n de Resultados
           o                                                                                                                                                                           31
   7.1. Descripci´n de una partici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                 o                o                                                                                                                                                    31
   7.2. N´mero de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
         u                                                                                                                                                                             31
   7.3. Pruebas de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                      o                                                                                                                                                                32


                                                                           1
2                                                                                         Javier Trejos


1.    Introducci´n
                o
    La clasificaci´n autom´tica tiene por objetivo reconocer grupos de individuos homog´neos, de tal
                  o         a                                                                   e
forma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritos
por una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por una
tabla de proximidades.
    Lo que se entiende por individuos homog´neos es que los individuos que pertenezcan a un mismo
                                                   e
grupo tengan, ya sea caracter´   ısticas iguales o similares en el caso de que sean descritos por una tabla
con variables, o bien que est´n pr´ximos unos de otros en el caso de que sean descritos por una tabla de
                              e      o
proximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a
                                                                                 a         ı,
un individuo de otra clase.
    La clasificaci´n autom´tica tambi´n es conocida bajo otros nombres, como por ejemplo an´lisis de
                 o         a              e                                                         a
grupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal-
           a           o        a                            a                            e
mente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaci´n autom´tica porque el
           e                                                    e                   o         a
objetivo es buscar una clasificaci´n (o varias clasificaciones, seg´n sea el m´todo usado) de los individuos
                                    o                              u          e
u objetos a agrupar, y como esta clasificaci´n es desconocida a priori, el m´todo debe hacer la clasi-
                                                 o                                e
ficaci´n autom´ticamente sin que intervenga ning´n agente externo. Contrariamente, la discriminaci´n
     o         a                                      u                                                  o
trata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaci´n no es autom´tica
                                                                                       o               a
sino supervisada (se trata de que la regla de asignaci´n a los grupos dados minimice los posibles errores
                                                         o
a clases incorrectas).

    Existe gran cantidad de m´todos de clasificaci´n autom´tica, entre los que podemos distinguir los
                             e                   o       a
siguientes:
     los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan
          e         a
     representarse mediante un ´rbol;
                               a
     los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten
          e                                      a
     a una clase de nivel inferior estar contenida en dos clases de nivel superior;
     los m´todos de particionamiento, que buscan una sola partici´n del conjunto de individuos;
          e                                                      o
     los m´todos de clasificaci´n no exclusiva, que buscan grupos en los datos de tal manera que un
           e                  o
     individuo pueda pertenecer a varios grupos al mismo tiempo;
     los m´todos de clasificaci´n difusa, que buscan grupos homog´neos de individuos pero que dan
           e                    o                                        e
     el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase;
     los m´todos de clasificaci´n cruzada, que tratan de hacer la clasificaci´n simult´neamente sobre
          e                    o                                           o        a
     dos conjuntos de individuos (o uno de individuos y uno de variables).
    En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti-
                                             e        a                          a
cionamiento. As´ abordaremos los m´todos llamados de clasificaci´n jer´rquica ascendente y los de nubes
                ı,                  e                            o    a
din´micas, por ser los m´s populares y f´ciles de usar. Tanto los m´todos jer´rquicos como algunos del
   a                    a               a                          e         a
tipo nubes din´micas est´n implementados en la mayor´ de los paquetes estad´
              a         a                               ıa                     ısticos.
´
modelos de clasificacion                                                                                    3


2.       Medidas de Semejanza
    Los m´todos de clasificaci´n autom´tica usan ampliamente el concepto de similitud o disimilitud entre
          e                   o        a
los individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir los
m´todos de clasificaci´n propiamente dichos. A lo largo del cap´
  e                    o                                       ıtulo denotaremos con Ω al conjunto de
individuos a clasificar, y supondremos que posee n elementos.


2.1.     Distancias y disimilitudes
   Las similitudes y disimilitudes son los conceptos b´sicos que nos permitir´n determinar si dos indi-
                                                        a                      a
viduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cu´n similares son dos
                                                                                       a
individuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s
                                                            a                                           a
cercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cu´n diferentes son dos
                          a                                                          a
individuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero
                                                                                         a
sea la disimilitud menos diferentes ser´n los individuos (es decir, es m´s posible que pertenezcan a una
                                        a                                a
misma clase) y entre mayor sea ´sta m´s diferentes ser´n.
                                 e      a               a


2.2.     Similitudes
     Una similitud es una funci´n s : Ω × Ω −→ R+ tal que:
                               o

 1.    para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω};
                                            a

 2.    para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i).
                                     ıa:

    Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi-
          o
viduos. Ahora bien, la definici´n de una similitud depender´ de c´mo es la descripci´n de los individuos,
                               o                             a     o                  o
es decir, qu´ tipo de variables son las que los describen.
            e

2.2.1.    Caso de variables binarias
    Un caso frecuente para usar similitudes es cuando los individuos est´n descritos por variables binarias,
                                                                          a
es decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo
                                                       o
presenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”,
que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”,
es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambi´n aparecen con frecuencia
                                                                         ıa       e
este tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la
                                                                                             a
parcela”.
    En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar los
siguientes elementos:

       pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j
                    u

       qij : es el n´mero de atributos que presenta s´lo uno de los dos
                    u                                o

       p: es el n´mero total de atributos (n´mero de variables).
                 u                          u

    Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuaci´no
solamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´
                              a                                                                      ındices
[12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´
                                              ındices de similitud m´s usados para datos binarios son:
                                                                    a

       el ´
          ındice de Jaccard:
                                                                pij
                                                 s(i, j) =
                                                             pij + qij
4                                                                                                 Javier Trejos


      el ´
         ındice de Russel y Rao:
                                                                  pij
                                                      s(i, j) =
                                                                   p

    Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´
        e                                                                           ındice de Jaccard alcanza
su valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre
           a                                                                          a
el n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos
    u                                       o
el valor del ´
             ındice de Russel y Rao ser´ 1.
                                       a


Ejemplo 1 Sup´ngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 .
               o
Los datos son:
                                            v1 v2 v3 v4
                                        a 1 0 1 1
                                        b 0 1 1 1
                                        c 0 0 0 0
                                        d 1 0 1 1
                                        e 0 1 0 0
                                        f 1 1 1 1

   Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o
                   u
para los que son diferentes, se obtienen los valores de pij y qij dados a continuaci´n:
                                                                                    o

                              pij   b c d e f                  qij      b c d   e f
                               a    2 0 3 0 3                   a       2 3 0   4 1
                               b      0 2 1 3                   b         3 2   2 1
                               c        0 0 0                   c           3   1 4
                               d          0 3                   d               4 1
                               e            1                   e                 3

    Al calcular los ´ndices de Jaccard y de Russel & Rao, se obtiene:
                    ı

         Jaccard                                            Russel&Rao
          s(i, j)   a b c d      e   f                        s(i, j)  a         b c   d   e             f
            a       1 0,5 0 1   0   0,75                         a     1        0,5 0 0,75 0            0,75
             b         1 0 0,5 0,33 0,75                         b               1 0 0,5 0,25           0,75
             c            1 0   0     0                          c                  1  0   0             0
            d               1   0   0,75                         d                      1  0            0,75
            e                   1   0,25                         e                         1            0,25
            f                         1                         f                                        1

     En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores.
El valor de 1 para s(i, j) calculado con el ´ndice de Jaccard refleja este hecho, lo cual no se aprecia con
                                            ı
el ´ndice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j)
   ı
calculado con ambos ´ndices refleja este hecho.
                      ı

2.2.2.     Similitudes entre variables
    Generalmente, cualquier ´ındice de asociaci´n entre variables sirve como similitud entre variables. As´
                                                o                                                            ı,
para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaci´n
                                                                                                            o
lineal
                                                   n
                                                             ¯      ¯
                                                     (xi − x)(yi − y)
                                     r(x, y) = i=1
                                                         sx sy
´
modelos de clasificacion                                                                                     5


donde sx , sy son las desviaciones est´ndar de x y y, respectivamente. En general, cualquier ´
                                      a                                                      ındice de cor-
relaci´n servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo
      o        ıa                                 o
para su uso en clasificaci´n. Por ejemplo, para el caso del coeficiente de correlaci´n lineal se suele usar
                          o                                                        o

                                              d(x, y) = 1 − |r(x, y)|

     ındice de disimilitud, en el caso de tomar como fuerte asociaci´n el caso r(x, y) ≈ −1, o bien
como ´                                                              o

                                              d(x, y) = 2 − r(x, y)

en el caso contrario.
    Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec-
tivamente, se suele tomar el ´
                             ındice de asociaci´n de chi-cuadrado como similitud
                                                o
                                                  p   q
                                                           1 (nnjk − nj· n·k )2
                                   χ2 (x, y) =
                                                 j=1 k=1
                                                           n      nj· n·k

donde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son los
m´rgenes. Ahora bien, el ´
  a                        ındice de χ2 tiene el inconveniente de no estar normalizado y no permite
comparar ´
         ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero
                                                                 u                                u
de modalidades. Por ello, se suele usar m´s bien el ´
                                           a          ındice T 2 de Chuprov, normalizado en el intervalo
[0, 1]:
                                                       χ2 (x, y)
                                      T 2 (x, y) =                 .
                                                   n(p − 1)(q − 1)

2.3.     Disimilitudes
   Una disimilitud es una funci´n d : Ω × Ω −→ R+ tal que:
                               o
 1.    para cada i ∈ Ω se tiene d(i, i) = 0
 2.    para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i)
                                     ıa:
   Si a la definici´n anterior uno le a˜ade:
                  o                   n
  3. d(i, j) = 0 ⇔ i = j
  4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que llamamos una distancia.

2.3.1.    Caso cuantitativo
   La disimilitud m´s usada es la distancia eucl´
                   a                            ıdea cl´sica:
                                                       a
                                                           p
                                          d(i, j) =            (xk − xk )2
                                                                 i    j
                                                          k=1

    Recu´rdese de lo estudiado en el cap´
          e                                   ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partir
de una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner
            e                                    e                                                     ıa
d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´
                                                        ı,                 ıdea cl´sica coincide con el caso en
                                                                                  a
que se usa como m´trica la identidad de orden p.
                      e

   El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son
                              a
cuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay
                                                                                  o
que mencionar que esta distancia tiene un inconveniente si se usa sin precauci´n: debido a que cada t´rmino
                                                                               o                      e
6                                                                                                      Javier Trejos


de la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandes
diferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´   ıpico
se traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado,
           a                                                                         a
siempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersi´n
                                                                                                      o
deber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias.
      ıa                                              ı

    Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 :
                                                             p
                                                d(i, j) =         |xk − xk |
                                                                    i    j
                                                            k=1




    Otra distancia usada en ocasiones, es la llamada distancia de Chebychev:

                                       d(i, j) = m´x{|xk − xk |/k = 1, . . . , p}
                                                  a    i    j


Ejemplo 2 Sup´ngase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , seg´n
                o                                                                                                   u
se muestra en la tabla siguiente:
                                               v1 , v2 v3 v4               v5
                                             a 2 3,5 0    4                7
                                             b 4    3 1,5 5                 6
                                             c 0    6  4  2                 3
                                             d 3    3  1  4                77

    El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son:
        a                            ı      a

                  Eucl´dea
                      ı                                                City-block
                   d(i, j)    a      b     c     d                       d(i, j)    a   b  c    d
                     a        0    2,915 6,801 70,02                       a        0   6 14,5 72,5
                     b               0   7,018 71,02                       b            0 15,5 73,5
                     c                     0   74,21                       c               0    85
                     d                           0                         d                    0


                                              Chebychev
                                                d(i, j)      a b c d
                                                  a          0 2 4 70
                                                  b            0 4 71
                                                  c              0 74
                                                  d                0

    De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidos
para las cinco variables, y su cercan´a es reflejadapor el bajo valor de las distancias. Por su parte, d
                                       ı
tambi´n tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una
      e
gran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplo
debido a un error de un digitador a la hora de pasar los datos del papel a la computadora (sup´ngase que
                                                                                                o
el dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distancias
mostradas son muy sensibles a los valores de estos casos at´picos.
                                                             ı

   1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Jo´e,
                                                                                                                        s
donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo
                                                                                ı,
las calles pasando por las esquinas, y no en l´
                                              ınea recta
´
modelos de clasificacion                                                                                             7


2.3.2.     Caso binario
   Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variables
binarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) =
                                                                   a
1 − s(i, j). As´ se definen la disimilitud de Jaccard:
               ı,
                                                            qij
                                           d(i, j) = 1 −
                                                         pij + qij
usando las notaciones de la secci´n 2.2.1, y la disimilitud de Russel & Rao:
                                 o
                                                              p − pij
                                                  d(i, j) =
                                                                 p
Ejemplo 3 Usando los datos del ejemplo 1, tendr´amos los siguientes valores para las disimilitudes de
                                               ı
Jaccard y de Russel & Rao:
         Jaccard                                              Russel&Rao
          d(i, j)   a b c d      e   f                          d(i, j)  a          b c   d   e            f
            a       0 0,5 1 0   1   0,25                           a     0         0,5 1 0,25 1           0,25
            b          0 1 0,5 0,66 0,25                           b                0 1 0,5 0,75          0,25
            c             0 1   1     1                            c                   0  1   1            1
            d               0   1   0,25                           d                       0  1           0,25
            e                   0   0,75                           e                          0           0,75
            f                         0                           f                                        0

2.3.3.     Caso cualitativo
    Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati-
            ıa
vas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntiva
completa, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En este
caso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo
               ıan
usual es usar adaptaciones especiales de las distancias eucl´   ıdeas, como la distancia eucl´  ıdea cl´sica y la
                                                                                                       a
distancia de χ2 (chi-cuadrado).
                     ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp
    La distancia eucl´      a
es:
                                                                p
                                                                      k
                                                 d(i, j) = 2         δij
                                                               k=1

       k       1 si xk = xk
                      i   j
donde δij =                 .
               0 si xk = xk
                      i   j
   La distancia de χ2 es:
                                                     p
                                                1           1      1          k
                                      d(i, j) = 2               +            δij
                                               p
                                                    k=1
                                                          s(xk ) s(xk )
                                                              i      j

donde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la
        k
                                   i          u                                i    a
          k
variable x .

2.3.4.     Agregaciones
   Los m´todos de clasificaci´n autom´tica usan generalmente una noci´n de proximidad entre grupos
          e                   o        a                                  o
de elementos, para medir la separaci´n entre las clases que se buscan. Para ellos, se introduce el concepto
                                    o
de agregaci´n, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la
            o              a
agregaci´n entre A y B es:
        o
                                                 δ(A, B)
tal que δ es una disimilitud en el conjunto de partes P(Ω):
8                                                                                          Javier Trejos


     i) δ(A, A) = 0 para todo A ∈ P(Ω)
    ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω)
   Usualmente, la medida de agregaci´n est´ basada en la disimilitud d medida sobre Ω. En efecto,
                                    o      a
denotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son:
                                                        a
    1. Agregaci´n del salto m´
               o             ınimo o del vecino m´s cercano:
                                                 a

                                      δm´ (A, B) = m´
                                        ın          ın{d(a, b)|a ∈ A, b ∈ B}

    2. Agregaci´n del salto m´ximo:
               o             a

                                     δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B}
                                       a            a

    3. Agregaci´n del salto promedio:
               o
                                                            1
                                   δprom (A, B) =                             d(a, b)
                                                    card(A) + card(B)   a∈A
                                                                        b∈B



     En el caso cuantitativo se tiene adem´s:
                                          a

    4. Agregaci´n de Ward:
               o

                                   card(A)card(B)
                 δward (A, B) =                     ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B)
                                  card(A) + card(B)

       donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´    ıdea e I(A) es la
       inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaci´n, tambi´n llamada
                                                                                      o         e
       del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´
                                      o                               a                      ıdeo, es decir,
       cuando se dispone de variables cuantitativas.

   Existen otras agregaciones tambi´n citadas en la literatura, como por ejemplo la distancia entre los
                                      e
centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir
                                                                  ıa   e
inversiones en el algoritmo de clasificaci´n jer´rquica ascendente que veremos en la siguiente secci´n.
                                         o     a                                                   o
´
modelos de clasificacion                                                                                 9


3.     Clasificaci´n Jer´rquica
                 o     a
3.1.    Jerarqu´
               ıas
    Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en
                         e                                                a
el pr´ximo cap´
     o         ıtulo– encuentran en cada ejecuci´n una sola partici´n en un n´mero dado a priori de
                                                  o                  o         u
clases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman
                           u                                         u
en la configuraci´n de los datos.
                 o
    Por ejemplo, consid´rese la siguiente configuraci´n de puntos en R2 :
                        e                           o

                                                 r
                                                r r
                                                 r rr
                                                                   r
                                                                 r r r
                                                                 rr r
                                                    rr r
                                                    r r rr



   Puede apreciarse que de forma natural se forman 3 clases de individuos seg´n la cercan´ de los puntos.
                                                                              u           ıa
Ahora bien, si el usuario no conoce esta configuraci´n (para efectos de simplificaci´n la hemos dado en dos
                                                   o                              o
dimensiones, pero el lector puede pensar que se trata de una configuraci´n en muchas m´s dimensiones),
                                                                          o               a
entonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por
                                                                     u
ejemplo en 2 clases o en 5 clases.
   Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para varios
n´meros de clases al mismo tiempo, y escoger luego la que m´s conviene seg´n las necesidades. Una
 u                                                               a               u
manera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se
                                                            a       a
muestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}.




                                            a       b        c       d   e


                                  Figura 1: Ejemplo de ´rbol jer´rquico
                                                       a        a

    Una ´rbol jer´rquico tiene la ventaja de que es de f´cil interpretaci´n. En efecto, para el ´rbol de la
         a        a                                       a              o                      a
figura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol,
                                            a                                              a          a
esto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} con
el individuo c, y finalmente se obtiene el grupo total Ω.
    El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos
                                       a        a                                               a
en el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias
10                                                                                             Javier Trejos


entre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos
                                                                                  ´
escoger una agregaci´n δ.
                     o
   Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´
       a        a                                                   ıa.
   Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que:
                ıa

 1.    Ω ∈ H,

 2. ∀i ∈ Ω, {i} ∈ H,

 3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h.

    Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada
                                        ıa                    a             a         a
nodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene
          a                                           a                                  a     a
una ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria.
       ız                         a                                     ıa
    La clasificaci´n jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos
                 o     a                                        ıa
m´s parecidos formen nodos, y los grupos de individuos m´s similares tambi´n formen nodos.
  a                                                          a                e
    Se puede asociar un ´ındice f a la jerarqu´ tal que:
                                              ıa,

 1. f (h) ≥ 0,

 2. ∀i ∈ Ω : f ({i}) = 0,

 3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ).

Se dice entonces que (H, f ) es una jerarqu´ indexada.
                                           ıa

   Pueden consultarse las siguientes referencias como una introducci´n a estos conceptos: [6, pp. 119–138,
                                                                      o
tomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s
                                                                                                   a      a
accesible sea [19].

3.2.     Clasificaci´n jer´rquica ascendente
                   o     a
    El algoritmo general de clasificaci´n jer´rquica ascendente (CJA) construye, en cada paso
                                         o      a
una partici´n en k clases, que denotaremos Pk , mediante la fusi´n de los dos conjuntos de la partici´n
           o                                                    o                                    o
anterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la
                                           a
siguiente manera:

 1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω};

 2. k := k + 1 ;

 3.    escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´
                                                       ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 };
       sea H := H ∪ {h};

 4.    calcular f (h) y δ(h, h ), para todo h ∈ H;

 5.    mientras k < n − 1 ir al paso 2;

 6. H = H ∪ Ω;

   El H obtenido es la jerarqu´ deseada. Se define un ´
                               ıa                        ındice f , como una funci´n f : H −→ R+ definida
                                                                                  o
por:
                        0           si h es un conjunto unitario
             f (h) =
                        δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h
Esta indexaci´n hace que el ´rbol de clasificaci´n sea m´s f´cilmente interpretable, pues da la idea de la
              o             a                  o       a a
altura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que est´n
                        a              a                         a                                    a
debajo del nodo.
´
modelos de clasificacion                                                                                11


3.2.1.   Ejemplos did´cticos
                     a
Ejemplo 4 Sup´ngase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}:
             o

                                                a   b c d
                                            a   0   1 3 5,5
                                            b       0 2 4,5
                                            c         0 2,5
                                            d            0

    Puede verse que el m´nimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es
                         ı
1. Por lo tanto, se agregan estos dos individuos y al usar la agregaci´n del salto m´nimo δm´ se obtiene
                                                                      o             ı        ın
la nueva tabla:
                                                  {a, b} c d
                                          {a, b}    0     2 4,5
                                            c             0 2,5
                                            d                 0

   Ahora, el m´nimo valor es para δ({a, b}, c) = 2, por lo
              ı                                                 que se fusionan {a, b} y c, obteni´ndose la
                                                                                                  e
nueva tabla:
                                                 {a, b, c}       d
                                      {a, b, c}     0           2,5
                                          d                      0
De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2.
                             a        a




                                      3

                                      2

                                      1


                                                a    b      c          d


            Figura 2: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto m´
                                         o                              o             ınimo


Ejemplo 5 En caso de usarse la agregaci´n del salto m´ximo δm´x sobre los datos anteriores, se obten-
                                          o          a       a
dr´an sucesivamente las dos tablas siguientes:
  ı

                                   {a, b} c d
                                                                      {a, b} {c, d}
                          {a, b}     0    3 5,5
                                                         {a, b}         0     5,5
                            c             0 2,5
                                                         {c, d}                0
                            d                0

   y el ´rbol de clasificaci´n ser´a el presentado en la figura 3.
        a                  o     ı
12                                                                                                  Javier Trejos




                                           5

                                           4

                                           3

                                           2

                                           1


                                                    a       b      c        d


             Figura 3: Arbol de clasificaci´n opbtenido al usar la agregaci´n del salto m´ximo
                                          o                               o             a

Ejemplo 6 Por otra parte, si se usa la agregaci´n del salto promedio δprom sobre los datos anteriores,
                                               o
se obtienen las tablas:
                                    {a, b} c   d
                                                                            {a, b, c}  d
                           {a, b}     0    2,5 5
                                                                {a, b, c}      0      4,16
                             c              0 2,5
                                                                   d                    0
                             d                 0
Puede verse que en la primera tabla se alcanza el m´nimo para dos valores diferentes: δ({a, b}, c) = 2,5 =
                                                     ı
δ(c, d). Ante esta situaci´n, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo
                          o                                                                a
que se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4.
                                                       a



                                           4

                                           3

                                           2

                                           1


                                                    a       b      c        d


             Figura 4: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio
                                          o                              o

   El lector puede comprobar que de haber escogido la fusi´n de c con d al ´rbol de clasificaci´n hubiera
                                                          o                a                  o
tenido una forma diferente.
     2 En
       los programas de computaci´n, normalmente se decide autom´ticamente cual fusi´n se har´; por ejemplo, se sugiere
                                   o                            a                   o        a
hacer aqu´lla que involucre al menor ´
         e                           ındice de individuo.
´
modelos de clasificacion                                                                                        13


3.2.2.   F´rmula de recurrencia
          o
    Seg´n los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusi´n deben calcu-
       u                                                                                     o
larse algunos valores de la agregaci´n: aqu´llos que involucran al grupo reci´n creado, y que adem´s se
                                     o       e                                  e                       a
suprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definici´n de los
                                                                                                     o
´
ındices de agregaci´n dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no
                    o
a partir de la tabla reci´n calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este
                         e
c´lculo de actualizaci´n solamente a partir de la ultima tabla de que se dispone, es que se han encontrado
  a                    o                          ´
f´rmulas de recurrencia o actualizaci´n de las agregaciones. Estas f´rmulas son especialmente utiles para
 o                                     o                              o                            ´
las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionan
en una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaci´n para δprom y δward son:
                                                          o                       o

                                               card(a)δprom (h, a) + card(b)δprom (h, b)
                          δprom (h, a ∪ b) =
                                                         card(a) + card(b)

                      (card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b)
 δward (h, a ∪ b) =
                                                        card(a) + card(b)
donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.

Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud:
                e

                                                   a     b  c d       e
                                               a   0    25 18 25     10
                                               b        0 30 40      34
                                               c            0 10     15
                                               d              0      18
                                               e                      0

   Usando la agregaci´n del salto promedio δprom , se obtiene la secuencia de tablas:
                     o

        a     b {c, d}   e
                                                       {a, e}  b   {c, d}
   a    0    25 21,5    10                                                                      {a, c, d, e}   b
                                         {a, e}          0    29,5  19
   b         0   35     34                                                       {a, c, d, e}        0       32,25
                                           b                   0    35
 {c, d}           0    16,5                                                           b                        0
                                         {c, d}                      0
   e                     0

y el ´rbol de clasificaci´n mostrado en la figura 5.
     a                  o

3.2.3.   Inversiones
    Se dice que una clasificaci´n jer´rquica produce una inversi´n cuando se construye h = a ∪ b con
                                 o     a                             o
f (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia
              o                             o                                          o
para que no se produzcan inversiones. Los cuatro ´   ındices de agregaci´n no producen inversiones como se
                                                                        o
puede verificar sobre el teorema de Diday, pero hay otros ´    ındices que s´ pueden producir, como el de la
                                                                           ı
distancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 .

3.3.     Algoritmos ascendentes acelerados
    A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las
                                                                          a
jerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos
        ıas.
rec´
   ıprocos.
    El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindarios
reducibles, en cada paso de la construcci´n jer´rquica ascendente, solamente se examinan los vecinos
                                           o    a
14                                                                                          Javier Trejos



                                   30



                                   20



                                   10




                                             c     d      a      e        b


             Figura 5: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio
                                          o                              o


m´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368–
  a
380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de
             a                         o                                            o
lanza & Williams, para caracterizar a los ´  ındices de agregaci´n que cumplen la propiedad de vecindarios
                                                                 o
reducibles.
    El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´    ıprocos: dos grupos
a y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcci´n jer´rquica
                                                       a                                        o     a
ascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´  ıprocos. Una vez
hechas estas fusiones, se calculan los vecinos rec´
                                                  ıprocos de los grupos formados y se recomienza, alternando
este paso de fusi´n con el desarrollo normal del algoritmo de clasificaci´n jer´rquica ascendente. Puede
                  o                                                          o     a
encontrarse una descripci´n del procedimiento en [15, 176–177].
                           o
    Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dos
enfoques acelerados anteriores y el algoritmo usual de clasificaci´n jer´rquica ascendente.
                                                                    o      a

3.3.1.    Ejemplo de notas escolares
   Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0
y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espa˜ol y educaci´n f´
                                     a                             n            o ısica.
   La clasificaci´n jer´rquica usando la agregaci´n de Ward con la distancia eucl´
                o     a                         o                               ıdea, da como resultado:
                         Luc´ıa
                          Mar´
                             ıa
                          Carlos
                         Andr´s
                             e
                            Luis
                          Sonia
                          Pedro
                            In´s
                              e
                            Ana
                            Jos´
                               e


     Puede verse que hay una clara clasificaci´n en tres clases, que es:
                                             o
´
modelos de clasificacion                                                                                             15


   C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos},
                            e
   C2 = {Luis,Sonia},
   C3 = {Pedro,In´s,Ana,Jos´}.
                   e          e
   Si se quiere hacer una clasificaci´n en dos clases, entonces se unen C1 y C2 .
                                    o

   El lector deseoso de consultar aplicaciones de la clasificaci´n jer´rquica, puede encontrar 13 aplica-
                                                               o     a
ciones en [6, pp. 321–538, tomo 1].

3.4.     Aproximaciones por ultram´tricas
                                  e
   Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa.
                                                ıa                               e
La demostraci´n de esta propiedad, llamada teorema de Johnson–Benz´cri, puede consultarse en: [6, pp.
             o                                                          e
138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15].

    La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar
                                                                                   ıa,
un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como
          e
M. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco a
poco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una
                e                                                   e
ultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la
       e                         e                                 e
construcci´n de un ´rbol de longitud m´
          o        a                    ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de
Kruskal. Tambi´n Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω,
                e           ıa
construyendo cada vez un tri´ngulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]).
                             a       o

3.5.     Clasificaci´n jer´rquica descendente
                   o     a
    Debe notarse que la construcci´n de un ´rbol de clasificaci´n podr´ tambi´n hacerse descendente-
                                    o         a                 o        ıa      e
mente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico-
tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el
                                                                                      e
criterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert,
                               ıa.       e       a
de Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251–
                                                              e
276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobre
un m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp.
       e                                          a
82–88].

3.6.     Observaciones sobre la clasificaci´n jer´rquica
                                          o     a
   La clasificaci´n jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y
                o     a
sobre los que hay que insistir:
       En primer lugar, los resultados dependen de la agregaci´n que se escoja. Por ello, siempre se
                                                                o
       recomienda al usuario que haga una reflexi´n antes de aplicar el m´todo, en el sentido de ensoger
                                                 o                       e
       la agregaci´n que tenga un mejor sentido en el problema que se est´ tratando.
                  o                                                      e
       En segundo lugar, en el caso en que haya igualdad en el valor de la agregaci´n para dos parejas
                                                                                   o
       diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados
                                                            a
       diferentes.
Finalmente, se debe tomar en cuenta que la clasificaci´n jer´rquica aproxima siempre una tabla de datos
                                                     o     a
a una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo.
             e                                      e




  3 Un a
       ´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son
                                                               a
elementos de Ω, y la suma de los valores de las aristas es m´
                                                            ınima entre todos los ´rboles con esas caracter´
                                                                                  a                        ısticas.
16                                                                                       Javier Trejos


4.     Clasificaci´n por Particiones
                 o
   Los m´todos de clasificaci´n por particiones buscan una sola partici´n de Ω, mediante la optimizaci´n
         e                    o                                       o                              o
de alg´n criterio. Existen b´sicamente dos tipos de m´todos:
      u                     a                        e

       los que fijan a priori el n´mero de clases,
                                 u

       los que no fijan este n´mero.
                             u

    Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventaja
obvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de
                     u                                   ´
un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaci´n no es f´cil
           u             a                                                                   o        a
sin una adecuada experimentaci´n y pr´ctica. Ejemplos de estos m´todos son Isodata y Wishart.
                                 o       a                          e
    En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado
                    o                               e
de Nubes Din´micas.
              a
    Los m´todos de nubes din´micas est´n basados en el principio que una clase puede ser representada por
          e                   a         a
alg´n objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de
   u              e
par´metros, etc; a este representante lo llamaremos n´cleo. El primer algoritmo de este tipo fue propuesto
    a                                                 u
por Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc.
    La idea subyacente es:

       asignar los individuos al n´cleo m´s cercano,
                                  u      a

       calcular los n´cleos con las clases formadas en el paso anterior,
                     u

       iterar los pasos anteriores hasta obtener estabilidad.

    Se parte de una configuraci´n inicial de n´cleos, y se puede probar que el m´todo converge a una
                                o             u                                   e
partici´n que no mejora el criterio. Dependiendo del contexto y del tipo de n´cleo, se define un criterio
       o                                                                     u
a ser mejorado.

4.1.     Problema combinatorio
    Es necesario hacer notar que, cuando se quiere obtener una partici´n en K clases de un conjunto con
                                                                      o
n individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en K
clases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de
                         a                                                            o
ilustraci´n, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es
         o                         u
aproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el
n´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaci´n
  u                                                                                                  o
de recurrencia
                                S(n, K) = S(n − 1, K − 1) + kS(n − 1, K)
Esto lleva a que
                                                    K
                                               1                    K
                                   S(n, K) =              (−1)K−i       in
                                               K!                   i
                                                    i=1

    De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluci´n
                                                          e                                       o
satisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluci´n
                                                                                                  o
en todos los casos.

4.2.     Criterio de la inercia
   Como se ha mencionado, se quiere obtener clases lo m´s homog´neas posibles y tal que est´n suficien-
                                                       a       e                           e
temente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad:
                                                        e
´
modelos de clasificacion                                                                                         17


sup´ngase que se est´ en presencia de una partici´n P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son
    o               a                            o
los centros de gravedad de las clases:
                                                   1
                                            gk =        xi ,
                                                   n
                                                                i∈Ck

g es el centro de gravedad total:
                                                                n
                                                            1
                                                     g=               xi .
                                                            n   i=1
                   1   n              2
Si se denota I =   n   i=1   xi − g       la inercia total de la nube de puntos,

                                                        K
                                                             |Ck |
                                             B(P ) =               ||gk − g||2                                  (1)
                                                              n
                                                       k=1

la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total,
y
                                               K                      K
                                                                1                        2
                                  W (P ) =          I(Ck ) =                   xi − gk                          (2)
                                                                n
                                              k=1                   k=1 i∈Ck

la inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher:
I = B + W. Obs´rvese que B mide precisamente la “separaci´n” de la nube de puntos, al medir la
                    e                                                  o
inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad est´n  a
bastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si W
es peque˜o entonces cada I(Ck ) es peque˜o y as´ la dispersi´n al interior de cada clase es peque˜a.
         n                                    n       ı           o                                     n
    Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti-          a
camente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaci´n entre o
las clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes
                                                                           ı,                    e
din´micas es encontrar una partici´n P de Ω y representantes de las clases, tales que W (P ) sea m´
    a                                  o                                                                  ınima.
    Existen otros criterios de clasificaci´n, como por ejemplo det(W )/ det(B) → m´ o criterios de en-
                                           o                                               ın,
trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto.
     ıa.                                                    a


4.3.     M´todo de k-medias
          e
    Existe un poco de confusi´n en la literatura acerca del m´todo de las k-medias, ya que hay dos
                              o                                e
m´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un
  e
primer m´todo de reasignaci´n-recentraje que consiste b´sicamente en la iteraci´n sucesiva, hasta obtener
         e                  o                          a                       o
convergencia, de las dos operaciones siguientes:

       Representar una clase por su centro de gravedad, esto es, por su vector de promedios

       Asignar los objetos a la clase del centro de gravedad m´s cercano.
                                                              a

Poco despu´s, McQueen [37] propone un m´todo muy similar, donde tambi´n se representan las clases por
            e                             e                              e
su centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia
                                                                               a
con el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro
         e                                           e
de ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los
   e                                                  ıa
centros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo
                          e                                                                        e
de McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la
                     ıa                                  e
b´squeda de una partici´n de consenso, llamada partici´n central. Variantes del m´todo de Forgy son
 u                        o                            o                            e
propuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17].
                               e                 a
   Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, a´n si estos m´todos
                                                                                   u              e
tambi´n reciben nombres como nubes din´micas, centros m´viles, o reasignaci´n-recentraje.
      e                                  a                o                  o
18                                                                                          Javier Trejos


4.3.1.     M´todo de Forgy
            e
   Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que est´n descritos
                                                                                                  a
por p variables cuantitativas x1 , x2 , . . . , xp .
   En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y
                           a                                                            a
de distancias eucl´
                  ıdeas. Por lo tanto, tambi´n tiene sentido que cada clase est´ representada por su centro
                                                   e                            e
de gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variables
para los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente.
                                                                        a                  a
Generalemente, se usar´ la distancia eucl´
                        a                        ıdea cl´sica en este contexto.
                                                        a
   Como se mencion´ anteriormente, el m´todo de las k-medias consiste en:
                      o                            e

 1.   Escoger una partici´n inicial, al azar o con base en alg´n otro criterio.
                         o                                    u

 2.   Calcular los centros de gravedad de la partici´n.
                                                    o

 3.   Asignar cada objeto a la clase del centro de gravedad m´s cercano.
                                                             a

 4.   Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene
      estabilidad en la partici´n.
                               o

   Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19].
                                      e                                 e
   Conviene hacer notar que, en una implementaci´n computacional, la escogencia al azar es m´s bien de
                                                  o                                            a
una muestra de K objetos iniciales que servir´n de n´cleos iniciales, y luego se asignan todos los dem´s
                                              a     u                                                 a
objetos a la clase del n´cleo m´s cercano, form´ndose entonces la partici´n inicial.
                        u      a                a                         o

4.3.2.     Ejemplo de las notas escolares
   El resultado de la aplicaci´n del m´todo de k-medias, depender´ de la escogencia inicial de los n´cleos.
                              o        e                            a                                u
Por ello, se recomienda correr varias veces el m´todo y escoger la mejor soluci´n obtenida en esas corridas.
                                                 e                             o
   Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obteni´ndose
                                               o                                                     e
en 17 de ellas la soluci´n ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con
                        o o                                                           e        a
agregaci´n de Ward). La tabla siguiente muestra los resultados obtenidos:
         o


      Partici´n
             o                                                     N´mero de veces
                                                                    u                  W (P )   B(P )
                                                                      obtenida
      C1   = {Luc´ıa,Andr´s,Carlos,Mar´
                           e           ıa}                               17             0.75     4.97
      C2   = {Luis,Sonia}
      C3   = {Pedro,In´s,Ana,Jos´}
                       e           e
      C1   = {Luc´ıa,Andr´s,Carlos,Mar´
                           e           ıa,Luis,Sonia}                      3            2.48     3.24
      C2   = {Pedro,In´s}
                       e
      C3   = {Ana,Jos´}
                      e
      C1   = {Luc´ıa,Andr´s,Carlos,Mar´
                           e           ıa,Luis,Sonia}                      2            2.52     3.20
      C2   = {In´s,Ana,Jos´}
                e            e
      C3   = {Pedro}
      C1   = {Luc´ıa,Andr´s,Carlos,Mar´
                           e           ıa,Luis,Sonia}                      1            2.55     3.17
      C2   = {In´s,Ana}
                e
      C3   = {Pedro,Jos´}e
      C1   = {Luc´ıa,Andr´s,Carlos,Luis,Sonia}
                           e                                               1            2.72     3.00
      C2   = {Pedro,In´s}
                       e
      C3   = {Ana,Jos´,Mar´
                      e        ıa}
      C1   = {Luc´ıa,Andr´s,Carlos,Mar´
                           e           ıa,Pedro,In´s,Ana,Jos´}
                                                  e         e              1            3.06     2.66
      C2   = {Luis}
      C3   = {Sonia}
´
modelos de clasificacion                                                                                    19


4.3.3.    M´todo de transferencias
           e
    Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi-
                          e
nalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y
                            e
otra, de un unico elemento de Ω a la vez, haciendo mejorar alg´n criterio en cada iteraci´n.
             ´                                                 u                          o
    El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaci´n, no necesariamente
                                           ı                                       o
la inercia intra-clases):
 1.    Se da una partici´n inicial P = (C1 , C2 , . . . , Ck ) de Ω.
                        o
                                                                      k
 2.    Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la partici´n de Pk consistente
                                                                                     o
       en transferir x de Ck hacia Ck en la partici´n P y dejar las dem´s clases iguales.
                                                   o                    a
 3.    Sea P ∗ tal que W (P ∗ ) = m´
                                   ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ .
                                          k


 4.    Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω.
 5.    Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia.
   En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de
                                                                                                 a
una distancia eucl´ıdea. Se busca la partici´n P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases
                                             o
W . Por tanto, al pasar x de Ck a Ck se debe minimizar
                              k
                          W (Ck (x)) =               I(Ch ) + I(Ck  {x}) + I(Ck ∪ {x}).
                                          h∈{k,k }
                                           /

   En el caso general, Ω es arbitrario, con d un ´
                                                 ındice de disimilitud sobre Ω. El criterio W que se define
sobre la partici´n P toma en cuenta la relaci´n de equivalencia R asociada a P :
                o                             o

                                       W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}.

Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que:

                                 sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }.

    Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambi´n la partici´n final P ∗ depende
                                             e                     ı       e           o
de la partici´n inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambi´n
             o             ı            u                                                               e
se pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero
                                                                      u                              u
“natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambi´n se puede usar el
                                                                                       e
m´todo de Polos de Atracci´n [35].
  e                           o

4.4.     M´todos de nubes din´micas
          e                  a
    Se quiere obtener una partici´n de Ω en K clases bien agregadas, bien separadas y de intersecci´n
                                  o                                                                 o
vac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza.
   ıa.     u
    Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa
           e                                                       e
en que cada clase debe tener una representaci´n (llamada n´cleo), y luego se hace una b´squeda iterada
                                              o              u                         u
de n´cleos y de particiones, hasta optimizar un cierto criterio.
     u
    En el m´todo general de nubes din´micas, cada clase estar´ representada por un n´cleo, que ser´ un
            e                          a                        a                    u            a
elemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el
                                                                                          a
siguiente:

 1.    Se da una partici´n inicial de Ω.
                        o
 2.    Se calculan los n´cleos, mediante una funci´n de representaci´n.
                        u                         o                 o
 3.    Se forma una partici´n, asignando cada elemento al n´cleo m´s pr´ximo, mediante una funci´n de
                           o                               u      a    o                        o
       asignaci´n.
               o
20                                                                                                   Javier Trejos


 4.   Se repiten los pasos 2 y 3 hasta que las clases se estabilicen.
    La escogencia de los n´cleos iniciales, se hace generalmente de manera aleatoria. En el caso general,
                          u
se escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo
                                                    K
                                         W (P ) =                D(xi , Nk )
                                                    k=1 xi ∈Ck

donde Nk es el n´cleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo,
                 u
una agregaci´n) entre los objetos xi y los n´cleos Nk (que son conjuntos de objetos). El n´cleo Nk se
             o                              u                                             u
define como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ).
   Se puede probar que [19] en cada iteraci´n se mejora W y adem´s se converge a una clase estable.
                                           o                      a
   Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los n´cleos
                     e                                   e                 a                    u
son centros de gravedad.

4.4.1.   Variantes del m´todo de nubes din´micas
                        e                 a
   Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas
                                       e                  a        a
se debe definir el criterio a optimizar, los n´cleos (funci´n de representaci´n), y la forma de asignar
                                              u           o                 o
elementos a las clases (funci´n de asignaci´n).
                             o             o
M´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis-
 e                            e                                                          e
    ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma
                                     ´
    forma de dispersi´n, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro-
                      o        a                      e
    longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricci´n
                                                                                                        o
    de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar
                                                                              a
    iterativamente la distancia que mejor se adapte a los datos.
      En presencia de objetos descritos por variables cuantitativas, el criterio es
                                                         K
                                                                                2
                                             W (P ) =              x i − gk     M
                                                        k=1 i∈Ck

      para el caso de una sola m´trica M , o bien
                                e
                                                        K
                                                                               2
                                           W (P ) =                x i − gk    Mk
                                                        k=1 i∈Ck

      para el caso en que se tiene una m´trica Mk asociada a cada clase Ck .
                                        e
      En cada iteraci´n del algoritmo, se calcula no solo los centros de gravedad gk, sino tambi´n las
                      o                                                                          e
      m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases,
        e
      mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra-
      clases de clase Ck .
Regresi´n tipol´gica. Se pretende detectar K comportamientos locales de regresi´n lineal y las rectas
       o         o                                                               o
    asociadas, de manera que se minimice un criterio de adecuaci´n de las muestras con sus representa-
                                                                o
    ciones lineales (criterio de m´
                                  ınimos cuadrados ) [18].
      La idea es dar una partici´n del espacio Ω de n individuos a los que se han medido m variables
                                   o
      explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresi´n asociados a cada
                                                        ı                                o
      una de las clases de tal partici´n.
                                      o
      El n´cleo de una clase es el vector de coeficientes de regresi´n Bk = (b1 , . . . , bm )t asociados a la
          u                                                        o         k            k
      regresi´n en Ck . El criterio a minimizar es
             o
                                         K                                 K   nk
                                                k        k
                              W (P ) =         Y −X          Bk 2 nk
                                                                R      =             (yi − xk bi )
                                                                                       k
                                                                                            i k
                                         k=1                               k=1 i=1
´
modelos de clasificacion                                                                                           21


       donde nk = |Ck |.
       Se asigna un individuo zi = (x1 , . . . , xp , yi ) a la clase Ck que minimice d(zi , Bk ) = (yi − xi Bk )2 .
                                     i            i

Mezclas de distribuciones. Se dispone de una muestra Ω cuyos elementos siguen distintas distribu-
    ciones de probabilidad. Se quiere estimar los par´metros de tales distribuciones. Este es uno de los
                                                      a
    problemas m´s viejos de la Estad´
                 a                   ıstica Inferencial, que aqu´ se aborda desde el punto de vista de la
                                                                ı
    Clasificaci´n Autom´tica, en particular con el m´todo de Nubes Din´micas.
              o         a                             e                   a
       Se tiene una muestra Ω = {x1 , . . . , xn } de una variable aleatoria X en Rs , cuya ley admite la
                            K
       densidad f (x) = k=1 pk f (x, ak ), donde pk > 0, ∀k,       pk = 1. Se supone que f (·, ak ) es una
       densidad que depende del par´metro ak ∈ Rs (donde s es el n´mero de componentes del par´metro),
                                    a                               u                               a
       y pk es la probabilidad de que un punto de la muestra siga la ley f (·, ak ). Se quiere estimar las K
       componentes y los par´metros desconocidos pk y ak . Tomamos pk = |Ck |/n como estimador de pk .
                              a
       Como se busca una partici´n P = (c1 , . . . , cK ) tal que cada clase Ck sea asimilable a la ley f (·, ak ),
                                   o
       el n´cleo de la clase k-´sima es el par´metro ak ∈ Rs . El criterio a maximizar es
           u                   e              a
                                                             K
                                                W (P ) =           ln V (Ck , ak ),
                                                            k=1

       donde V (Ck , ak ) = x∈Ck f (x, ak ) es la funci´n de verosimilitud de la submuestra Ck para la
                                                         o
       ley f (·, ak ). Un objeto x se asigna a la clase k que maximiza f (x, ak ). El n´cleo ak maximiza la
                                                                                       u
       verosimilitud del par´metro de la densidad asociada a la muestra Ck . En el caso normal o Gaussiano,
                              a
       se tiene ak = (µk , Γk ), donde:

                                                     1
                                         µk   =                    x
                                                    |Ck |
                                                            x∈Ck
                                                     1
                                         Γk   =                    (x − µk ) (x − µk )t .
                                                    |Ck |
                                                            x∈Ck

       Hay que hacer notar que, a pesar de que este m´todo converge r´pidamente, la precisi´n es mejor
                                                      e              a                     o
       con los m´todos cl´sicos de estimaci´n de par´metros, por ejemplo con los algoritmos tipo EM y
                e        a                 o        a
       SEM [18].

Conceptos conjuntistas. Ilustramos este tipo de n´cleo con el ejemplo mostrado en la figura 6.
                                                 u
                                                  y
                                                  5 6• A      • C
                                                        • • • •
                                                  4 •          •
                                                      •
                                                  3      •
                                                             • •
                                                  2 •            B
                                                          •  •• •
                                                  1    •
                                                            • -
                                                  0 1 2 3 4 5 6x

Figura 6: Los n´cleos son conceptos conjuntistas: A = [x < 4]; B = [x ≥ 4] [y < 3]; C = [x ≥ 4] [y ≥ 3].
               u

Otros. El n´cleo puede ser un plano factorial, un hiperplano discriminante, etc. [18]
           u

4.5.     M´todo de Fisher
          e
   El M´todo de Fisher [23] es ´ptimo para particionar un conjunto descrito por una unica variable
         e                         o                                                           ´
cuantitativa en K clases. Usa el criterio intra-clase y se fundamenta en el orden total asociado a la variable
cuantitativa (o cualitativa-ordinal) inducido por ´sta sobre el conjunto de individuos. La partici´n ´ptima
                                                    e                                              o o
deber´ ser compatible con ´ste orden.
     a                      e
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación

Weitere ähnliche Inhalte

Was ist angesagt?

TEORÍAS DEL COMERCIO INTERNACIONAL
TEORÍAS DEL COMERCIO INTERNACIONALTEORÍAS DEL COMERCIO INTERNACIONAL
TEORÍAS DEL COMERCIO INTERNACIONALRuben Cervantes
 
Manual mantenimiento plantas electricas diesel
Manual mantenimiento plantas electricas dieselManual mantenimiento plantas electricas diesel
Manual mantenimiento plantas electricas dieselkbeman
 
Presentación 3.Diagnostico de-necesidades-de-capacitación
Presentación 3.Diagnostico de-necesidades-de-capacitaciónPresentación 3.Diagnostico de-necesidades-de-capacitación
Presentación 3.Diagnostico de-necesidades-de-capacitaciónLili Gc
 
Gestion de repuestos
Gestion de repuestosGestion de repuestos
Gestion de repuestosJHOANANDRES5
 
Premios de calidad efqm (1)
Premios de calidad efqm (1)Premios de calidad efqm (1)
Premios de calidad efqm (1)Marchela Daza
 
Tratado de libre comercio Mexico - Bolivia
Tratado de libre comercio Mexico - BoliviaTratado de libre comercio Mexico - Bolivia
Tratado de libre comercio Mexico - BoliviaGabyHasra VTuber
 
Exposicion evaluacion de desempeño
Exposicion evaluacion de desempeñoExposicion evaluacion de desempeño
Exposicion evaluacion de desempeñoMARITZA LOPEZ IBARRA
 
Mecanismos Para Arancelarios Del Comercio
Mecanismos Para Arancelarios Del ComercioMecanismos Para Arancelarios Del Comercio
Mecanismos Para Arancelarios Del Comerciosoledadbarranzuela
 
La Planeación y Toma de Decisiones
La Planeación y Toma de DecisionesLa Planeación y Toma de Decisiones
La Planeación y Toma de DecisionesJuan Lazaro
 
Relaciones Económicas Internacionales
Relaciones Económicas InternacionalesRelaciones Económicas Internacionales
Relaciones Económicas InternacionalesGrecia López
 
3. principales teorías del comercio internacional
3. principales teorías del comercio internacional3. principales teorías del comercio internacional
3. principales teorías del comercio internacionalhuguito818181
 
Evolución de mantenimiento
Evolución de mantenimientoEvolución de mantenimiento
Evolución de mantenimientoJairo Mora Rubio
 
4. diseño experimental para un factor
4. diseño experimental para un factor4. diseño experimental para un factor
4. diseño experimental para un factorXimenaFernandez29
 
Plan de exportación de sandías a Alberta Canada
Plan de exportación de sandías a Alberta CanadaPlan de exportación de sandías a Alberta Canada
Plan de exportación de sandías a Alberta CanadaJiliar Silgado Cardona
 

Was ist angesagt? (20)

TEORÍAS DEL COMERCIO INTERNACIONAL
TEORÍAS DEL COMERCIO INTERNACIONALTEORÍAS DEL COMERCIO INTERNACIONAL
TEORÍAS DEL COMERCIO INTERNACIONAL
 
diagrama de flujo descripción narrativa
diagrama de flujo  descripción narrativadiagrama de flujo  descripción narrativa
diagrama de flujo descripción narrativa
 
Evolucion de la calidad
Evolucion de la calidadEvolucion de la calidad
Evolucion de la calidad
 
CaracteríSticas De La Calidad
CaracteríSticas De La CalidadCaracteríSticas De La Calidad
CaracteríSticas De La Calidad
 
Manual mantenimiento plantas electricas diesel
Manual mantenimiento plantas electricas dieselManual mantenimiento plantas electricas diesel
Manual mantenimiento plantas electricas diesel
 
Presentación 3.Diagnostico de-necesidades-de-capacitación
Presentación 3.Diagnostico de-necesidades-de-capacitaciónPresentación 3.Diagnostico de-necesidades-de-capacitación
Presentación 3.Diagnostico de-necesidades-de-capacitación
 
Gestion de repuestos
Gestion de repuestosGestion de repuestos
Gestion de repuestos
 
Estrategia empresarial
Estrategia empresarialEstrategia empresarial
Estrategia empresarial
 
Premios de calidad efqm (1)
Premios de calidad efqm (1)Premios de calidad efqm (1)
Premios de calidad efqm (1)
 
Tratado de libre comercio Mexico - Bolivia
Tratado de libre comercio Mexico - BoliviaTratado de libre comercio Mexico - Bolivia
Tratado de libre comercio Mexico - Bolivia
 
Exposicion evaluacion de desempeño
Exposicion evaluacion de desempeñoExposicion evaluacion de desempeño
Exposicion evaluacion de desempeño
 
Mecanismos Para Arancelarios Del Comercio
Mecanismos Para Arancelarios Del ComercioMecanismos Para Arancelarios Del Comercio
Mecanismos Para Arancelarios Del Comercio
 
La Planeación y Toma de Decisiones
La Planeación y Toma de DecisionesLa Planeación y Toma de Decisiones
La Planeación y Toma de Decisiones
 
7 preguntas del rcm
7 preguntas del rcm7 preguntas del rcm
7 preguntas del rcm
 
Relaciones Económicas Internacionales
Relaciones Económicas InternacionalesRelaciones Económicas Internacionales
Relaciones Económicas Internacionales
 
EL ARANCEL
EL ARANCELEL ARANCEL
EL ARANCEL
 
3. principales teorías del comercio internacional
3. principales teorías del comercio internacional3. principales teorías del comercio internacional
3. principales teorías del comercio internacional
 
Evolución de mantenimiento
Evolución de mantenimientoEvolución de mantenimiento
Evolución de mantenimiento
 
4. diseño experimental para un factor
4. diseño experimental para un factor4. diseño experimental para un factor
4. diseño experimental para un factor
 
Plan de exportación de sandías a Alberta Canada
Plan de exportación de sandías a Alberta CanadaPlan de exportación de sandías a Alberta Canada
Plan de exportación de sandías a Alberta Canada
 

Ähnlich wie Modelos de clasificación (20)

Modulo fisica-i1
Modulo fisica-i1Modulo fisica-i1
Modulo fisica-i1
 
Fibras opticas
Fibras opticasFibras opticas
Fibras opticas
 
Matematicas
MatematicasMatematicas
Matematicas
 
Guia de mate
Guia de mateGuia de mate
Guia de mate
 
GUIA UCV
GUIA UCVGUIA UCV
GUIA UCV
 
Algebra lineal
Algebra linealAlgebra lineal
Algebra lineal
 
Algebra de lie
Algebra de lieAlgebra de lie
Algebra de lie
 
Refuerzo 6
Refuerzo 6Refuerzo 6
Refuerzo 6
 
Tutorial de maxima
Tutorial de maximaTutorial de maxima
Tutorial de maxima
 
Material MAT021
Material MAT021Material MAT021
Material MAT021
 
Manualscilab 090513151714 Phpapp02
Manualscilab 090513151714 Phpapp02Manualscilab 090513151714 Phpapp02
Manualscilab 090513151714 Phpapp02
 
Manual Scilab
Manual ScilabManual Scilab
Manual Scilab
 
Real Surfaces
Real SurfacesReal Surfaces
Real Surfaces
 
Guia de matematicas
Guia de matematicasGuia de matematicas
Guia de matematicas
 
Max
MaxMax
Max
 
Ainotes Spanish
Ainotes SpanishAinotes Spanish
Ainotes Spanish
 
Apuntes termo
Apuntes termoApuntes termo
Apuntes termo
 
Fundamentos de geotecnia_saez_(1)
Fundamentos de geotecnia_saez_(1)Fundamentos de geotecnia_saez_(1)
Fundamentos de geotecnia_saez_(1)
 
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIAApuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
 
Libro psu matematicas
Libro psu matematicasLibro psu matematicas
Libro psu matematicas
 

Mehr von Facultad de Ciencias, UCR (16)

Yield curve estimation in Costa Rica
Yield curve estimation in Costa RicaYield curve estimation in Costa Rica
Yield curve estimation in Costa Rica
 
CART
CARTCART
CART
 
Análisis en componentes principales general
Análisis en componentes principales generalAnálisis en componentes principales general
Análisis en componentes principales general
 
Análisis en componentes principales
Análisis en componentes principalesAnálisis en componentes principales
Análisis en componentes principales
 
Análisis de correspondencias
Análisis de correspondenciasAnálisis de correspondencias
Análisis de correspondencias
 
Análisis de correspondencias múltiples
Análisis de correspondencias múltiplesAnálisis de correspondencias múltiples
Análisis de correspondencias múltiples
 
Ilustracion de K-medias
Ilustracion de K-mediasIlustracion de K-medias
Ilustracion de K-medias
 
Clasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdfClasificacion automática (II parte) - clustering.pdf
Clasificacion automática (II parte) - clustering.pdf
 
Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)
 
Regresión Lineal Múltiple
Regresión Lineal MúltipleRegresión Lineal Múltiple
Regresión Lineal Múltiple
 
Regresión Logística
Regresión LogísticaRegresión Logística
Regresión Logística
 
7_Discriminacion.pdf
7_Discriminacion.pdf7_Discriminacion.pdf
7_Discriminacion.pdf
 
Analisis Canonico
Analisis CanonicoAnalisis Canonico
Analisis Canonico
 
Clasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de FisherClasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de Fisher
 
Regresión PLS
Regresión PLSRegresión PLS
Regresión PLS
 
Curso(1)-Clasificacion
Curso(1)-ClasificacionCurso(1)-Clasificacion
Curso(1)-Clasificacion
 

Kürzlich hochgeladen

SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIAFabiolaGarcia751855
 
prostitución en España: una mirada integral!
prostitución en España: una mirada integral!prostitución en España: una mirada integral!
prostitución en España: una mirada integral!CatalinaAlfaroChryso
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfMercedes Gonzalez
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxpaogar2178
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxroberthirigoinvasque
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxEliaHernndez7
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxhenarfdez
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONamelia poma
 
Desarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresDesarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresJonathanCovena1
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptxAEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptxhenarfdez
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesMarisolMartinez707897
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfRosabel UA
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdfDemetrio Ccesa Rayme
 

Kürzlich hochgeladen (20)

Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
prostitución en España: una mirada integral!
prostitución en España: una mirada integral!prostitución en España: una mirada integral!
prostitución en España: una mirada integral!
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
Desarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por ValoresDesarrollo y Aplicación de la Administración por Valores
Desarrollo y Aplicación de la Administración por Valores
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptxAEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
AEC2. Egipto Antiguo. Adivina, Adivinanza.pptx
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 

Modelos de clasificación

  • 1. CURSO Modelos de Clasificaci´n o Javier Trejos Zelaya CIMPA, Universidad de Costa Rica, E-Mail: jtrejos@cariari.ucr.ac.cr ´ Indice 1. Introducci´n o 2 2. Medidas de Semejanza 3 2.1. Distancias y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3. Clasificaci´n Jer´rquica o a 9 3.1. Jerarqu´ . . . . . . . . . . . . . . . . . . . . ıas . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2. Clasificaci´n jer´rquica ascendente . . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.3. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4. Aproximaciones por ultram´tricas . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.5. Clasificaci´n jer´rquica descendente . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.6. Observaciones sobre la clasificaci´n jer´rquica o a . . . . . . . . . . . . . . . . . . . . . . . . . 15 4. Clasificaci´n por Particiones o 16 4.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3. M´todo de k-medias . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.4. M´todos de nubes din´micas . e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.5. M´todo de Fisher . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.6. Uso de heur´ ısticas modernas de optimizaci´n o . . . . . . . . . . . . . . . . . . . . . . . . . 22 5. M´todos Arb´reos No Jer´rquicos e o a 23 5.1. Arboles aditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2. Pir´mides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 24 6. Otros M´todos e 25 6.1. Clasificaci´n o bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 6.2. Clasificaci´n o difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.3. Clasificaci´n o neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.4. Clasificaci´n o probabil´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 7. Validaci´n de Resultados o 31 7.1. Descripci´n de una partici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o 31 7.2. N´mero de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 31 7.3. Pruebas de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 32 1
  • 2. 2 Javier Trejos 1. Introducci´n o La clasificaci´n autom´tica tiene por objetivo reconocer grupos de individuos homog´neos, de tal o a e forma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritos por una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por una tabla de proximidades. Lo que se entiende por individuos homog´neos es que los individuos que pertenezcan a un mismo e grupo tengan, ya sea caracter´ ısticas iguales o similares en el caso de que sean descritos por una tabla con variables, o bien que est´n pr´ximos unos de otros en el caso de que sean descritos por una tabla de e o proximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a a ı, un individuo de otra clase. La clasificaci´n autom´tica tambi´n es conocida bajo otros nombres, como por ejemplo an´lisis de o a e a grupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal- a o a a e mente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaci´n autom´tica porque el e e o a objetivo es buscar una clasificaci´n (o varias clasificaciones, seg´n sea el m´todo usado) de los individuos o u e u objetos a agrupar, y como esta clasificaci´n es desconocida a priori, el m´todo debe hacer la clasi- o e ficaci´n autom´ticamente sin que intervenga ning´n agente externo. Contrariamente, la discriminaci´n o a u o trata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaci´n no es autom´tica o a sino supervisada (se trata de que la regla de asignaci´n a los grupos dados minimice los posibles errores o a clases incorrectas). Existe gran cantidad de m´todos de clasificaci´n autom´tica, entre los que podemos distinguir los e o a siguientes: los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan e a representarse mediante un ´rbol; a los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten e a a una clase de nivel inferior estar contenida en dos clases de nivel superior; los m´todos de particionamiento, que buscan una sola partici´n del conjunto de individuos; e o los m´todos de clasificaci´n no exclusiva, que buscan grupos en los datos de tal manera que un e o individuo pueda pertenecer a varios grupos al mismo tiempo; los m´todos de clasificaci´n difusa, que buscan grupos homog´neos de individuos pero que dan e o e el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase; los m´todos de clasificaci´n cruzada, que tratan de hacer la clasificaci´n simult´neamente sobre e o o a dos conjuntos de individuos (o uno de individuos y uno de variables). En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti- e a a cionamiento. As´ abordaremos los m´todos llamados de clasificaci´n jer´rquica ascendente y los de nubes ı, e o a din´micas, por ser los m´s populares y f´ciles de usar. Tanto los m´todos jer´rquicos como algunos del a a a e a tipo nubes din´micas est´n implementados en la mayor´ de los paquetes estad´ a a ıa ısticos.
  • 3. ´ modelos de clasificacion 3 2. Medidas de Semejanza Los m´todos de clasificaci´n autom´tica usan ampliamente el concepto de similitud o disimilitud entre e o a los individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir los m´todos de clasificaci´n propiamente dichos. A lo largo del cap´ e o ıtulo denotaremos con Ω al conjunto de individuos a clasificar, y supondremos que posee n elementos. 2.1. Distancias y disimilitudes Las similitudes y disimilitudes son los conceptos b´sicos que nos permitir´n determinar si dos indi- a a viduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cu´n similares son dos a individuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s a a cercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cu´n diferentes son dos a a individuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero a sea la disimilitud menos diferentes ser´n los individuos (es decir, es m´s posible que pertenezcan a una a a misma clase) y entre mayor sea ´sta m´s diferentes ser´n. e a a 2.2. Similitudes Una similitud es una funci´n s : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω}; a 2. para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i). ıa: Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi- o viduos. Ahora bien, la definici´n de una similitud depender´ de c´mo es la descripci´n de los individuos, o a o o es decir, qu´ tipo de variables son las que los describen. e 2.2.1. Caso de variables binarias Un caso frecuente para usar similitudes es cuando los individuos est´n descritos por variables binarias, a es decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo o presenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”, que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”, es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambi´n aparecen con frecuencia ıa e este tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la a parcela”. En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar los siguientes elementos: pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j u qij : es el n´mero de atributos que presenta s´lo uno de los dos u o p: es el n´mero total de atributos (n´mero de variables). u u Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuaci´no solamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´ a ındices [12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´ ındices de similitud m´s usados para datos binarios son: a el ´ ındice de Jaccard: pij s(i, j) = pij + qij
  • 4. 4 Javier Trejos el ´ ındice de Russel y Rao: pij s(i, j) = p Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´ e ındice de Jaccard alcanza su valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre a a el n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos u o el valor del ´ ındice de Russel y Rao ser´ 1. a Ejemplo 1 Sup´ngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 . o Los datos son: v1 v2 v3 v4 a 1 0 1 1 b 0 1 1 1 c 0 0 0 0 d 1 0 1 1 e 0 1 0 0 f 1 1 1 1 Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o u para los que son diferentes, se obtienen los valores de pij y qij dados a continuaci´n: o pij b c d e f qij b c d e f a 2 0 3 0 3 a 2 3 0 4 1 b 0 2 1 3 b 3 2 2 1 c 0 0 0 c 3 1 4 d 0 3 d 4 1 e 1 e 3 Al calcular los ´ndices de Jaccard y de Russel & Rao, se obtiene: ı Jaccard Russel&Rao s(i, j) a b c d e f s(i, j) a b c d e f a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75 b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75 c 1 0 0 0 c 1 0 0 0 d 1 0 0,75 d 1 0 0,75 e 1 0,25 e 1 0,25 f 1 f 1 En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores. El valor de 1 para s(i, j) calculado con el ´ndice de Jaccard refleja este hecho, lo cual no se aprecia con ı el ´ndice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j) ı calculado con ambos ´ndices refleja este hecho. ı 2.2.2. Similitudes entre variables Generalmente, cualquier ´ındice de asociaci´n entre variables sirve como similitud entre variables. As´ o ı, para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaci´n o lineal n ¯ ¯ (xi − x)(yi − y) r(x, y) = i=1 sx sy
  • 5. ´ modelos de clasificacion 5 donde sx , sy son las desviaciones est´ndar de x y y, respectivamente. En general, cualquier ´ a ındice de cor- relaci´n servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo o ıa o para su uso en clasificaci´n. Por ejemplo, para el caso del coeficiente de correlaci´n lineal se suele usar o o d(x, y) = 1 − |r(x, y)| ındice de disimilitud, en el caso de tomar como fuerte asociaci´n el caso r(x, y) ≈ −1, o bien como ´ o d(x, y) = 2 − r(x, y) en el caso contrario. Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec- tivamente, se suele tomar el ´ ındice de asociaci´n de chi-cuadrado como similitud o p q 1 (nnjk − nj· n·k )2 χ2 (x, y) = j=1 k=1 n nj· n·k donde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son los m´rgenes. Ahora bien, el ´ a ındice de χ2 tiene el inconveniente de no estar normalizado y no permite comparar ´ ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero u u de modalidades. Por ello, se suele usar m´s bien el ´ a ındice T 2 de Chuprov, normalizado en el intervalo [0, 1]: χ2 (x, y) T 2 (x, y) = . n(p − 1)(q − 1) 2.3. Disimilitudes Una disimilitud es una funci´n d : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω se tiene d(i, i) = 0 2. para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i) ıa: Si a la definici´n anterior uno le a˜ade: o n 3. d(i, j) = 0 ⇔ i = j 4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j) entonces la disimilitud es lo que llamamos una distancia. 2.3.1. Caso cuantitativo La disimilitud m´s usada es la distancia eucl´ a ıdea cl´sica: a p d(i, j) = (xk − xk )2 i j k=1 Recu´rdese de lo estudiado en el cap´ e ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partir de una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner e e ıa d2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´ ı, ıdea cl´sica coincide con el caso en a que se usa como m´trica la identidad de orden p. e El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son a cuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay o que mencionar que esta distancia tiene un inconveniente si se usa sin precauci´n: debido a que cada t´rmino o e
  • 6. 6 Javier Trejos de la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandes diferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´ ıpico se traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado, a a siempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersi´n o deber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias. ıa ı Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 : p d(i, j) = |xk − xk | i j k=1 Otra distancia usada en ocasiones, es la llamada distancia de Chebychev: d(i, j) = m´x{|xk − xk |/k = 1, . . . , p} a i j Ejemplo 2 Sup´ngase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , seg´n o u se muestra en la tabla siguiente: v1 , v2 v3 v4 v5 a 2 3,5 0 4 7 b 4 3 1,5 5 6 c 0 6 4 2 3 d 3 3 1 4 77 El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son: a ı a Eucl´dea ı City-block d(i, j) a b c d d(i, j) a b c d a 0 2,915 6,801 70,02 a 0 6 14,5 72,5 b 0 7,018 71,02 b 0 15,5 73,5 c 0 74,21 c 0 85 d 0 d 0 Chebychev d(i, j) a b c d a 0 2 4 70 b 0 4 71 c 0 74 d 0 De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidos para las cinco variables, y su cercan´a es reflejadapor el bajo valor de las distancias. Por su parte, d ı tambi´n tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una e gran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplo debido a un error de un digitador a la hora de pasar los datos del papel a la computadora (sup´ngase que o el dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distancias mostradas son muy sensibles a los valores de estos casos at´picos. ı 1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Jo´e, s donde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo ı, las calles pasando por las esquinas, y no en l´ ınea recta
  • 7. ´ modelos de clasificacion 7 2.3.2. Caso binario Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variables binarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) = a 1 − s(i, j). As´ se definen la disimilitud de Jaccard: ı, qij d(i, j) = 1 − pij + qij usando las notaciones de la secci´n 2.2.1, y la disimilitud de Russel & Rao: o p − pij d(i, j) = p Ejemplo 3 Usando los datos del ejemplo 1, tendr´amos los siguientes valores para las disimilitudes de ı Jaccard y de Russel & Rao: Jaccard Russel&Rao d(i, j) a b c d e f d(i, j) a b c d e f a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25 b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25 c 0 1 1 1 c 0 1 1 1 d 0 1 0,25 d 0 1 0,25 e 0 0,75 e 0 0,75 f 0 f 0 2.3.3. Caso cualitativo Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati- ıa vas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntiva completa, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En este caso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo ıan usual es usar adaptaciones especiales de las distancias eucl´ ıdeas, como la distancia eucl´ ıdea cl´sica y la a distancia de χ2 (chi-cuadrado). ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp La distancia eucl´ a es: p k d(i, j) = 2 δij k=1 k 1 si xk = xk i j donde δij = . 0 si xk = xk i j La distancia de χ2 es: p 1 1 1 k d(i, j) = 2 + δij p k=1 s(xk ) s(xk ) i j donde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la k i u i a k variable x . 2.3.4. Agregaciones Los m´todos de clasificaci´n autom´tica usan generalmente una noci´n de proximidad entre grupos e o a o de elementos, para medir la separaci´n entre las clases que se buscan. Para ellos, se introduce el concepto o de agregaci´n, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la o a agregaci´n entre A y B es: o δ(A, B) tal que δ es una disimilitud en el conjunto de partes P(Ω):
  • 8. 8 Javier Trejos i) δ(A, A) = 0 para todo A ∈ P(Ω) ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω) Usualmente, la medida de agregaci´n est´ basada en la disimilitud d medida sobre Ω. En efecto, o a denotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son: a 1. Agregaci´n del salto m´ o ınimo o del vecino m´s cercano: a δm´ (A, B) = m´ ın ın{d(a, b)|a ∈ A, b ∈ B} 2. Agregaci´n del salto m´ximo: o a δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B} a a 3. Agregaci´n del salto promedio: o 1 δprom (A, B) = d(a, b) card(A) + card(B) a∈A b∈B En el caso cuantitativo se tiene adem´s: a 4. Agregaci´n de Ward: o card(A)card(B) δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B) card(A) + card(B) donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´ ıdea e I(A) es la inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaci´n, tambi´n llamada o e del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´ o a ıdeo, es decir, cuando se dispone de variables cuantitativas. Existen otras agregaciones tambi´n citadas en la literatura, como por ejemplo la distancia entre los e centros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir ıa e inversiones en el algoritmo de clasificaci´n jer´rquica ascendente que veremos en la siguiente secci´n. o a o
  • 9. ´ modelos de clasificacion 9 3. Clasificaci´n Jer´rquica o a 3.1. Jerarqu´ ıas Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en e a el pr´ximo cap´ o ıtulo– encuentran en cada ejecuci´n una sola partici´n en un n´mero dado a priori de o o u clases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman u u en la configuraci´n de los datos. o Por ejemplo, consid´rese la siguiente configuraci´n de puntos en R2 : e o r r r r rr r r r r rr r rr r r r rr Puede apreciarse que de forma natural se forman 3 clases de individuos seg´n la cercan´ de los puntos. u ıa Ahora bien, si el usuario no conoce esta configuraci´n (para efectos de simplificaci´n la hemos dado en dos o o dimensiones, pero el lector puede pensar que se trata de una configuraci´n en muchas m´s dimensiones), o a entonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por u ejemplo en 2 clases o en 5 clases. Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para varios n´meros de clases al mismo tiempo, y escoger luego la que m´s conviene seg´n las necesidades. Una u a u manera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se a a muestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}. a b c d e Figura 1: Ejemplo de ´rbol jer´rquico a a Una ´rbol jer´rquico tiene la ventaja de que es de f´cil interpretaci´n. En efecto, para el ´rbol de la a a a o a figura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol, a a a esto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} con el individuo c, y finalmente se obtiene el grupo total Ω. El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos a a a en el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias
  • 10. 10 Javier Trejos entre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos ´ escoger una agregaci´n δ. o Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´ a a ıa. Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que: ıa 1. Ω ∈ H, 2. ∀i ∈ Ω, {i} ∈ H, 3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h. Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada ıa a a a nodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene a a a a una ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria. ız a ıa La clasificaci´n jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos o a ıa m´s parecidos formen nodos, y los grupos de individuos m´s similares tambi´n formen nodos. a a e Se puede asociar un ´ındice f a la jerarqu´ tal que: ıa, 1. f (h) ≥ 0, 2. ∀i ∈ Ω : f ({i}) = 0, 3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ). Se dice entonces que (H, f ) es una jerarqu´ indexada. ıa Pueden consultarse las siguientes referencias como una introducci´n a estos conceptos: [6, pp. 119–138, o tomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s a a accesible sea [19]. 3.2. Clasificaci´n jer´rquica ascendente o a El algoritmo general de clasificaci´n jer´rquica ascendente (CJA) construye, en cada paso o a una partici´n en k clases, que denotaremos Pk , mediante la fusi´n de los dos conjuntos de la partici´n o o o anterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la a siguiente manera: 1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω}; 2. k := k + 1 ; 3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´ ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 }; sea H := H ∪ {h}; 4. calcular f (h) y δ(h, h ), para todo h ∈ H; 5. mientras k < n − 1 ir al paso 2; 6. H = H ∪ Ω; El H obtenido es la jerarqu´ deseada. Se define un ´ ıa ındice f , como una funci´n f : H −→ R+ definida o por: 0 si h es un conjunto unitario f (h) = δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar h Esta indexaci´n hace que el ´rbol de clasificaci´n sea m´s f´cilmente interpretable, pues da la idea de la o a o a a altura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que est´n a a a a debajo del nodo.
  • 11. ´ modelos de clasificacion 11 3.2.1. Ejemplos did´cticos a Ejemplo 4 Sup´ngase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}: o a b c d a 0 1 3 5,5 b 0 2 4,5 c 0 2,5 d 0 Puede verse que el m´nimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es ı 1. Por lo tanto, se agregan estos dos individuos y al usar la agregaci´n del salto m´nimo δm´ se obtiene o ı ın la nueva tabla: {a, b} c d {a, b} 0 2 4,5 c 0 2,5 d 0 Ahora, el m´nimo valor es para δ({a, b}, c) = 2, por lo ı que se fusionan {a, b} y c, obteni´ndose la e nueva tabla: {a, b, c} d {a, b, c} 0 2,5 d 0 De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2. a a 3 2 1 a b c d Figura 2: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto m´ o o ınimo Ejemplo 5 En caso de usarse la agregaci´n del salto m´ximo δm´x sobre los datos anteriores, se obten- o a a dr´an sucesivamente las dos tablas siguientes: ı {a, b} c d {a, b} {c, d} {a, b} 0 3 5,5 {a, b} 0 5,5 c 0 2,5 {c, d} 0 d 0 y el ´rbol de clasificaci´n ser´a el presentado en la figura 3. a o ı
  • 12. 12 Javier Trejos 5 4 3 2 1 a b c d Figura 3: Arbol de clasificaci´n opbtenido al usar la agregaci´n del salto m´ximo o o a Ejemplo 6 Por otra parte, si se usa la agregaci´n del salto promedio δprom sobre los datos anteriores, o se obtienen las tablas: {a, b} c d {a, b, c} d {a, b} 0 2,5 5 {a, b, c} 0 4,16 c 0 2,5 d 0 d 0 Puede verse que en la primera tabla se alcanza el m´nimo para dos valores diferentes: δ({a, b}, c) = 2,5 = ı δ(c, d). Ante esta situaci´n, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo o a que se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4. a 4 3 2 1 a b c d Figura 4: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o o El lector puede comprobar que de haber escogido la fusi´n de c con d al ´rbol de clasificaci´n hubiera o a o tenido una forma diferente. 2 En los programas de computaci´n, normalmente se decide autom´ticamente cual fusi´n se har´; por ejemplo, se sugiere o a o a hacer aqu´lla que involucre al menor ´ e ındice de individuo.
  • 13. ´ modelos de clasificacion 13 3.2.2. F´rmula de recurrencia o Seg´n los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusi´n deben calcu- u o larse algunos valores de la agregaci´n: aqu´llos que involucran al grupo reci´n creado, y que adem´s se o e e a suprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definici´n de los o ´ ındices de agregaci´n dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no o a partir de la tabla reci´n calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este e c´lculo de actualizaci´n solamente a partir de la ultima tabla de que se dispone, es que se han encontrado a o ´ f´rmulas de recurrencia o actualizaci´n de las agregaciones. Estas f´rmulas son especialmente utiles para o o o ´ las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionan en una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaci´n para δprom y δward son: o o card(a)δprom (h, a) + card(b)δprom (h, b) δprom (h, a ∪ b) = card(a) + card(b) (card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b) δward (h, a ∪ b) = card(a) + card(b) donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h. Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud: e a b c d e a 0 25 18 25 10 b 0 30 40 34 c 0 10 15 d 0 18 e 0 Usando la agregaci´n del salto promedio δprom , se obtiene la secuencia de tablas: o a b {c, d} e {a, e} b {c, d} a 0 25 21,5 10 {a, c, d, e} b {a, e} 0 29,5 19 b 0 35 34 {a, c, d, e} 0 32,25 b 0 35 {c, d} 0 16,5 b 0 {c, d} 0 e 0 y el ´rbol de clasificaci´n mostrado en la figura 5. a o 3.2.3. Inversiones Se dice que una clasificaci´n jer´rquica produce una inversi´n cuando se construye h = a ∪ b con o a o f (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia o o o para que no se produzcan inversiones. Los cuatro ´ ındices de agregaci´n no producen inversiones como se o puede verificar sobre el teorema de Diday, pero hay otros ´ ındices que s´ pueden producir, como el de la ı distancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 . 3.3. Algoritmos ascendentes acelerados A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las a jerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos ıas. rec´ ıprocos. El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindarios reducibles, en cada paso de la construcci´n jer´rquica ascendente, solamente se examinan los vecinos o a
  • 14. 14 Javier Trejos 30 20 10 c d a e b Figura 5: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o o m´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368– a 380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de a o o lanza & Williams, para caracterizar a los ´ ındices de agregaci´n que cumplen la propiedad de vecindarios o reducibles. El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´ ıprocos: dos grupos a y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcci´n jer´rquica a o a ascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´ ıprocos. Una vez hechas estas fusiones, se calculan los vecinos rec´ ıprocos de los grupos formados y se recomienza, alternando este paso de fusi´n con el desarrollo normal del algoritmo de clasificaci´n jer´rquica ascendente. Puede o o a encontrarse una descripci´n del procedimiento en [15, 176–177]. o Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dos enfoques acelerados anteriores y el algoritmo usual de clasificaci´n jer´rquica ascendente. o a 3.3.1. Ejemplo de notas escolares Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0 y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espa˜ol y educaci´n f´ a n o ısica. La clasificaci´n jer´rquica usando la agregaci´n de Ward con la distancia eucl´ o a o ıdea, da como resultado: Luc´ıa Mar´ ıa Carlos Andr´s e Luis Sonia Pedro In´s e Ana Jos´ e Puede verse que hay una clara clasificaci´n en tres clases, que es: o
  • 15. ´ modelos de clasificacion 15 C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos}, e C2 = {Luis,Sonia}, C3 = {Pedro,In´s,Ana,Jos´}. e e Si se quiere hacer una clasificaci´n en dos clases, entonces se unen C1 y C2 . o El lector deseoso de consultar aplicaciones de la clasificaci´n jer´rquica, puede encontrar 13 aplica- o a ciones en [6, pp. 321–538, tomo 1]. 3.4. Aproximaciones por ultram´tricas e Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa. ıa e La demostraci´n de esta propiedad, llamada teorema de Johnson–Benz´cri, puede consultarse en: [6, pp. o e 138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15]. La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar ıa, un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como e M. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco a poco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una e e ultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la e e e construcci´n de un ´rbol de longitud m´ o a ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o de Kruskal. Tambi´n Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω, e ıa construyendo cada vez un tri´ngulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]). a o 3.5. Clasificaci´n jer´rquica descendente o a Debe notarse que la construcci´n de un ´rbol de clasificaci´n podr´ tambi´n hacerse descendente- o a o ıa e mente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico- tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el e criterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert, ıa. e a de Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251– e 276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobre un m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp. e a 82–88]. 3.6. Observaciones sobre la clasificaci´n jer´rquica o a La clasificaci´n jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y o a sobre los que hay que insistir: En primer lugar, los resultados dependen de la agregaci´n que se escoja. Por ello, siempre se o recomienda al usuario que haga una reflexi´n antes de aplicar el m´todo, en el sentido de ensoger o e la agregaci´n que tenga un mejor sentido en el problema que se est´ tratando. o e En segundo lugar, en el caso en que haya igualdad en el valor de la agregaci´n para dos parejas o diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados a diferentes. Finalmente, se debe tomar en cuenta que la clasificaci´n jer´rquica aproxima siempre una tabla de datos o a a una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo. e e 3 Un a ´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son a elementos de Ω, y la suma de los valores de las aristas es m´ ınima entre todos los ´rboles con esas caracter´ a ısticas.
  • 16. 16 Javier Trejos 4. Clasificaci´n por Particiones o Los m´todos de clasificaci´n por particiones buscan una sola partici´n de Ω, mediante la optimizaci´n e o o o de alg´n criterio. Existen b´sicamente dos tipos de m´todos: u a e los que fijan a priori el n´mero de clases, u los que no fijan este n´mero. u Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventaja obvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de u ´ un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaci´n no es f´cil u a o a sin una adecuada experimentaci´n y pr´ctica. Ejemplos de estos m´todos son Isodata y Wishart. o a e En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado o e de Nubes Din´micas. a Los m´todos de nubes din´micas est´n basados en el principio que una clase puede ser representada por e a a alg´n objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de u e par´metros, etc; a este representante lo llamaremos n´cleo. El primer algoritmo de este tipo fue propuesto a u por Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc. La idea subyacente es: asignar los individuos al n´cleo m´s cercano, u a calcular los n´cleos con las clases formadas en el paso anterior, u iterar los pasos anteriores hasta obtener estabilidad. Se parte de una configuraci´n inicial de n´cleos, y se puede probar que el m´todo converge a una o u e partici´n que no mejora el criterio. Dependiendo del contexto y del tipo de n´cleo, se define un criterio o u a ser mejorado. 4.1. Problema combinatorio Es necesario hacer notar que, cuando se quiere obtener una partici´n en K clases de un conjunto con o n individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en K clases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de a o ilustraci´n, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es o u aproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que el n´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaci´n u o de recurrencia S(n, K) = S(n − 1, K − 1) + kS(n − 1, K) Esto lleva a que K 1 K S(n, K) = (−1)K−i in K! i i=1 De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluci´n e o satisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluci´n o en todos los casos. 4.2. Criterio de la inercia Como se ha mencionado, se quiere obtener clases lo m´s homog´neas posibles y tal que est´n suficien- a e e temente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad: e
  • 17. ´ modelos de clasificacion 17 sup´ngase que se est´ en presencia de una partici´n P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son o a o los centros de gravedad de las clases: 1 gk = xi , n i∈Ck g es el centro de gravedad total: n 1 g= xi . n i=1 1 n 2 Si se denota I = n i=1 xi − g la inercia total de la nube de puntos, K |Ck | B(P ) = ||gk − g||2 (1) n k=1 la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total, y K K 1 2 W (P ) = I(Ck ) = xi − gk (2) n k=1 k=1 i∈Ck la inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher: I = B + W. Obs´rvese que B mide precisamente la “separaci´n” de la nube de puntos, al medir la e o inercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad est´n a bastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si W es peque˜o entonces cada I(Ck ) es peque˜o y as´ la dispersi´n al interior de cada clase es peque˜a. n n ı o n Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti- a camente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaci´n entre o las clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes ı, e din´micas es encontrar una partici´n P de Ω y representantes de las clases, tales que W (P ) sea m´ a o ınima. Existen otros criterios de clasificaci´n, como por ejemplo det(W )/ det(B) → m´ o criterios de en- o ın, trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto. ıa. a 4.3. M´todo de k-medias e Existe un poco de confusi´n en la literatura acerca del m´todo de las k-medias, ya que hay dos o e m´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un e primer m´todo de reasignaci´n-recentraje que consiste b´sicamente en la iteraci´n sucesiva, hasta obtener e o a o convergencia, de las dos operaciones siguientes: Representar una clase por su centro de gravedad, esto es, por su vector de promedios Asignar los objetos a la clase del centro de gravedad m´s cercano. a Poco despu´s, McQueen [37] propone un m´todo muy similar, donde tambi´n se representan las clases por e e e su centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia a con el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro e e de ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los e ıa centros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo e e de McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la ıa e b´squeda de una partici´n de consenso, llamada partici´n central. Variantes del m´todo de Forgy son u o o e propuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17]. e a Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, a´n si estos m´todos u e tambi´n reciben nombres como nubes din´micas, centros m´viles, o reasignaci´n-recentraje. e a o o
  • 18. 18 Javier Trejos 4.3.1. M´todo de Forgy e Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que est´n descritos a por p variables cuantitativas x1 , x2 , . . . , xp . En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y a a de distancias eucl´ ıdeas. Por lo tanto, tambi´n tiene sentido que cada clase est´ representada por su centro e e de gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variables para los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente. a a Generalemente, se usar´ la distancia eucl´ a ıdea cl´sica en este contexto. a Como se mencion´ anteriormente, el m´todo de las k-medias consiste en: o e 1. Escoger una partici´n inicial, al azar o con base en alg´n otro criterio. o u 2. Calcular los centros de gravedad de la partici´n. o 3. Asignar cada objeto a la clase del centro de gravedad m´s cercano. a 4. Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene estabilidad en la partici´n. o Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19]. e e Conviene hacer notar que, en una implementaci´n computacional, la escogencia al azar es m´s bien de o a una muestra de K objetos iniciales que servir´n de n´cleos iniciales, y luego se asignan todos los dem´s a u a objetos a la clase del n´cleo m´s cercano, form´ndose entonces la partici´n inicial. u a a o 4.3.2. Ejemplo de las notas escolares El resultado de la aplicaci´n del m´todo de k-medias, depender´ de la escogencia inicial de los n´cleos. o e a u Por ello, se recomienda correr varias veces el m´todo y escoger la mejor soluci´n obtenida en esas corridas. e o Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obteni´ndose o e en 17 de ellas la soluci´n ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con o o e a agregaci´n de Ward). La tabla siguiente muestra los resultados obtenidos: o Partici´n o N´mero de veces u W (P ) B(P ) obtenida C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa} 17 0.75 4.97 C2 = {Luis,Sonia} C3 = {Pedro,In´s,Ana,Jos´} e e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 3 2.48 3.24 C2 = {Pedro,In´s} e C3 = {Ana,Jos´} e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 2 2.52 3.20 C2 = {In´s,Ana,Jos´} e e C3 = {Pedro} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 1 2.55 3.17 C2 = {In´s,Ana} e C3 = {Pedro,Jos´}e C1 = {Luc´ıa,Andr´s,Carlos,Luis,Sonia} e 1 2.72 3.00 C2 = {Pedro,In´s} e C3 = {Ana,Jos´,Mar´ e ıa} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Pedro,In´s,Ana,Jos´} e e 1 3.06 2.66 C2 = {Luis} C3 = {Sonia}
  • 19. ´ modelos de clasificacion 19 4.3.3. M´todo de transferencias e Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi- e nalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y e otra, de un unico elemento de Ω a la vez, haciendo mejorar alg´n criterio en cada iteraci´n. ´ u o El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaci´n, no necesariamente ı o la inercia intra-clases): 1. Se da una partici´n inicial P = (C1 , C2 , . . . , Ck ) de Ω. o k 2. Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la partici´n de Pk consistente o en transferir x de Ck hacia Ck en la partici´n P y dejar las dem´s clases iguales. o a 3. Sea P ∗ tal que W (P ∗ ) = m´ ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ . k 4. Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω. 5. Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia. En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de a una distancia eucl´ıdea. Se busca la partici´n P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases o W . Por tanto, al pasar x de Ck a Ck se debe minimizar k W (Ck (x)) = I(Ch ) + I(Ck {x}) + I(Ck ∪ {x}). h∈{k,k } / En el caso general, Ω es arbitrario, con d un ´ ındice de disimilitud sobre Ω. El criterio W que se define sobre la partici´n P toma en cuenta la relaci´n de equivalencia R asociada a P : o o W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}. Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que: sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }. Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambi´n la partici´n final P ∗ depende e ı e o de la partici´n inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambi´n o ı u e se pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero u u “natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambi´n se puede usar el e m´todo de Polos de Atracci´n [35]. e o 4.4. M´todos de nubes din´micas e a Se quiere obtener una partici´n de Ω en K clases bien agregadas, bien separadas y de intersecci´n o o vac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza. ıa. u Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa e e en que cada clase debe tener una representaci´n (llamada n´cleo), y luego se hace una b´squeda iterada o u u de n´cleos y de particiones, hasta optimizar un cierto criterio. u En el m´todo general de nubes din´micas, cada clase estar´ representada por un n´cleo, que ser´ un e a a u a elemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el a siguiente: 1. Se da una partici´n inicial de Ω. o 2. Se calculan los n´cleos, mediante una funci´n de representaci´n. u o o 3. Se forma una partici´n, asignando cada elemento al n´cleo m´s pr´ximo, mediante una funci´n de o u a o o asignaci´n. o
  • 20. 20 Javier Trejos 4. Se repiten los pasos 2 y 3 hasta que las clases se estabilicen. La escogencia de los n´cleos iniciales, se hace generalmente de manera aleatoria. En el caso general, u se escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo K W (P ) = D(xi , Nk ) k=1 xi ∈Ck donde Nk es el n´cleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo, u una agregaci´n) entre los objetos xi y los n´cleos Nk (que son conjuntos de objetos). El n´cleo Nk se o u u define como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ). Se puede probar que [19] en cada iteraci´n se mejora W y adem´s se converge a una clase estable. o a Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los n´cleos e e a u son centros de gravedad. 4.4.1. Variantes del m´todo de nubes din´micas e a Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas e a a se debe definir el criterio a optimizar, los n´cleos (funci´n de representaci´n), y la forma de asignar u o o elementos a las clases (funci´n de asignaci´n). o o M´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis- e e e ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma ´ forma de dispersi´n, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro- o a e longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricci´n o de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar a iterativamente la distancia que mejor se adapte a los datos. En presencia de objetos descritos por variables cuantitativas, el criterio es K 2 W (P ) = x i − gk M k=1 i∈Ck para el caso de una sola m´trica M , o bien e K 2 W (P ) = x i − gk Mk k=1 i∈Ck para el caso en que se tiene una m´trica Mk asociada a cada clase Ck . e En cada iteraci´n del algoritmo, se calcula no solo los centros de gravedad gk, sino tambi´n las o e m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases, e mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra- clases de clase Ck . Regresi´n tipol´gica. Se pretende detectar K comportamientos locales de regresi´n lineal y las rectas o o o asociadas, de manera que se minimice un criterio de adecuaci´n de las muestras con sus representa- o ciones lineales (criterio de m´ ınimos cuadrados ) [18]. La idea es dar una partici´n del espacio Ω de n individuos a los que se han medido m variables o explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresi´n asociados a cada ı o una de las clases de tal partici´n. o El n´cleo de una clase es el vector de coeficientes de regresi´n Bk = (b1 , . . . , bm )t asociados a la u o k k regresi´n en Ck . El criterio a minimizar es o K K nk k k W (P ) = Y −X Bk 2 nk R = (yi − xk bi ) k i k k=1 k=1 i=1
  • 21. ´ modelos de clasificacion 21 donde nk = |Ck |. Se asigna un individuo zi = (x1 , . . . , xp , yi ) a la clase Ck que minimice d(zi , Bk ) = (yi − xi Bk )2 . i i Mezclas de distribuciones. Se dispone de una muestra Ω cuyos elementos siguen distintas distribu- ciones de probabilidad. Se quiere estimar los par´metros de tales distribuciones. Este es uno de los a problemas m´s viejos de la Estad´ a ıstica Inferencial, que aqu´ se aborda desde el punto de vista de la ı Clasificaci´n Autom´tica, en particular con el m´todo de Nubes Din´micas. o a e a Se tiene una muestra Ω = {x1 , . . . , xn } de una variable aleatoria X en Rs , cuya ley admite la K densidad f (x) = k=1 pk f (x, ak ), donde pk > 0, ∀k, pk = 1. Se supone que f (·, ak ) es una densidad que depende del par´metro ak ∈ Rs (donde s es el n´mero de componentes del par´metro), a u a y pk es la probabilidad de que un punto de la muestra siga la ley f (·, ak ). Se quiere estimar las K componentes y los par´metros desconocidos pk y ak . Tomamos pk = |Ck |/n como estimador de pk . a Como se busca una partici´n P = (c1 , . . . , cK ) tal que cada clase Ck sea asimilable a la ley f (·, ak ), o el n´cleo de la clase k-´sima es el par´metro ak ∈ Rs . El criterio a maximizar es u e a K W (P ) = ln V (Ck , ak ), k=1 donde V (Ck , ak ) = x∈Ck f (x, ak ) es la funci´n de verosimilitud de la submuestra Ck para la o ley f (·, ak ). Un objeto x se asigna a la clase k que maximiza f (x, ak ). El n´cleo ak maximiza la u verosimilitud del par´metro de la densidad asociada a la muestra Ck . En el caso normal o Gaussiano, a se tiene ak = (µk , Γk ), donde: 1 µk = x |Ck | x∈Ck 1 Γk = (x − µk ) (x − µk )t . |Ck | x∈Ck Hay que hacer notar que, a pesar de que este m´todo converge r´pidamente, la precisi´n es mejor e a o con los m´todos cl´sicos de estimaci´n de par´metros, por ejemplo con los algoritmos tipo EM y e a o a SEM [18]. Conceptos conjuntistas. Ilustramos este tipo de n´cleo con el ejemplo mostrado en la figura 6. u y 5 6• A • C • • • • 4 • • • 3 • • • 2 • B • •• • 1 • • - 0 1 2 3 4 5 6x Figura 6: Los n´cleos son conceptos conjuntistas: A = [x < 4]; B = [x ≥ 4] [y < 3]; C = [x ≥ 4] [y ≥ 3]. u Otros. El n´cleo puede ser un plano factorial, un hiperplano discriminante, etc. [18] u 4.5. M´todo de Fisher e El M´todo de Fisher [23] es ´ptimo para particionar un conjunto descrito por una unica variable e o ´ cuantitativa en K clases. Usa el criterio intra-clase y se fundamenta en el orden total asociado a la variable cuantitativa (o cualitativa-ordinal) inducido por ´sta sobre el conjunto de individuos. La partici´n ´ptima e o o deber´ ser compatible con ´ste orden. a e