TEMA TEMA 2: 2: TEMA TEMA 2: 2: TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA...

73
TEMA TEMA 2: 2: TEMA TEMA 2: 2: TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA AGRUPACIÓN AGRUPACIÓN Métodos Métodos cluster cluster é i d é i d Técnicas de segmentacn Técnicas de segmentacn Clasificación no supervisada Clasificación no supervisada Ana Ana Justel Justel Ana Ana Justel Justel 1

Transcript of TEMA TEMA 2: 2: TEMA TEMA 2: 2: TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA...

TEMA TEMA 2:2:TEMA TEMA 2:2:TÉCNICAS DE ANÁLISIS TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA MULTIVARIANTE PARA

AGRUPACIÓNAGRUPACIÓN

Métodos Métodos clusterclusteré i d ióé i d ióTécnicas de segmentaciónTécnicas de segmentación

Clasificación no supervisadaClasificación no supervisada

Ana Ana JustelJustelAna Ana JustelJustel1

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

Distancias/disimilitud entre individuos/

Criterios de proximidad entre grupos

Determinación del número de grupos

2

El problema de clasificación/asignación/agrupación

Se trata de clasificar en dos o más grupos a individuos en los queh b d i i bl

El problema de clasificación/asignación/agrupación

hemos observado varias variables.

CLASIFICACIÓNCLASIFICACIÓN NONO SUPERVISADASUPERVISADA: Identificar grupos de

CLASIFICACIÓN CLASIFICACIÓN

individuos con características comunes a partir de la observaciónde varias variables en cada uno de ellos

UtilizaremosMétodos basados en particiones

CLASIFICACIÓN CLASIFICACIÓN SUPERVISADASUPERVISADA: identificar grupos de individuos con p

Métodos jerárquicos características comunes a partir de la observación de varias variables en cada uno de ellos y con

Todos son métodos exploratorios de datos,Para cada conjunto de datos podemos tener diferentes agrupaciones dependiendo del método la información de

una muestra de entrenamiento

diferentes agrupaciones, dependiendo del método. Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos.

3

Ejemplo: Ejemplo: Sostenibilidad municipal

Disponemos de datos de consumo per cápita en 103 municipios de la pComunidad de Madrid durante 20 años

Nos interesa identificar si hay grupos de municipios con una tendencia similar en el consumo de agua para identificar buenas prácticas para

la sostenibilidad y zonas problemáticas por alto consumo

4

y p p

EjemploEjemplo: : Mamíferos

Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las

ícaracterísticas de su leche

5

Las técnicas de análisis cluster han sido tradicionalmenteutilizadas en muchas disciplinas, por ejemploutilizadas en muchas disciplinas, por ejemplo

Astronomía.Astronomía. Cluster = galaxias, super galaxias, etc.

Marketing.Marketing. Segmentación de mercados.

BiologíaBiología.. Taxonomía. Microarrays.

Ciencias AmbientalesCiencias Ambientales. . Clasificación de ríos para establecer tipologías según la calidad de las aguas (directiva marco calidad de las aguas (directiva marco europea)

6

Un CLUSTERCLUSTER es un grupo de individuos que cuando la dimensión

¿QUÉ es un CLUSTER?¿QUÉ es un CLUSTER?

Un CLUSTERCLUSTER es un grupo de individuos que, cuando la dimensiónlo permite, el ojo humano identifica como homogéneos entre sí yseparados de los individuos de los otros clusters.p

7

I l d di i i tá l á t

¿QUÉ es un CLUSTER?¿QUÉ es un CLUSTER?

Incluso en dos dimensiones no siempre está claro cuántoscluster hay y cómo se agrupan los individuos.

8

Ejemplo: Ejemplo: Lirios (iris.txt)

En un estudio del estadístico y genetista Sir Ronald A. Fisher se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa iris versicolor e iris virginicaespecies iris setosa, iris versicolor e iris virginica.

9

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

10

Técnicas para encontrar clusters

Cuando conocemos cuántos grupos hay:Cuando conocemos cuántos grupos hay:CLUSTERCLUSTER PORPOR PARTICIONESPARTICIONES.. Producen una partición delos objetos en un número especificado de grupos siguiendolos objetos en un número especificado de grupos siguiendoun criterio de optimización

CLUSTERCLUSTER JERÁRQUICOJERÁRQUICO.. Producen una secuencia deCuando no conocemos cuántos grupos hay:

particiones, juntando o separando clusters. En cada paso sejuntan o separan dos clusters siguiendo algún criterioespecificado

11

especificado

Ejemplo:Ejemplo: Agrupación jerárquica y por particiones de un conjunto de Ejemplo: Ejemplo: Agrupación jerárquica y por particiones de un conjunto de datos

No jerárquicaJerárquica

12

j qq

Técnicas para encontrar clustersEn general, se busca HOMOGENEIDAD dentro de los grupos yHETEROGENEIDAD entre grupos

Técnicas para encontrar clusters

Los criterios para identificar los clusters se basan siempre en

HETEROGENEIDAD entre grupos

MEDIDAS de SIMILITUD o de DISCREPANCIA entre todos lospares de datos. Algunos procedimientos cluster se puedenejecutar conociendo sólo la MATRIZ de DISCREPANCIASejecutar conociendo sólo la MATRIZ de DISCREPANCIAS

13

Decisiones que hay que tomar para hacer un cluster

1. Elegir el método cluster que se va a emplear

2. Decidir sobre si trabajar con los datos según se miden o estandarizados

3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,dependiendo de si los datos son cuantitativos o cualitativos

4 Clusters por particiones: Elegir un criterio de OPTIMALIDAD4. Clusters por particiones: Elegir un criterio de OPTIMALIDADClusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS

5. Decidir el número de clusters

14

Estandarización de los datos

La mayoría de los métodos cluster son muy sensibles al hecho La mayoría de los métodos cluster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente.

SOLUCIÓN: Si queremos que todas las variables tengan la misma importancia en el análisis, podemos estandarizar los misma importancia en el análisis, podemos estandarizar los datos variable por variable de varias maneras:

-- Puntuaciones Z: Puntuaciones Z: restar la media y dividir por la desviación típica.-- Rango Rango --1 a 1: 1 a 1: dividir por el rango.-- Rango 0 a 1: Rango 0 a 1: restar el mínimo y dividir por el rangoRango 0 a 1: Rango 0 a 1: restar el mínimo y dividir por el rango.-- Magnitud máxima de 1:Magnitud máxima de 1: dividir por el máximo valor.-- Media de 1: Media de 1: dividir por la media.

ó íó í ó í-- Desviación típica 1: Desviación típica 1: dividir por la desviación típica.

15

Estandarización de los datosPermite comparar las variables que vienen expresadas en distintas unidades o tienen diferentes magnitudes.

Las puntuaciones Z son las estandarizaciones habituales de Las puntuaciones Z son las estandarizaciones habituales de los datos los datos univariantesunivariantes

jijij s

xxz

La transformación se aplica a cada elemento de la matriz de datos, restando la media y dividiendo por la

js restando la media y dividiendo por la desviación típica, por variables (columnas)

Propiedades:• El vector de medias de los datos estandarizados es un vector de ceros.

L t i d i d l d t t d i d l t i d• La matriz de covarianzas de los datos estandarizados es la matriz de correlaciones de los datos.

16

Estandarización de los datos

Datos: Datos: xx P t i Z P t i Z

Ejemplo de puntuacionEjemplo de puntuaciones es Z:Z:

Datos: Datos: xx Puntuaciones Z: Puntuaciones Z: yy

17

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

18

ClustersClusters por particiones por particiones Existen distintos métodos que difieren en alguna característica

K MEDIAS Es el que se usa más habitualmente Fácil de

D i i h t h l t

K-MEDIAS.. Es el que se usa más habitualmente. Fácil deprogramar y da resultados razonables

Decisiones que hay que tomar para hacer un cluster

1. Elegir el método cluster que se va a emplear

2. Decidir sobre si trabajar con los datos según se miden o estandarizadosestandarizados

3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOSDISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,dependiendo de si los datos son cuantitativos o cualitativos

4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD

5 D idi l ú d l t5. Decidir el número de clusters19

Al it d k di (KMEDIAS KMEANS)

KMEDIASKMEDIAS tiene por objetivo separar las observaciones en k

Algoritmo de k-medias (KMEDIAS – KMEANS)

KMEDIASKMEDIAS tiene por objetivo separar las observaciones en kclusters, de manera que cada dato pertenezca a un grupo ysólo a uno

El algoritmo de K-MEDIAS busca con un método iterativo:- Los centroides (medias, medianas,…) de los k clusters.- Asignar cada individuo a un cluster.

C1 C2

El objetivo de OPTIMALIDAD

C3 C4

que se persigue es “maximizarla homogeneidad dentro de losgrupos”grupos

20

Algoritmo de k-medias

U f d tifi l it i d ti lid d

g(KMEDIAS – KMEANS)

Una forma de cuantificar el criterio de optimalidad es:

- Minimizar la media ponderada (por el tamaño del grupo) de las varianzas dentro de cada grupo para todas las variables

K p

SSW 2

O d h l b

k j

kjk snSSW1 1

2,

O dicho con otras palabras…

- Minimizar la suma de los cuadrados de las diferencias entre

K nk 2

cada dato y la media de su grupo

k i

kki

k

xxSSW1 1

2

21

P d l Al it d k di

Partiendo de un conjunto inicial de k centroides

Pasos del Algoritmo de k-medias

Partiendo de un conjunto inicial de k centroides,m1(1),…,mk(1), que se pueden elegir al azar para evitar sesgos opor cualquier otro procedimiento, el algoritmo va alternando losdos siguientes pasos:

PASO DE ASIGNACIÓN Cada observación se asigna alPASO DE ASIGNACIÓN. Cada observación se asigna alcluster con el centroide más próximo (siguiendo el criteriode optimalidad), con la distancia euclidea.

PASO DE CENTRALIZACIÓN. Para los clusters modificadosse calculan los nuevos centroides.se calculan los nuevos centroides.

El algoritmo se considera que ha alcanzado la convergenciacuando en una iteración no se produce ningún cambio, o secumple un criterio de parada.

22

P d l Al it d k diPasos del Algoritmo de k-medias

23

Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.

3Iteration 1

3Iteration 2

3Iteration 3

1.5

2

2.5

y

1.5

2

2.5

y

1.5

2

2.5

y

0

0.5

1

0

0.5

1

0

0.5

1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

3Iteration 4

3Iteration 5

3Iteration 6

1.5

2

2.5

1.5

2

2.5

1.5

2

2.5

0

0.5

1

y

0

0.5

1

y

0

0.5

1

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

© Tan, Steinbach, Kumar. Introduction to Data Mining

24

P d l Al it d k diPasos del Algoritmo de k-medias

Reglas de parada del SPSS:Reglas de parada del SPSS:

C it i d i El l it d t d á i Criterio de convergencia: El algoritmo se detendrá si en una iteración completa ninguno de los centros se desplaza una distancia superior a un porcentaje previamente especificado porcentaje previamente especificado de la distancia más corta entre cualquiera de los centros iniciales.

Máximo numero de iteraciones: Para evitar que el algoritmo entre en un bucle infinito, se detendrá después de un número de número de iteraciones preiteraciones pre--determinadodeterminado aunque el criterio de convergencia iteraciones preiteraciones pre determinadodeterminado, aunque el criterio de convergencia no se cumpla.

25

Ejemplo: Ejemplo: Tortugas

Buscamos con KMEANS dos clusters (machos y hembras) en cuatro tortugas pintadas (trachemys scripta). En cada tortuga cuatro tortugas pintadas (trachemys scripta). En cada tortuga se midió la longitud, el ancho y la altura del caparazón.

Id Longitud Ancho AltoId. Longitud Ancho Altom1 120 89 40m2 119 93 41m2 119 93 41f1 159 118 63f2 155 115 63

1. Inicialmente, asignamos al azar la mitad de los datosa cada grupo y calculamos los dos centroides con lasmedias de los datos que hay en cada grupo.

En este caso ha salido m1 y f1 en el primer grupo y m2 yEn este caso ha salido m1 y f1 en el primer grupo y m2 yf2 en el segundo

26

Ejemplo: Ejemplo: Tortugas

Revisamos la asignación de cada dato y recalculamoslas medias de cada cluster cuando hay cambioslas medias de cada cluster cuando hay cambios

Id. Grupo inicial

Dist. amedia g1

Dist. a Media g2

Grupo final

Nueva media g1 Nueva media g2g g

m1 1 26,8 25,7 2 [159 118,0 63] [131,3 99 48,0]m2 2 52 15,4 2 [159 118,0 63] [131,3 99 48,0]f1 1 0 36,8 1 [159 118,0 63] [131,3 99 48,0]f2 2 5 32,3 1 [157 116,5 63] [119,5 91 40,5]

Repetimos hasta que no hay ningún cambio

Id. Grupo i i i l

Dist. adi 1

Dist. a M di 2

Grupo fi l

Nueva media 1

Nueva media g2inicial media g1 Media g2 final g1

m1 2 51,5 2,1 2 [157 116,5 63] [119,5 91 40,5]m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5]m2 2 49,8 2,1 2 [157 116,5 63] [119,5 91 40,5]f1 1 2,5 52,9 1 [157 116,5 63] [119,5 91 40,5]f2 1 2,5 48,4 1 [157 116,5 63] [119,5 91 40,5]

27

Ejemplo: Ejemplo: Contaminación atmosférica en ciudades de USA

Los datos incluyen una variable de contaminación atmosférica, cuatro variables climáticas y dos indicadores de ecología humana en 41 ciudades de Estados Unidos.

SO2 contenido de SO2 en aire, en mg/m3 TEMP Temperatura media anual, en °FMANUF Número de empresas manufactureras con 20 empleados o másPOP Tamaño de la población, en miles WIND Velocidad media del viento, en millas por horaPRECI Precipitación media anual en pulgadas DAYS Número medio de días con precipitación al año

28

PRECI Precipitación media anual, en pulgadas DAYS Número medio de días con precipitación al año

Ejemplo: Ejemplo: Contaminación atmosférica en ciudades de USA

El objetivo del análisis cluster es agrupar optimamente las ciudades en cuatro cluster en función de las variables climáticas y ecológicas.

Se emplea el algoritmo de k medias con k igual a Localización espacial de los clusters k-medias, con k igual a cuatro.

Localización espacial de los clusters

Como las variables se miden en distintas unidades, los datos se estandarizan previamente para que tengan para que tengan desviación típica 1.

29

Ejemplo: Ejemplo: Contaminación atmosférica en ciudades de USAG1 (Sureste de USA) Clima húmedo: Abundante precipitación y altas temperaturas.G2 (N d t d USA) Cli

Localización espacial de los clusters

G2 (Nordeste de USA) Clima húmedo, frio y ventoso: Alto número de días con precipitación, baja tempe at a ientos f e tesbaja temperatura y vientos fuertes.G3 (Oeste de USA) Clima seco: Baja precipitación.G4 Densidad alta de población: G4 Densidad alta de población: Valores altos de los indicadores de ecología humana (Chicago, Filadelfia etc )

Medias de cada variable en cada grupoFiladelfia, etc.)

SO2 no se usa para hacer el cluster pero se incluye para validar el interés de las agrupaciones

Los clusters están relacionados con los niveles de SO2. Por tanto, las variables d l í h li b di t d l lid d d l i

30

de ecología humana y clima son buenos predictores de la calidad del aire.

Una limitación de KMEDIAS es que se espera que los grupos

Comentarios sobre el algoritmo de k-medias

Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar.

Ej lEj l Li iEjemplo: Ejemplo: Lirios

KMEANS falla a menudo cuando trata de separar las tres especies. p pCon k = 2, se identifican los dos clusters visibles (uno conteniendo dos especies), mientras que con k = 3 uno de los dos clusters se divide en dos partes iguales

31

divide en dos partes iguales.

Una limitación de KMEDIAS es que se espera que los grupos

Comentarios sobre el algoritmo de k-medias

Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar.

á óNo está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales.

32

Ejemplo: Ejemplo: Proceso iterativo partiendo de centroides arbitrarios.

3Iteration 1

3Iteration 2

1.5

2

2.5

y1.5

2

2.5

y

0

0.5

1

y

0

0.5

1

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

3Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

3Iteration 3

3Iteration 4

1.5

2

2.5

y

1.5

2

2.5

y

1.5

2

2.5

y

0

0.5

1

y

0

0.5

1

0

0.5

1

© Tan, Steinbach, Kumar. Introduction to Data Mining

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2x

33

Una limitación de KMEDIAS es que se espera que los grupos

Comentarios sobre el algoritmo de k-medias

Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar.

á óNo está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales.

Como el algoritmo suele ser muy rápido, se suele ejecutar varias veces con distintos centroides iniciales.varias veces con distintos centroides iniciales.

El número k de clusters es un input, por tanto, una elección inapropiada de k puede conducir a un mal resultado inapropiada de k puede conducir a un mal resultado.

Cuando usamos KMEDIAS es importante chequear distintas i d t i l ú d ibl l t opciones para determinar el número de posibles clusters que

hay en el conjunto de datos.

34

Decidir el número de clusters

1. Una regla empirica para seleccionar el número de clusters esintroducir un nuevo cluster (pasar de K a K+1) cuando

10)1()1()(

KSSWKSSWKSSWF

1)1(

KnKSSW

2 Chequear con herramientas como el ANOVA si los grupos son2. Chequear con herramientas como el ANOVA si los grupos sonsignificativamente distintos (¿cómo de validos son losgrupos?)g p )

35

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

Distancias/disimilitud entre individuos/

Criterios de proximidad entre grupos

36

Clusters jerárquicos Clusters jerárquicos Los divisivos requieren muchos

cálculos, casi no se usan

MÉTODOS DIVISIVOS. Parten de un único cluster con todos losdatos que se va dividiendo paso a paso, hasta obtener tantosq p p ,clusters como datos.

MÉTODOS AGLOMERATIVOS Parten de tantos clusters comoMÉTODOS AGLOMERATIVOS.. Parten de tantos clusters comodatos tiene la muestra y en cada paso se van juntando dosclusters siguiendo algún criterio especificado hasta obtener unúnico cluster con todos los datos.

Cada método se diferencia por la estrategia de fusión en cada Cada método se diferencia por la estrategia de fusión en cada etapa. Y todos tienen en común que la primera unión es entre los individuos más similares.

La elección de la estrategia de fusión dependerá de los objetivos de la investigación.

37

Decisiones que hay que tomar para hacer un cluster

1. Elegir el método cluster que se va a emplear

2. Decidir sobre si trabajar con los datos según se miden o estandarizados

3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,/ ,,dependiendo de si los datos son cuantitativos o cualitativosMÉTODOS AGLOMERATIVOS.. Parten de tantos clusters como

4. Clusters jerárquicos: Elegir un criterio para unir grupos,

datos tiene la muestra y en cada paso se van juntando dos cluster.

j q g p g p ,DISTANCIA ENTRE GRUPOS

38

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

39

DENDROGRAMADENDROGRAMAEs una representación gráfica en forma de árbol.

Los clusters están representados mediante trazos horizontales (verticales) y las etapas de fusión mediante trazos verticales (h l )(horizontales).

La separación entre las etapas de fusión es proporcional a la di t i l tá l f d tdistancia a la que están los grupos que se funden en esa etapa.

40

DENDROGRAMAGenetic diversity of viruses in an Antarctic lake103 municipios de la Comunidad de Madrid

DENDROGRAMA

A. López-Bueno et al., Science 326, 858-861 (2009)

A. Justel, et al. (2004)

Published by AAAS

, ( )

DENDROGRAMADENDROGRAMAEl SPSS representa las distancias entre grupos rescaladas, por tanto son difíciles de interpretar, nos fijaremos sólo en la forma.

Para más información nos fijamos en el Historial de l óconglomeración.

Cuando se combinan dos clusters, el SPSS asigna al nuevo cluster la etiqueta menor entre las que tienen los cluster que se combinan.

Los coeficientes son una medida de distancia/similitud l

42

entre clusters.

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

Distancias/disimilitud entre individuos/

43

Distancias entre datos continuos (en SPSS)Distancia Distancia euclídeaeuclídea.. Raíz cuadrada de la suma de cuadrados de las diferencias entre los valores. Es la medida por defecto para datos

Distancias entre datos continuos (en SPSS)

p pde intervalo

Distancia Distancia euclídeaeuclídea al cuadrado.al cuadrado. Suma de cuadrados de las diferencias entre los valoresdiferencias entre los valores

Correlación de Correlación de PearsonPearson.. Correlación producto-momento entre dos vectores de valores

Coseno.Coseno. Coseno del ángulo entre dos vectores de valores

ChebychevChebychev.. Diferencia absoluta máxima entre los valoresyy

Bloque.Bloque. Suma de las diferencias absolutas entre los valores. También se conoce como distancia de Manhattan

MinkowskiMinkowski. Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores

PersonalizadaPersonalizada Raíz r ésima de la suma de las diferencias absolutas Personalizada.Personalizada. Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos

MahalanobisMahalanobis distancedistance..

44

MahalanobisMahalanobis distancedistance..

Distancias entre datos continuos

DistanciaDistancia EuclídeaEuclídea

Distancias entre datos continuos

DistanciaDistancia EuclídeaEuclídea

Distancia Distancia EuclídeaEuclídea estandarizada, o estandarizada, o EuclídeaEuclídea entre datos entre datos estandarizadosestandarizadosestandarizadosestandarizados

Distancia de MahalanobisDistancia de Mahalanobis

45

Similitudes entre datos cualitativos binarios

Para calcular la similitud entre dos individuos para los que se observan p variables binarias tipo “presencia/ausencia” se calculan observan p variables binarias tipo presencia/ausencia se calculan todas las situaciones posibles

Individuo x1 x2 x3 … xpIndividuo x1 x2 x3 … xp

i 1 1 0 … 0

j 1 0 0 … 1

a: Número de veces en las p variables que ambas observaciones son 1

j

son 1.

b: Número de veces en las p variables que una observación es 1 y la otra 0la otra 0.

c: Número de veces en las p variables que una observación es 0 y la otra 1y la otra 1.

d: Número de veces en las p variables que ambas observaciones son 0son 0.

46

Similitudes entre datos cualitativos binarios

Individuo x1 x2 x3 … xp

i 1 1 0 … 0

j 1 0 0 … 1

Individuo iIndividuo i

du

o j 1 0 Total

1 a b a+b

Concordancia simpleConcordancia simple

Ind

ivid

1 a b a+b

0 c d c+d

Total a+c b+d p=a+b+c+d Coeficiente de JaccardCoeficiente de JaccardTotal a+c b+d p a+b+c+d

Coeficientes menos usados:Coeficientes menos usados:SokalSokal y y SneathSneath:: CzekanowskiCzekanowski y y SorensenSorensen::

Coeficientes menos usados:Coeficientes menos usados:

47

Ejemplo:Ejemplo: Presencia/ausencia de tres especies

Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas.

Ejemplo: Ejemplo: Presencia/ausencia de tres especies

Coeficiente de concordancia Coeficiente de concordancia simplesimple

Coeficiente de Coeficiente de JaccardJaccard

La ausencia no sabemos si es porque no existe la especie o porque no la hemos observado

48

Ejemplo:Ejemplo: Presencia/ausencia de tres especies

Utilizando el coeficiente de concordancia simple, Briza media es más parecida a Cynosurus cristatus que a Agrostis tenuis

Ejemplo: Ejemplo: Presencia/ausencia de tres especies

parecida a Cynosurus cristatus que a Agrostis tenuis

CCoeficiente de concordancia simple

Caso 1 2 31: Agrostis tenuis 1,000 ,600 ,3332 B i di 600 1 000 733

Utilizando el coeficiente de Jaccard Agrostis tenuis es más parecida

2: Briza media ,600 1,000 ,7333: Cynosurus cristatus ,333 ,733 1,000

Utilizando el coeficiente de Jaccard, Agrostis tenuis es más parecida a Briza media que a Cynosurus cristatus.

C fi i t d J dCaso

Coeficiente de Jaccard1 2 3

1: Agrostis tenuis 1 000 500 1671: Agrostis tenuis 1,000 ,500 ,1672: Briza media ,500 1,000 ,3333: Cynosurus cristatus ,167 ,333 1,000

49

Similitudes entre datos categóricosg

Para variables cualitativas con más de dos categorías la medida de similitud más utilizada es una generalización del coeficiente de similitud más utilizada es una generalización del coeficiente de concordancia simple

a1: es el número de veces que ambas observaciones son 1.

a2: es el número de veces que ambas observaciones son 2.

⁞ ⁞ ⁞ ⁞ ⁞ ⁞⁞ ⁞ ⁞ ⁞ ⁞ ⁞

ak: es el número de veces que ambas observaciones son k.

d: es el número de veces que ambas observaciones son 0.

50

Ejemplo:Ejemplo: Presencia/ausencia de cinco especies

Presencia (1) o ausencia (0) de cinco especies en 15 parcelas

Ejemplo: Ejemplo: Presencia/ausencia de cinco especies

CasoCoeficiente de Jaccard

1 2 3 4 5Caso 1 2 3 4 51: Agrostis tenuis 1,000 ,500 ,167 ,600 ,8572: Briza media ,500 1,000 ,333 ,500 ,4292: Briza media ,500 1,000 ,333 ,500 ,4293: Cynosurus cristatus ,167 ,333 1,000 ,167 ,1434. Dactylis glomerata ,600 ,500 ,167 1,000 ,7335. Festuca rubra ,857 ,429 ,143 ,733 1,000

51

Ejemplo:Ejemplo: Presencia/ausencia de cinco especies

1. Empezamos con 5 clusters (cada individuo en uno) y buscamos los dos más similares en la matriz:

Ejemplo: Ejemplo: Presencia/ausencia de cinco especies

CasoCoeficiente de Jaccard

1 2 3 4 5

los dos más similares en la matriz:

1 2 3 4 5

1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857

2: Briza media ,500 1,000 ,333 ,500 ,429

3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143

4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733

5 Festuca rubra 857 429 143 733 1 0005. Festuca rubra ,857 ,429 ,143 ,733 1,000

2. Creamos el nuevo cluster y actualizamos la matriz de similaridad.Coeficiente de Jaccard

CasoCoeficiente de Jaccard

1+5 2 3 4

1+5 1,000 ??? ??? ???

2: Briza media ??? 1,000 ,333 ,500

3: Cynosurus cristatus ??? ,333 1,000 ,167

4 Dactylis glomerata ??? 500 167 1 000

52

4. Dactylis glomerata ??? ,500 ,167 1,000

Decisiones que hay que tomar para hacer un cluster

1. Elegir el método cluster que se va a emplear

2. Decidir sobre si trabajar con los datos según se miden o estandarizados

3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,,/ ,,dependiendo de si los datos son cuantitativos o cualitativosMÉTODOS AGLOMERATIVOS.. Parten de tantos clusters como

4. Clusters jerárquicos: Elegir un criterio para unir grupos,

datos tiene la muestra y en cada paso se van juntando dos cluster.

j q g p g p ,DISTANCIA ENTRE GRUPOS

53

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

Distancias/disimilitud entre individuos/

Criterios de proximidad entre grupos

54

Criterios para unir grupos en métodos jerárquicosmétodos jerárquicosp g p j qj qLos métodos de enlace (linkage) utilizan la proximidad entre pares de individuos para “unir” grupos de individuos.

1.1. EnlaceEnlace sencillosencillo (SINGLE(SINGLE LINKAGE)LINKAGE): utiliza la mínimadistancia/disimilitud entre dos individuos de cada grupo (útil

p g p

distancia/disimilitud entre dos individuos de cada grupo (útilpara identificar atípicos)

22 EnlaceEnlace completocompleto (COMPLETE(COMPLETE LINKAGE)LINKAGE): utiliza la máxima2.2. EnlaceEnlace completocompleto (COMPLETE(COMPLETE LINKAGE)LINKAGE): utiliza la máximadistancia/disimilitud entre dos individuos de cada grupo.

3.3. EnlaceEnlace promediopromedio (AVERAGE(AVERAGE LINKAGE)LINKAGE): utiliza la media3.3. EnlaceEnlace promediopromedio (AVERAGE(AVERAGE LINKAGE)LINKAGE): utiliza la media(mediana) de las distancias/disimilitud entre todos losindividuos de los dos grupos.

4.4. EnlaceEnlace dede centroidescentroides (CENTROID(CENTROID LINKAGE)LINKAGE): utiliza ladistancia/disimilitud entre los “centros” de los grupos.

5.5. MétodoMétodo dede WardWard (WARD(WARD LINKAGE)LINKAGE): utiliza la suma de lasdistancias al cuadrado a los centros de los grupos.

55

Criterios para unir grupos en métodos jerárquicosmétodos jerárquicosp g p j qj q

llEnlaceEnlacesencillosencillo

Enlace Enlace completocompleto

EnlaceEnlacemediomedio

Enlace Enlace centroidecentroide

C t id d t tit ti l di d i bl Centroide para datos cuantitativos: la media para cada variable de todos los individuos del grupo

Medioide para datos categóricos: el individuo con la menor disimilitud media con el resto de los miembros del grupo

56

Ejemplo:Ejemplo: Presencia/ausencia de cinco especies

Enlace simple: La similitud entre dos clusters es igual a la máxima similitud entre dos individuos de cada cluster (individuos más

Ejemplo: Ejemplo: Presencia/ausencia de cinco especies

CasoCoeficiente de Jaccard

similitud entre dos individuos de cada cluster (individuos más cercanos)

Caso 1 2 3 4 5

1: Agrostis tenuis 1,000 ,500 ,167 ,600 ,857

2: Briza media ,500 1,000 ,333 ,500 ,4292: Briza media ,500 1,000 ,333 ,500 ,429

3: Cynosurus cristatus ,167 ,333 1,000 ,167 ,143

4. Dactylis glomerata ,600 ,500 ,167 1,000 ,733

5. Festuca rubra ,857 ,429 ,143 ,733 1,000

La nueva matriz de similitudes es:

57

Ejemplo:Ejemplo: Presencia/ausencia de cinco especies

3. Repetir los pasos 1 y 2

Ejemplo: Ejemplo: Presencia/ausencia de cinco especies

CasoCoeficiente de Jaccard

1+5 2 3 4

1+5 1 000 500 167 7331+5 1,000 ,500 ,167 ,733

2: Briza media ,500 1,000 ,333 ,500

3: Cynosurus cristatus ,167 ,333 1,000 ,167

4. Dactylis glomerata ,733 ,500 ,167 1,000

Coeficiente de JaccardCaso

Coeficiente de Jaccard

1+5+4 2 3

1+5+4 1,000 ??? ???

2: Briza media ??? 1,000 ,333

3: Cynosurus cristatus ??? ,333 1,000

58

Ejemplo:Ejemplo: Presencia/ausencia de cinco especies

Coeficiente de Jaccard

Repetir los pasos 1 y 2

Ejemplo: Ejemplo: Presencia/ausencia de cinco especies

Caso 1+5+4 2 3

1+5+4 1,000 ,500 ,167

2: Briza media ,500 1,000 ,333

3: Cynosurus cristatus ,167 ,333 1,000

CasoCoeficiente de Jaccard

1+5+4+2 3

1+5+4+2 1 000 ???1+5+4+2 1,000 ???

3: Cynosurus cristatus ??? 1,000

CasoCoeficiente de Jaccard

Caso 1+5+4+2 3

1+5+4+2 1,000 ,333

3: Cynosurus cristatus 333 1 000

59

3: Cynosurus cristatus ,333 1,000

Ejemplo:Ejemplo: Presencia/ausencia de cinco especiesEjemplo: Ejemplo: Presencia/ausencia de cinco especies

Diferentes criterios dan lugar a diferentes agrupaciones

EnlaceEnlace sencillosencillo Enlace centroideEnlace centroideEnlaceEnlace sencillosencillo Enlace centroideEnlace centroide

60

Comentarios sobre el cluster jerárquico

Hacer las jerarquías en conjuntos de datos grandes es problemático ya que un árbol con más de 50 individuos es difícil de

Comentarios sobre el cluster jerárquico

problemático ya que un árbol con más de 50 individuos es difícil de representar e interpretar.

Una desventaja general es la imposibilidad de reasignar los individuos a los clusters en los casos en que la clasificación haya sido dudosa en las primeras etapas del análisis.

Debido a q e el análisis cl ste implica la elección ent e dife entes Debido a que el análisis cluster implica la elección entre diferentes medidas y procedimientos, con frecuencia es difícil juzgar la “veracidad” de los resultados. A veces, hacer cluster se considera más un arte que una ciencia. ¡Cuidado con los "abusos“!

Se recomienda comparar los resultados con diferentes métodos de hacer el cluster Soluciones similares generalmente indican de hacer el cluster. Soluciones similares generalmente indican la existencia de una estructura en los datos. Soluciones muy diferentes probablemente indican una estructura pobre.

En ultimo caso, la validez de los clusters se juzga mediante una interpretación cualitativa que puede ser subjetiva.

61

Técnicas de análisis multivariante para agrupación

Motivación

Métodos para construir clustersMétodos para construir clusters

Clasificación con el algoritmo de k-medias

Clasificación con métodos jerárquicos

Dendrograma

Distancias/disimilitud entre individuos/

Criterios de proximidad entre grupos

Determinación del número de grupos

62

El número de cluster en un método jerárquico depende de por El número de cluster en un método jerárquico depende de por dónde cortemos el dendrograma

¿Cuántos cluster hay?

Test formalesConocimiento del problema (intuición)

Es conveniente elegir un número de clusters que sepamos g q pinterpretar.

Para interpretar los cluster podemos utilizar:Para interpretar los cluster podemos utilizar:ANOVAANÁLISIS FACTORIALANÁLISIS DISCRIMINANTE…SENTIDOSENTIDO COMÚNCOMÚNSENTIDOSENTIDO COMÚNCOMÚN

63

EjemploEjemplo: : Mamíferos

Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las

ícaracterísticas de su leche

64

EjemploEjemplo: : Mamíferos

G1 G1 -- Alto contenido en agua y Alto contenido en agua y lllactosalactosa

G2 G2 –– Niveles intermedios Niveles intermedios entre G1 y G3entre G1 y G3

G4 G4 Alto o te ido e Alto o te ido e

G3 G3 -- Similar al G4, menos grasa y más cenizaSimilar al G4, menos grasa y más ceniza

G4 G4 -- Alto contenido en grasasAlto contenido en grasas

Ficha Técnica: Variables estandarizadas desviación típica 1. Distancia euclídea. Enlace promedio

65

Ejemplo: Ejemplo: Sostenibilidad municipal

Datos de consumo per cápita en 103 municipios de la Comunidad de Madrid en 20 ñaños

Ficha Técnica: Variables originales. Distancia euclídea. Enlace simpleFuente: A. Justel, 2004

66

Ejemplo: Ejemplo: Sostenibilidad municipal

67

Ejemplo: Ejemplo: Sostenibilidad municipalPara interpretar los clusters, se utiliza una variable auxiliar que no se ha empleado en la construcción de los clusters: Porcentaje de segundas viviendas segundas viviendas. (Los habitantes consumen recursos pero no están empadronados y su consume se asigna a los residentes)

Volumenmedio

Existen diferencias significativas entre los porcentajes de segunda vivienda (ANOVA p valor<0 0001) En particular las comparaciones vivienda (ANOVA p-valor<0,0001). En particular, las comparaciones múltiples muestran diferencias entre el cluster de mayor porcentaje de segundas viviendas, “Actividad económica rural” y el resto, excepto el l t “P ó i l i i l í d i ió (t ñ di )”cluster “Próximos a las principales vías de comunicación (tamaño medio)”

69

Densidad de poblaciónEjemplo: Ejemplo: Sostenibilidad municipal p

70

EjemploEjemplo: : Gastos de las familias por provincias

71

EjemploEjemplo: : Gastos de las familias por provincias

Ficha TécnicaFicha Técnica: Variables originales. Distancia euclídea.

Enlace con Método de Ward

72

EjemploEjemplo: : Gastos de las familias por provincias

Ficha TécnicaFicha Técnica: Variables originales. Distancia euclídea.

Enlace con Método de Ward

G2G2

G1G1

G3G3

73

EjemploEjemplo: : Gastos de las familias por provincias

G1G1

**G3G3

Clusters con k-medias

G2G2

G2G2**

G1G1

**

G3G3**

****

**

Enlace con Método de WardEnlace con Método de Ward

74