An An álise Multivariada álise Multivariada

122
1 An An álise Multivariada álise Multivariada Lúcia P. Barroso IME - USP [email protected] Rinaldo Artes Ibmec / SP [email protected]

Transcript of An An álise Multivariada álise Multivariada

1

AnAnálise Multivariadaálise Multivariada

Lúcia P. Barroso

IME - [email protected]

Rinaldo Artes

Ibmec / [email protected]

2

TópicosTópicos

• Análise de Agrupamentos• Análise de Componentes Principais• Análise Fatorial• Análise Discriminante• Outliers Multivariados

Análise de Análise de AgrupamentosAgrupamentos

Cluster Analysis

4

Objetivos da técnicaObjetivos da técnica

Formar grupos homogêneos de unidades amostrais

Dados: cadastro com informações sobre uma série de variáveis

5

Definir critérios para Definir critérios para agrupamentoagrupamento

♠ ♣ ♥ ♦

10 10 10 10

J J J JQ Q Q QK K K K

Cor?

Naipe?

Valor?

6

Problema Problema 11

Uma empresa deseja conhecer o perfil de seus consumidores.

• Consumidores têm perfil homogêneo?• É possível identificar grupos?• Quantos grupos existem?

7

Problema Problema 22

Pesquisa Emprego-Desemprego DIEESE/SEADE

Idéia: formar grupos homogêneos de municípios ou distritos administrativos para sortear uma amostra estratificada.

8

Problema Problema 33

Dados sobre a localização de restos de cerâmica em um sítio arqueológico.

Objetivo: conhecer a organização espacial da tribo

Há locais com alta concentração de peças? Quantos?

9

Exemplo 1Exemplo 1Taxa de delitos por 100.000 habitantes

Variáveis: X1: Homicídio dolosoX2: FurtoX3: RouboX4: Roubo e furto de veículo

10

Ocorrências PoliciaisOcorrências Policiais

SP

GSP

SJC

Campinas

RP

Santos

Sorocaba

Bauru

SJRP

Taxa Taxa de de delitos pordelitos por100.000 100.000 habitanteshabitantes

Homicídio Roubo e furtoDeinter doloso Furto Roubo de veículos

SJRP 10,85 1500,80 149,35 108,38RP 14,13 1496,07 187,99 116,66Bauru 8,62 1448,79 130,97 69,98Campinas 23,04 1277,33 424,87 435,75Sorocaba 16,04 1204,02 214,36 207,06

12

Exemplo 1Exemplo 1Taxa de delitos por 100.000 habitantes

Deseja-se formar 4 grupos de regiões

Variáveis: X1: Homicídio dolosoX2: Furto

13

1.10 0 ,0 0

1.2 0 0 ,0 0

1.3 0 0 ,0 0

1.4 0 0 ,0 0

1.50 0 ,0 0

1.6 0 0 ,0 0

0 10 0 2 00 30 0 40 0 50 0

Homicídios dolosos

Fu

rto

s

GR1

14

1.10 0 ,0 0

1.2 0 0 ,0 0

1.3 0 0 ,0 0

1.4 0 0 ,0 0

1.50 0 ,0 0

1.6 0 0 ,0 0

0 10 0 2 00 30 0 40 0 50 0

Homicídios dolosos

Fu

rto

sGR2

15

GR1b

1.10 0 ,0 0

1.2 0 0 ,0 0

1.3 0 0 ,0 0

1.4 0 0 ,0 0

1.50 0 ,0 0

1.6 0 0 ,0 0

0 10 0 2 00 30 0 40 0 50 0

Homicídios dolosos

Fu

rto

s

16

-1,5

-1

-0,5

0

0,5

1

1,5

2

-1,5 -1 -0,5 0 0,5 1 1,5 2

Homicídios dolosos

Fu

rto

s

GR3

17

GR3b

-1,5

-1

-0,5

0

0,5

1

1,5

2

-1,5 -1 -0,5 0 0,5 1 1,5 2

Homicídios dolosos

Fu

rto

s

18

-1,5

-1

-0,5

0

0,5

1

1,5

2

-1,5 -1 -0,5 0 0,5 1 1,5 2

Homicídios dolosos

Fu

rto

s

GR4

19

Etapas de AplicaçãoEtapas de Aplicação

1. Escolha do critério de parecença

2. Definição do número de grupos

3. Formação dos grupos

4. Validação do agrupamento

5. Interpretação dos grupos

20

1. Escolha do critério de 1. Escolha do critério de parecençaparecença

Definir se as variáveis devem ou não ser padronizadas e o critério que será utilizado na determinação dos grupos

(distância euclidiana)

21

2. Definição do número de 2. Definição do número de gruposgrupos

• Definido a priori (3 espécies de insetos)

• Conveniência de análise (segmentação de mercado – 2 grupos)

• Definido a posteriori (com base nos resultados da análise)

22

3. Formação dos grupos3. Formação dos grupos

Nesta etapa deve-se definir o algoritmo que será utilizado na identificação dos grupos

23

4. Validação do 4. Validação do agrupamentoagrupamento

Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos grupos.

Aplicação de técnicas inferenciais

24

5. Interpretação dos grupos5. Interpretação dos grupos

Ao final do processo de formação de grupos é importante caracterizar os grupos formados.

Uso de estatísticas descritivas

25

Medidas de parecençaMedidas de parecença

Medidas de similaridade: quanto maior o valor, maior a semelhança entre os objetos

Medidas de dissimilaridade: quanto maior o valor, mais diferentes são os objetos

26

Pesquisa com clientes de uma loja de Pesquisa com clientes de uma loja de equipamentos automotivosequipamentos automotivos

• Idade (em anos completos).• Número de carros.• Classe social: A, B, C ou D.• Potência do motor: Baixa, Média ou Alta.• Combustível: Gasolina ou Álcool.• Modelo: Esporte, Luxo ou Standard.

27

DadosDados

ClienteIdade do usuário

N. de carros

Classe social

Potência do motor Combustível Modelo

1 20 1 A Baixa Gasolina Esporte2 37 3 A Alta Gasolina Luxo3 22 2 B Média Gasolina Esporte4 26 2 B Alta Gasolina Esporte5 45 2 C Média Álcool Standard6 42 1 D Baixa Álcool Standard

Variáveis quantitativas

Variáveis nominais

Variáveis ordinais

Variáveis quantitativasVariáveis quantitativas

29

Medida de DissimilaridadeMedida de Dissimilaridade

( )

q

x-x j)d(i,

q

1k

2jkik∑

==

( )

q

x-x j)(i,d

q

1k

2jkik

2∑

==

Cliente Q1 Q2 Cliente Q1 Q21 20 1 2 37 3

Distância euclidiana média

Distância euclidiana média ao quadrado

30

Medida Medida de de DissimilaridadeDissimilaridade

Distância Manhattanou Quarteirão

∑=

−=p

j

kjijik XXd1

)1( ||

31

A

B

Variáveis NominaisVariáveis Nominais(escalas)(escalas)

33

Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))

Combustível N1

Gasolina 1Álcool 0

Cliente Combustível N1

1 Gasolina 12 Gasolina 13 Gasolina 14 Gasolina 15 Álcool 06 Álcool 0

34

Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))

Modelo N2 N3

Esporte 1 0Luxo 0 1

Standard 0 0

Cliente Modelo N2 N3

1 Esporte 1 02 Luxo 0 13 Esporte 1 04 Esporte 1 05 Standard 0 06 Standard 0 0

35

Variáveis NominaisVariáveis Nominais

CombustívelCliente N1 N2 N3

1 1 1 02 1 0 13 1 1 04 1 1 05 0 0 06 0 0 0

Modelo

Variáveis OrdinaisVariáveis Ordinais(escalas)(escalas)

37

Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))A B C

O1 O2 O3

D 0 0 0C 0 0 1B 0 1 0A 1 0 0

Classe Social

Cliente Classe social O1 O2 O3

1 A 1 0 02 A 1 0 03 B 0 1 04 B 0 1 05 C 0 0 16 D 0 0 0

38

Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))Média Alta

O4 O5

Baixa 0 0Média 1 0Alta 0 1

Potência do Motor

Cliente Potência de motor O4 O5

1 Média 0 02 Alta 0 13 Média 1 04 Alta 0 15 Média 1 06 Baixa 0 0

39

Variáveis OrdinaisVariáveis Ordinais

O1 O2 O3 O4 O5

1 1 0 0 0 02 1 0 0 0 13 0 1 0 1 04 0 1 0 0 15 0 0 1 1 06 0 0 0 0 0

Cliente

Classe Social Potência

40

Medidas de ParecençaMedidas de Parecença

1 01 2 1 30 2 3 5

Total 4 4 8

cliente 1cliente 2

Total

cliente N1 N2 N3 O1 O2 O3 O4 O5

1 1 1 0 1 0 0 0 02 1 0 1 1 0 0 0 1

Variáveis Nominais Variáveis Ordinais

41

Medidas de SimilaridadeMedidas de Similaridade

1 01 a b a+b0 c d c+d

Total a+c b+d a+b+c+d

cliente j cliente i

Total 1 01 2 1 30 2 3 5

Total 4 4 8

cliente 1cliente 2

Total

Coeficiente de Concordância Simples

dcba

dajis

+++

+=),( 625,0

8

5)2,1( ==s

42

Medidas de DissimilaridadeMedidas de Dissimilaridade

1 01 a b a+b0 c d c+d

Total a+c b+d a+b+c+d

cliente j cliente i

Total 1 01 2 1 30 2 3 5

Total 4 4 8

cliente 1cliente 2

Total

Distância Euclidiana ao Quadrado Média

dcba

cbjid

+++

+=),( 375,0

8

3)2,1( ==s

Esse método apresenta deficiências no que se refere às variáveis ordinais

Classe Social

s(A,B) < s(A,D)

A e B são mais próximos do que A e D

44

Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))A B C

O1* O2

* O3*

D 0 0 0C 0 0 1B 0 1 1A 1 1 1

Classe Social

Cliente Classe social O1* O2

* O3*

1 A 1 1 12 A 1 1 13 B 0 1 14 B 0 1 15 C 0 0 16 D 0 0 0

45

Matriz de Similaridades (CS)Matriz de Similaridades (CS)

Indiv. 1 2 3 4 5 61 -2 0,50 - Simétrica3 0,75 0,50 -4 0,62 0,62 0,87 -5 0,37 0,37 0,62 0,50 -6 0,37 0,12 0,37 0,25 0,75 -

46

Matriz de Dissimilaridades Matriz de Dissimilaridades (1(1-- CS)CS)

Indiv. 1 2 3 4 5 61 -2 0,50 - Simétrica3 0,25 0,50 -4 0,38 0,38 0,13 -5 0,63 0,63 0,38 0,50 -6 0,63 0,88 0,63 0,75 0,25 -

Variáveis Quantitativas

48

DadosDadosIndiv.

Idade do usuário

N. de carros

1 20 12 37 33 22 24 26 25 45 26 42 1

Min 20 1Max 45 3

Indiv. Q1 Q21 0 02 0,68 13 0,08 0,54 0,24 0,55 1 0,56 0,88 0

Min 0 0Max 1 1

20-4520-Idade

Q1 =

1 Q 0 1 ≤≤

1-31-carros de N.

Q2 =

1 Q 0 2 ≤≤

49

Medida de DissimilaridadeMedida de Dissimilaridade

( )

q

x-x j)d(i,

q

1k

2jkik∑

==

( )

q

x-x j)(i,d

q

1k

2jkik

2∑

==

( ) ( )0,86

21-00,68-0

j)d(i,22

=+

=( ) ( )

0,732

1-00,68-0 j)(i,d

222

=+

=

Indiv. Q1 Q2 Indiv. Q1 Q21 0 0 2 0,68 1

Distância euclidiana média

Distância euclidiana média ao quadrado

50

Matriz de dissimilaridadeMatriz de dissimilaridadedistância euclidiana média ao quadradodistância euclidiana média ao quadrado

Indiv. 1 2 3 4 5 61 -2 0,73 - Simétrica3 0,13 0,31 -

4 0,15 0,22 0,01 -5 0,63 0,18 0,42 0,29 -6 0,39 0,52 0,44 0,33 0,13 -

51

Matriz de similaridadeMatriz de similaridade1 1 -- (distância euclidiana média ao quadrado)(distância euclidiana média ao quadrado)

Indiv. 1 2 3 4 5 61 -2 0.27 - Simétrica3 0.87 0.69 -

4 0.85 0.78 0.99 -5 0.37 0.82 0.58 0.71 -6 0.61 0.48 0.56 0.67 0.87 -

Coeficiente CombinadoCoeficiente Combinado

53

DadosDados

Indiv.Idade do usuário

N. de carros

Classe social

Potência do motor Combustível Modelo

1 20 1 A Baixa Gasolina Esporte2 37 3 A Alta Gasolina Luxo3 22 2 B Média Gasolina Esporte4 26 2 B Alta Gasolina Esporte5 45 2 C Média Álcool Standard6 42 1 D Baixa Álcool Standard

54

Matriz combinada de similaridadeMatriz combinada de similaridadeNn : número de variáveis nominais

No: número de variáveis ordinaisNq: número de variáveis quantitativas

Sn : matriz de similaridades das variáveis nominaisSo: matriz de similaridades das variáveis ordinais

Sq: matriz de similaridades das variáveis quantitativasMatriz combinada de similaridade

S = wn Sn + wo So + wq Sq

Por exemplo: S = Nn Sn + No So + Nq Sq

55

Indiv. 1 2 3 4 5 61 -2 0,27 - Simétrica3 0,87 0,69 -

4 0,85 0,78 0,99 -5 0,38 0,82 0,58 0,71 -6 0,61 0,48 0,56 0,67 0,87 -

Indiv. 1 2 3 4 5 61 -2 0,86 - Simétrica3 0,86 0,71 -4 0,71 0,86 0,86 -5 0,71 0,57 0,86 0,71 -6 0,43 0,29 0,57 0,43 0,71 -

Indiv. 1 2 3 4 5 61 -2 0,60 - Simétrica3 1,00 0,60 -4 1,00 0,60 1,00 -5 0,20 0,20 0,20 0,20 -6 0,20 0,20 0,20 0,20 1,00 -

Sn So

Sq

Indiv. 1 2 3 4 5 61 -2 3,45 - Simétrica3 5,46 4,02 -4 5,12 4,47 5,69 -5 2,58 3,19 3,27 3,25 -6 2,48 1,93 2,65 2,60 5,16 -

S=2Sn+2So+2Sq

56

Matriz combinada de dissimilaridadeMatriz combinada de dissimilaridadeNn : número de variáveis nominais

No: número de variáveis ordinaisNq: número de variáveis quantitativas

Dn : matriz de dissimilaridades das variáveis nominaisDo: matriz de dissimilaridades das variáveis ordinaisDq: matriz de dissimilaridades das variáveis

quantitativas

Matriz combinada de dissimilaridade

D = wn Dn + wo Do + wq Dq

Por exemplo: D = Nn Dn + No Do + Nq Dq

57

Dn Do

Dq

Indiv. 1 2 3 4 5 61 -2 0,40 - Simétrica3 0,00 0,40 -4 0,00 0,40 0,00 -5 0,80 0,80 0,80 0,80 -6 0,80 0,80 0,80 0,80 0,00 -

Indiv. 1 2 3 4 5 61 -2 0,14 - Simétrica3 0,14 0,29 -4 0,29 0,14 0,14 -5 0,29 0,43 0,14 0,29 -6 0,57 0,71 0,43 0,57 0,29 -

Indiv. 1 2 3 4 5 6

1 -2 0,73 - Simétrica3 0,13 0,31 -4 0,15 0,22 0,01 -5 0,63 0,18 0,42 0,29 -6 0,39 0,52 0,44 0,33 0,13 -

D=2Dn+2Do+2Dq

Indiv. 1 2 3 4 5 61 -2 2,55 - Simétrica3 0,54 1,98 -4 0,88 1,53 0,31 -5 3,42 2,81 2,73 2,75 -6 3,52 4,07 3,35 3,40 0,84 -

Métodos hierárquicos Métodos hierárquicos aglomerativosaglomerativos

59

• cada objeto é um grupo (n grupos)

• agrupam-se os dois objetos mais parecidos (n-1 grupos)

• agrupam-se os dois grupos mais parecidos (n-2 grupos)

• até que se tenha todos os objetos juntos em um único grupo

60

Método HierárquicoMétodo Hierárquico

Adotar um critério de parecença

Expressar através de uma medida o quanto uma unidade amostral se parece ou difere de outra.

61

Métodos HierárquicosMétodos Hierárquicos

• Método do vizinho mais próximo (single)• Método do vizinho mais longe (complete)• Método das médias das distâncias• Método da centróide• Método de Ward

62

Variáveis padronizadasVariáveis padronizadas

Deinter Z1 Z2

SJRP -0.66 0.85RP -0.07 0.81Bauru -1.07 0.47Campinas 1.53 -0.79Sorocaba 0.27 -1.33Média 0.00 0.00DP 1.00 1.00

63

MatrizMatriz de de distânciadistância

Deinter SJRP RP B C SSJRP 0,00

RP 0,59 0,00B 0,55 1,05 0,00C 2,74 2,27 2,89 0,00S 2,37 2,17 2,24 1,37 0,00

Deinter’s mais parecidas

Aqui os métodos se diferenciam

Método do Vizinho mais Longe

d [(SJRP, B) e RP] = max { d [SJRP e RP] e d [B e RP]}

= max {0,59 e 1,05} = 1,05

65

Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B

Redefinir a matriz de distâncias considerando as Deinter’s mais parecidas como se fossem um único grupo.

Redefinir a matriz de distância - por exemplo:

d(BF, A) = max [d(B,A), d(F,A)]

66

Passo 2Passo 2

Deinter SJRP, B RP C SSJRP, B 0,00

RP 1,05 0,00C 2,89 2,27 0,00S 2,37 2,17 1,37 0,00

Mais parecidas, unir SJRP, B e RP

67

Passo 3Passo 3

Deinter SJRP, B, RP C SSJRP, B, RP 0,00

C 2,89 0,00S 2,37 1,37 0,00

Mais parecidas, unir

C e S.

68

Passo 4Passo 4

Deinter SJRP, B,RP

C, S

SJRP, B,RP

0,00

C, S 2,89 0,00

69

Quadro resumoQuadro resumo

Passo Grupo Distância1 SJRP, B 0,552 SJRP, B, RP 1,053 C, S 1,374 Todos 2,89

70SJRP

Bauru RP Campinas

Sorocaba

1,00

2,00

3,00

dis

tân

cia

GR5

Método Método de Wardde Ward

A medida de homogeneidade baseia-se na partição da soma de quadrados total. Por exemplo, para a variável X1

SQT(1) = SQE(1) + SQD(1)

2

1

1

1

2

11

1

2

1

1

1 )()()( j

k

j Gi

ij

k

j

j

k

j Gi

i XXXXnXXjj

−+−=− ∑∑∑∑∑= ∈== ∈

Primeiro passoPrimeiro passo

Agrupamento Grupos SQD(1) SQD(2) SQDP1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,1752 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,1543 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,7574 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,8125 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,5526 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,5777 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,3598 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,1659 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,50910 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940

Método de WardMétodo de Ward

Passo 2 Grupos SQD(1) SQD(2) SQDP123456

(SJRP, B, RP), (C), (S)(SJRP, B, C), (RP), (S)(SJRP, B, S), (RP), (C)(SJRP, B), (RP, C), (S)(SJRP, B), (RP, S), (C)(SJRP, B), (RP), (C, S)

0,4983,9080,9401,3680,1400,875

0,0891,4752,7091,3632,3730,218

0,5875,3833,6492,7312,5131,093

Passo 3 Grupos SQD(1) SQD(2) SQDP123

(SJRP, B, RP, C), (S)(SJRP, B, RP, S), (C)(SJRP, B, RP), (C, S)

3,9081,0681,292

1,7823,2130,234

5,6904,2811,527

Passo 4 Grupos SQD(1) SQD(2) SQDP1 (SJRP, B, RP, C, S) 4 4 8

Resumo Resumo -- Método Método de Wardde Ward

Passo União SQDP (SQDP)1/2

1 SJRP, B 0,154 0,3922 SJRP, B, RP 0,587 0,7663 C, S 1,527 1,2364 SJRP, B, RP, C, S 8,000 2,828

75SJRP

Bauru RP Campinas

Sorocaba

1,00

2,00

3,00

SQDPGR7

76

Comparação Comparação dos dos métodosmétodos

• Vizinho mais longe: tende a formar grupos mais homogêneos do que o método do vizinho mais perto

• Ward: é atraente por basear-se em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade

Análise de Agrupamento Análise de Agrupamento Métodos de PartiçãoMétodos de Partição

78

DescriçãoDescrição

• Premissas básicas: particionar as unidades amostrais formando conglomerados (grupos) com alta coesão interna e isolados.

• Número de grupos fixados a priori.

79

Exemplo de PartiçõesExemplo de PartiçõesObjetos: A, B, C, DPartição 1: {A}, {B}, {C}, {D}Partição 2: {AB}, {C}, {D}Partição 3: {AC}, {B}, {D}Partição 4: {AD}, {B}, {C}Partição 5: {BC}, {A}, {D}Partição 6: {BD}, {A}, {C}Partição 7: {CD}, {A}, {B}Partição 8: {A}, {BCD}

Partição 9: {B}, {ACD}Partição 10: {C}, {ABD}Partição 11: {D}, {ABC}Partição 12: {AB}, {CD}Partição 13: {AC}, {BD}Partição 14: {AD}, {BC}Partição 15:{ABCD}

80

Qual é a melhor partição?Qual é a melhor partição?

Notação: n: número de objetos

g: número de grupos

O processo busca a formação de grupos homogêneos segundo um conjunto de variáveis.

Como medir a homogeneidade dos grupos?

81

Caso ParticularCaso ParticularConsidere a existência de uma única

variável: X1.

Medida de heterogeneidade intragrupo, para a variável X1:

( )∑∑= =

−=g

1j

n

1i

2

jij

j

xxSQD(1)

Medida de heterogeneidade intergrupos, para a variável X1:

( )∑=

−=g

1j

2

jj xx nSQE(1)

nj: tamanho do grupo j

j grupo do média :x j

82

Caso ParticularCaso Particular

Critério de qualidade: a melhor partição é aquela que minimiza a soma de quadrados dentro dos grupos

( )∑∑= =

+=−=g

1j

n

1i

2

ij

j

SQD(1)SQE(1)xxSQT(1)

ANOVA:

83

Caso GeralCaso Geral

Variáveis: X1, X2, …, Xp

SQD(k): soma de quadrados residual da variável Xk.

Critério de qualidade: A melhor partição é aquela que minimiza a soma de todas as SQD, denominada soma de quadrados residual da partição.

∑=

=p

1k

SQD(k) ão)SQD(Partiç

84

Método para AgrupamentoMétodo para Agrupamento

Para minimizar o trabalho computacional deve-se, inicialmente, escolher o número de grupos que será formado.

O método das k-médias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena.

Método das kMétodo das k--médiasmédias

k-means

86

1. Determinar o número de grupos (g) a serem formados.

2. Escolher casos para serem as sementes geradoras dos grupos iniciais.

Para o exemplo:g=2sementes = SJRP e RP.

Passo 1: Definições iniciaisPasso 1: Definições iniciais

87

Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais

Determinar a distância euclidiana entre cada ponto e cada uma das sementes.

Cada ponto será incorporado ao grupo que contém a semente mais próxima.

88

SJRP -0.66 0.85 RP -0.07 0.81Grupo1 Grupo 2

Sementes

Deinter d(ponto,1) d(ponto,2)Grupo mais

próximoBauru 0,55 1,05 1

Campinas 2,74 2,27 2Sorocaba 2,37 2,17 2

Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes

Partição (grupos) formada (os)Partição (grupos) formada (os)

Grupo 1: SJRP, Bauru

Grupo 2: RP, Campinas, Sorocaba

89

Deinter Z1 Z2 Deinter Z1 Z2SJRP -0.66 0.85 RP -0.07 0.81Bauru -1.07 0.47 Campinas 1.53 -0.79

Sorocaba 0.27 -1.33

n 2 2 3 3Média -0.86 0.66 0.73 0.01

Variância 0.08 0.07 1.29 1.29

Grupo1 Grupo 2

Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos)

SQD(Z1) = 2,65SQD(Z2) = 2,65

Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição

SQD(part) = SQD(Z1) + SQD(Z2) = 6,30

90

Passo 3: Checagem do grupo ePasso 3: Checagem do grupo erealocaçãorealocação de objetosde objetos

Verificar se os grupos estão bem formados, ou seja, se a partição possui a menor SQD(part).

Verificar se cada ponto está no melhor grupo possível.

91

0.66 0.01

CentróidesGrupo1 Grupo 2

-0.86 0.73

Distâncias em relação aos centróidesDistâncias em relação aos centróides

Deinter d(ponto,1) d(ponto,2)Grupo ao qual

pertenceGrupo mais

próximoSJRP 0,28 1,63 1 1

RP 0,81 1,14 2 1Bauru 0,28 1,85 1 1

Campinas 2,80 1,14 2 2Sorocaba 2,29 1,42 2 2

Conclusão: A Deinter RP está mais próxima do centro do grupo 1 do que do centro de seu próprio grupo. Está no grupo errado?

92

Deinter Z1 Z2 Deinter Z1 Z2SJRP -0.66 0.85 Campinas 1.53 -0.79Bauru -1.07 0.47 Sorocaba 0.27 -1.33

RP -0.07 0.81

n 3 3 2 2Média -0.60 0.71 0.90 -1.06

Variância 0.25 0.04 0.79 0.14

Grupo 2Grupo 1

Realocar o município DRealocar o município D

Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição

SQD(part) = 1,52

Anterior = 6,30

Decisão: mudar RP para o grupo 1

SQD(Z1) = 1,29SQD(Z2) = 0,23

93

Passo 4: Repetir o passo anterior até Passo 4: Repetir o passo anterior até que nenhuma troca seja necessáriaque nenhuma troca seja necessária

Todos os pontos estão bem alocados

Grupo 1: SJRP, RP e Bauru

Grupo 2: Campinas e Sorocaba

94

Método dasMétodo das kk--medóidesmedóides

• Baseado em uma matriz de distâncias entre objetos

• Medóide: membro do grupo que possuia menor distância euclidiana média emrelação aos demais membros

95

Critério Critério de de qualidadequalidade

∑=

=n

j

jCC1

),(min jmdC ij =

d(mi, j) é a distância entre a medóide mi e a observação j

Primeiro passoPrimeiro passo

Admita que desejamos formar 2 grupos

O primeiro passo consiste em um chute inicial para as duas medóides

Medóides: Campinas e Bauru

Distância GrupoDeinter Campinas Bauru mínima alocado

SJRP 2,74 0,55 0,55 2RP 2,27 1,05 1,05 2Bauru 2,89 0,00 0,00 2Campinas 0,00 2,89 0,00 1Sorocaba 1,37 2,24 1,37 1

C 2,97

Medóide

Inicialmente, mantemos Campinas e substituímos Bauru

Distância GrupoDeinter Campinas SJRP mínima alocado

SJRP 2,74 0,00 0,00 2RP 2,27 0,59 0,59 2Bauru 2,89 0,55 0,55 2Campinas 0,00 2,74 0,00 1Sorocaba 1,37 2,37 1,37 1

C 2,51

Distância GrupoDeinter Campinas RP mínima alocado

SJRP 2,74 0,59 0,59 2RP 2,27 0,00 0,00 2Bauru 2,89 1,05 1,05 2Campinas 0,00 2,27 0,00 1Sorocaba 1,37 2,17 1,37 1

C 3,01

Distância GrupoDeinter CampinasSorocaba mínima alocado

SJRP 2,74 2,37 2,37 2RP 2,27 2,17 2,17 2Bauru 2,89 2,24 2,24 2Campinas 0,00 1,37 0,00 1Sorocaba 1,37 0,00 0,00 2

C 6,78

Medóide

Medóide

Medóide

A escolha de SJRP em lugar de Bauru diminui o valor de C (manter SJRP e

substituir Campinas)Distância Grupo

Deinter SJRP Bauru mínima alocadoSJRP 0,00 0,55 0,00 1RP 0,59 1,05 0,59 1Bauru 0,55 0,00 0,00 2Campinas 2,74 2,89 2,74 1Sorocaba 2,37 2,24 2,24 2

C 5,57

Distância GrupoDeinter SJRP RP mínima alocado

SJRP 0,00 0,59 0,00 1RP 0,59 0,00 0,00 2Bauru 0,55 1,05 0,55 1Campinas 2,74 2,27 2,27 2Sorocaba 2,37 2,17 2,17 2

C 4,99

Distância GrupoDeinter SJRP Sorocaba mínima alocado

SJRP 0,00 2,37 0,00 1RP 0,59 2,17 0,59 1Bauru 0,55 2,24 0,55 1Campinas 2,74 1,37 1,37 2Sorocaba 2,37 0,00 0,00 2

C 2,51

Medóide

Medóide

Medóide

Não observamos nenhuma melhora no valor de C. O Valor é o mesmo para

Campinas e SJRP ou Sorocaba e SJRP.Nos dois casos os grupos são os mesmos:

Grupo 1: Campinas e SorocabaGrupo 2: SJRP, Bauru e RP

101

ComparaçãoComparação dos dos métodosmétodos

K-médias: • os objetos podem ser realocados• mais sensível a dados aberrantes

Hierárquicos: • não necessita número de grupos a priori• aplicação proibitiva para muitos dados

102

Validação Validação dos dos gruposgrupos

• Testes Univariados• MANOVA• Análise Discriminante• Correlação Cofenética• Gráfico da Silhueta

103

Correlação CofenéticaCorrelação Cofenética

• medida de validação usada nos métodos hierárquicos principalmente

• Idéia: realizar uma comparação entre as distâncias observadas e as previstas

104

MatrizMatriz CofenéticaCofenética

Deinter SJRP RP B C SSJRP 0,00

RP 1,05 0,00 SimétricaB 0,55 1,05 0,00C 2,89 2,89 2,89 0,00S 2,89 2,89 2,89 1,37 0,00

Correlação Cofenética: 0,95

105

Gráfico da SilhuetaGráfico da Silhueta

Objetivos

• Verificar a qualidade dos agrupamentos• Verificar se um ponto está mais próximo

dos elementos de seu grupo ou de umgrupo vizinho

106

Gráfico da SilhuetaGráfico da Silhueta

• a(i) = distância média do objeto i para os elementos de seu próprio grupo

• b(i) = distância média do objeto I para os elementos do grupo mais próximo

)}(),(max{

)()()(

ibia

iaibis

−=

107

Gráfico da SilhuetaGráfico da Silhueta

• Valor próximo de 1 - boa alocação

• Valores negativos - má alocação

1)(1 ≤≤− is

108

0 0,2 0,4 0,6 0,8 1

Sorocaba

Campinas

RP

Bauru

SJRP

109

Interpretação Interpretação dos dos GruposGrupos

• Caracterização dos grupos• Ressaltar diferenças e semelhanças• Técnicas descritivas• Representações gráficas

110

G1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

X1 X2 X3 X4

G2

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

X1 X2 X3 X4

G3

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

X1 X2 X3 X4

111

Aplicação Aplicação 11• 40 agricultores uruguaios (Salto)• cultura de tomate e pimentão em estufa• área plantada em 1990, 1992 e 1994

Deseja-se formar grupos homogêneossegundo o padrão da área cultivada ao longo

do tempo

Parecença: coeficiente de correlação

112

Distância reescalonada

0 5 10 15 20 25

Agricultor +---------+---------+---------+---------+---------+

32 -+

39 -+

8 -+-+

2 -+ I

4 -+ I

12 -+ +-----------+

40 -+ I I

19 -+ I I

1 ---+ I

9 -+ I

20 -+ +---------------------------------+

22 -+-+ I I

5 -+ I I I

15 -+ I I I

27 -+ I I I

29 -+ I I I

25 -+ +-----------+ I

33 -+ I I

34 -+ I I

37 -+ I I

38 -+ I I

14 -+-+ I

26 -+ I

3 -+ I

35 -+---------------------+ I

6 -+ I I

28 -+ I I

31 -+ +-------------------------+

23 -+---------+ I I

10 -+ I I I

36 -+ +-----------+ I

30 -+ I I

13 -+-+ I I

21 -+ +-------+ I

17 ---+ I

16 ---+-----------------------------+ I

24 ---+ +---------------+

11 -+-+ I

18 -+ +-----------------------------+

7 ---+

113

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

1990 1992 1994

Ano

Áre

a

114

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

1990 1992 1994Ano

Áre

a

115

0

2000

4000

6000

8000

10000

12000

1990 1992 1994

Ano

Áre

a

116

0

2000

4000

6000

8000

10000

12000

A1990 A1992 A1994

G1

G2

G3

117

Aplicação Aplicação 22

Cultura Organizacional: mecanismos de adaptação e comportamento adotados para lidar com os problemas de ajuste ao ambiente externo e de integração

interna. Está ligada ao clima existente no ambiente de trabalho

118

Tipos Tipos de de Cultura OrganizacionalCultura Organizacional

• Cultura Grupal• Cultura Sistêmica• Cultura Hierárquica• Cultura Racional

Ambiente saudável: as quatro culturas co-existem de maneira intensa

119

Aplicação Aplicação 22

• 13 empresas do setor Têxtil• 478 funcionários• questionário: percepção da presença

das quatro culturas

Objetivo: identificar grupos defuncionários com percepções

semelhantes

120

KK--médiasmédias

Quantos grupos devemos fixar?

Ganho relativo na soma de quadrados dentro dos grupos ao se aumentar o

número de grupos de k para k+1

)1(

)1()(

+

+−=

kSQDP

kSQDPkSQDPG

121

00,20,40,60,8

11,2

0 1 2 3 4 5 6 7 8 9

Número de Grupos

G

122

0

10

20

30Grupal

Sistêmica

Hierarquica

Racional

G1G2G3G4