Post on 08-Jan-2023
1
AnAnálise Multivariadaálise Multivariada
Lúcia P. Barroso
IME - USPlbarroso@ime.usp.br
Rinaldo Artes
Ibmec / SPrinaldoa@ibmec.br
2
TópicosTópicos
• Análise de Agrupamentos• Análise de Componentes Principais• Análise Fatorial• Análise Discriminante• Outliers Multivariados
4
Objetivos da técnicaObjetivos da técnica
Formar grupos homogêneos de unidades amostrais
Dados: cadastro com informações sobre uma série de variáveis
5
Definir critérios para Definir critérios para agrupamentoagrupamento
♠ ♣ ♥ ♦
10 10 10 10
J J J JQ Q Q QK K K K
Cor?
Naipe?
Valor?
6
Problema Problema 11
Uma empresa deseja conhecer o perfil de seus consumidores.
• Consumidores têm perfil homogêneo?• É possível identificar grupos?• Quantos grupos existem?
7
Problema Problema 22
Pesquisa Emprego-Desemprego DIEESE/SEADE
Idéia: formar grupos homogêneos de municípios ou distritos administrativos para sortear uma amostra estratificada.
8
Problema Problema 33
Dados sobre a localização de restos de cerâmica em um sítio arqueológico.
Objetivo: conhecer a organização espacial da tribo
Há locais com alta concentração de peças? Quantos?
9
Exemplo 1Exemplo 1Taxa de delitos por 100.000 habitantes
Variáveis: X1: Homicídio dolosoX2: FurtoX3: RouboX4: Roubo e furto de veículo
Taxa Taxa de de delitos pordelitos por100.000 100.000 habitanteshabitantes
Homicídio Roubo e furtoDeinter doloso Furto Roubo de veículos
SJRP 10,85 1500,80 149,35 108,38RP 14,13 1496,07 187,99 116,66Bauru 8,62 1448,79 130,97 69,98Campinas 23,04 1277,33 424,87 435,75Sorocaba 16,04 1204,02 214,36 207,06
12
Exemplo 1Exemplo 1Taxa de delitos por 100.000 habitantes
Deseja-se formar 4 grupos de regiões
Variáveis: X1: Homicídio dolosoX2: Furto
13
1.10 0 ,0 0
1.2 0 0 ,0 0
1.3 0 0 ,0 0
1.4 0 0 ,0 0
1.50 0 ,0 0
1.6 0 0 ,0 0
0 10 0 2 00 30 0 40 0 50 0
Homicídios dolosos
Fu
rto
s
GR1
14
1.10 0 ,0 0
1.2 0 0 ,0 0
1.3 0 0 ,0 0
1.4 0 0 ,0 0
1.50 0 ,0 0
1.6 0 0 ,0 0
0 10 0 2 00 30 0 40 0 50 0
Homicídios dolosos
Fu
rto
sGR2
15
GR1b
1.10 0 ,0 0
1.2 0 0 ,0 0
1.3 0 0 ,0 0
1.4 0 0 ,0 0
1.50 0 ,0 0
1.6 0 0 ,0 0
0 10 0 2 00 30 0 40 0 50 0
Homicídios dolosos
Fu
rto
s
19
Etapas de AplicaçãoEtapas de Aplicação
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
20
1. Escolha do critério de 1. Escolha do critério de parecençaparecença
Definir se as variáveis devem ou não ser padronizadas e o critério que será utilizado na determinação dos grupos
(distância euclidiana)
21
2. Definição do número de 2. Definição do número de gruposgrupos
• Definido a priori (3 espécies de insetos)
• Conveniência de análise (segmentação de mercado – 2 grupos)
• Definido a posteriori (com base nos resultados da análise)
22
3. Formação dos grupos3. Formação dos grupos
Nesta etapa deve-se definir o algoritmo que será utilizado na identificação dos grupos
23
4. Validação do 4. Validação do agrupamentoagrupamento
Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos grupos.
Aplicação de técnicas inferenciais
24
5. Interpretação dos grupos5. Interpretação dos grupos
Ao final do processo de formação de grupos é importante caracterizar os grupos formados.
Uso de estatísticas descritivas
25
Medidas de parecençaMedidas de parecença
Medidas de similaridade: quanto maior o valor, maior a semelhança entre os objetos
Medidas de dissimilaridade: quanto maior o valor, mais diferentes são os objetos
26
Pesquisa com clientes de uma loja de Pesquisa com clientes de uma loja de equipamentos automotivosequipamentos automotivos
• Idade (em anos completos).• Número de carros.• Classe social: A, B, C ou D.• Potência do motor: Baixa, Média ou Alta.• Combustível: Gasolina ou Álcool.• Modelo: Esporte, Luxo ou Standard.
27
DadosDados
ClienteIdade do usuário
N. de carros
Classe social
Potência do motor Combustível Modelo
1 20 1 A Baixa Gasolina Esporte2 37 3 A Alta Gasolina Luxo3 22 2 B Média Gasolina Esporte4 26 2 B Alta Gasolina Esporte5 45 2 C Média Álcool Standard6 42 1 D Baixa Álcool Standard
Variáveis quantitativas
Variáveis nominais
Variáveis ordinais
29
Medida de DissimilaridadeMedida de Dissimilaridade
( )
q
x-x j)d(i,
q
1k
2jkik∑
==
( )
q
x-x j)(i,d
q
1k
2jkik
2∑
==
Cliente Q1 Q2 Cliente Q1 Q21 20 1 2 37 3
Distância euclidiana média
Distância euclidiana média ao quadrado
30
Medida Medida de de DissimilaridadeDissimilaridade
Distância Manhattanou Quarteirão
∑=
−=p
j
kjijik XXd1
)1( ||
33
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Combustível N1
Gasolina 1Álcool 0
Cliente Combustível N1
1 Gasolina 12 Gasolina 13 Gasolina 14 Gasolina 15 Álcool 06 Álcool 0
34
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))
Modelo N2 N3
Esporte 1 0Luxo 0 1
Standard 0 0
Cliente Modelo N2 N3
1 Esporte 1 02 Luxo 0 13 Esporte 1 04 Esporte 1 05 Standard 0 06 Standard 0 0
35
Variáveis NominaisVariáveis Nominais
CombustívelCliente N1 N2 N3
1 1 1 02 1 0 13 1 1 04 1 1 05 0 0 06 0 0 0
Modelo
37
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))A B C
O1 O2 O3
D 0 0 0C 0 0 1B 0 1 0A 1 0 0
Classe Social
Cliente Classe social O1 O2 O3
1 A 1 0 02 A 1 0 03 B 0 1 04 B 0 1 05 C 0 0 16 D 0 0 0
38
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))Média Alta
O4 O5
Baixa 0 0Média 1 0Alta 0 1
Potência do Motor
Cliente Potência de motor O4 O5
1 Média 0 02 Alta 0 13 Média 1 04 Alta 0 15 Média 1 06 Baixa 0 0
39
Variáveis OrdinaisVariáveis Ordinais
O1 O2 O3 O4 O5
1 1 0 0 0 02 1 0 0 0 13 0 1 0 1 04 0 1 0 0 15 0 0 1 1 06 0 0 0 0 0
Cliente
Classe Social Potência
40
Medidas de ParecençaMedidas de Parecença
1 01 2 1 30 2 3 5
Total 4 4 8
cliente 1cliente 2
Total
cliente N1 N2 N3 O1 O2 O3 O4 O5
1 1 1 0 1 0 0 0 02 1 0 1 1 0 0 0 1
Variáveis Nominais Variáveis Ordinais
41
Medidas de SimilaridadeMedidas de Similaridade
1 01 a b a+b0 c d c+d
Total a+c b+d a+b+c+d
cliente j cliente i
Total 1 01 2 1 30 2 3 5
Total 4 4 8
cliente 1cliente 2
Total
Coeficiente de Concordância Simples
dcba
dajis
+++
+=),( 625,0
8
5)2,1( ==s
42
Medidas de DissimilaridadeMedidas de Dissimilaridade
1 01 a b a+b0 c d c+d
Total a+c b+d a+b+c+d
cliente j cliente i
Total 1 01 2 1 30 2 3 5
Total 4 4 8
cliente 1cliente 2
Total
Distância Euclidiana ao Quadrado Média
dcba
cbjid
+++
+=),( 375,0
8
3)2,1( ==s
Esse método apresenta deficiências no que se refere às variáveis ordinais
Classe Social
s(A,B) < s(A,D)
A e B são mais próximos do que A e D
44
Variáveis Fictícias Variáveis Fictícias ((dummiesdummies))A B C
O1* O2
* O3*
D 0 0 0C 0 0 1B 0 1 1A 1 1 1
Classe Social
Cliente Classe social O1* O2
* O3*
1 A 1 1 12 A 1 1 13 B 0 1 14 B 0 1 15 C 0 0 16 D 0 0 0
45
Matriz de Similaridades (CS)Matriz de Similaridades (CS)
Indiv. 1 2 3 4 5 61 -2 0,50 - Simétrica3 0,75 0,50 -4 0,62 0,62 0,87 -5 0,37 0,37 0,62 0,50 -6 0,37 0,12 0,37 0,25 0,75 -
46
Matriz de Dissimilaridades Matriz de Dissimilaridades (1(1-- CS)CS)
Indiv. 1 2 3 4 5 61 -2 0,50 - Simétrica3 0,25 0,50 -4 0,38 0,38 0,13 -5 0,63 0,63 0,38 0,50 -6 0,63 0,88 0,63 0,75 0,25 -
48
DadosDadosIndiv.
Idade do usuário
N. de carros
1 20 12 37 33 22 24 26 25 45 26 42 1
Min 20 1Max 45 3
Indiv. Q1 Q21 0 02 0,68 13 0,08 0,54 0,24 0,55 1 0,56 0,88 0
Min 0 0Max 1 1
20-4520-Idade
Q1 =
1 Q 0 1 ≤≤
1-31-carros de N.
Q2 =
1 Q 0 2 ≤≤
49
Medida de DissimilaridadeMedida de Dissimilaridade
( )
q
x-x j)d(i,
q
1k
2jkik∑
==
( )
q
x-x j)(i,d
q
1k
2jkik
2∑
==
( ) ( )0,86
21-00,68-0
j)d(i,22
=+
=( ) ( )
0,732
1-00,68-0 j)(i,d
222
=+
=
Indiv. Q1 Q2 Indiv. Q1 Q21 0 0 2 0,68 1
Distância euclidiana média
Distância euclidiana média ao quadrado
50
Matriz de dissimilaridadeMatriz de dissimilaridadedistância euclidiana média ao quadradodistância euclidiana média ao quadrado
Indiv. 1 2 3 4 5 61 -2 0,73 - Simétrica3 0,13 0,31 -
4 0,15 0,22 0,01 -5 0,63 0,18 0,42 0,29 -6 0,39 0,52 0,44 0,33 0,13 -
51
Matriz de similaridadeMatriz de similaridade1 1 -- (distância euclidiana média ao quadrado)(distância euclidiana média ao quadrado)
Indiv. 1 2 3 4 5 61 -2 0.27 - Simétrica3 0.87 0.69 -
4 0.85 0.78 0.99 -5 0.37 0.82 0.58 0.71 -6 0.61 0.48 0.56 0.67 0.87 -
53
DadosDados
Indiv.Idade do usuário
N. de carros
Classe social
Potência do motor Combustível Modelo
1 20 1 A Baixa Gasolina Esporte2 37 3 A Alta Gasolina Luxo3 22 2 B Média Gasolina Esporte4 26 2 B Alta Gasolina Esporte5 45 2 C Média Álcool Standard6 42 1 D Baixa Álcool Standard
54
Matriz combinada de similaridadeMatriz combinada de similaridadeNn : número de variáveis nominais
No: número de variáveis ordinaisNq: número de variáveis quantitativas
Sn : matriz de similaridades das variáveis nominaisSo: matriz de similaridades das variáveis ordinais
Sq: matriz de similaridades das variáveis quantitativasMatriz combinada de similaridade
S = wn Sn + wo So + wq Sq
Por exemplo: S = Nn Sn + No So + Nq Sq
55
Indiv. 1 2 3 4 5 61 -2 0,27 - Simétrica3 0,87 0,69 -
4 0,85 0,78 0,99 -5 0,38 0,82 0,58 0,71 -6 0,61 0,48 0,56 0,67 0,87 -
Indiv. 1 2 3 4 5 61 -2 0,86 - Simétrica3 0,86 0,71 -4 0,71 0,86 0,86 -5 0,71 0,57 0,86 0,71 -6 0,43 0,29 0,57 0,43 0,71 -
Indiv. 1 2 3 4 5 61 -2 0,60 - Simétrica3 1,00 0,60 -4 1,00 0,60 1,00 -5 0,20 0,20 0,20 0,20 -6 0,20 0,20 0,20 0,20 1,00 -
Sn So
Sq
Indiv. 1 2 3 4 5 61 -2 3,45 - Simétrica3 5,46 4,02 -4 5,12 4,47 5,69 -5 2,58 3,19 3,27 3,25 -6 2,48 1,93 2,65 2,60 5,16 -
S=2Sn+2So+2Sq
56
Matriz combinada de dissimilaridadeMatriz combinada de dissimilaridadeNn : número de variáveis nominais
No: número de variáveis ordinaisNq: número de variáveis quantitativas
Dn : matriz de dissimilaridades das variáveis nominaisDo: matriz de dissimilaridades das variáveis ordinaisDq: matriz de dissimilaridades das variáveis
quantitativas
Matriz combinada de dissimilaridade
D = wn Dn + wo Do + wq Dq
Por exemplo: D = Nn Dn + No Do + Nq Dq
57
Dn Do
Dq
Indiv. 1 2 3 4 5 61 -2 0,40 - Simétrica3 0,00 0,40 -4 0,00 0,40 0,00 -5 0,80 0,80 0,80 0,80 -6 0,80 0,80 0,80 0,80 0,00 -
Indiv. 1 2 3 4 5 61 -2 0,14 - Simétrica3 0,14 0,29 -4 0,29 0,14 0,14 -5 0,29 0,43 0,14 0,29 -6 0,57 0,71 0,43 0,57 0,29 -
Indiv. 1 2 3 4 5 6
1 -2 0,73 - Simétrica3 0,13 0,31 -4 0,15 0,22 0,01 -5 0,63 0,18 0,42 0,29 -6 0,39 0,52 0,44 0,33 0,13 -
D=2Dn+2Do+2Dq
Indiv. 1 2 3 4 5 61 -2 2,55 - Simétrica3 0,54 1,98 -4 0,88 1,53 0,31 -5 3,42 2,81 2,73 2,75 -6 3,52 4,07 3,35 3,40 0,84 -
59
• cada objeto é um grupo (n grupos)
• agrupam-se os dois objetos mais parecidos (n-1 grupos)
• agrupam-se os dois grupos mais parecidos (n-2 grupos)
• até que se tenha todos os objetos juntos em um único grupo
60
Método HierárquicoMétodo Hierárquico
Adotar um critério de parecença
Expressar através de uma medida o quanto uma unidade amostral se parece ou difere de outra.
61
Métodos HierárquicosMétodos Hierárquicos
• Método do vizinho mais próximo (single)• Método do vizinho mais longe (complete)• Método das médias das distâncias• Método da centróide• Método de Ward
62
Variáveis padronizadasVariáveis padronizadas
Deinter Z1 Z2
SJRP -0.66 0.85RP -0.07 0.81Bauru -1.07 0.47Campinas 1.53 -0.79Sorocaba 0.27 -1.33Média 0.00 0.00DP 1.00 1.00
63
MatrizMatriz de de distânciadistância
Deinter SJRP RP B C SSJRP 0,00
RP 0,59 0,00B 0,55 1,05 0,00C 2,74 2,27 2,89 0,00S 2,37 2,17 2,24 1,37 0,00
Deinter’s mais parecidas
Aqui os métodos se diferenciam
Método do Vizinho mais Longe
d [(SJRP, B) e RP] = max { d [SJRP e RP] e d [B e RP]}
= max {0,59 e 1,05} = 1,05
65
Passo 1 Passo 1 -- juntar SJRP e Bjuntar SJRP e B
Redefinir a matriz de distâncias considerando as Deinter’s mais parecidas como se fossem um único grupo.
Redefinir a matriz de distância - por exemplo:
d(BF, A) = max [d(B,A), d(F,A)]
66
Passo 2Passo 2
Deinter SJRP, B RP C SSJRP, B 0,00
RP 1,05 0,00C 2,89 2,27 0,00S 2,37 2,17 1,37 0,00
Mais parecidas, unir SJRP, B e RP
67
Passo 3Passo 3
Deinter SJRP, B, RP C SSJRP, B, RP 0,00
C 2,89 0,00S 2,37 1,37 0,00
Mais parecidas, unir
C e S.
69
Quadro resumoQuadro resumo
Passo Grupo Distância1 SJRP, B 0,552 SJRP, B, RP 1,053 C, S 1,374 Todos 2,89
Método Método de Wardde Ward
A medida de homogeneidade baseia-se na partição da soma de quadrados total. Por exemplo, para a variável X1
SQT(1) = SQE(1) + SQD(1)
2
1
1
1
2
11
1
2
1
1
1 )()()( j
k
j Gi
ij
k
j
j
k
j Gi
i XXXXnXXjj
−+−=− ∑∑∑∑∑= ∈== ∈
Primeiro passoPrimeiro passo
Agrupamento Grupos SQD(1) SQD(2) SQDP1 (SJRP, RP), (B), (C), (S) 0,174 0,001 0,1752 (SJRP, B), (RP), (C), (S) 0,081 0,073 0,1543 (SJRP, C), (RP), (B), (S) 2,410 1,347 3,7574 (SJRP, S), (RP), (B), (C) 0,437 2,375 2,8125 (SJRP), (RP, B), (C), (S) 0,492 0,060 0,5526 (SJRP), (RP, C), (B), (S) 1,287 1,290 2,5777 (SJRP), (RP,S), (B), (C) 0,059 2,300 2,3598 (SJRP), (RP), (B, C), (S) 3,372 0,793 4,1659 (SJRP), (RP), (B, S), (C) 0,893 1,616 2,50910 (SJRP), (RP), (B), (C, S) 0,795 0,145 0,940
Método de WardMétodo de Ward
Passo 2 Grupos SQD(1) SQD(2) SQDP123456
(SJRP, B, RP), (C), (S)(SJRP, B, C), (RP), (S)(SJRP, B, S), (RP), (C)(SJRP, B), (RP, C), (S)(SJRP, B), (RP, S), (C)(SJRP, B), (RP), (C, S)
0,4983,9080,9401,3680,1400,875
0,0891,4752,7091,3632,3730,218
0,5875,3833,6492,7312,5131,093
Passo 3 Grupos SQD(1) SQD(2) SQDP123
(SJRP, B, RP, C), (S)(SJRP, B, RP, S), (C)(SJRP, B, RP), (C, S)
3,9081,0681,292
1,7823,2130,234
5,6904,2811,527
Passo 4 Grupos SQD(1) SQD(2) SQDP1 (SJRP, B, RP, C, S) 4 4 8
Resumo Resumo -- Método Método de Wardde Ward
Passo União SQDP (SQDP)1/2
1 SJRP, B 0,154 0,3922 SJRP, B, RP 0,587 0,7663 C, S 1,527 1,2364 SJRP, B, RP, C, S 8,000 2,828
76
Comparação Comparação dos dos métodosmétodos
• Vizinho mais longe: tende a formar grupos mais homogêneos do que o método do vizinho mais perto
• Ward: é atraente por basear-se em uma medida com forte apelo estatístico e gerar grupos com alta homogeneidade
78
DescriçãoDescrição
• Premissas básicas: particionar as unidades amostrais formando conglomerados (grupos) com alta coesão interna e isolados.
• Número de grupos fixados a priori.
79
Exemplo de PartiçõesExemplo de PartiçõesObjetos: A, B, C, DPartição 1: {A}, {B}, {C}, {D}Partição 2: {AB}, {C}, {D}Partição 3: {AC}, {B}, {D}Partição 4: {AD}, {B}, {C}Partição 5: {BC}, {A}, {D}Partição 6: {BD}, {A}, {C}Partição 7: {CD}, {A}, {B}Partição 8: {A}, {BCD}
Partição 9: {B}, {ACD}Partição 10: {C}, {ABD}Partição 11: {D}, {ABC}Partição 12: {AB}, {CD}Partição 13: {AC}, {BD}Partição 14: {AD}, {BC}Partição 15:{ABCD}
80
Qual é a melhor partição?Qual é a melhor partição?
Notação: n: número de objetos
g: número de grupos
O processo busca a formação de grupos homogêneos segundo um conjunto de variáveis.
Como medir a homogeneidade dos grupos?
81
Caso ParticularCaso ParticularConsidere a existência de uma única
variável: X1.
Medida de heterogeneidade intragrupo, para a variável X1:
( )∑∑= =
−=g
1j
n
1i
2
jij
j
xxSQD(1)
Medida de heterogeneidade intergrupos, para a variável X1:
( )∑=
−=g
1j
2
jj xx nSQE(1)
nj: tamanho do grupo j
j grupo do média :x j
82
Caso ParticularCaso Particular
Critério de qualidade: a melhor partição é aquela que minimiza a soma de quadrados dentro dos grupos
( )∑∑= =
+=−=g
1j
n
1i
2
ij
j
SQD(1)SQE(1)xxSQT(1)
ANOVA:
83
Caso GeralCaso Geral
Variáveis: X1, X2, …, Xp
SQD(k): soma de quadrados residual da variável Xk.
Critério de qualidade: A melhor partição é aquela que minimiza a soma de todas as SQD, denominada soma de quadrados residual da partição.
∑=
=p
1k
SQD(k) ão)SQD(Partiç
84
Método para AgrupamentoMétodo para Agrupamento
Para minimizar o trabalho computacional deve-se, inicialmente, escolher o número de grupos que será formado.
O método das k-médias tentará formar grupos visando obter uma soma de quadrados residual da partição pequena.
86
1. Determinar o número de grupos (g) a serem formados.
2. Escolher casos para serem as sementes geradoras dos grupos iniciais.
Para o exemplo:g=2sementes = SJRP e RP.
Passo 1: Definições iniciaisPasso 1: Definições iniciais
87
Passo 2: Formar os grupos iniciaisPasso 2: Formar os grupos iniciais
Determinar a distância euclidiana entre cada ponto e cada uma das sementes.
Cada ponto será incorporado ao grupo que contém a semente mais próxima.
88
SJRP -0.66 0.85 RP -0.07 0.81Grupo1 Grupo 2
Sementes
Deinter d(ponto,1) d(ponto,2)Grupo mais
próximoBauru 0,55 1,05 1
Campinas 2,74 2,27 2Sorocaba 2,37 2,17 2
Distâncias entre os pontos e as sementesDistâncias entre os pontos e as sementes
Partição (grupos) formada (os)Partição (grupos) formada (os)
Grupo 1: SJRP, Bauru
Grupo 2: RP, Campinas, Sorocaba
89
Deinter Z1 Z2 Deinter Z1 Z2SJRP -0.66 0.85 RP -0.07 0.81Bauru -1.07 0.47 Campinas 1.53 -0.79
Sorocaba 0.27 -1.33
n 2 2 3 3Média -0.86 0.66 0.73 0.01
Variância 0.08 0.07 1.29 1.29
Grupo1 Grupo 2
Avaliação da qualidade da partição (dos grupos)Avaliação da qualidade da partição (dos grupos)
SQD(Z1) = 2,65SQD(Z2) = 2,65
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = SQD(Z1) + SQD(Z2) = 6,30
90
Passo 3: Checagem do grupo ePasso 3: Checagem do grupo erealocaçãorealocação de objetosde objetos
Verificar se os grupos estão bem formados, ou seja, se a partição possui a menor SQD(part).
Verificar se cada ponto está no melhor grupo possível.
91
0.66 0.01
CentróidesGrupo1 Grupo 2
-0.86 0.73
Distâncias em relação aos centróidesDistâncias em relação aos centróides
Deinter d(ponto,1) d(ponto,2)Grupo ao qual
pertenceGrupo mais
próximoSJRP 0,28 1,63 1 1
RP 0,81 1,14 2 1Bauru 0,28 1,85 1 1
Campinas 2,80 1,14 2 2Sorocaba 2,29 1,42 2 2
Conclusão: A Deinter RP está mais próxima do centro do grupo 1 do que do centro de seu próprio grupo. Está no grupo errado?
92
Deinter Z1 Z2 Deinter Z1 Z2SJRP -0.66 0.85 Campinas 1.53 -0.79Bauru -1.07 0.47 Sorocaba 0.27 -1.33
RP -0.07 0.81
n 3 3 2 2Média -0.60 0.71 0.90 -1.06
Variância 0.25 0.04 0.79 0.14
Grupo 2Grupo 1
Realocar o município DRealocar o município D
Soma de Quadrados Residual da PartiçãoSoma de Quadrados Residual da Partição
SQD(part) = 1,52
Anterior = 6,30
Decisão: mudar RP para o grupo 1
SQD(Z1) = 1,29SQD(Z2) = 0,23
93
Passo 4: Repetir o passo anterior até Passo 4: Repetir o passo anterior até que nenhuma troca seja necessáriaque nenhuma troca seja necessária
Todos os pontos estão bem alocados
Grupo 1: SJRP, RP e Bauru
Grupo 2: Campinas e Sorocaba
94
Método dasMétodo das kk--medóidesmedóides
• Baseado em uma matriz de distâncias entre objetos
• Medóide: membro do grupo que possuia menor distância euclidiana média emrelação aos demais membros
95
Critério Critério de de qualidadequalidade
∑=
=n
j
jCC1
),(min jmdC ij =
d(mi, j) é a distância entre a medóide mi e a observação j
Primeiro passoPrimeiro passo
Admita que desejamos formar 2 grupos
O primeiro passo consiste em um chute inicial para as duas medóides
Medóides: Campinas e Bauru
Distância GrupoDeinter Campinas Bauru mínima alocado
SJRP 2,74 0,55 0,55 2RP 2,27 1,05 1,05 2Bauru 2,89 0,00 0,00 2Campinas 0,00 2,89 0,00 1Sorocaba 1,37 2,24 1,37 1
C 2,97
Medóide
Inicialmente, mantemos Campinas e substituímos Bauru
Distância GrupoDeinter Campinas SJRP mínima alocado
SJRP 2,74 0,00 0,00 2RP 2,27 0,59 0,59 2Bauru 2,89 0,55 0,55 2Campinas 0,00 2,74 0,00 1Sorocaba 1,37 2,37 1,37 1
C 2,51
Distância GrupoDeinter Campinas RP mínima alocado
SJRP 2,74 0,59 0,59 2RP 2,27 0,00 0,00 2Bauru 2,89 1,05 1,05 2Campinas 0,00 2,27 0,00 1Sorocaba 1,37 2,17 1,37 1
C 3,01
Distância GrupoDeinter CampinasSorocaba mínima alocado
SJRP 2,74 2,37 2,37 2RP 2,27 2,17 2,17 2Bauru 2,89 2,24 2,24 2Campinas 0,00 1,37 0,00 1Sorocaba 1,37 0,00 0,00 2
C 6,78
Medóide
Medóide
Medóide
A escolha de SJRP em lugar de Bauru diminui o valor de C (manter SJRP e
substituir Campinas)Distância Grupo
Deinter SJRP Bauru mínima alocadoSJRP 0,00 0,55 0,00 1RP 0,59 1,05 0,59 1Bauru 0,55 0,00 0,00 2Campinas 2,74 2,89 2,74 1Sorocaba 2,37 2,24 2,24 2
C 5,57
Distância GrupoDeinter SJRP RP mínima alocado
SJRP 0,00 0,59 0,00 1RP 0,59 0,00 0,00 2Bauru 0,55 1,05 0,55 1Campinas 2,74 2,27 2,27 2Sorocaba 2,37 2,17 2,17 2
C 4,99
Distância GrupoDeinter SJRP Sorocaba mínima alocado
SJRP 0,00 2,37 0,00 1RP 0,59 2,17 0,59 1Bauru 0,55 2,24 0,55 1Campinas 2,74 1,37 1,37 2Sorocaba 2,37 0,00 0,00 2
C 2,51
Medóide
Medóide
Medóide
Não observamos nenhuma melhora no valor de C. O Valor é o mesmo para
Campinas e SJRP ou Sorocaba e SJRP.Nos dois casos os grupos são os mesmos:
Grupo 1: Campinas e SorocabaGrupo 2: SJRP, Bauru e RP
101
ComparaçãoComparação dos dos métodosmétodos
K-médias: • os objetos podem ser realocados• mais sensível a dados aberrantes
Hierárquicos: • não necessita número de grupos a priori• aplicação proibitiva para muitos dados
102
Validação Validação dos dos gruposgrupos
• Testes Univariados• MANOVA• Análise Discriminante• Correlação Cofenética• Gráfico da Silhueta
103
Correlação CofenéticaCorrelação Cofenética
• medida de validação usada nos métodos hierárquicos principalmente
• Idéia: realizar uma comparação entre as distâncias observadas e as previstas
104
MatrizMatriz CofenéticaCofenética
Deinter SJRP RP B C SSJRP 0,00
RP 1,05 0,00 SimétricaB 0,55 1,05 0,00C 2,89 2,89 2,89 0,00S 2,89 2,89 2,89 1,37 0,00
Correlação Cofenética: 0,95
105
Gráfico da SilhuetaGráfico da Silhueta
Objetivos
• Verificar a qualidade dos agrupamentos• Verificar se um ponto está mais próximo
dos elementos de seu grupo ou de umgrupo vizinho
106
Gráfico da SilhuetaGráfico da Silhueta
• a(i) = distância média do objeto i para os elementos de seu próprio grupo
• b(i) = distância média do objeto I para os elementos do grupo mais próximo
)}(),(max{
)()()(
ibia
iaibis
−=
107
Gráfico da SilhuetaGráfico da Silhueta
• Valor próximo de 1 - boa alocação
• Valores negativos - má alocação
1)(1 ≤≤− is
109
Interpretação Interpretação dos dos GruposGrupos
• Caracterização dos grupos• Ressaltar diferenças e semelhanças• Técnicas descritivas• Representações gráficas
110
G1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
G2
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
G3
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
X1 X2 X3 X4
111
Aplicação Aplicação 11• 40 agricultores uruguaios (Salto)• cultura de tomate e pimentão em estufa• área plantada em 1990, 1992 e 1994
Deseja-se formar grupos homogêneossegundo o padrão da área cultivada ao longo
do tempo
Parecença: coeficiente de correlação
112
Distância reescalonada
0 5 10 15 20 25
Agricultor +---------+---------+---------+---------+---------+
32 -+
39 -+
8 -+-+
2 -+ I
4 -+ I
12 -+ +-----------+
40 -+ I I
19 -+ I I
1 ---+ I
9 -+ I
20 -+ +---------------------------------+
22 -+-+ I I
5 -+ I I I
15 -+ I I I
27 -+ I I I
29 -+ I I I
25 -+ +-----------+ I
33 -+ I I
34 -+ I I
37 -+ I I
38 -+ I I
14 -+-+ I
26 -+ I
3 -+ I
35 -+---------------------+ I
6 -+ I I
28 -+ I I
31 -+ +-------------------------+
23 -+---------+ I I
10 -+ I I I
36 -+ +-----------+ I
30 -+ I I
13 -+-+ I I
21 -+ +-------+ I
17 ---+ I
16 ---+-----------------------------+ I
24 ---+ +---------------+
11 -+-+ I
18 -+ +-----------------------------+
7 ---+
117
Aplicação Aplicação 22
Cultura Organizacional: mecanismos de adaptação e comportamento adotados para lidar com os problemas de ajuste ao ambiente externo e de integração
interna. Está ligada ao clima existente no ambiente de trabalho
118
Tipos Tipos de de Cultura OrganizacionalCultura Organizacional
• Cultura Grupal• Cultura Sistêmica• Cultura Hierárquica• Cultura Racional
Ambiente saudável: as quatro culturas co-existem de maneira intensa
119
Aplicação Aplicação 22
• 13 empresas do setor Têxtil• 478 funcionários• questionário: percepção da presença
das quatro culturas
Objetivo: identificar grupos defuncionários com percepções
semelhantes
120
KK--médiasmédias
Quantos grupos devemos fixar?
Ganho relativo na soma de quadrados dentro dos grupos ao se aumentar o
número de grupos de k para k+1
)1(
)1()(
+
+−=
kSQDP
kSQDPkSQDPG