CLASSIFICAÇÃO POR AGRUPAMENTO NEBULOSO DE PADRÕES DE CORES EM IMAGENS

10
CLASSIFICAÇÃO POR AGRUPAMENTO NEBULOSO DE PADRÕES DE CORES EM IMAGENS Waldemar Bonventi Júnior, Anna Helena Reali Costa Departamento de Engenharia de Computação e Sistemas Digitais Escola Politécnica da Universidade de São Paulo Av. Prof. Luciano Gualberto, trav.3, N.158 – 05508-900 São Paulo SP Brasil Tel:+55 11 3091-5397 Fax:+55 11 3091-5294 [email protected] , [email protected] RESUMO Neste trabalho, aplica-se o método de agrupamento nebuloso (fuzzy clustering) a imagens coloridas, onde o atributo usado para a classificação é a cor no espaço RGB. Para cada imagem, o método é empregado variando-se o número de classes, até que o número ótimo seja encontrado pela minimização de medidas de compactação e separação do agrupamento. São apresentadas imagens produzidas pela separação dos pontos da imagem original nas suas respectivas classes. Foram construídos também elipsóides, que representam os agrupamentos obtidos. Estão posicionados nos centros dos grupos e seus semieixos têm como extensão a variância do grupo, obtida pelo uso da transformada de Hotelling. ABSTRACT In this work, fuzzy clustering is applied to colored images, where color in RGB space was the feature employed in classification. For each image, number of classes was varied and its optimal number was found by compactness/separation index minimization. Were presented images produced by decomposition of original image into classes. Also, ellipsoids were built to represent clusters, which positions are cluster centers and semiaxes have length equal to cluster variance, obtained by Hotelling transform. 1. INTRODUÇÃO Em reconhecimento de padrões, e também em visão de máquina, várias técnicas têm sido desenvolvidas e testadas, sendo a classificação uma das principais tarefas. Teoria de decisão de Bayes, classificadores lineares (como perceptrons e mínimos quadrados), e não-lineares (perceptrons multicamadas, árvores de decisão), modelos de Markov e técnicas de agrupamento (booleano e nebuloso, incluindo também algoritmos de aprendizado competitivo - LVQ, SOM) têm sido intensamente investigados nos últimos anos (Theodoridis e Koutroumbas, 1999). Com a introdução da teoria dos conjuntos nebulosos por Zadeh em 1965 (“fuzzy sets”), houve um considerável crescimento de cientistas e engenheiros na solução de diversos problemas em várias áreas que a utilizam. A teoria nebulosa tem sido uma ferramenta poderosa aplicada a controle de sistemas (ciclo fechado) e sistemas para classificação (ciclo aberto). No escopo de métodos de classificação, a técnica de agrupamento nebuloso (com a conseqüente determinação das funções de pertinência) é um recurso muito importante na modelagem da transição de uma classe para outra, de forma suave (Chi, Yan e Pham, 1996; Guliato, 1998). Ainda, os valores de pertinência dos elementos em relação aos conjuntos nebulosos determinados devem refletir as formas dos agrupamentos o mais precisamente quanto possível. Devido a inúmeras áreas onde a técnica de agrupamentos nebulosos tem sido aplicada, nos limitaremos aqui a discutir a classificação de pixels de imagens coloridas segundo atributos de cor. A cor é um importante recurso empregado pela visão humana, sendo que muitos objetos na vida cotidiana são inicialmente localizados e identificados pela cor. A focalização dos objetos e outros detalhes de reconhecimento são processos mais refinados, acionados em um segundo estágio. Em nosso trabalho, executamos a classificação de pontos da imagem utilizando agrupamento nebuloso exclusivamente pela informação da cor. Este artigo está organizado da seguinte forma: na seção 2, algoritmos de agrupamento nebuloso são apresentados e também algumas medidas de desempenho destes algoritmos; na seção 3, introduzimos o uso da cor no processo de agrupamento. Os resultados em imagens coletadas de vários domínios - desde cenas cotidianas a áreas mais especializadas são apresentados na seção 4. Finalmente, as conclusões e futuras investigações na seção 5. 2. TÉCNICAS DE AGRUPAMENTO NEBULOSO. As técnicas de agrupamento visam essencialmente a partição de conjuntos de dados em classes homogêneas, em relação a uma determinada métrica. Os elementos que pertencem a um grupo devem ser os mais semelhantes possíveis entre si, e os que pertencem a grupos diferentes devem apresentar a menor semelhança. Nas técnicas de agrupamento booleano, as fronteiras entre os grupos são muito bem definidas, e cada elemento pertence ou não a um dado grupo (Klir e Yuan, 1995). Aqui, booleano é empregado no sentido de que um dado elemento pertence ou não a um dos grupos. Frequentemente, a distribuição de dados é tal que esta separação se torna demasiado arbitrária, e as fronteiras não ficam precisamente definidas. Neste ínterim surgem as técnicas de agrupamento nebuloso. Um determinado ponto pode pertencer a mais de um grupo, com graus de pertinência distintos. O algoritmo de agrupamento nebuloso mais empregado é uma derivação do algoritmo k-means, o fuzzy c-means (FCM). Em ambos, a medida de similaridade empregada é a distância euclidiana entre dois pontos no espaço de atributos escolhido: 2 2 ) ( ) ( k i k i x v x v d - = - (1) No caso específico de agrupamentos, v i é a posição do centro do grupo e x k é o valor do elemento no espaço do atributo considerado. Os algoritmos c-means procuram minimizar esta distância em relação a todos os pontos do mesmo grupo. A função a ser minimizada é ( 29 ( 29 ( 29 = = - = c i N k k i m ik x v u U v J 1 1 2 , (2) onde é o conjunto de partições nebulosas a ser obtido, u ik é o valor de pertinência do ponto k no grupo i, c é o número de grupos predeterminado e N é o número de pontos no espaço de atributos. No c-means clássico (booleano), a pertinência u ik é estritamente 0 ou 1; mas no caso nebuloso varia continuamente de 0 a 1. Esta minimização ainda deve possuir os seguintes vínculos:

Transcript of CLASSIFICAÇÃO POR AGRUPAMENTO NEBULOSO DE PADRÕES DE CORES EM IMAGENS

CLASSIFICAÇÃO POR AGRUPAMENTO NEBULOSO DE PADRÕES DE CORES EM IMAGENS

Waldemar Bonventi Júnior , Anna Helena Reali Costa Departamento de Engenharia de Computação e Sistemas Digitais

Escola Politécnica da Universidade de São Paulo Av. Prof. Luciano Gualberto, trav.3, N.158 – 05508-900 São Paulo SP Brasil

Tel:+55 11 3091-5397 Fax:+55 11 3091-5294 [email protected], [email protected]

RESUMO

Neste trabalho, aplica-se o método de agrupamento nebuloso (fuzzy clustering) a imagens coloridas, onde o atributo usado para a classificação é a cor no espaço RGB. Para cada imagem, o método é empregado variando-se o número de classes, até que o número ótimo seja encontrado pela minimização de medidas de compactação e separação do agrupamento. São apresentadas imagens produzidas pela separação dos pontos da imagem original nas suas respectivas classes. Foram construídos também elipsóides, que representam os agrupamentos obtidos. Estão posicionados nos centros dos grupos e seus semieixos têm como extensão a variância do grupo, obtida pelo uso da transformada de Hotelling.

ABSTRACT

In this work, fuzzy clustering is applied to colored images, where color in RGB space was the feature employed in classification. For each image, number of classes was varied and its optimal number was found by compactness/separation index minimization. Were presented images produced by decomposition of original image into classes. Also, ellipsoids were built to represent clusters, which positions are cluster centers and semiaxes have length equal to cluster variance, obtained by Hotelling transform.

1. INTRODUÇÃO Em reconhecimento de padrões, e também em visão de máquina, várias técnicas têm sido desenvolvidas e testadas, sendo a classificação uma das principais tarefas. Teoria de decisão de Bayes, classificadores lineares (como perceptrons e mínimos quadrados), e não-lineares (perceptrons multicamadas, árvores de decisão), modelos de Markov e técnicas de agrupamento (booleano e nebuloso, incluindo também algoritmos de aprendizado competitivo - LVQ, SOM) têm sido intensamente investigados nos últimos anos (Theodoridis e Koutroumbas, 1999). Com a introdução da teoria dos conjuntos nebulosos por Zadeh em 1965 (“ fuzzy sets” ), houve um considerável crescimento de cientistas e engenheiros na solução de diversos problemas em várias áreas que a utilizam. A teoria nebulosa tem sido uma ferramenta poderosa aplicada a controle de sistemas (ciclo fechado) e sistemas para classificação (ciclo aberto). No escopo de métodos de classificação, a técnica de agrupamento nebuloso (com a conseqüente determinação das funções de pertinência) é um recurso muito importante na modelagem da transição de uma classe para outra, de forma suave (Chi, Yan e Pham, 1996; Guliato, 1998). Ainda, os valores de pertinência dos elementos em relação aos conjuntos nebulosos determinados devem refletir as formas dos agrupamentos o mais precisamente quanto possível. Devido a inúmeras áreas onde a técnica de agrupamentos nebulosos tem sido aplicada, nos limitaremos aqui a discutir a classificação de pixels de imagens coloridas segundo atributos de cor. A cor é um importante recurso empregado pela visão humana, sendo que muitos objetos na vida cotidiana são inicialmente localizados e identificados pela cor. A focalização dos objetos e outros detalhes de reconhecimento são processos mais refinados, acionados em um segundo estágio. Em nosso trabalho, executamos a classificação de pontos da imagem utilizando agrupamento nebuloso exclusivamente pela informação da cor. Este artigo está organizado da seguinte forma: na seção 2, algoritmos de agrupamento nebuloso são apresentados e também algumas medidas de desempenho destes algoritmos; na seção 3, introduzimos o uso da cor no processo de agrupamento. Os resultados em imagens coletadas de vários domínios - desde cenas cotidianas a áreas mais especializadas são apresentados na seção 4. Finalmente, as conclusões e futuras investigações na seção 5.

2. TÉCNICAS DE AGRUPAMENTO NEBULOSO. As técnicas de agrupamento visam essencialmente a partição de conjuntos de dados em classes homogêneas, em relação a uma determinada métrica. Os elementos que pertencem a um grupo devem ser os mais semelhantes possíveis entre si, e os que pertencem a grupos diferentes devem apresentar a menor semelhança. Nas técnicas de agrupamento booleano, as fronteiras entre os grupos são muito bem definidas, e cada elemento pertence ou não a um dado grupo (Klir e Yuan, 1995). Aqui, booleano é empregado no sentido de que um dado elemento pertence ou não a um dos grupos. Frequentemente, a distribuição de dados é tal que esta separação se torna demasiado arbitrária, e as fronteiras não ficam precisamente definidas. Neste ínterim surgem as técnicas de agrupamento nebuloso. Um determinado ponto pode pertencer a mais de um grupo, com graus de pertinência distintos. O algoritmo de agrupamento nebuloso mais empregado é uma derivação do algoritmo k-means, o fuzzy c-means (FCM). Em ambos, a medida de similaridade empregada é a distância euclidiana entre dois pontos no espaço de atributos escolhido:

22 )()( kiki xvxvd

����−=− (1)

No caso específico de agrupamentos, vi é a posição do centro do grupo e xk é o valor do elemento no espaço do atributo considerado. Os algoritmos c-means procuram minimizar esta distância em relação a todos os pontos do mesmo grupo. A função a ser minimizada é

( ) ( ) ( )

���

= =−=

c

i

N

kki

mik xvuUvJ

1 1

2,���

(2) onde � é o conjunto de partições nebulosas a ser obtido, uik é o valor de pertinência do ponto k no grupo i, c é o número de grupos predeterminado e N é o número de pontos no espaço de atributos. No c-means clássico (booleano), a pertinência uik é estritamente 0 ou 1; mas no caso nebuloso varia continuamente de 0 a 1. Esta minimização ainda deve possuir os seguintes vínculos:

Nueu

N

kik

c

iik <<=

��

== 11

01 (3)

Observa-se ainda na função (2) um expoente m, chamado fator de nebulosidade, cuja influência está no grau de superposição dos grupos, onde 1<m<∞. Para m~1, a partição resultante é booleana, e para m→∞, não há partição resultante - todos os elementos pertencem a todos os grupos, com grau de pertinência 1/c. Para a função descrita em (2) atingir o mínimo, as condições necessárias são tais que, derivando-se J em relação a v para uik fixo, e derivando-se J em relação a uik com v fixo, obtém-se

( )

( )�

=

==N

k

mik

N

kk

mik

i

u

xuv

1

1

��

(4a) e

( )

1

1

1

2

)(

)(1

=

−+ ��

���

����

��

=� c

j

m

itjk

itikit

ikd

du

(4b)

sendo it o número de iterações do algoritmo e djk(it) a

distância entre o j-ésimo centro e o k-ésimo ponto, na iteração it. O cálculo dos centros vi e dos valores de pertinência uik dependem iterativamente um do outros. Então, é necessária uma inicialização das posições dos centros e dos valores de pertinência na primeira iteração. Geralmente, não há a priori nenhuma informação sobre a natureza das partições e dos centros, sendo comum uma inicialização aleatória. Algumas considerações heurísticas podem melhorar a convergência do algoritmo, pois os centros vão se deslocando da sua posição aleatória inicial para o seu valor verdadeiro durante as iterações. O algoritmo FCM iterativo é descrito a seguir (Cannon, 1986): 1) Inicialização: 1a) fornecer o número de grupos desejados: 2<c<N; 1b) escolher o nível de nebulosidade: 1<m<∞; 1c) criar uma partição inicial U(0) com valores dos centros entre x máximo e mínimo; 1d) escolher um limite ε para a convergência e uma distância mínima dmin; Repita: 2) calcular os centros vi usando eq.(4a); 3) atualizar as partições U(it) calculando novos valores de pertinência para U(it+1) como segue: para k=1..N para i=1..c 3a) calcular d(v,x) euclidiana ou outra métrica; se dik < dmin 3b) então ui(xk) = 1 3c) senão atualizar ui(xk) conforme eq.(4b); 4) até que ||U(it)-U(it+1)|| < ε. É importante ressaltar que os resultados do agrupamento nebuloso dependem do fator de

nebulosidade m e do número de grupos c escolhidos. 2.1 - Algoritmo Gustafson-Kessel. Gustafson e Kessel desenvolveram uma solução para melhorar o agrupamento FCM (Theodoridis e Koutroumbas, 1999), introduzindo uma métrica corrigida por uma matriz positiva e definida, com as covariâncias entre as dimensões do espaço de atributos. Isto pelo fato de que a distância euclidiana empregada constrói apenas grupos hiperesféricos, e a correção proposta permite a detecção de grupos hiperelipsoidais. Esta é a distância de Mahalanobis, dada por

( ) ( ) ( )kiiT

kip

ikiM xvxvxvd �� �� �� −−= −11

2 , CC (5a)

que se reduz à euclidiana se for a matriz identidade.

Esta distância é empregada no processo de agrupamento para atributos cujos valores variam muito entre suas componentes e apresentam grandes variâncias. A expressão (5a) normaliza a variância dos dados A matriz de covariância mostra a correlação entre as

componentes de cada dimensão, sendo expressa por

( )( )�

=

=−−

=N

k

mik

N

k

Tkiki

mik

i

u

xvxvu

1

1

�����C

(5b) No algoritmo FCM, as expressões (5a) e (5b) são usadas no passo 3a. Daqui para diante, referiremo-nos a este algoritmo como FCM-GK. 2.2 - Medidas de desempenho do processo de agrupamento. O agrupamento nebuloso é um método não-supervisionado de classificação, pois as classes obtidas são de natureza desconhecida. Logo, o número de grupos escolhidos inicialmente no processo de agrupamento é um parâmetro essencial para a partição do espaço de atributos. O número de grupos é o número de classes obtidas, mas, em um processo (semi)automático, sistemas nebulosos de reconhecimento de padrões devem estar aptos a decidir qual o melhor número de classes a ser adotado. Ainda mais, sendo o agrupamento nebuloso baseado na minimização de uma função, métodos de validação são necessários para medir a qualidade do agrupamento realizado. Isto ainda depende de vários fatores, como o modo com que os centros e as pertinências foram inicializados, a métrica usada e o número de grupos escolhido. Para verificar a qualidade do agrupamento, algumas medidas foram desenvolvidas (Theodoridis e Koutroumbas, 1999)., entre elas: a) o coeficiente de partição

���

= ==

c

i

N

kiku

NF

1 1

21

(6a)

que mede a proximidade de todos os elementos aos seus respectivos centros. Se um elemento k é fortemente associado a um centro i, uik é alto para somente um valor de i, ficando baixa a incerteza do dado - alto valor de F( � ,c). (Roubens, 1982) define fuzziness performance index (FPI), baseado na eq.(6a), e dado por

1

11

−−−=

c

cFFPI

(6b) que avalia o grau de nebulosidade em função do número de classes, sendo o número ótimo de grupos dado por

1,...,2min* max −== ccFPIc

c (6c) b) a entropia modificada de particionamento (MPE) também dada por (Roubens, 1982) que mede o grau de separação entre os grupos através da entropia de Shannon. Melhores índices de separação resultam em uik~0 ou 1, onde a entropia é mínima. A entropia e o MPE são dados por

���

= =−=

c

i

N

kikik uu

NH

1 1

log1

(7a) e

c

HMPE

log=

(7b) O valor ótimo para o número de grupos é obtido por

1,...,2min* max −== ccMPEc

c (7c) c) compactação e separação é outro índice construído por X.L. Xie e G. Beni (Xie e Beni, 1991), que é a relação entre a distância média dos dados aos seus respectivos centros e a mínima distância entre os centros. Uma boa definição dos grupos minimiza este índice, correspondendo a grupos mais compactos e mais separados. A compactação é dada por

���

= =

==c

i

N

kikikdu

NN

JComp

1 1

221

(8a) e a separação

( )2

,min ki

kixvSep �� −=

(8b) e o índice a ser minimizado é

2minNd

J

Sep

CompS ==

(8c) com o número ótimo de grupos dado por

1,...,2min* max −== ccSc

c (8d) Todos estes índices auxiliam na obtenção do melhor particionamento. No caso específico de processamento de

imagens, uma escolha adequada dos atributos a serem classificados resultará na identif icação dos objetos. Em nossos experimentos, preferimos empregar o índice de compactação/separação (8c) para estimar a melhor quantidade de grupos a serem identificados. 3. A COR COMO ATRIBUTO PARA O AGRUPAMENTO NEBULOSO. A segmentação de imagens tem sido desenvolvida com vários algoritmos e técnicas direcionadas para tons de cinza. (Kim, Ciparrone e Andrade, 1997; Salles e Ling, 1993; Guliato 1998). Contudo, as imagens coloridas revelam mais informações sobre os objetos da cena, tanto que a informação colorida desempenha um papel importante na comunicação visual. Ao longo do tempo, técnicas específicas para segmentar as imagens coloridas têm surgido em menor escala. As técnicas desenvolvidas para imagens em tons de cinza muitas vezes não possuem similares para imagens coloridas. Os dispositivos digitais para representação de imagens coloridas utilizam o princípio da tricromaticidade (Wyszecki e Stiles, 1982), onde quase todas as cores podem ser reproduzidas como combinação linear de três básicas, chamadas cores primárias. Existem três tipos de receptores na retina humana para luz diurna (cones), que são respectivamente sensíveis aos comprimentos de onda relativos às cores vermelha, verde e azul. Toda cor de um ponto no monitor de vídeo é associada a uma terna de valores (R,G,B), onde cada valor individualmente varia de 0 a 255. Então, (0,0,0) corresponde ao preto (ausência de luz), (255,255,255) ao branco máximo, (255,0,0) ao vermelho puro, (50,50,50) cinza escuro, (150,50,100) ao vinho escuro e assim por diante. Ainda, os três valores são fortemente correlacionados entre si, de modo que uma variação no brilho sem alterar a cor implica em uma variação não-linear em todos eles. Todas as cores podem ser visualizadas em um espaço vetorial tridimensional, um cubo 255x255x255 para componentes que utilizam 8 bits de informação cada uma. 3.1 - Agrupamento nebuloso pelo atributo cor. Entre as técnicas mais usadas no tratamento da imagem estão: a segmentação de regiões, detecção de bordas, cálculos de propriedades morfológicas, realce (Gonzalez e Woods, 1992). As imagens digitais são constituídas de regiões nem sempre bem definidas, portanto situações incertas na classificação ocorrem na análise da imagem. Uma decisão tomada em uma fase do processamento terá conseqüências nas fases seguintes. Uma representação adequada da incerteza permite a manutenção de mais informações durante todo o processamento. A técnica de agrupamento nebuloso permite que pontos possam pertencer a mais de uma região da imagem com o devido grau de pertinência – entre 0 (certamente não pertence) e 1 (certamente pertence). Aos pontos da imagem devem estar associados basicamente duas informações: sua posição na imagem, cuja vizinhança compõe um determinado objeto, e sua cor. O processo de agrupamento pode levar em conta ambas as informações, como relações de vizinhança e proximidade de cores no espaço RGB. Neste trabalho, investigamos o poder discriminatório da informação colorida, ao considerar apenas os valores R,G,B no algoritmo de agrupamento. Cada ponto da imagem apresenta um vetor correspondente à sua cor, da

forma

( )BGRx T ,,=�

(9) sendo as posições dos centros dos grupos vi dadas por vetores do mesmo formato. O conjunto de valores (R,G,B) extraídos dos pontos de uma imagem foi aplicado ao algoritmo FCM-GK, e executados para um número de grupos variando de c=2 até 9., Este número foi considerado suficiente, devido à natureza das imagens conter poucas cores e variações pequenas das mesmas. A escolha da distância de Mahalanobis para caracterizar os grupos deve-se ao fato de que a distribuição de pontos no espaço RGB muitas vezes é alongada, sendo melhor a aproximação por elipsóides. A inclusão no algoritmo do cálculo da matriz de covariância e sua inversão a cada iteração (no passo 3a) são necessárias antes do cálculo da distância, levando a uma sobrecarga no tempo de execução. Este aspecto foi considerado menos importante, em vista da qualidade do resultado final. 3.2 - Elipsóides como representantes dos agrupamentos. Tendo obtido os centros dos grupos após a convergência do algoritmo FCM-GK, a matriz de covariância apresenta termos fora da diagonal principal indicando correlações entre as componentes R, G e B. Na prática, isto revela que os elipsóides obtidos no processo de agrupamento não apresentam seus eixos principais alinhados com os eixos das coordenadas RGB. Há a necessidade de diagonalizar a matriz de covariância para restar apenas as variâncias isoladas de cada componente. Estas variâncias são indicativas do tamanho de cada grupo e, diretamente, são os tamanhos dos semieixos dos elipsóides. A diagonalização é conseguida pelo cálculo dos autovalores e dos autovetores da matriz de covariância. A construção dos elipsóides no espaço RGB é proveniente da transformada de Hotelling, também conhecida como PCA - principal component analysis ou transformada discreta de Karhunen-Loève. O alinhamento dos objetos com seus autovetores são importantes em processamento de imagens e reconhecimento de padrões, eliminando efeitos de rotação na descrição do objeto. Principalmente em nosso caso, as dimensões dos elipsóides mostram quão espalhados estão os grupos obtidos no espaço RGB. Neste ponto, é importante notar que a transformada KL nem sempre consegue a melhor discriminação em reconhecimento de padrões, nos casos em que as projeções dos autovetores de maiores autovalores podem deixar duas ou mais classes coincidentes (Theodoridis e Koutroumbas, 1999; Gonzalez e Woods, 1992). A transformada de Hotelling mapeia as coordenadas do elipsóide xik (em termos dos seus centros vi) para a base RGB yik da seguinte forma:

( ) iikiikiik clusterxvxy ∈−=���

R (10a) onde a matriz de transformação i é obtida a partir dos

autovetores el da matriz de covariância i.

Na técnica PCA comentada acima, i é construída

empilhando-se os autovetores correspondentes aos autovalores e ordenados crescentemente. Não é o nosso caso. Aqui, é suficiente construir i tomando os

autovetores na ordem em que aparecem relativamente ao eixo considerado. Estes autovetores fornecem as direções dos eixos dos elipsóides:

( )iliiT

i eee�

���

,,, 21=R (10b) As covariâncias dadas pelo algoritmo FCM-GK mostram como os grupos estão posicionados no espaço RGB. Se os elipsóides estiverem alinhados com os eixos do sistema externo, a matriz de covariância é diagonal, onde a mesma é dada pelas variâncias individuais σik. Caso contrário, os autovalores λl e autovetores el de -1 (v.

eq. 5a) são obtidos por:

ee��.1 λ=−C (11)

permitindo a orientação dos elipsóides i em relação aos eixos externos j pelos seus cossenos diretores

ij

ijlijl

e

e�=θcos

(12)

onde cada semieixo l possui comprimento (d/√λi)l e os limites dos elipsóides são calculados a uma distância de Mahalanobis dM constante tal que

( ) ( )*

1*

2

12

ikiiT

ikiiM yvyvd������

−−= −CC (13)

Esta distância é comum entre os pontos yik* da superfície do elipsóide e seu respectivo centro vi. Para que o comprimento de cada semieixo seja equivalente à variância do grupo naquela direção, escolhe-se d=1. Com os elipsóides determinados pela variância e orientados pelos autovetores, estes podem ser representados no espaço RGB usando uma formulação paramétrica

ππ

λ

λλ

≤Ψ≤≤Φ≤ΨΦ=

ΨΦ=Ψ=

0

20sinsin

sincoscos

3

3

2

2

1

1

i

iii

i

iii

i

ii

y

yy

(14a) onde yi são as coordenadas do elipsóide em seu próprio espaço, relativamente ao centro vi e as projeções no espaço de atributos xT=(R,G,B) são

���

���

���

���

=���

���

i

i

i

i

i

i

y

y

y

eee

eee

eee

x

x

x

3

2

1

333231

232221

131211

3

2

1

(14b)

Com isto, pode-se mostrar a distribuição de cores da imagem e os elipsóides relativos aos grupos, no espaço RGB. 3.3 - Procedimento para classificação das cores da imagem. Considerando o conjunto de métodos anteriormente descritos, estabelecemos uma seqüência de procedimentos para realizar o agrupamento nebuloso de acordo com o melhor número de grupos e representá-los no espaço RGB. 1) ler o arquivo da imagem, identificando cada ponto pela sua posição e obter sua coordenada RGB de cor; 2) para número de grupos c=2..9 2a) aplicar o algoritmo FCM-GK à lista de valores RGB obtida, até sua convergência. Usamos ε=0.001 e inicialização aleatória de vi; 2b) calcular fator de compactação/separação para o agrupamento realizado; 3) obter o melhor número de grupos proveniente do item 2b); 4) tomar a matriz de covariância obtida para cada grupo e calcular seus respectivos autovetores e autovalores; 5) construir os elipsóides representantes dos agru-pamentos usando as eq. (12), (13) e (14); 6) obter os valores de pertinência relativos a cada grupo decidido no item 3), para cada ponto da imagem; 7) reconstruir uma imagem para cada grupo, onde os pontos apresentam pertinência não-nula; 7a) opcionalmente, as imagens podem ser fundidas em uma só em tons de cinza, onde cada intensidade corresponde aos pixels de um determinado grupo. Detalhes dos objetos são perdidos. Uma imagem contendo seis classes de cores teria seis tons de cinza diferentes apenas. 4. APLICAÇÕES Os procedimentos descritos no item 3.3 foram empregados em imagens coloridas de domínios diferentes: uma cena de ambiente, fotografia aérea, imagem de satélite e uma cena específica de futebol de robôs. Para cada imagem, foi obtido o melhor número de grupos, através do índice S (eq. 8c). Os resultados do agrupamento são mostrados em seguida, com as imagens correspondentes a cada grupo e ainda projeções da

distribuição de cores no espaço RGB com os centros dos grupos. Na seqüência, projeções dos elipsóides, calculados com as matrizes de covariância diagonalizadas. Em todas as imagens foi escolhido o fator de nebulosidade m=1.3 arbitrariamente. Com isto, diante dos aspectos discutidos na seção 3.1, espera-se que apenas os pontos próximos às regiões de separação de cores (em cada imagem particular) apresentem pertinência em mais de uma região. 4.1 - Futebol de robôs A figura 1 mostra uma cena ambiente do campo de futebol de robôs, conforme o campeonato mundial da FIRA (1998), na categoria MiroSot (Costa et al, 1999). O melhor resultado de particionamento foi para seis classes, conforme o índice S, conforme se observa na tabela 1. Na tabela 1, observamos as diferenças entre os valores de pertinência nas duas últimas iterações, após a convergência, e o valor do índice S (eq. 8c) para diferentes números de classes. A tabela 2 mostra a localização dos centros dos grupos na imagem do campo de futebol, obtidos pelo algoritmo FCM-GK. As figuras 2a–c a seguir mostram as coordenadas das cores da imagem da fig.1 no espaço RGB, projetados nos planos RG (fig.2a esq.), BG (fig.2b esq.) e BR (fig.2c esq.). Os pequenos rótulos numerados são projeções dos centros dos grupos obtidos (seis em cada plano). Ao lado direito de cada uma delas, os elipsóides projetados respectivos planos da esquerda. Vale observar que os semieixos dos elipsóides não necessariamente estão paralelos aos planos onde são projetados. Nas figuras 3a–3f visualizamos as imagens obtidas pela separação dos pontos nas seis classes de cores, segundo o particionamento ótimo dado pelo menor valor de S da equação 8c.

Figura 1 - Campo de futebol de robôs.

(2a) (2b)

(2c)

Figuras 2a-c – Esquerda: coordenadas das cores da imagem “Campo de Futebol” . Direita: elipsóides obtidos a partir do algoritmo FCM-GK.

a b c

d e f Figuras 3a–f: classes de cores obtidas pelo FCM-GK.

Tabela 1 - diferença entre a pertinência nas duas últimas iterações e índice S, em função do número de grupos do

algoritmo FCM-GK. Classe ||u-u`|| S

3 0.49956E-04 0.3160 4 0.62447E-04 0.1348 5 0.47611E-04 0.0989 6 0.53097E-04 0.0906 7 0.39597E-04 0.2384

Tabela 2: posições dos centros dos grupos no espaço RGB, da

imagem do campo de futebol. classe R G B

1 214.8 190.5 22.0 2 37.8 112.3 88.4 3 164.5 138.0 71.7 4 143.2 130.2 169.1 5 205.3 219.5 242.7 6 64.9 52.1 75.8

Conclui-se, no caso do campo de futebol, que a separação foi bem nítida, de onde podemos destacar as classes gol, gramado, bolinha, paredes, laterais do campo e partes escuras. No caso da bolinha, aparece também o contorno do gol e as balizas coloridas, que também deveriam ser classificadas com o gol, mas provavelmente sua menor luminosidade não permitiu esta caracterização. Observa-se também que os pares de elipsóides que se superpõe em uma projeção não se sobrepõem em outra, demonstrando que a grande maioria dos pontos foi bem separada no processo de agrupamento. 4.2 - Foto aérea de Brasília. Vista aérea de uma parte residencial de Brasília.(figura 4). Podem-se notar alguns detalhes como telhados, lages de concreto ou telhas de amianto, piscinas

e ruas. Aplicando-se o algoritmo FCM-GK e verificando o melhor número de classes pelo índice S, obteve-se o número ótimo de três classes de cores.

As posições dos centros dos grupos da foto de Brasília são dadas pela tabela 3. As figuras 5a-c seguintes devem ser interpretadas de modo semelhante às figuras 2a-c. As figuras 6a–c são as imagens dos pontos de acordo com a classe de cores a que pertencem.

Figura 4 - Foto aérea de bairro em Brasília.

Tabela 3: centros dos grupos, foto aérea de Brasília.

classe R G B 1 141.4 99.8 89.4 2 68.6 66.3 67.9 3 160.1 166.7 171.7

(5a)

(5b) (5c)

Figuras 5a-c – Esquerda: coordenadas das cores da imagem “Brasília” . Direita: elipsóides obtidos a partir do algoritmo FCM-GK.

a b c Figuras 6a–c: classes de cores obtidas pelo FCM-GK.

Conclui-se nesta imagem que a separação das classes é menos pronunciada que no caso anterior (4.1). Observando-se o espaço RGB das figuras 5a–c, a transição entre cores é bem contínua, não havendo alteração significativa na densidade de pontos ao longo da transição. O poder do algoritmo de agrupamento foi destacado neste caso. O elipsóide maior que aparece nas figuras 5a e 5b inferiores corresponde à classe dos telhados, que pode ser vista na figura 6a. Sua maior variância pode ser explicada pela maior variação de luminosidade, mantendo a cor. 4.3 - Imagem de satélite da cidade do Rio de Janeiro. Esta é uma imagem do satélite Spot10, de baixa resolução, nas bandas 432 (cores naturais). Pode-se notar a lagoa Rodrigo de Freitas e o Oceano Atlântico rodeados por vegetação, como a floresta da Tijuca e morros. As

áreas mais claras correspondem à praia e edificações - nota-se o autódromo de Jacarepaguá. (figura 7) O algoritmo FCM-GK separou três classes de cores, vistas nas figuras 8a–c inferiores e identif icadas como: água, areia+edifícios e vegetação (figuras 9a–c).

Figura 7 – imagem de satélite do Rio de Janeiro.

(8a) (8b)

(8c) Figuras 8a-c – Esquerda: coordenadas das cores da imagem “Rio de Janeiro” . Direita: elipsóides obtidos a partir do algoritmo FCM-GK.

a b c Figuras 9a–c: classes de cores obtidas pelo FCM-GK.

As posições dos centros dos grupos obtidos para a imagem do Rio de Janeiro são dadas na tabela 4. A imagem do Rio possui três cores bem distintas, aproximadamente: azul, verde e branco. Nota-se no espaço RGB que os centros ficaram a uma boa distância entre si, e as variâncias expressas pelos elipsóides estão entre as menores das imagens estudadas neste trabalho. Nota-se um grupo de pontos mais separado nas projeções das figuras 8b e 8c, que corresponde à classe das águas, o azul.

Tabela 4: Posições dos centros obtidos da imagem do Rio de Janeiro

classe R G B 1 46.2 66.9 165.5 2 153.5 157.6 189.8 3 50.6 66.3 72.1

4.4 - Cena ambiente de pimentões. Uma variedade de pimentões, boa iluminação, pode ser vista na figura 10. Devido às suas superfícies lisas, aparecem intensos reflexos, onde a cor fica descaracterizada (saturação no brilho). Neste caso, foram obtidas quatro classes (elipsóides das figuras 11a–c inferiores): dois matizes (vermelho e verde-amarelado) e duas cores com intensidades extremas (branco intenso e sombras). As posições dos centros no espaço RGB são

dadas na tabela 5. O resultado da classificação pode ser observado nas figuras 12a–d, que foram separadas em : a) pimentões verde-amarelados, b) reflexos de luz, c) pimentões vermelhos e d) sombras e partes escuras.

Tabela 5 - Centros das classes de cores da imagem dos pimentões.

Classe R G B 1 146.6 174.3 82.1 2 183.1 201.5 168.0 3 186.0 48.2 40.1 4 85.5 34.4 20.1

Figura 10 – cesta de pimentões verdes e vermelhos. Os vermelhos aparecem em tom cinza mais escuro.

(11a) (11b)

(11c)

Figuras 11a-c – Superior: coordenadas das cores da imagem “Pimentões” . Inferior: elipsóides obtidos a partir do algoritmo FCM-GK.

a b c d

Figuras 12a-d: resultado da classificação FCM-GK dos pimentões por cores.

A exemplo das imagens de Brasília e do campo de futebol, uma classe foi separada devido à sua baixa intensidade. Mas, as classes restantes ficaram bem separadas, o que é evidenciado visualmente pelo contraste entre o verde, o vermelho e o reflexo branco e a distribuição das cores no espaço RGB nas figuras 11a–c inferiores. Nestas mesmas figuras observa-se que os elipsóides são um pouco menores que os das imagens anteriores e estão bem espaçados, mostrando que as classes foram bem determinadas. 5. CONCLUSÕES E TRABALHOS FUTUROS. Os resultados obtidos com o agrupamento nebuloso FCM, com o emprego da distância de Mahalanobis e o cálculo da matriz de covariância, revelaram que seu uso mostrou-se bastante apropriado para a análise de imagens levando em conta o atributo da cor, no espaço de representação RGB. Outros espaços de representação de cores podem ser empregados como trabalho de investigação futura, observando o desempenho do processo de agrupamento nebuloso. Ainda, o comportamento do algoritmo em função da variação do fator de nebulosidade, comparado com os resultados esperados de classificação para cada imagem em particular, é um alvo de investigação para determinar se há alguma dependência do domínio. Em geral, variações suaves na cor dificilmente estão associadas a objetos diferentes na cena, a menos em casos de animais que se camuflam na paisagem, por exemplo. A comparação dos resultados de agrupamento nebuloso com métodos de limiarização (thresholding) também é uma linha de investigação a ser abordada, devido ao fato que estes utilizam a informação associada ao histograma de intensidades. Neste caso, seriam gerados histogramas relacionados a cada componente do espaço de cores individualmente. Mais ainda, ambos os métodos podem ser combinados, explorando-se o melhor de cada um deles. Processos de classificação construindo funções de pertinência sobre os histogramas de componentes de cor já foram experimentados por exemplo, por Ito (Ito et al, 1995) e Bonventi (Bonventi e Costa, 2000), com resultados bem satisfatórios. Entendemos que a exploração do atributo cor deve ser intensificada com o desenvolvimento de novas técnicas e a combinação das já existentes, devido à importância da mesma no processo de visão. REFERÊNCIAS BIBLIOGRÁFICAS. BONVENTI JR., W.; COSTA, A.H.R.; Comparação de

Métodos de Definição de Conjuntos Nebulosos de Cores para Classificação de Pixels. In: I WAICV - WORKSHOP ON ARTIFICIAL INTELLIGENCE

AND COMPUTER VISION; 15TH BRAZILIAN CONFERENCE ON ARTIFICIAL INTELLIGENCE, Atibaia-SP novembro/2000, p.105-110.

CANNON, R.L.; DAVE, J.V.; BEZDEK, J.C.; Efficient Implementation of the Fuzzy c-Means Clustering Algorithms, IEEE Trans. on PAMI, v. PAMI-8, n.2, p.248-255 March 1986.

CHI, Z.; YAN, H.; PHAM, T.; Fuzzy Algorithms: with Application to Image Processing and Pattern Recognition, Advances in Fuzzy Systems – Application and Theory, vol.10, World Scientific Publ. Co. Pte. Ltd., Singapore, 1996

COSTA A.H.R., PEGORARO R., STOLFI G., SICHMAN J.S., PAIT F.M., FERASOLI Fº, H., Guaraná Robot Soccer Team: Some Architectural Issues, 4º SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE, Anais, S.Paulo, setembro, 1999.

GONZALEZ R.C., WOODS R.E., Digital Image Processing, Addison-Wesley Publishing Co., 1992.

GULIATO, D.; Combinação de Algoritmos de Segmentação de Imagens por Operadores de Agregação, Tese de Doutorado, Escola Politécnica da Universidade de São Paulo, Departamento de Engenharia Eletrônica, São Paulo, 1998.

ITO N., SHIMAZU Y., YOKOYAMA T., MATUSHITA Y., Fuzzy Logic Based Non-Parametric Color Image Segmentation with Optional Block Processing, ACM 23RD ANNUAL CONFERENCE ON COMPUTER SCIENCE, Proceedings, 1995, p.119-126.

KIM H.Y., CIPARRONE F.A.M., ANDRADE M.T.C., Technique for Constructing Gray-Scale Morphological Operators using Fuzzy Expert System, Electronics Letters, v.33, n.22, p.1859-1861, october 1997

KLIR, G.J. E YUAN, B.; Fuzzy Sets and Fuzzy Logic, cap. 13, Prentice Hall, New Jersey, 1995.

SALLES E.O.T., LING L.L., Uma Aplicação de Sistemas Nebulosos em Processamento de Imagens, 3º SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO INTELIGENTE, Anais, set/1997, Vitória-ES, p.88-93.

THEODORIDIS, S.; KOUTROUMBAS, K.; Pattern Recognition, Academic Press, San Diego, USA, 1999.

WYSZECKI, G.; STILES, W.S., Color Science: Concepts and Methods, Quantitative Data and Formulae, 2nd. ed., John Wiley and Sons, New

York, USA, 1982.

XIE, X.L.; BENI, G.; A Validity Measure for Fuzzy Clustering, IEEE Trans. of PAMI, v.13, p.841-847, 1991.