Fuzzy Classifiers Tuning Through an Adaptive Memetic Algorithm

8
Abstract— This paper presents a methodological approach for tuning the fuzzy rules of a fuzzy classifier using an adaptive memetic algorithm. The approach is validated over two benchmark problems in terms of classification error and computational effort. In addition, it compares the performance of memetic, genetic and adaptive memetic algorithms over the benchmark problems. These results show a favorable trend towards the tuning of the classifiers through the adaptive memetic perspective. Keywords— Memetic Algorithm, Adaptative, Hyiperheuristic, Classifiers, Fuzzy Systems, tuning, local improvement, Breast Cancer, Wine. I. INTRODUCCIÓN A CLASIFICACIÓN es un problema común en la minería de datos que busca predecir la pertenencia de las instancias de datos a un determinado grupo [17]. Existen diversos métodos de modelado de sistemas clasificadores [4], entre estos se incluyen los sistemas de inferencia difusa (Fuzzy Inference System - FIS) [21]. Los FIS han demostrado ser una solución para modelado de sistemas [8] que al estar basados en reglas permiten obtener modelos de clasificación interpretables lingüísticamente [1]. El modelado de estos sistemas es un reto vigente en la comunidad científica. Las técnicas de ajuste de parámetros de un FIS pueden variar desde el ajuste intuitivo de los parámetros dado por un experto, hasta la búsqueda automática de estos por medio de algoritmos de exploración del espacio solución [5]. Dentro de estos algoritmos se encuentran diversas técnicas de búsqueda local, básicamente relacionados con el gradiente del espacio solución [18]. Por otra parte se encuentran los algoritmos de búsqueda global, como la optimización evolutiva [5]. Los algoritmos basados en evolución social como los Algoritmos Meméticos (MA) requieren menos evaluaciones para encontrar óptimos locales e identifican soluciones de mayor calidad que la evolución genética [7][9]. Este tipo de algoritmos añaden a la búsqueda global de un Algoritmo Genético (GA) una optimización local de los individuos por medio de operadores conocidos como memes [10]. Por otra parte, el Algoritmo Memético Adaptativo (AMA) es una convergencia de diferentes técnicas empleadas para la selección o construcción del meme apropiado para el problema en cuestión [12]. Existen estudios que presentan un C. Murcia, Universidad Distrital Francisco José de Caldas, Bogotá D.C., Colombia, [email protected] G. Bonilla, Universidad Distrital Francisco José de Caldas, Bogotá D.C., Colombia, [email protected] M. Melgarejo, Universidad Distrital Francisco José de Caldas, Bogotá D.C., Colombia, [email protected] soporte conceptual y experimental que muestra la versatilidad de los AMAs en problemas de optimización de funciones [2][12]. Sin embargo, según nuestro conocimiento, en la actualidad no se encuentran reportados estudios del desempeño del AMA ante la optimización de sistemas difusos. Así pues, en este trabajo se realiza una propuesta metodológica para la sintonización de los parámetros de las reglas difusas de un clasificador difuso mediante un AMA. El método propuesto se valida sobre dos problemas clásicos de clasificación. El primero es el problema de Wisconsin Diagnostic Breast Cancer (WDBC) [20] y el segundo es Wine Data Set (Wine) [3]. Igualmente se presenta la comparación del desempeño de la sintonización del FIS mediante MA, GA y AMA. Estos resultados muestran una tendencia favorable hacia la sintonización del clasificador mediante un AMA. Adicionalmente, también se presentan los resultados estadísticos de la tasa de uso de memes en el AMA. La organización del artículo es la siguiente: en la sección II se presentan las consideraciones metodológicas para la sintonización del clasificador difuso por medio del AMA. Las secciones III y IV presentan la descripción de dos problemas de estudio y los resultados de la sintonización mediante GA, MA y AMA. En estas secciones también se hace un análisis del costo computacional en términos del tiempo de ejecución de los tres métodos evolutivos empleados. La sección V muestra un análisis de la tasa de selección de memes en el AMA para los dos problemas abordados. Finalmente, se pueden encontrar las conclusiones de este trabajo en la sección VI. II. CONSIDERACIONES METODOLÓGICAS En esta sección se presentan algunas consideraciones metodológicas para la sintonización del clasificador difuso por medio del AMA. Los lectores interesados en profundizar los conceptos abordados pueden consultar [2][7][10][12][19]. Al manejar el sistema difuso como una función dependiente de parámetros, el problema se trata como un problema de optimización, por tanto tal función es sintonizada por un AMA. En la Fig. 1 se muestra la estructura establecida para la sintonización de los parámetros de las funciones de pertenencia de un sistema difuso usado como clasificador. En esta estructura se consideran componentes como el clasificador difuso, el algoritmo de sintonización, la función de error y la base de datos del problema. Fuzzy Classifiers Tuning Through an Adaptive Memetic Algorithm C. Murcia, G. Bonilla, and M. Melgarejo, Senior Member, IEEE L IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014 197

Transcript of Fuzzy Classifiers Tuning Through an Adaptive Memetic Algorithm

Abstract— This paper presents a methodological approach for tuning the fuzzy rules of a fuzzy classifier using an adaptive memetic algorithm. The approach is validated over two benchmark problems in terms of classification error and computational effort. In addition, it compares the performance of memetic, genetic and adaptive memetic algorithms over the benchmark problems. These results show a favorable trend towards the tuning of the classifiers through the adaptive memetic perspective.

Keywords— Memetic Algorithm, Adaptative, Hyiperheuristic, Classifiers, Fuzzy Systems, tuning, local improvement, Breast Cancer, Wine.

I. INTRODUCCIÓN A CLASIFICACIÓN es un problema común en la minería de datos que busca predecir la pertenencia de las

instancias de datos a un determinado grupo [17]. Existen diversos métodos de modelado de sistemas clasificadores [4], entre estos se incluyen los sistemas de inferencia difusa (Fuzzy Inference System - FIS) [21]. Los FIS han demostrado ser una solución para modelado de sistemas [8] que al estar basados en reglas permiten obtener modelos de clasificación interpretables lingüísticamente [1]. El modelado de estos sistemas es un reto vigente en la comunidad científica.

Las técnicas de ajuste de parámetros de un FIS pueden variar desde el ajuste intuitivo de los parámetros dado por un experto, hasta la búsqueda automática de estos por medio de algoritmos de exploración del espacio solución [5]. Dentro de estos algoritmos se encuentran diversas técnicas de búsqueda local, básicamente relacionados con el gradiente del espacio solución [18]. Por otra parte se encuentran los algoritmos de búsqueda global, como la optimización evolutiva [5].

Los algoritmos basados en evolución social como los Algoritmos Meméticos (MA) requieren menos evaluaciones para encontrar óptimos locales e identifican soluciones de mayor calidad que la evolución genética [7][9]. Este tipo de algoritmos añaden a la búsqueda global de un Algoritmo Genético (GA) una optimización local de los individuos por medio de operadores conocidos como memes [10]. Por otra parte, el Algoritmo Memético Adaptativo (AMA) es una convergencia de diferentes técnicas empleadas para la selección o construcción del meme apropiado para el problema en cuestión [12]. Existen estudios que presentan un

C. Murcia, Universidad Distrital Francisco José de Caldas, Bogotá D.C.,

Colombia, [email protected] G. Bonilla, Universidad Distrital Francisco José de Caldas, Bogotá D.C.,

Colombia, [email protected] M. Melgarejo, Universidad Distrital Francisco José de Caldas, Bogotá

D.C., Colombia, [email protected]

soporte conceptual y experimental que muestra la versatilidad de los AMAs en problemas de optimización de funciones [2][12]. Sin embargo, según nuestro conocimiento, en la actualidad no se encuentran reportados estudios del desempeño del AMA ante la optimización de sistemas difusos. Así pues, en este trabajo se realiza una propuesta metodológica para la sintonización de los parámetros de las reglas difusas de un clasificador difuso mediante un AMA.

El método propuesto se valida sobre dos problemas clásicos de clasificación. El primero es el problema de Wisconsin Diagnostic Breast Cancer (WDBC) [20] y el segundo es Wine Data Set (Wine) [3]. Igualmente se presenta la comparación del desempeño de la sintonización del FIS mediante MA, GA y AMA. Estos resultados muestran una tendencia favorable hacia la sintonización del clasificador mediante un AMA. Adicionalmente, también se presentan los resultados estadísticos de la tasa de uso de memes en el AMA.

La organización del artículo es la siguiente: en la sección II se presentan las consideraciones metodológicas para la sintonización del clasificador difuso por medio del AMA. Las secciones III y IV presentan la descripción de dos problemas de estudio y los resultados de la sintonización mediante GA, MA y AMA. En estas secciones también se hace un análisis del costo computacional en términos del tiempo de ejecución de los tres métodos evolutivos empleados. La sección V muestra un análisis de la tasa de selección de memes en el AMA para los dos problemas abordados. Finalmente, se pueden encontrar las conclusiones de este trabajo en la sección VI.

II. CONSIDERACIONES METODOLÓGICAS En esta sección se presentan algunas consideraciones

metodológicas para la sintonización del clasificador difuso por medio del AMA. Los lectores interesados en profundizar los conceptos abordados pueden consultar [2][7][10][12][19].

Al manejar el sistema difuso como una función dependiente de parámetros, el problema se trata como un problema de optimización, por tanto tal función es sintonizada por un AMA. En la Fig. 1 se muestra la estructura establecida para la sintonización de los parámetros de las funciones de pertenencia de un sistema difuso usado como clasificador. En esta estructura se consideran componentes como el clasificador difuso, el algoritmo de sintonización, la función de error y la base de datos del problema.

Fuzzy Classifiers Tuning Through an Adaptive Memetic Algorithm

C. Murcia, G. Bonilla, and M. Melgarejo, Senior Member, IEEE

L

IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014 197

Figura 1. Diagrama de bloques de la implementación de la solución propuesta. Sintonización de un clasificador difuso por medio de un AMA.

A. Clasificador Difuso El clasificador difuso que se muestra en la Fig. 1 se basa en

el cálculo de una Expansión de Funciones de Base Difusa (EFBD). La EFBD es una descripción compacta de un Sistema de Inferencia Difusa (FIS), en donde la salida se representa como una función dependiente del vector de entrada de la forma y=f(x) [8]. Por medio de este procedimiento sistemático, se transforma un conjunto de reglas lingüísticas en un mapeo no lineal y de la misma manera en un aproximador universal [8][19]. Así pues, los sistemas difusos con Singleton Fuzzification, motor de inferencia producto, defuzzification por promedio de centros y funciones de pertenencia Gaussianas son aproximadores universales [19]. La expresión que corresponde a esta estructura es la mostrada en las ecuaciones (1) y (2).

= = ∑ ∏∑ ∏ (1)

=

(2)

En la ecuación (1) se expresa la EFBD para N entradas y M reglas con una función de pertenencia definida para cada entrada en cada regla. La ecuación (2) corresponde a la función de pertenencia gaussiana para la i-ésima entrada en la l-ésima regla. De la misma manera, se tiene un centro en el consecuente por cada regla.

La complejidad de la EFBD queda definida por el número de entradas y reglas del sistema difuso. El número de entradas N y el número de reglas M definen la cantidad de conjuntos en el antecedente y de centros en el consecuente. Además, cada conjunto se define por medio de los parámetros c y σ que corresponden respectivamente al centro y la desviación estándar de cada función gaussiana. Por tanto, la cantidad de parámetros necesarios para caracterizar la EFBD es definida por (3):

á = 2 ∗ ∗ + (3)

Por otra parte, el clasificador difuso debe entregar un resultado entero que identifique la clase. Para obtener esto a partir de una EFBD con defuzzification por promedio de centros es necesario complementar la estructura con una etapa de adaptación de la salida de la EFBD que redondea el resultado de la inferencia para entregar un número entero a la salida del clasificador difuso [13].

B. Medición de error El desempeño del clasificador se evalúa mediante el

porcentaje de instancias mal clasificadas respecto al total de las instancias tenidas en cuenta (MER – Misclassification Error Rate). De esta manera, la función de error de clasificación MER se calcula como se muestra en (4). = ú ∗ 100% (4)

C. Construcción del agente Para la sintonización de los parámetros del FIS por medio

de un algoritmo basado en evolución como el AMA, es necesario que el conjunto de parámetros que conforman una solución, sea codificado dentro de un vector llamado agente, en el contexto del MA. Este vector representa una configuración de los parámetros de la EFBD mostrados en las ecuaciones (1) y (2). Cada agente representa una configuración del FIS, que determina una posible solución al problema de clasificación abordado.

El tamaño de este vector es determinado por la ecuación (3). Dentro del agente se asigna una posición a cada parámetro y se representa por medio de un número real. En la Fig. 2 se muestra la estructura del vector que organiza los parámetros necesarios para la configuración de la EFBD según las ecuaciones (1) y (2).

D. AMA La evolución memética es una técnica de optimización que

combina la capacidad de búsqueda global de los algoritmos evolutivos (i. e. GA) y las características de búsqueda local de otras técnicas de optimización [10]. El MA canónico consta de una estructura evolutiva similar a la del GA, en donde durante cada generación se aplica un operador de optimización local específico que permite mejorar localmente los agentes [7]. Estos operadores de optimización local son llamados memes.

Los AMAs surgen de una convergencia de diversas técnicas aplicadas a la adaptabilidad del meme en la evolución memética [12]. La principal característica de los AMAs es el uso de múltiples memes en la búsqueda. La decisión de qué meme aplicar a un individuo específico se toma de manera dinámica durante la evolución del MA. De esta manera se promueve la cooperación y competencia entre varios memes enfocados a problemas específicos [12]. La estructura canónica del AMA se muestra en la Fig. 3.

Figura 2. Estructura del agente para la sintonización de parámetros de una EFBD mediante un AMA.

198 IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014

Figura 3. Seudocódigo de un Algoritmo Memético Adaptativo.

Para evaluar el desempeño de cada meme y permitir la competencia entre estos se establece la función de aptitud fmem de la ecuación (5). Esta refleja la efectividad de un operador determinado según la variación del error ante un optimizador local. Por lo cual, entre menor sea el error obtenido respecto al anterior, entonces el valor de aptitud se acerca a uno. De esta manera se logra cuantificar la efectividad de diferentes memes ante un mismo individuo.

= 1 − ó (5)

Existen diversas técnicas de selección de memes, que según la clasificación realizada por Ong et al. [12], se pueden diferenciar en tres importantes perspectivas: Hiperheurística [2], algoritmos multimeme [6] / MA co-evolutivo [15] y MA meta-Lamarckiano [11]. Basados en los resultados del estudio realizado por Ong et al. [12], donde las hiperheurísticas presentan un comportamiento sobresaliente respecto a las otras técnicas, se usa en este trabajo un AMA con técnica de selección por ruleta que corresponde a dicha perspectiva.

E. Operadores de optimización local En el depósito de memes se encuentran diferentes

algoritmos de búsqueda local. Para la solución propuesta se cuenta con tres: Los dos primeros se basan en el algoritmo Hill-Climbing (HC) [14] (Fig. 4). El primero se basa en una perspectiva estocástica (SHC, Stochastic Hill Climbing) que consiste en que el nuevo valor del parámetro es determinado de manera aleatoria. Este algoritmo es el usado en el MA canónico. El segundo optimizador es un algoritmo HC en donde el nuevo valor del parámetro es asignado sumando un número aleatorio entre –paso y +paso al valor actual del parámetro, lo que realiza una exploración discreta. El tercero es un operador basado en el algoritmo de búsqueda Steepest-Descent (SD) o de gradiente descendente [16] (Fig. 5). Este está diseñado para descender en funciones continuas con un paso que está determinado por el gradiente de la región explorada. Para calcular el gradiente se mide la variación del error luego de una modificación.

F. Selección de memes basada en ruleta La técnica de selección de memes basada en ruleta es

similar a la técnica de selección de individuos basada en ruleta de la literatura del GA [2]. Inicialmente se selecciona un agente de forma aleatoria para realizar la evaluación del desempeño de cada meme. Luego se aplica la función de

aptitud de la ecuación (5) sobre cada meme. Posteriormente se asigna una probabilidad en la ruleta proporcional al valor de la función de aptitud de cada meme. Si K es el número de memes existentes y fq el desempeño del q-ésimo meme, entonces la probabilidad de selección pq está dada por (6):

= 1 − ∗ ∑ + (6)

De esta manera, los memes que mejor se desempeñen tienen una mayor probabilidad de ser elegidos. Además se agrega un factor de presión selectiva press que permite asignar un valor mínimo de probabilidad de tal forma que todos los memes tengan una probabilidad de ser escogidos.

III. PRIMER CASO DE ESTUDIO

A. Descripción del problema El problema consiste en realizar el diagnóstico de cáncer de

seno, usando datos numéricos de las medidas morfológicas de los núcleos celulares [20]. Se considera un problema de clasificación ya que en el consecuente se definen dos posibilidades: Maligno o Benigno, sin posibilidad de puntos medios o conjuntos diferentes a estos.

Figura 4. Seudocódigo de un Algoritmo Hill Climbing aplicado a un vector de parámetros. Estructura del algoritmo SHC y HC.

Figura 5. Seudocódigo de un Algoritmo Steepest Descent aplicado a un vector de parámetros.

MURCIA et al.: FUZZY CLASSIFIERS TUNING THROUGH 199

La base de datos [20] provee treinta y dos atributos de los cuales treinta corresponden a mediciones de características morfológicas de los núcleos celulares de las células analizadas, un atributo de identificación del caso, y uno correspondiente al diagnóstico de cada caso. Para cada una de estas características, se presentan tres atributos derivados de los datos del conjunto de células de cada caso: la media, la desviación estándar y el promedio de los tres valores más grandes (mencionados en adelante como “mean”, “SE” y “worst” respectivamente).

B. Parámetros de experimentación Las variables se seleccionan según el grado de separación entre las clases para cada uno de los atributos. De esta manera, si visualmente se aprecia que una variable presenta una mayor distancia entre clases, se espera que dicha variable permita una menor complejidad de la base de reglas del clasificador.

En la Fig. 6 se observa la separación visual que se logra entre las dos clases usando el conjunto de datos de algunos atributos, discriminando el diagnostico. En la Fig. 6(a) se observan los atributos 5 (mean of texture) y 17 (area SE) que no presentan una clara separación entre las dos clases. Caso contrario en la Fig. 6(b) se muestran los atributos 24 (worst of area) y 28 (worst of concave points), donde se nota una más clara separación entre las dos clases. Por tanto, estas dos últimas variables mencionadas fueron seleccionadas como las entradas del sistema difuso. En la Tabla I se muestran el número de instancias para cada clase y las características de configuración del clasificador difuso, el AMA y la función de error.

(a)

(b)

Figura 6. Variables problema de diagnóstico de cáncer de seno discriminando el diagnóstico. (a) Mean of texture vs area SE, (b) Worst of area vs Worst of concave points.

TABLA I CONFIGURACIÓN DE LOS PARÁMETROS DE LOS ALGORITMOS

IMPLEMENTADOS PARA EL PROBLEMA WDBC. Característica EFBD-GA EFBD-MA EFBD-AMA

Número de experimentos 200 200 200 Variables 30(2*) 30(2*) 30(2*)

Número de clases 2 2 2 Instancias por clase 357, 212 357, 212 357, 212 Número de reglas 2 2 2

Número de entradas 2 2 2 Funciones de pertenencia

antecedente Gaussiana Gaussiana Gaussiana

Funciones de pertenencia consecuente Singleton Singleton Singleton

Fuzzification Singleton Singleton Singleton

Defuzzification Promedio de centros

Promedio de centros

Promedio de centros

t-norma Producto Producto Producto Motor de inferencia Producto Producto Producto

Número de generaciones 50 50 50 Tamaño de la población 5 5 5

Codificación real real real Presión selectiva individuos 0.01 0.01 0.01 Presión selectiva operadores N.A. N.A. 0.01

Probabilidad de mutación 0.3 0.3 0.3 Probabilidad de cruce 0.9 0.9 0.9

Función de selección del meme N.A. N.A. Roulet Choice

Función de error MER MER MER *Número de variables usadas.

Para evaluar cómo la selección de memes afecta la

evolución memética canónica se realizaron los experimentos buscando comparar el GA clásico y el MA canónico contra el AMA. La validación de los algoritmos se realizó sobre el 40% del total de casos, es decir 228 casos. Considerando que el algoritmo memético no presenta variaciones considerables de la población luego de 30 generaciones [9], se estableció el número de generaciones en 50 y el tamaño de la población en 5 individuos o agentes. El número de experimentos fue 200.

En la Fig. 6(b) se observa que las dos variables a usar como entradas permiten una distinción entre las clases, por tanto se configuraron los algoritmos buscando que estos generaran una sola regla por cada clase.

El equipo utilizado fue un servidor marca Dell con 4 procesadores six core (24 cores), 256 GB en RAM con sistema operativo Suse Linux 11.4. El software usado para la implementación de los algoritmos fue Scilab 5.3.3.

C. Resultados En la Tabla II, se muestran los estadísticos (media y

desviación estándar) de las pruebas realizadas. Tanto la media como la desviación fueron menores usando el AMA. En el caso de la media se presentó una mejora del 37,37% con el MA y del 53,31% con el AMA con respecto a la obtenida usando el GA. La desviación se mejoró con relación al GA en 66,54% y 77,79% usando el MA y el AMA respectivamente. Al comparar directamente el MA contra el AMA se tiene que este último presentó una mejora de 25,45% en la media y de 33,62% en la desviación.

En la Fig. 7 se observa el desempeño de cada algoritmo en cuanto a número de aciertos de clasificación luego de 200 experimentos. La distribución de los resultados para el GA inicia en 146 y alcanza un máximo de 220 aciertos, en el MA va desde 201 hasta 221 aciertos, mientras que para el AMA

200 IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014

desde 208 hasta 221. El mayor número de aciertos fue 221, valor que no se presentó con GA, y aunque en MA y AMA fue el mismo, para el AMA este resultado se repitió 5 veces, mientras que para el MA tan solo 2. La moda en los resultados del GA fue 16 y se ubicó en 209 aciertos, en el MA fue 20 y se concentró en 214 aciertos y en el AMA fue 26 repitiéndose en 216 y 217 aciertos.

También se puede observar en la Fig. 7 la frecuencia absoluta acumulada de los 200 experimentos. Se muestra la tendencia del AMA de presentar una mayor acumulación de resultados en la zona de mayor número de aciertos, mientras que en el MA se acumula más lentamente comenzando en 201 aciertos y en el peor de los casos está el GA que muestra una acumulación más lenta que los demás algoritmos e iniciando en 146 aciertos, alrededor de 50 menos que el peor resultado del MA y el AMA. Por ejemplo para el caso del 95% de aciertos (217 aciertos) las frecuencias absolutas acumuladas son: 198, 190 y 153 para GA, MA y AMA respectivamente. Esto quiere decir que de 200 experimentos con el GA 198 están por debajo de 217 aciertos, usando el MA 190 experimentos están por debajo de este valor y 153 con el AMA. En cuanto a la evolución del error de clasificación durante las 50 generaciones se puede ver en la Fig. 8 que el error promedio desciende más rápido y mantiene un valor menor con el AMA. Se observa cómo a partir de las primeras 5 generaciones el error se mantiene alrededor del 10% con el AMA, luego de 10 generaciones el error se estabiliza alrededor del 15% con el MA, mientras que el GA muestra un error menos estable y por encima del 20%. Esto indica que el AMA mejora la exploración del espacio de búsqueda.

D. Análisis del costo computacional Para la medición del costo computacional se usa la media y la desviación estándar de la duración de cada generación en segundos. Aunque este factor varía entre equipos computacionales, se parte del hecho que los algoritmos tienen una metodología de programación y codificación idéntica y que se usó el mismo equipo para todos los experimentos, por lo que se puede relacionar esto con el costo computacional. En la tabla III se presentan estos datos estadísticos normalizados con el valor medio de una generación del GA. Se muestra como el costo computacional es mayor en el AMA y de la misma forma este algoritmo presenta una desviación más elevada. Evaluando estos datos se puede decir que el costo del MA está en un orden de casi 7 veces más que el GA y el AMA en casi 18 veces más, para este problema. Al evaluar el AMA con respecto al MA se obtiene que el costo del primero fue casi tres veces mayor.

Aunque el costo computacional en el AMA es considerablemente mayor que en los otros dos algoritmos, este se considera aceptable, teniendo en cuenta que las mejoras en cuanto a media están por encima del 25% y en desviación por encima del 33% con respecto a MA.

TABLA II RESULTADOS ESTADÍSTICOS DE ERROR DE CLASIFICACIÓN

ALGORITMO Media (%) Desviación(%)GA 11,99 5,78 MA 7,51 1,93

AMA 5,60 1,28

Figura 7. Histograma de frecuencias absolutas acumuladas de 200 experimentos vs error de clasificación para GA, MA y AMA.

Figura 8. Evolución promedio del error de clasificación durante 50 generaciones para GA, MA y AMA.

TABLA III RESULTADOS ESTADÍSTICOS DE COSTO COMPUTACIONAL

ALGORITMO Media(%) Desviación(%) GA 1 0,120 MA 6,697 1,886

AMA 17,808 11,273

IV. SEGUNDO CASO DE ESTUDIO

A. Descripción del problema Esta base de datos [3] es el resultado de un análisis químico

realizado al vino producido en una misma región de Italia, pero derivado de tres cultivos distintos. El problema de clasificación consiste en determinar a qué cultivo pertenece una muestra de vino, usando las características químicas obtenidas. Se realizaron 178 pruebas en total de tres clases distintas y se presentan trece de los atributos encontrados en el análisis, además de la clase a la cual pertenece cada vino.

B. Parámetros de experimentación Al igual que en el caso de estudio anterior, se tuvo en

cuenta la separación visual entre clases que presenta cada atributo. En la Fig. 9 se observa la separación que se logra entre las tres clases usando el conjunto de datos de algunos atributos, discriminando la clase. En la Fig. 9(a) se observan los atributos 1 (Alcohol) y 3 (Ash) que no presentan una clara separación entre las dos clases. No así, en la Fig. 9(b) se muestran los atributos 7 (Flavanoids) y 13 (Proline), donde se nota una más clara separación entre las clases. Por tanto, estas dos últimas variables mencionadas fueron seleccionadas como las entradas del sistema difuso. En la Tabla IV se muestra el

MURCIA et al.: FUZZY CLASSIFIERS TUNING THROUGH 201

número de instancias para cada clase y las características de configuración del clasificador difuso, el AMA y la función de error para este problema.

De manera análoga al problema anterior se propone realizar la clasificación sintonizando los parámetros del sistema difuso usando GA, MA y AMA.

(a)

(b)

Figura 9. Variables problema de Vinos discriminando la clase. (a) Ash vs Alcohol SE , (b) Flavanoids vs Proline.

TABLA IV CONFIGURACIÓN DE LOS PARÁMETROS DE LOS ALGORITMOS

IMPLEMENTADOS PARA EL PROBLEMA WINE. Característica EFBD-GA EFBD-MA EFBD-AMA

Número de experimentos 200 200 200 Variables 13(2*) 13(2*) 13(2*)

Número de clases 3 3 3 Instancias por clase 59, 71, 48 59, 71, 48 59, 71, 48 Número de reglas 3 3 3

Número de entradas 2 2 2 Funciones de pertenencia

antecedente Gaussiana Gaussiana Gaussiana

Funciones de pertenencia consecuente Singleton Singleton Singleton

Fuzzification Singleton Singleton Singleton

Defuzzification Promedio de centros

Promedio de centros

Promedio de centros

t-norma Producto Producto Producto Motor de inferencia Producto Producto Producto

Número de generaciones 50 50 50 Tamaño de la población 5 5 5

Codificación real real real Presión selectiva individuos 0.01 0.01 0.01 Presión selectiva operadores N.A. N.A. 0.01

Probabilidad de mutación 0.3 0.3 0.3 Probabilidad de cruce 0.9 0.9 0.9

Función de selección del meme N.A. N.A. Roulet Choice

Función de error MER MER MER *Número de variables usadas.

La validación de los algoritmos se realizó sobre el 40% del total de casos, es decir, 72. Usando las mismas consideraciones que en el problema anterior, para cada algoritmo se realizaron 200 experimentos con 50 generaciones cada uno. Las condiciones de hardware y software empleadas para la implementación de los algoritmos es la misma para los dos problemas tratados.

En la Fig. 9(b) se observa que las dos variables a usar como entradas permiten una distinción entre las clases, por tanto se configuraron los algoritmos buscando que estos generaran una sola regla por cada clase.

C. Resultados En la Tabla V, se muestran los estadísticos (media y desviación estándar) de las pruebas realizadas para este problema. Tanto la media como la desviación fueron menores usando el AMA. En el caso de la media se presentó una mejora del 28,84% con el MA y del 67,31% con el AMA respecto a la obtenida usando el GA. La desviación se mejoró en 46,95% con el AMA, pero desmejoró en un 27,75% con el MA, ambos respecto al GA. Al comparar directamente el MA contra el AMA se tiene que este último presentó una mejora de 54,07% en la media y de 58,48% en la desviación.

TABLA V RESULTADOS ESTADÍSTICOS DE ERROR DE CLASIFICACIÓN

ALGORITMO MEDIA(%) DESVIACIÓN(%).GA 37,18 7,75 MA 26,46 9,90

AMA 12,15 4,11

Figura 10. Histograma de frecuencias absolutas acumuladas de 200 experimentos vs error de clasificación para GA, MA y AMA.

Figura 11. Evolución promedio del error de clasificación durante 50 generaciones para GA, MA y AMA.

202 IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014

TABLA VI RESULTADOS ESTADÍSTICOS DE COSTO COMPUTACIONAL

ALGORITMO MEDIA DESVIACIÓN GA 1 0,140 MA 6,598 1,905

AMA 13,438 5,635

En la Fig. 10 se observa el desempeño de cada algoritmo en cuanto a número de aciertos de clasificación luego de 200 experimentos. La distribución de los resultados para el GA inicia en 32 y alcanza un máximo de 65 aciertos, en el MA va desde 36 hasta 68 aciertos, mientras que para el AMA desde 48 hasta 68. El mayor número de aciertos fue 68, valor que no se presento con GA, y aunque en MA y AMA fue el mismo, para el AMA este resultado se repitió 4 veces, mientras que para el MA tan solo 1. La moda en los resultados del GA fue 24 y se ubicó en 48 aciertos, en el MA fue 14 y se repitió en 47 y 52 aciertos y en el AMA fue 38 repitiéndose en 65 aciertos.

También se puede observar en la Fig. 10 la frecuencia absoluta acumulada de los 200 experimentos. Se muestra la tendencia del AMA de presentar una mayor acumulación de resultados en la zona de mayor número de aciertos, mientras que en el MA se acumula más lentamente comenzando en 36 aciertos y en el peor de los casos está el GA que muestra una acumulación más lenta que los demás algoritmos. Por ejemplo para el caso del 90% de aciertos (65 aciertos) las frecuencias absolutas acumuladas son: 200, 193 y 157 para GA, MA y AMA respectivamente. Esto quiere decir que de 200 experimentos con el GA todos están por debajo de 217 aciertos, usando el MA 193 experimentos están por debajo de este valor y 157 con el AMA. En cuanto a la evolución del error de clasificación durante las 50 generaciones se puede ver en la Fig. 11 que el error promedio desciende más rápido y mantiene un valor menor con el AMA. Se observa cómo a partir de las primeras 5 generaciones el error ya se encuentra cercano al 30% y se mantiene alrededor del 20% después de 30 generaciones con el AMA. Con el MA luego de 10 generaciones el error se estabiliza alrededor del 40%, mientras que el GA muestra un error menos estable y alrededor del 50% después de 30 generaciones.

D. Análisis del costo computacional Para la medición del costo computacional se usa la media y la desviación estándar de la duración de cada generación en segundos. Para este problema se tienen en cuenta los mismos criterios que para el anterior en cuanto a equipos y programación, por cuanto se relacionan estos valores con el costo computacional. En la tabla VI se presentan estos datos estadísticos normalizados con el valor medio de una generación del GA. Se muestra cómo el costo computacional fue mayor en el AMA y de la misma forma este algoritmo presentó una desviación más elevada. Evaluando estos datos se puede decir que el gasto en el MA estuvo en un orden de casi 7 veces más que el GA, y el AMA alrededor de 13 veces más, para este problema. Al evaluar el AMA con respecto al MA se obtuvo que el costo del primero fue más de dos veces el costo del segundo.

(a) (b)

Figura 12. Tasa de uso de cada operador de optimización local. Hill Climbing (HC), Stochastic Hill Climbing (SHC) y Steepest Descent (SD). (a) Caso de estudio Diagnostico de Cáncer de Seno, (b) Caso de estudio clasificación del vino.

En este problema el costo computacional en el AMA también es considerablemente mayor que en los otros dos algoritmos, pero se considera aceptable este, teniendo en cuenta que las mejoras en cuanto a media y desviación están por encima del 50% con respecto a MA.

V. TASA DE SELECCIÓN DE MEMES En la Fig. 12 se muestra el porcentaje promedio de

utilización de cada meme usado por el AMA para los dos problemas. El operador HC fue el más usado con un 49% para el primer caso de estudio y 51% para el segundo, mientras que el menos usado fue SD con tan solo el 10% y 16% para cada problema respectivamente.

Puesto que el método usado para la selección del meme (Roulet Choice) asigna una probabilidad mayor al operador que presenta un mejor desempeño, se puede decir que un mayor uso de un meme indica que este es más adecuado para el problema de referencia. Por esta razón para los dos casos de estudio planteados los operadores basados en HC presentan una mayor tasa de uso que el de SD, por cuanto se asumen más adecuados. Esto puede deberse a la naturaleza de los problemas, es decir, al ser de clasificación no hay una clara tendencia en el cambio del gradiente que permita un adecuado seguimiento de este usando el SD.

Entonces para los dos casos de estudio, se puede decir que el AMA no solo presentó características favorables en la sintonización del clasificador, sino que permitió identificar cuál de los operadores se ajusta más a la naturaleza del problema.

VI. CONCLUSIONES

Se presentó una propuesta metodológica de un AMA basado en hiperheurísticas usado para la sintonización de parámetros de un sistema clasificador difuso para dos problemas de referencia, comparándolo con el desempeño del MA canónico y el GA usados para el mismo fin.

Se identificó que los índices ofrecidos por el AMA pueden ser utilizados para interpretar el desempeño relativo de cada meme respecto al grupo total de memes utilizados.

El AMA presentó resultados superiores al MA clásico en los dos problemas seleccionados, mostrando valores estadísticos favorables en cuanto al desempeño. Los resultados obtenidos muestran una mayor precisión del AMA. Esto se observa en la concentración de resultados en la región de mayor número de aciertos a diferencia del MA donde los

MURCIA et al.: FUZZY CLASSIFIERS TUNING THROUGH 203

resultados se dispersan en un conjunto mayor de posibles resultados incluyendo algunos de un número bajo de aciertos.

Basados en las referencias estudiadas y en los resultados de la experimentación realizada, se observa que los algoritmos AMA permitieron en los casos de estudio mejorar la exploración del espacio de búsqueda.

Se observó que el AMA presenta un costo computacional mayor que el MA canónico. Esto abre espacio para que se busquen estrategias que permitan la reducción del costo computacional.

Como trabajo futuro se espera aplicar esta metodología en la sintonización de clasificadores difusos tipo dos, extendiendo el estudio a otros problemas y algoritmos de optimización local distintos.

AGRADECIMIENTOS Los autores agradecen al Centro de Computación de Alto Desempeño

(CECAD) de la Universidad Distrital Francisco José de Caldas, Bogotá D.C., (Colombia), Facultad de Ingeniería, por su colaboración en el uso y configuración de los equipos computacionales para la ejecución de las pruebas desarrolladas en este trabajo.

REFERENCIAS [1] O. Cordón, “A historical review of evolutionary learning methods for

Mamdani-type fuzzy rule-based systems: Designing interpretable genetic fuzzy systems”, Int. J. Approx. Reasoning 52, 6, pp. 894-913, September 2011.

[2] P. Cowling, G. Kendall, and E. Soubeiga, “A hyperheuristic approach to scheduling a sales summit,” in PATAT 2000, Springer Lecture Notes in Computer Science, pp. 176–190, Konstanz, Germany, Aug. 2000.

[3] M. Forina, et al.. Wine Data Set (Wine). UCI repository of machine learning databases, 1991. Disponible en: http://archive.ics.uci.edu/ml/machine-learning-databases/wine/

[4] J. Han and M. Kamber. “Data Mining: Concepts and Techniques”, 2nd ed. The Morgan Kaufmann Series in Data Management Systems, Chapter 6, March 2006.

[5] H. Hostos, F. Sanabria, O. Mendez, and M. Melgarejo, “Towards a Coevolutionary Approach for Interval Type-2 Fuzzy Modeling”, 2011 IEEE International symposium on advances in type-2 fuzzy systems, Paris, France , April, 2011.

[6] N. Krasnogor, B. Blackburne, J. D. Hirst, and E. K. N. Burke, “Multimeme algorithms for the structure prediction and structure comparison of proteins,” in Parallel Problem Solving From Nature, Lecture Notes in Computer Science, 2002.

[7] N. Krasnogor, J. Smith: “A Tutorial for Competent Memetic Algorithms: Model, Taxonomy and Design Issues”, IEEE Transactions on Evolutionary Computation, 2005.

[8] J. M. Mendel, “Uncertain Rule-Based Fuzzy Logic Systems: Introduction and New Directions”, Prentice-Hall, Upper Saddle River, NJ, 2001.

[9] P Merz, B. Freisleben, “A comparison of memetic algorithms, tabu search, and ant colonies for the quadratic assignment problem”, Evolutionary Computation 1999 CEC 99 Proceedings of the 1999 Congress on, Vol. 3, Issue: Fb 12, Publisher: IEEE Press, pp. 2063-2070, 1999.

[10] P. Moscato, C. Cotta, “Una Introducción a los Algoritmos Meméticos”, Revista Iberoamericana de Inteligencia Artificial. No. 19, pp. 131-148, 2003.

[11] Y. S. Ong and A. J. Keane, “Meta-Lamarckian in memetic algorithm,” IEEE Trans. Evol. Comput., vol. 8, pp. 99–110, Apr. 2004.

[12] Y. S. Ong, M. Lim, N. Zhu, and K. Wong, “Classification of adaptive memetic algorithms: A comparative study”, IEEE Trans. Syst., Man, Cybern. B, Cybern., vol. 36, No. 1, pp. 141–152, Feb. 2006.

[13] C.A. Pena-Reyes, M. Sipper, "Fuzzy CoCo: a cooperative-coevolutionary approach to fuzzy modeling ," Fuzzy Systems, IEEE Transactions on , vol.9, no.5, pp.727-737, Oct 2001.

[14] S. Russell, P. Norvig, “Artificial Intelligence: A Modern Approach” (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, pp. 111–114, 2003.

[15] J. E. Smith et al., “Co-evolution of memetic algorithms: Initial investigations,” in Parallel Problem Solving From Nature—PPSN VII,G. Guervos et al., Lecture Notes in Computer Science, Eds. Berlin, Germany: Springer, vol. 2439, pp. 537–548, 2002.

[16] J. A. Snyman, “Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms”, Springer Publishing, 2005.

[17] Thair Nu Phyu, “Survey of Classification Techniques in Data Mining”, Proceedings of the International Multi Conference of Engineers and Computer Scientists 2009, Vol I, IMECS 2009, March 18 - 20, Hong Kong, 2009.

[18] A. Villate, D. Rincón, y M. Melgarejo, “Sintonización de sistemas difusos utilizando evolución diferencial”, XVIII International Congress of Electronic, Electrical and Systems Engineering. Perú, Agosto, 2011

[19] L. Wang, “A course in fuzzy systems and control”, Prentice-Hall, Inc., Upper Saddle River, NJ, 1996.

[20] W. H. Wolberg, W.N. Street, and O.L. Mangasarian. Wisconsin Diagnostic Breast Cancer (WDBC). UCI repository of machine learning databases, 1998. Disponible en: http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

[21] E. Zhou, A. Khotanzad, “Fuzzy classifier design using genetic algorithms”, Pattern Recognition, Volume 40, Issue 12 , Pages 3401-3414, December 2007.

Cristhian Murcia es Ingeniero Electrónico de la Universidad Distrital Francisco José de Caldas (2012), especialista en Bioingeniería graduado de la Universidad Distrital Francisco José de Caldas (2013). Sus áreas de interés son: Procesamiento digital de señales, bioingeniería y control inteligente.

Gustavo Bonilla es Ingeniero Electrónico de la Universidad Distrital Francisco José de Caldas (2012). Sus áreas de interés son: Telecomunicaciones y computación evolutiva.

Miguel A. Melgarejo (M 2001, SM 2011) es ingeniero electrónico graduado con honores de la Universidad Distrital Francisco José de Caldas (2001), magíster en Ingeniería electrónica y computadores, graduado con honores, de la Universidad de los Andes, Bogotá, Colombia en cooperación con la Ecolé Polytechnique Federale de Lausanne, Suiza (2004). Ha sido investigador del centro de Microelectrónica de la Universidad de los Andes, Colombia e investigador invitado de Logic Systems Laboratory de la Ecolé Polytechnique Federale de Lausanne, Suiza. Actualmente es profesor asociado de la Facultad de

Ingeniería de la Universidad Distrital Francisco José de Caldas, Colombia e investigador adjunto del Laboratorio de Automática e Inteligencia Computacional en la misma universidad. Ha publicado 50 artículos técnicos, dos capítulos de libro y un libro.

El profesor Melgarejo ha servido como miembro del comité de programa del 2008 IEEE World Congress on Computational Intelligence, (2008, 2010) International Conference on Intelligent Computing y 2011 IEEE International Symposium on Advances in type-2 fuzzy systems. Sus áreas de interés son: Sistemas difusos tipo 2, computación evolutiva, sistemas empotrados, procesamiento digital de señales y control inteligente.

204 IEEE LATIN AMERICA TRANSACTIONS, VOL. 12, NO. 2, MARCH 2014