Análisis de redes complejas mediante la teoría espectral de grafos

24
´ Analisis de redes complejas mediante la teor ´ ıa espectral de grafos Autor: Pablo Vicente Mentor: Francisco Escolano, PhD Proyecto final de carrera 2013-2014

Transcript of Análisis de redes complejas mediante la teoría espectral de grafos

Analisis de redes complejas mediantela teorıa espectral de grafos

Autor:Pablo Vicente

Mentor:Francisco Escolano,

PhD

Proyecto final de carrera 2013-2014

1 Introduccion

Mi unica meta a la hora de la eleccion de un proyecto fue, es y sera que sea util.Util para alguien o algo, y a ser posible, ayudar. Con este proyecto se pretendedar un metodo con el que podamos analizar redes complejas, viendo analizarcomo el proceso por el cual se puede obtener mas informacion de ella. Para ello,veremos una pequena evolucion, es decir, de donde viene este metodo y a dondeva. Veremos como discriminar dos grafos en funcion de su espectralidad y esteproceso en su totalidad. El proyecto es una extension de [1].

2 Nociones iniciales

En las sucesivas subsecciones daremos una serie de nociones, con el fin de queel lector tenga una base solida (en el caso de que no la tenga) de los conceptosasociados a este proyecto y pueda comprender, en mayor o menor medida latotalidad del mismo.

2.1 La matriz Laplaciana

La base del proyecto tiene que ver casi en su totalidad con el analisis del es-pectro de un grafo. Por ello, la primera definicion y nocion que se explicarasera la de la matriz Laplaciana y su procedencia. Esta procede de dos matricesbasicas (y triviales), como son la matriz de grado y la matriz de adyacencia.Dado G = (V,E) un grafo no-dirigido donde V son sus nodos y E ⊆ V × Vson sus aristas. Por tanto, la matriz Laplaciana L = D − A esta constituidapor la matriz de adyacencia A de n × n vertices con n = |V |, en donde cadaelemento A(u, v) = 1 si (u, v) ∈ E y 0 en cualquier otro caso, y sus componentesde la diagonal seran la matriz de grado de n×n siendo D(u, u) =

∑v∈V A(u, v).

Segun la teorıa espectral de grafos (la cual referenciaremos a lo largo detoda la documentacion), un grafo no dirigido tiene una matriz de adyacenciasimetrica y, por tanto, tiene autovalores reales (cuyo multiset es denominadoespectro) y un set completo de autovectores ortonormales. Lo cual se verificacon la descomposicion de la Laplaciana L = ΦΛΦT , donde Φ = [φ1|φ2| . . . |φn]es la matriz n×n de autovectores ordeanados en funcion de sus correspondientesautovalores 0 = λ1 ≤ λ2 ≤ . . . ≤ λn, and Λ = diag(λ1λ2 . . . λn). Y completandocon la defincion de matriz laplaciana, mencionamos una serie de propiedades,muy interesantes:

• L es siempre semidefinida-positiva, ∀i, λi ≥ 0;λ0 = 0.

• El numero de veces que aparece un 0 como autovalor, es el numero decomponentes conexas de un grafo

• λ0 es siempre 0 porque toda matriz Laplaciana tiene un autovector v0 =[1, 1, . . . , 1] que, para cada fila, anade el correspondiente grado del nodo aun -1 para cada vecino, y ası tendrıamos que Lv0 = 0.

• El valor mas pequeno, mayor que cero, de los autovalores de L se denomina’spectral gap’. La distribucion de estos gaps es muy importante, ya que laeficiencia del transporte de los caminos cuanticos depende de esta variable.

1

• El segundo autovalor λ2 representa la conectividad algebraica y no hayningun cero pera grafos conexos. Su autovector asociao es denominado elvector de Friedler

• El signo de los elementos que no son cero del vector de Friedler son utilesa la hora de intentar particionar un grafo.

Como dato final, mientras que la matriz de adyacencia depende del etiquetadode sus vertices, el espectro es un grafo invariante. De igual forma, existe isoe-spectralidad, es decir, puede haber un par de grafos distintos y no isomorfos,con la misma espectralidad. Por tanto, y aunque existe la isoespectralidad, usarla teorıa espectral de grafos, es mas robusto que los metodos tradicionales en lamayorıa de los casos.

2.2 Heat Kernel

El heat kernel es la solucion de la ecuacion del calor en un grafo, con la matrizLaplaciana jugando el papel de matriz de conductividad, es decir, controlandoel flujo de calor por las aristas en el tiempo. La matriz n× n que representa alheat kernel serıa tal que ası:

∂Kt

∂t= −LKt, (1)

y depende de la matriz Laplaciana L y del tiempo t. La forma del heatkernel es Kt = e−et. De lo que nos informa el heat kernel es de como fluye lainformacion en una red compleja. El como, de la afirmacion anterior, viene dadapor como evoluciona un camino aleatorio de tiempo continuo (continuous timerandom walk) dado un p0 ∈ Rn evoluciona de la forma pt = Ktp0 , donde pt esel estado del camino aleatorio en el instante t. Ya que la Laplaciana se puedever como L = ΦΛΦT , donde Φ = [φ1|φ2| . . . |φn] es la matriz n× n de autovec-tores ordenados segun sus correspondientes autovalores 0 = λ1 ≤ λ2 ≤ . . . λny Λ = diag(λ1λ2 . . . λn) Por tanto, la descomposicion espectral del heat kerneles Kt = Φe−λtΦT donde e−t = diag(e−1te−2t . . . e−nt), esto es debido a que lalaplaciana y el heat kernel comparte sus autofunciones (autovalores, autovec-tores, etc. . . ) que estan contenidos en Φ. Tanto las columnas, como las filas deΦ definen una base ortonormal1: φTi φj = δij .

La matriz n× n del heat kernel estara formada en cada uno de los vertices,por la probabilidad de que un (lazy) camino aleatorio empiece en i y acabe enj, siendo cada elemento de la matriz Ki,j . En este camino aleatorio cabe laposibilidad de que se que de en el mismo, de ahı la probabilidad lazy.

2.3 Operador de Schrodinger

Mientras que la ecuacion del calor nos describe como el calor es transferido porun sistema o en el, la ecuacion de Schrodinger caracteriza la evolucion de unapartıcula en un sistema2. De hecho, el camino aleatorio de tiempo continuo en un

1Sus elementos son mutuamente ortogonales(su producto escalar es 0, es decir, son per-pendiculares) y normales, es decir, de magnitud unitaria.

2Describe la evolucion temporal de una partıcula masiva no relativista. Es de importanciacentral en la teorıa de la mecanica cuantica, donde representa para las partıculas microscopicasun papel analogo a la segunda ley de Newton en la mecanica clasica.

2

grafo es la solucion a la ecuacion de Schrodinger, con la Laplaciana normalizadajugando el rol de Hamiltoniano. Este operador viene dado por el teorema deStone que establece una correspondencia uno a uno entre la matriz unitaria queesta parametrizada con el tiempo y operador auto-adjunto (Hermıtico) H = H∗tal que existe un unico operador hermıtico satisfaciendo U = eitH . En el casode los grafos H = −L. Por ello, podemos asumir que Ψ = e−itL es una matrizunitaria. En mecanica cuantica, Ψ se suele referenciar como el operador deSchrodinger, la ecuacion de este describe como el vector de estados complejos|ψt〉 ∈ Cn de un camino cuantico de tiempo-continuo varia con el tiempo:

∂|ψt〉∂t

= −iL|ψt〉. (2)

En este sentido, la naturaleza cuantica de la ecuacion de Schrodinger y sussoluciones de valores complejos da pie a multitud de efectos no-clasicos muyinteresantes, incluyendo las interferencias cuanticas. Estas interferencias hansido muy utiles en bastantes aplicaciones, incluyendo la deteccion de si patronessimetricos en grafos vıa los caminos cuanticos de tiempo continuo y el graphembedding3 mediante los commute times4 cuanticos.

2.4 Manifolds o variedad

Un manifold topologicamente es similar, localmente, a un espacio euclıdeo. Demodo intuitivo, los manifolds se pueden ver como una superficie suavizada ycurva embebida en un espacio dimensional superior.

2.4.1 Stiefel

El manifold de Stiefel Vk(Rn) tiene como peculiaridad con respecto a los otrostipos de manifolds (Riemmannian, Finsler, ...), todos los k vectores son linear-mente independientes y ortonormales en Rn.

2.4.2 Puntos de un manifold

Subespacios lineales en RD pueden ser representados como puntos de un man-ifold. En este tendrıamos localmente en los puntos distancias euclıdeas y en lacomparacion de puntos tendrıamos la distancia geodesica, la cual, es propia desuperficies curvas como la esfera y otras superficies curvas no regulares. Es masprecisa en los manifolds que otras distancias. A priori, ya que se ha embebidode una forma concreta, los puntos de este manifold nos daran informacion desu estructura. Ası como cuando, esten mas cerca, seran mas parecidos, cuandoesten mas alejados, seran menos parecidos. Por ası decirlo, cuando utilizamosun manifold, es estandarizar con un metodo las matrices y datos, para poderası compararlos. Las propiedades y beneficios de malear las matrices en unmanifolds son varias:

3Embeber un grafo G en una superficie Σ, es hacer una transformacion desde la repre-sentacion actual en la que esta dicho grafo, hasta la representacion o superficie en la que sepretende que este.

4CT (u, v) es el tiempo que toma a un camino aleatorio llegar desde u a v y volver a u.

3

• Tenemos un espacio matematico, en el cual, se pueden validar los concep-tos.

• Tenemos una propiedad de distancias, denominadas geodesicas, que es ladistancia en las zonas curvas, con las que podemos comparar dos puntosdel manifold, sabiendo lo cerca o lejos que esta. esta distancia se hautilizando, en muchas aplicaciones de reconocimiento de imagenes, conmuy buenos resultados, y robustez.

2.4.3 Principal angles

Angulos principales dan informacion acerca de la posicion relativa entre dossubespacios que coexisten en un mismo espacio. En este proyecto, se usan com-parando dos subespacios mapeados en un manifold, ya que lidiar con subespaciosha resultado ser una forma bastante interesante de manejar redes complejas ala hora de compararlas, ya que nos permite reducir el espacio y dar una infor-macion muy valiosa de ellos.

2.4.4 MDS: Multidimensional scaling

Nos sirve unicamente para visualizar datos que estan en dimensiones superiores a2 o 3. Estos seran incrustados en una supercie 2D o 3D, segun convenga. En esteproyecto nos servira para mostrar como se encuentran repartidos los distintosindividuos de cada clase por el manifold y nos dara informacion de cual es surelacion, evolutivamente hablando (si fuera posible), entre las distintas clases.

2.5 Curvas ROC

El analisis de la curva ROC, o simplemente analisis ROC, proporciona her-ramientas para seleccionar los modelos posiblemente optimos y descartar mod-elos suboptimos independientemente de (y antes de especificar) el coste de ladistribucion de las dos clases sobre las que se decide. La curva ROC es tambienindependiente de la distribucion de las clases en la poblacion.Para dibujar una curva ROC solo son necesarias las razones de Verdaderos Pos-itivos (VPR) y de falsos positivos (FPR). La VPR mide hasta que punto unclasificador o prueba diagnostica es capaz de detectar o clasificar los casos pos-itivos correctamente, de entre todos los casos positivos disponibles durante laprueba. La FPR define cuantos resultados positivos son incorrectos de entretodos los casos negativos disponibles durante la prueba.La diagonal divide el espacio ROC. Los puntos por encima de la diagonal rep-resentan los buenos resultados de clasificacion (mejor que el azar), puntos pordebajo de la lınea de los resultados pobres (peor que al azar), y en la lınea elpuro azar.

3 Heat kernel vs Operador de Schrodinger

Siguiendo la tendencia social a lo cuantico, ası lo hace este metodo. Cuando seencuentra la correlacion entre el heat kernel y el operador de Schrodinger, es unpaso buscar como funciona este metodo en una red.

4

3.1 Validando la evolucion

Las matrices unitarias juegan un papel fundamental en la carcaterizacion deecuaciones de onda complejas, ası como matrices doblemente estocasticas5 actuancaracterizando procesos de difusion. Una matriz compleja U de n × n seraunitaria si U†U = UU† = In, donde U† es la traspuesta conjugada6 que es(A†)ij = Aji. Por tanto, tanto filas como columnas de U provienen de unabase ortonormal en Cn. Ademas, U es, por definicion, una matriz normal yaque se puede conmutar con su conjugada. Como resultado de esto, U es di-agonalizable por medio de la factorizacion U = V ΛV † donde Λ contiene losautovalores complejos de U y V es unitario, y sus columnas contienen los au-tovectores de U . Combinando esta ultima diagonalizacion con la propiedad|det(U)| = 1, tenemos que todos los autovalores complejos de U debe recaer enla unidad del circulo de Argand7. Estos deben ser de la forma eiθ o e−iθ, dondeθ es el angulo de rotacion. Mas precisamente, para Ψt obtenemos la descom-posicion espectral Ψt = Φe−itΛΦT , donde Φ contiene los autovectores de L ye−iΛt = diag(e−iΛ1te−iΛ2t . . . e−iΛnt), los autovalores complejos de Ψt recaen enlos autovalores de la Laplaciana.

Por tanto, la Laplaciana controlan la dinamicidad de ambas funciones anal-izadas, tanto el heat kernel, como el operador de Schrodinger, se puede ver,claramente, en la similitud entras las ecuaciones 1 y 2. Sin embargo, la anteriorsimilitud, puede llevar a engano, pero no es igual debido a que Ψt es un valorcomplejo. La dinamica fısica inducida mediante la ecuacion de Schrodinger es,por tanto, totalmente diferente a la de la ecuacion del calor, debido a la exis-tencia de oscilaciones e interferencias.

3.2 Diferencias

En este proyecto nos cuestionamos la utilidad del operador de Schrodinger paracaracterizar la estructura de un grafo, en este caso en un dataset, bastante com-plejo, de proteınas y sus relaciones. Analisis empıricos en diferentes estructurasde grafos muestran como ambos metodos mostrados evolucionan con el tiempoy muy dependientes de la estructura del grafo. Sin embargo, ambos muestranprocesos subyacentes distintos. En el caso del heat kernel, el calor fluye y sedifunde entre los nodos mediante las aristas, y, de vez en cuando, crean enlacestransitivos8, hasta que se llega un estado de equilibrio. Por otro lado, el oper-ador de Schrodinger define una onda que produce una rapida progacion de laenergıa por el sistema. Ademas, debido a los componentes negativos de las am-plitudes complejas (o imaginarias), se crean interferencias, produciendo ondasenergeticas. La mayor diferencia existente, es que el operador de Schrodinger,por definicion, no tiene lımite, en otras palabras es, no ergodico, nunca llega aun estado de equilibrio. La conectividad en un grafo impone restricciones enla distribucion de energıa. En el caso del heat kernel, un mayor numero de

5Es una matriz cuadrada donde todos los valores son no negativos y todas las filas ycolumnas suman 1.

6Primero se hace la traspuesta y despues la conjugada compleja, que es negar la parteimaginaria de cada miembro, pero no la real.

7Puntos complejos en un plano complejo. En la formula z = x + iy, x serıa la parte real yeje real, e y serıa la correspondiente al eje imaginario.

8Se crean enlaces entre nodos que no estan conectados directamente por una arista

5

restricciones en la distribucion de energıa implica la creacion de mas enlacestransitivos. Esto era contrario a lo que se pensaba, ya que, se creıa, que unamayor conectividad en el grafo, llevaba a un esparcimiento de la energıa, tal ycomo era esperado. Pero no es ası.

3.3 No ergodicidad

Para explorar la ergocidad del operador de Schrodinger, consideramos tantosu descomposicion espectral Ψt = Φe−itΛΦT , como la del heat kernel Kt =Φe−tΛΦT que es

Ψt =

n∑k=1

e−itλkφkφTk and Kt =

n∑k=1

e−tλkφkφTk , (3)

donde λk es el k-esimo autovalor de la Laplaciana L y φk su correspondienteautovector. Por tanto, ambos operadores estan definidos por sus autofunciones(eigenfunctions) de la Laplaciana, pero de una manera muy diferente. La de-scomposicion espectral del heat kenel nos muestra que esta dominado por losautovalores mas bajos, debido al hecho de limt→∞ e−tλk = 0. Sin embargo,el lımite de e−itλk = cos(tλk) − i sin(tλk) cuando t tiende a infinito, no estadefinido. Por ello, hay dos importantes diferencias con el heat kernel. Primer-amente, el operador de Schrodinger nunca converge (no ergodico), y segundo,no esta dominado por ningun autovalor en particular. Esto es consiste con lafısica de ondas, desde que el operador de Schrodinger es una combinacion linealde ondas.

3.4 El operador en el tiempo

El compartomiento del operador de Schrodinger con tiempos t pequeos y grandesresponde a diferentes aspectos de las estructuras de grafo. A bajos t, las restric-ciones de aristas contenidas en la Laplaciana dominan (columna de la izquierda,figura 1). A t alto, por otro lado, es la estructura del camino el que domina(columna derecha y medio, figura 1). Ademas, los dos aspectos pueden ser ex-plicados por el hecho de que amplitudes mas largas ocurren en altas frecuenciasbajas. Mas exactamente, cada entrada Ψt(u, v) es descrita por un combinacionlineal de rotaciones complejas:

Ψt(u, v) =

{ ∑nk=1 e

−iλktφk(u)φk(v) if u 6= v∑nk=1 e

−iλktφ2k(u) en otro caso .

(4)

Dado zk(u, v) = φk(u)φk(v), si u 6= v y zk(u, v) = φk(u)2, en caso contrario.En este caso zk(u, v) ∈ R para cada valor recae en el autovector k−esimo φk dela Laplaciana. Desde

|Ψt(u, v)|2 =

n∑k=1

n∑l=k

zk(u, v)zl(u, v)2 cos(t(λl − λk)) (5)

tenemos que

limt→0|Ψt(u, v)|2 = 2

n∑k=1

n∑l=k

zk(u, v)zl(u, v) (6)

6

Figure 1: Evolucion con el tiempo (t = 1, 25 y 100). De arriba a abajo: heatkernel para un grafo linea de 100 nodos, operador de Schrodinger para un grafolinea de 100 nodos, operador de Schrodinger para un grafo circular de 100 nodos,operador de Schrodinger para un grafo rejilla de 10×10 con conectividad de 4 ve-cinos y operador de Schrodinger para un grafo rejilla de 10×10 con conectividadde 8 vecinos. (Cortesıa de Francisco Escolano)

7

0 50 100 150 200 250 300 350 4000

2

4

6

8

10

12

LAPLACIAN EIGENVALUES

CIRCLE

GRID 4N

GRID 8N

LINE

0 1 2 3 40

500

1000

1500

2000

2500

CIRCLE

0 1 2 3 40

500

1000

1500

2000

2500

LINE

0 2 4 6 80

500

1000

1500

2000

2500

GRID 4N

0 2 4 6 8 10 120

500

1000

1500

2000

2500

3000

GRID 8N

Figure 2: Espectro de potencias del operador de Schrodinger para diferentesgrafos de 400 nodos en t = 25: grafo circulo (bucle) (arriba-izquierda), grafolinea (arriba-medio), grafo rejilla 20×20 con conectvidad con 4 vecions (abajo-izquierda) y grafo rejilla de 20×20 con conectividad con 8 vecinos. Para losultimos grafos tambien se muestra las el espectro (arriba-derecha) y la multipli-cidad para cada valor de ∆kl (abajo-derecha).

alcanza la maxima amplitud en (u, v), ya que zk(u, v) y zl(u, v) son independi-entes del tiempo. Cuanto mas aumenta la diferencia λI − λk, independientesdel tiempo, aumenta su importancia.

Ellos definen una menor o igual amplitudes y la frecuencia caracterısticacontenida en la onda emergente, como se esperaba. Bajas amplitudes de ondadominan debido al orden de los autovectores de la Laplaciana 0 = λ1 ≤ λ2 ≤. . . ≤ λn, aunque, hay siempre n terminos donde λl = λk. La ultima propiedades preservada, siempre y cuando, el grafo sea conexo.

3.5 Power Spectra9 del operador de Schrodinger

La transformada de Fourier discreta (DFT) de la magnitud al cuadrado deloperador de Schrodinger Ψt es

Ft(ωu, ωv) =

n∑u,v=1

|Ψt(u, v)|2e−i(ωuu+ωvv)

=

n∑u,v=1

n∑k=1,l=k

Zklδ(t∆kl − (ωuu+ ωvv))+

n∑k=1,l=k

Zklδ(t∆kl + (ωuu+ ωvv))

, (7)

donde ωu y ωv son frecuencias angulares, ∆kl = λl−λk ≥ 0, Zkl = zk(u, v)zl(u, v),y δ(.) es la funcion delta de Dirac10 resultante de la transformada de Fourier

9El espectro de una serie dependiente del tiempo x(t) describe como la varianza de losdatos de x(t) esta distribuida por los componentes de la frecuencia, entre los que x(t) puedeser descompuesto

10Es una distribucion que define un funcional en forma de integral sobre un cierto espaciode funciones.

8

de 2 cos(t(∆kl)) = eit∆kl + e−it∆kl para k = 1, . . . , n, l = k, . . . , n. Despues decambiar tenemos que la amplitud At(ωu, ωv) = |Ft(ωu, ωv)| viene dada por lapuesta en comun de los valores correspondientes a

∑nk=1,l=k Zkl en cada punto

(u, v) perteneciente a las lineas t∆kl = ωuu+ ωvv (t∆kl nos informan de la dis-tancia al origen y el vector [ωu, ωv]

T es perpendicular a la direccion de la linea).Por tanto, la distribucion energetica viene determinada por el espectro de laLaplaciana, que define los gaps11, y sus autovectores que definen los valores de∑nk=1,l=k Zkl.En Fig. 2 se muestra como el power spectra del operador de Schrodinger para

versiones escaladas de los grafos analizados en Fig. 1. Estas imagenes muestrancon claridad las rejas de difraccion (patrones de interferencia).

3.5.1 Patrones de difraccion

En teorıa de difraccion, aparecen patrones de interferencia cuando una ondaestan atrapadas por aristas. Interferencias constructivas y destructivas apare-cen produciendo franjas claras y oscuras alternativamente, que aparecen desde elcentro (Experimento de Young12). La distribucion del llamado pico de Bragg13

(asociado a las interferencias constructivas) recae tanto en la longitud de onda,como el numero y espaciado entre los ’gaps’, tambien depende del angulo deincidencia. Las franjas se agudizan, por ejemplo, como cuando incrementa elnumero de ’gaps’, pero, en este caso, estos estan caracterızados por una cadavez menos significativa, maxima de intensidad. En cristalografıa de rayos X, lainterdependencia entre la distribucion espacial de los atomos, las propiedadesde la luz incidente y los patrones de difraccion son explotadas para inferir ladensidad tridimensional de los electrones en un cristal, ası como para resolverla estructura de moleculas organicas como proteınas. Cuando aplicamos es-tas ideas a la caracterizacion de estructuras topologicas puras como grafos,se dieron cuenta que el operador de Schrodinger daba de una forma naturauna codifacion de las ultimas interdependencias: la exponenciacion complejadel Halmitoniano (Laplaciana negativa) produce una ecuacion de onda deter-minada completamente por su espectro y autovectores del Hamiltoniano antesmencionado. Ademas, hay una correspondencia entre los patrones de interferen-cia y la transformada de Fourier. De hecho, la transformada de fourier (Eq. 7)tiene la misma forma que una abertura usada en la difraccion de Fraunhofer:a[δ(x−S/2)+δ(x+S/2)] donde S es la distancia entre las dos franjas. Esto nosda una interpretacion de A[δ(t∆kl−(ωuu+ωvv))+δ(t∆kl+(ωuu+ωvv))] dondeA =

∑nu,v=1

∑nk=1,l=k Zkl en orden de satisfacer las restricciones topologicas,

se producen picos de Bragg. In el caso estudiado, el rol de las rendijas estarepresentado por el espectro (mas exactamente por los espacios creados ∆kl) ylos autovectores de la Laplaciana. Estos determinan que frecuencias (energıasen las potencias del espectro) pueden ser vistas en el patron de difraccion.

11Generalmente se refiere a la diferencia de energıa entre dos bandas en semiconductores.Tambien se suele ver, como el salto de energıa necesario para que un electron cambie deposicion.

12Es el experimento moderno para la doble rejilla, que demuestra que la luz y la materiapuede mostrar caracterısticas, tanto en forma de onda, como en forma de partıcula. Ademasmuestra la naturaleza probabilıstica del fenomeno de la mecanica cuantica.

13Bragg’s peaks es un pico pronunciado en una curva Bragg que muestra la perdida deenergıa de la radiacion ionizada durante su viaje por la materia

9

De hecho, en los grafos anillo Fig. 2 (arriba-izquierda) muestra como ladistribucion de la energıa puede ser llevado a tender a 0 = u+ v. Para un grafolinea (arriba-medio) tenemos una distribucion mas rica, aunque el grafo lınea yel grafo cırculo (o anillo) son casi isoespectrales. Grafos rejillas estan dotadoscon aun mas y mas ricos patrones de difraccion (mayor rango de autovalores).

La racionalizacion anterior se puede resumir de la siguiente forma. Losgrafos producen patrones en las espectros de potencia impuestos por sus Lapla-cianas (autofunciones y demas). Esta intuicion llega desde la fısica, por tanto, elanalisis del operador de Schrodinger puede se presentado para analizar su espec-tro de potencias, para ası, estar en la capacidad de explicar, correctamente, dichadistribucion de sus diferentes amplitudes de frecuencia y sus distintos significa-dos. Hasta ahora, hemos presentado y explicado la interpretacion geometrica.En este sentido, es clave encontrar la relacion entre las anisotropıa14 en los es-pectro de potencias y la falta de regularidad en la estructura. Esa anisotropıaes meramente contemplada en los, bien conocidos, modelos de caracterizacionde holıstica imagenes. Sin embargo, aunque los modelos existentes de carac-terizacion de imagenes no son directamente aplicables para describir patronesde difraccion basados en grafos, la metodologıa subyacente (incluyendo autoes-pacios (o subespacios) creados por PCA/SVD15 puede ser extendida para con-seguir incorporar a la anisotropıa. Con el fin de hacer eso vamos a explotar lanaturaleza espacio-temporal del operador de Schrodinger.

3.5.2 Caracterizacion del espectro de potencias espacio-temporal deSchrodinger

La evolucion temporal del operador mencionado en un grafo, produce una se-cuencia de patrones de difraccion anisotropicos potenciales. Patrones como esoscontienen informacion deslocalizada acerca de la onda de propagacion, desdeel inicial bajas frecuencias/grandes amplitudes hasta las subsecuencias emer-gentes de los caracterısticos altas frecuencias y pequenas amplitudes. DadoF(ωu, ωv, ωt), la transformada de Fourier discreta espacio-temporal de |Ψ(u, v, t)|2.Es lo mas correcto extender Eq. 7, para incluir la variacion de tiempo. Comose esperaba, despues de desplazar la transformada, tenemos que las amplitudesA(ωu, ωv, ωt) = |f(ωu, ωv, ωt)| vienen dadas de la puesta en comun los val-ores, recayendo en

∑nk=1,l=k Zkl en todos los puntos (u, v, t) pertenecientes a los

planos t∆kl = ωuu+ωvv+ωtt , o equivalentemente 0 = ωuu+ωvv+ωt(1−∆kl)t.Por tanto, todos los planos pueden ser desplazados de tal forma que, su offsetes cero y su pendiente negativa es la dominante. Ademas, al ser los ’gaps’ ∆kl

independientes del tiempo, las frecuencias escaladas temporalmente ωtt puedenser traducidas como offsets en las restricciones espaciales t∆kl = ωuu + ωvv.Esos offsets, son necesarios para explicar el comportamiento espacio-temporaldel operador de Schrodinger. Mas exactamente, para t > 0 y ωt 6= 0 solo las con-tribuciones

∑nk=1,l=k Zkl en (u, v, t) donde (u, v) no satisfacen t∆kl = ωuu+ωvv

son tomadas en cuenta para computar las amplitudes A(ωu, ωv, ωt).

Un caso particularmente interesantes del ultimo razonamiento es la union de

14Es la propiedad general de la materia segun la cual cualidades como: elasticidad, temper-atura, conductividad, velocidad de propagacion de la luz, etc. varıan segun la direccion enque son examinadas.

15Son tecnicas utilizadas para reducir la dimensionalidad de un conjunto de datos.

10

20 40 60 80

50

100

150

20 40 60 80

50

100

150

20 40 60 80

50

100

150

20 40 60 80

50

100

150

20 40 60 80

50

100

150

20 40 60 80

50

100

150

20 40 60 80

50

100

150

0

0.02

0.04

−0.04

−0.02

0

0.02

−0.04

−0.02

0

0.02

0.04

−0.04

−0.02

0

0.02

0.04

−0.05

0

0.05

−0.05

0

0.05

−0.06

−0.04

−0.02

0

0.02

0.04

20 40 60 80

50

100

150

−0.2

−0.1

0

20 40 60 80

50

100

150

−0.1

−0.05

0

0.05

20 40 60 80

50

100

150

−0.05

0

0.05

Figure 3: Espectro de potencias espacio-temporal del operador de Schrodingerpara un grafo rejilla de 20×20 con conectividad con 4 vecinos. Arriba-izquierda:Planos ωu = 0, ωv = 0, ωt′ = 0. Arriba-centro/derecha: se detalla ωt′ = 0 yωt′ = 3 mostrando lineas agrupadas paralelamente. Abajo-izquierda: coorde-nadas esfericas de las amplıtudes logarıtmicas. Abajo-derecha: los 10 autovec-tores principales del espacio θ − φ.

las amplitudes de (u, v) que satisfacen las restricciones que son ortogonales a lasrestricciones espaciales. De hecho, en Fig. 3 (arriba-izquierda) se muestra comolas amplitudes logarıtmicas espacio temporales para los planos wu = 0, wv = 0y wt′ = 0 donde t′ = t − T/2 siendo [0, T ] el intervalo temporal de analisis.El grafo analizado es un grid de 20 × 20 con conectividad de 4 vecinos. EnFig. 3 (arriba-centro/derecha) se muestra , respectivamente, los planos ωt′ = 0y ωt′ = 3. Ambos estan caracterizados por altas amplitudes logarıtmicas enlineas wv = wu ± k, con k ≥ 0, que son ortoganales a esos con un grado similarde union en un t′ particular (Fig. 2 (abajo-izquierda)). La union mas alta esobtenida en k = 0, que sera wu = wv, y este decrece cuando lkl aumenta. Estoocurre por sign(ωu) = sign(ωv), en otros casos, tendremos el caso contrario:amplitudes logarıtmicas aumenta con lkl (en ωt′ = 0 ese incremento esta masespacialmente restringido que en ωt′ = 3).

Una vez que el rol de las frecuencias temporales esta claro, es convenientecambiar el sistema de coordenadas para obtener una mejor visualizacion delas asimetrıas angulares en el domino espacio-temporal (anisotropıa). Dado(ωu, ωv, ωt) y sus coordenadas esfericas vienen dadas por (r, θ, φ) donde r =√ω2u + ω2

v + ω2t es el radio, θ = tan−1(ωv

ωu), −π ≤ θ ≤ π es el angulo del aziumto

en el plano ωu−ωv y φ = cos−1(ωt

r ), −π2 ≤ φ ≤π2 es el angulo de elevacion. Por

tanto, r codifica la magnitud de las frecuencias espacio-temporales, θ referenciaa la relacion entre las frecuencias espaciales y φ muestra la importancia de lasfrecuencias temporales. Ademas, para un par αs = (θ, φ) dado, el espectro depotencias A(αs)

2 decae con r y esa misma caıda no conlleva, en general, a una

11

’power law’16. Ası mismo, para αs+∆ = (θ + ∆, φ + ∆), con |∆| > 0 lo maspequeno posible, tenemos que A(αs+∆)2 difiere significativamente de A(αs)

2 enel caso general (anisotropıa direccional).

3.5.3 Mapeado en un manifold

En Fig. 3 (abajo-izquierda) se muestra el espacio r− θ− φ para las amplitudeslogarıtmicas de un grafo rejilla de 20×20 con conectividad de cuatro vecinos. Larepresentacion es simetrica con respecto al eje de elevacion θ = 0 y es periodicocon respecto al eje del azimuto φ = 0. Por tanto, para una mejor eficienciacomputacional se puede definir un θ − φ espacio elevacion-azimuto discretomediante la definicion de la siguiente limitacion: θ ∈ [0, π/2], φ ∈ [0, π]. Dichoespacio conlleva frecuencias espaciales y temporales. Ademas, para cada radiodiscreto r ∈ [0, rmax], donde rmax = n/2, en todas las coordenadas del espacioparametrico θ−φ. Haciendo uso de PCA/SVD en el set de espacios de muestrasS = {Xr} los principales autovalores λ1 ≥ λ2 ≥ . . . ≥ λp con p � d, donded = δθ × δφ es el numero de celdas, codifica el grado de anisotropıa direccional.Sus d−dimensional autovectores asociados u1, u2, . . . , up definen un punto U =[u1 u2 . . . up] en un manifold de Stiefel St(p, d) = {U ∈ Rd×p : UTU = Ip}(explicado en las nociones basicas). En la Fig. 3 (abajo-derecha) se muestra losprimeros autovectores p = 10 que definen el punto de Stiefel asociado al graforejilla de 20 × 20 4N. Dada la estructura espacial de amplitudes lograrıtmicasen coordenadas esferericas, detalles globales aparecen cerca de π/2 en el eje delazimuto, mientras que los detalles locales destacan en valores bajos.

La consistencia matematica de los manifold de Stiefel viene dada por es-tructura matematica de Rienmann y, por ello, es mas conveniente definir dis-imilitudes frente a distancias Euclıdeas o de Frobenius. Una de las posiblesdisimilitudes la podemos encontrar en el concepto de ’angulos principales’,que, dado dos puntos U y V en un manifold St(p, d) los angulos principales0 ≤ θ1 ≤ θ2 ≤ . . . ≤ θp ≤ π/2 entre ambos subespacios (puntos en un manifold)Span(U) y Span(V ) satisface:

cos(θi) = maxai∈Span(U)

maxbi∈Span(V )

= aTi bi

s.t. : ||ai|| = ||bi|| = 1

aTi aj = 0, j = 1, 2, . . . i− 1

bTi bj = 0, j = 1, 2, . . . i− 1 .

(8)

Por tanto, θ1 viene dado por el maximo coseno aT1 b1 = uT∗ v∗ entre las columnasde u y V ; θ2 ≥ θ1 depende de aT2 b2, donde aT2 a1 = 0, bT2 b2 = 0 y ası sucesiva-mente. Cosenos cos(θi) son valores singulares de UTV y la distancia geodesicaentre U y V que viene dada por ||Θ|| donde Θ = [θ1 θ2 . . . θp]. En este proyecto,dados dos grafos GX = (VX , EX) y GY = (VY , EV ) y los puntos de StiefelUX y UY derivan de los subespacios creados como los espectros de potenciasde Schrodinger espacio-temporales. Estos puntos seran los que se utilizaranpara clasificar los elementos de los datasets utilizados, para ello utilizaremos

16Es una relacion funcional entre dos cantidades, donde una cantidad varıa como potenciade la otra, es decir, unos pocos dominan a muchos, tal y como se aprecia en redes sociales.

12

angulos principales, que nos cuantifica la diferencia entre dos subespacios de unmanifold, y por tanto, de dos grafos.

4 Experimentacion

4.1 Dataset

Aunque el trabajo es eminentemente conceptual, esto es, se han tenido que asim-ilar unos conceptos bastante complejos, los cuales, probablemente, no quedenreflejados en esta memoria, existe una experimentacion para probar la cantidadde situaciones y la evolucion que se ha ido dando este proyecto. Por ello, loprimero que se tuvo que hacer fue un pequeo repaso a la plataforma Matlab,que sera la cual se utilice a lo largo de esta experimentacion.

Para todas las pruebas se ha utilizado una base de datos [2] de HistidineKinase PPIs17 en la cual aparecen estas clases (segun orden evolutivo):

• AquifexAndThermotoga: Aquifex (4 PPIs), Thermotoga (4PPIs), unidosen una.

• Staphylococcus aureus (Gram Positive, 52 PPIs).

• Anabaena variabilis (Cyanobacteria, 73 PPIs).

• Acidovorax avenue (Proteobacteria, 40 PPIs).

• Ellin345 (Acidobacteria, 46 PPIs).

4.2 Objetivo

Con todos los experimento que se van a exponer, lo que se pretende es vercomo se clasifican y se parecen cada una con la otra con los distintos metodospropuestos en este proyecto. Por lo tanto, se hablara de, si tiene logica que,evolutivamente hablando, esten mas cerca a la hora de mostrarlo embebido enuna superficie para que se vean todos las redes.

El codigo utilizado fue compartido por Francisco Escolano, y a partir deeste, se ha ido aumentado, en funcion de las necesidades y experimentos parafinalmente comprobar si se clasificaban correctamente.

El mayor problema que ha existido, a lo largo de la experimentacion, hasido encontrar un t (tiempo en seg) en el cual se pare el algoritmo, que calculala magnitud espacio-temporal del espectro del operador de Schrodinger. Yaque, si se cortase prematuramente, la oscilacion del operador, no obtendrıamossuficiente informacion para caracterizar y clasificar correctamente esa red (PPI).Por el contrario, si alargaramos demasiado, al volver a oscilar, de nuevo, por losdistintos nodos, unicamente anadirıa ruido, y la clasificacion se desvirtuarıa. Heaquı que el principal problema que se haya intentado subsanar haya sido este.

17Son relaciones proteına-proteına, donde estas proteınas son las llamadas histidina-quinasa.Las cuales, en respuesta a un estımulo, se autofosforila en un residuo de histidina para despuestransferir esa senal quımica a un residuo de Aspartato en otra proteına llamada proteınareguladora de respuesta.

13

Para encontrar este t, ha habido multitud de pruebas (que se relataran enesta experimentacion), prueba y error, aleatorio, visualizacion de como dis-minuye la eficiencia con el tiempo y seleccionar un valor aproximado, maximaeficiencia (distinto de t=1), mınima eficiencia, etc. . . .

Las primeras comparaciones fueron dos a dos y, posteriormente, se paso acomparar todos con todos.Para entender estos resultados podemos hacer uso de Fig. 4 donde se muestranlos resultados de 0 a 1, siendo 0 donde hay menos diferencia, y 1 donde haymas.

Figure 4: Ayuda para interpretar los datos.

4.3 Comparaciones dos a dos

Para entrever y poder intuir una aproximacion del metodo aplicado al datasetmencionado, lo primero que se hizo fue una comparativa dos a dos, con el finde obtener una aproximacion de como quedarıan evolutivamente dos a dos.El fin ver como se parecıan, con lo que si quedaran muy alejados, estarıanevolutivamente lejos y, en caso contrario, cercanas.

4.3.1 AquifexAndThermotoga y Staphilococcus

Para ver esta comparacion observaremos tanto la distancia entre cada uno de losindividuos de las clases, que sera la imagen de la parte izquierda, y para verlomejor, lo incrustamos en una superficie con MDS. Del 1 al 52 esta Staphilococcusy de 53 a 60 AquifexAndThermotoga en la Fig. 5. Analizando bien las imagenes,observamos como AquifexAndThermotoga varios la mayorıa individuos se pare-cen mucho y estan muy cerca. Por otro lado, se producen varios cumulos en laclase de Staphilococcus. Uno de estos (mas o menos, de 1 a 30), se parece y seacerca a la clase AquifexAndThermotoga. Con lo que podremos decir, que estacerca, pero no demasiados proximos.

Figure 5: Izquierda: Distancia entre individuos de las dos clases. Derecha: MDSde estos individuos.

14

4.3.2 Anabaena y Staphilococcus

La comparacion de distancias del 1 al 52 esta Staphilococcus y de 53 a 125Anabaena en la Fig. 6. Junto a eso y el mds obtenido de mapear los indviduos deestas clases en una superficie 2D, podemos dirimir, que aunque se forman variasaglomeraciones (parecidos), estan bastante cerca, evolutivamente hablando. Noexistirıa ninguna separacion logica aparente en la superficie 2D, con lo quepodrıamos dirimir lo anterior.

Esto tiene mucho sentido ya que Anabaena es una cianobacteria y Staphy-lococcus es una firmicute, y son muy parecidos con respecto a su secuenciagenomica. [3]

Figure 6: Izquierda: Distancia entre individuos de las dos clases. Derecha: MDSde estos individuos. 1 al 52 esta Staphilococcus y de 53 a 125 Anabaena

4.3.3 Anabaena y Acidovorax

Comparacion de distancias del 1 al 73 esta Anabaena y de 74 a 113 Acidovoraxen la Fig. 7. Al contrario, que en el caso anterior, podemos apreciar, comodos grupos importantes de individuos son muy parecidos y se agrupan, difer-enciandose de los demas, gran parte de ellos, son Acidovorax, dando a entender,que la mayorıa de individuos de Anabaena son, evolutivamente, lejanos a los an-teriormente mencionados. Tiene sentido porque la primera corresponderıa a unacianobaceteria18 (Anabaena) y, la segunda, a una proteobacteria19 (Acidovorax)

Figure 7: Izquierda: Distancia entre individuos de las dos clases. Derecha: MDSde estos individuos. 1 al 73 esta Anabaena y de 74 a 113 Acidovorax

18Comprende las bacterias capaces de realizar fotosıntesis oxigenica y, en algun sentido, asus descendientes por endosimbiosis, los plastos.

19proteobacteria

15

4.3.4 Acidovorax y Ellin

De la comparacion de distancias del 1 al 46 esta Ellin y de 47 a 86 Acidovoraxen la Fig. 8.

Se generan encuentran varios grupos muy similares, en concreto dos, peroal igual, que en la anterior, no hay una diferenciacion significativa, entre ambasclases. Respecto a la comparacion evolutiva, con la realidad, no podemos darinformacion, porque la posicion en el arbol evolutivo de Ellin, no esta nadaclara, con lo que cualquier informacion aportada al respecto, sera bienvenida.Por ello, con esto queremos poner nuestro granito de arena.

Figure 8: Izquierda: Distancia entre individuos de las dos clases. Derecha: MDSde estos individuos. 1 al 46 esta Ellin y de 47 a 86 Acidovorax

4.3.5 AquifexAndThermotoga y Ellin

Comparacion de distancias del 1 al 46 esta Ellin y de 47 a 54 AquifexANDTher-motoga en la Fig. 9, que nos informa que se forma un gran grupo de individuos(7 de 8, al parecer), que distan de los demas. Esto nos da entender de que entreellos, hay mucha similitud, pero con los demas no hay tanta. Por ello, podemosdecir, que Ellin se encuentra lejos (evolutivamente) de AquifexAndThermotoga.

Figure 9: Izquierda: Distancia entre individuos de las dos clases. Derecha: MDSde estos individuos. 1 al 46 esta Ellin y de 47 a 54 AquifexANDThermotoga

4.4 Problemas iniciales

Aunque parece que no pueda haber habido problemas, los ha habido y muchos.Sin contar las dificultades a la hora de comprender el codigo proporcionado pormi supervisor Francisco Escolano, el dataset proporcionado y, mas en concreto,las redes que en el estan contenidas. Estas tienen una serie de complejidades:

• No todos tienen los mismos autovectores con los que ser comparados y enalgunos casos, este numero puede ser escaso:

16

- Acidovorax: Tiene como mınimo: 1 resultado con 1 autovector yotro con 3 autovectores.

- Anabaena: Tiene como mınimo: 1 resultado con 8 autovectores,otro con 6, otro con 4.

- AquifexANDThermotoga: No hay problemas. El mınimo de au-tovectores que salen son 100.

- Ellin: Tiene como mınimos: 1 resultado con 3 autovectores.

- Staphilococus: Tiene como mınimo: 1 resultado con 7 autovectores.

Esto tuvo que ser arreglado, poniendo un mınimo de autovectores, y sieste no se cumplıa, ese se descartaba.

• Arreglos varios, entre ellos: problemas de ejecucion con estos autovec-tores, t’s demasiado grandes iniciales. Hasta que se relaciono la eficienciacuantica con que un t dado (en los primeros pasos) probabamos con tiem-pos t demasiado grandes.

4.5 Comparaciones todos con todos

Una vez hemos visto como quedan entre pares, procedimos a observar como seveıan en comparacion con las distintas clases. El propio retraso de comparartodos con todos, viene dado porque el algoritmo tiene una complejidad alta,y el primer paso que es crear todo el espectro de potencias y embeberlo en elmanifold, requiere mucho tiempo de computacion. Este depende todavıa masdel tiempo t correspondiente a la funcion del operador de Schrodinger, con loque, a mas t, mas tardara, tanto es ası, que para que calculase en t = 64, pruebaque se ha hecho, se ha necesitado toda una noche (alrededor de 10 horas), paracomputar las distancias entre todas las clases.

Aunque no se hizo nada mas empezar con la experimentacion, gracias a laayuda de Miguel Angel Lozano, que nos proporciono el codigo e informacionnecesaria para poder generar las curvas ROC, y se obtuvo de una forma precisalo bueno que era el metodo, y con esto se mostraran para los ejemplos de todoscon todos, estas curvas.

4.5.1 Tiempos iguales y fijados

En un primer momento, y al no tener mucha idea de por donde empezar, sedecidio elegir un tiempo t = 64. Esto ocurrio al principio de la documentacion,elegimos este t,como punto de partido. Estabamos muy lejos de la realidad.Aunque se muestren unos resultados como los de la Fig. 10, no son reales, yaque se estimo, que a partir de un t dado, especfico y distinto en cada red,en el que la informacion empieza a ser redundante y, por tanto, unicamenteaporta ruido. Esto es debido a la constante oscilacon que tiene el operador deschrodinger.

4.5.2 Distintos tiempos, pero fijados

En este momento, seguimos probando cosas con el fin de reducir tanto tiempo,como mejorar eso resultados, para ello (y como no tenıamos un metodo para

17

Figure 10: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Donde t = 64s.

acertar, mas que el visual de MDS), se fue alternando distintas caracteriza-ciones de los grafos segun el tiempo que es muy importante en el operador deSchrodinger. En las pruebas realizadas, que se reflejan desde la Fig. 11 hastalas Fig. 15, los tiempos t utilizados son 40, 64, 80 o 100, alternando entre ellos,segun se vio en ese momento.

Figure 11: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Distintos t.

Figure 12: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Distintos t.

Tal y como se observa en ellas, no es apreciable, que ninguna acierte, omejore con respecto a las otras.

4.5.3 Eficiencia maxima

Como se iba trabajando en paralelo con otro dataset, iban y venıan ideas de unlado hacia el otro. En este caso, Francisco Escolano sugirio (como la mayorıa deveces) que deberıa haber una correlacion entre la eficiencia cuantica20 y dondeel ruido de la red comienza a entorpecer y emborronar la informacion completa

20eficiencia cuantica

18

Figure 13: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Distintos t.

Figure 14: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Distintos t.

proveniente del grafo. Este ruido es debido a la naturaleza de onda del operadorde Schrodinger y de los patrones de difraccion generados cada vez que pasa porun vertices, ya que cuando vuelve a llegar al mismo vertice muchas veces, y segeneran demasiados patrones de difraccion, la caracterizacion de la onda puedeno ser correcta (lleva ruido).

Por esto, este nuevo intento, va enfocado por ahı, a encontrar ese t quecaracterice perfectamente. En este caso, se ha cogido el t donde la eficienciacuantica es mayor.

4.5.4 Eficiencia mınima

Al no funcionar todo lo bien que se esperaba el anterior, se probo lo contrario,la eficiencia mınima, ya que a lo mejor, por ahı, se podrıa encontrar un buent, ya que el t maximo podrıa aparecer al comenzar a oscilar esta frecuenciacuantica, y ahı es donde se encuentra el ruido, que entorpece las distancias ycaracterizacion del grafo.

4.5.5 Eficiencias cuanticas visuales, el mejor tiempo?

En este momento, y, al ver que no se producıan los resultados esperados, o no seobservaban claramente, decidimos visualizar las graficas de eficiencias cuanticasde todos los individuos de cada clase. De esta manera, podremos decidir que t,poner inicialmente y despues ir viendo como reacciona la clasificacion.

En la Fig. 18, y en cada una de la imagenes que la componen, se observacomo la oscilacion comienza mucho antes de lo que se intuıa, por tanto, el punto

19

Figure 15: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Distintos t.

Figure 16: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. El t sera donde concuerde con su maxima eficienciacuantica.

de parada de t, debe ser entre 5 y 20 segundos, ya que, no hay un cifra exactapara todos, la oscilacion depende de mucha variables (entre ellas, numero devertices, conectividad y otros muchos factores) y no es la misma para todos losgrafos.

Por ello, una primera prueba, se dejo el algoritmo correr hasta t = 10s.Los resultados obtenidos se aprecian en la Fig. 19, que siguen siguen sin ser

correctos en la matriz de distancias. No se aprecia una clara diferencia (o solodiferencia) entre las distintas clases, lo cual deberıa haber ocurrido.

4.6 Comparando vectores de eficiencias

Esta prueba, se tomo azarosamente, aunque resulta bastante interesante. Lacomparacion se da entre lo un vector de eficiencias tomado hasta t = 10s, yaque sabıamos que rondaba por esa zona, donde comenzaba el ruido.

4.7 Nos quedamos sin tiempo, pero no sin ideas

Se estuvo pendiente hasta el ultimo momento para entregar en el congreso IS-SPR21, por lo que, en estos ultimos intentos, unicamente se prueba, si se mejoraen los porcentajes de acierto con las curvas ROC.

En las imagenes de la Fig. 21 se muestran los resultados obtenidos trasrealizar unos ultimos intentos que rondaba ese t objetivo para caracterizar,

21http://cs.uef.fi/ssspr2014/, Structural and Syntactic Pattern Recognition

20

Figure 17: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. El t sera donde concuerde con su mınima eficienciacuantica.

Figure 18: Eficiencias cuanticas hasta t = 64s de varios individuos probados.Por simplicidad se muestra solo uno por clase, en este orden: Acidovorax, An-abaena, AquifexAndThermotoga, Ellin y Staphiloccocus.

perfectamente, la red. Como ya se ha dicho, mantiene lo anterior, y nos vemosinmersos en unos mediocres resultados del 53%.

5 Conclusion

En la Fig. 20, se evidenciaba algo importante, que no se supo ver hasta bastantedespues, y es que las eficiencias era muy parecidas, incluso, demasiado. Me ex-plico, la eficiencia cuantica es muy dependiente de la estructura del grafo[5], ysu espectralidad, por ello, que en la Fig. 20, aparecieran la gran mayorıa muyparecidos. Esto conlleva otro gran problema, si los individuos tienen espectral-idades parecidas (ademas de bajas), eso quiere decir, que sera muy complejodistinguirlas segun su distancia. Ya se conocıa la dificultada de este dataset,uno de los mas dificiles para reconocer patrones, pero no, por ello, habıa queintentarlo. De igual forma, el metodo sigue siendo completamente valido yaque recientes pruebas con otro dataset (GatorBait [4]), han demostrado quefunciona bastante bien. Mientras que en el dataset utilizado la tasa de aciertosrondaba el 53%, en el caso de este nuevo dataset, ronda el 75%. Esto se puedeobservar en la Fig. 22.

21

Figure 19: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. t = 10s

Figure 20: Izquierda: Distancia entre individuos de las dos clases. Derecha:MDS de estos individuos. Comparamos con el vector de eficiencias cuanticas encada instante de tiempo.

6 Referencias

[1] Francisco Escolano, Edwin R. Hancock, y Miguel A. Lozano, ”Heat diffusion:Thermodynamic depth complexity of networks” Phys. Rev. E 85, 036206Published 14 March 2012.

[2] http://www.rvg.ua.es/graphs/dataset03.html - Dataset PPI’s

[3] http://www.biomedcentral.com/content/pdf/1471-2148-12-117.pdf -Lombard and Moreira, BMC Evolutionary Biology, 2012.

[4] http://www.rvg.ua.es/graphs/dataset01.html - GatorBait dataset

[5] ”A Continuous-Time Quantum Walks: Models for Coherent Transport onComplex Networks ”, Oliver Mu lken and Alexander Blumen TheoreticalPolymer Physics, University of Freiburg, Hermann-Herder-Strae 3, 79104Freiburg, Germany - January 14, 2011.

22

Figure 21: Curva ROC de t = 13s, Curva ROC de 2/3 de la eficiencia mınimay Curva ROC de 1/2 de la eficiencia mınima

Figure 22: Izquierda: Eficiencia cuantica hasta t = 10, 000 segundos. Derecha:Comparacion entre otros metodos de (emparejamientos) matching de grafos.

23