La medicina personalizada del futuro: plataformas de microtest en oncología clínica La medicina...

1

Laredo, 23 de junio de 2007 1

La medicina personalizada del futuro:plataformas de microtest en oncología

clínica

La medicina personalizada del futuro:plataformas de microtest en oncología

clínica

Pedro Gómez Vilda, Emil Raul Maluţan, Fran Díaz Pérez, Rafael Martínez Olalla

Grupo de Informática Aplicada al Procesado de Señal e Imagen (GIAPSI)

Universidad Politécnica de Madrid, Campus de Montegancedo, s/n

28660 Boadilla del Monte, Madrid, Spain

E-mail: [email protected]


ResumenResumen

• Pequeña introducción a la genómica• ¿Qué es el Procesado de Señal Genómica (PSG)?• Principales conceptos en PSG• Procesado de Señal para Genómica• Microarrays Genómicos• ¿Es suficientemente robusto el PSMG?• Procesado robusto de imágenes de Microarrays• Estimación robusta de la expresión en Microarrays• Análisis de componentes independientes• Modelado de hibridación de Microarrays• Campos emergentes: IT’s going Bio: Labs On-Chip• ¿Conclusiones?

2


Pequeña introducción a la genómicaPequeña introducción a la genómica

• El procesado de señal genómica es un campo recientemente desarrollado

• Hay muchos aspectos abiertos a la investigación• La metodología de estudio es muy adecuada para

principios y procedimientos traslacionales: adaptación de teorías y metodologías de otros campos científicos a este específico

• Esto implica muchas oportunidades para que los jóvenes científicos puedan hibridar sus currícula

• Esto también implica riesgos que han de ser tenidos en cuenta


Pequeña introducción a la genómicaPequeña introducción a la genómica

• 1953 Watson y Crick predicen la estructura química del ADN (Nobelen 1962 junto con Wilkins)

• 1959 Nobel de Ochoa (RNA Polimerasa) y Kornberg (DNA polimerasa) -> Encima empleada en PCR

• 1970 Baltimore Temin, RT (transcriptasa inversa) (permite obtener cDNA a partir de mRNA) (Nobel 1972)

• 1977 secuenciamiento de ADN Gilbert y Sanger (Nobel en 1980)• 1980 Nobel en química para Berg por estudios en rDNA

(recombinante) (empleado hoy entre otras cosas para generar bibliotecas de clones para análisis de microarrays)

• Principios de los 80: PCR (Mullis et al)• Años 70 Waggoner y Stryer, marcadores fluorescentes para

examinar membranas biológicas.• Finales de los 80, Mirzabekov experimentos de hibridación

3


Algunos datosAlgunos datos

TIPO

cDNA; 65%

Otros; 1%Tejidos; 6,6%

Proteinas; 1,4%

Oligonucleótidos; 26%

ORGANISMO

Arabidopsis; 3,7%

Drosófila; 2,1%

C. elegans; 1,3%

Hombre; 58%

E. coli; 4%

Levadura; 12%

Rata; 7,4%

Ratón; 13%

(De Schena)



APLICACIÓN

Exp. Genética; 81,5%

Otros; 0,9%Tejidos; 4,6%Proteinas; 1%

Genotipado; 12%

PAÍS

China; 1,3%Finlandia; 1%Francia; 2,2%

Australia; 1,6%

Suecia; 1,5%

EEUU; 71%

Canadá; 2,8%

UK; 6,5%

Alemania; 4,1%

Japón; 8%

(De Schena)

4



TEJIDO (HUMANOS)

Corazón; 5,5%

Vejiga; 2,9%

Piel; 2,8%

Riñón; 7,2%

Colon; 7,7%

Cerebro; 19%

Pulmón; 8,9%

Pecho; 16%Próstata; 11%

Hígado; 19%

ENFERMEDAD (HUMANOS)

Autismo; 0,4%Anemia; 0,4%

Sida; 1,8%

Fibrosis quística; 1,3% Parquinson; 0,6%

Cancer; 84%

Apoplejía; 2,2%

Cardiovascular; 2,8%

Alzeimer; 2,4%

Diabetes; 4,6%

(De Schena)


Principios de la codificación nucleótidaPrincipios de la codificación nucleótida

(De Vaidyanathan)

5


Puentes de hidrógenoPuentes de hidrógeno

(De Vaidyanathan)


Codificación de aminoácidosCodificación de aminoácidos

(De Vaidyanathan)

6


Síntesis de proteinasSíntesis de proteinas

Las proteínas tienen propiedades estructurales, funcionales y de comportamiento:

Pueden ser elásticas, rígidas, duras, blandas, extendidas linealmente o en volumen, resistir la extensión, compresión, doblado, reaccionar a los campos eléctricos, al calor, desplegarse o plegarse, capturar y soltar elementos atómicos individuales, actuar como agentes catalizadores o líticos, etc.

(De Vaidyanathan)


Es un término recientemente acuñado que se refiere de forma más o menos vaga a alguno de los siguientes conceptos:

– “El procesado de DNA, RNA y secuencias de aminoácidos”(Vaidyanathan, 2004)

– El uso de herramientas clásicas de procesado de señal adaptadas y de otras nuevas para estimar y procesar información genómica y proteómica

– La genómica se refiere preferentemente a las secuencias de ADN y ARN: secuenciamiento, clasificación, minería, cuantificación

– La proteómica es un término empleado cuando nos referimos a secuencias compuestas por proteínas: lo mismo que antes + descripción de su estructura, plegados, desplegado, construcción y descomposición.

¿Qué es el procesado de señal genómica?¿Qué es el procesado de señal genómica?

7


El Procesado de Señal Genómica es un campo interdisciplinar que involucra conocimientos de:El Procesado de Señal Genómica es un campo interdisciplinar que involucra conocimientos de:

• Biología• Bioquímica• Farmacología• Medicina clínica• Biotecnología• Matemáticas y estadística aplicadas• Teoría de control• Ingeniería eléctrica• Micromecánica• Informática• Otros


Algunos tópicos importantes en PSGAlgunos tópicos importantes en PSG

• Análisis de secuencias• Metodologías de procesado de señal y estadística en selección genética

Selección de características genéticas

Clasificación

Clustering

De biochips a sistemas laboratory-on-a-chip

• Modelado e inferencia estadística de Redes Reguladoras Genéticas• Arrays de imágenes, Procesado de Señal de Sistemas Biológicos y Aplicaciones en Diagnóstico y Tratamiento de Enfermedades

Compresión de arrays de imágenes genómicas y proteómicas paraanálisis estadísticos

Genómica y proteómica del cáncer y aplicaciones clínicas

Aproximación integral a sistemas biológicos computacionales

8


Más tópicos en PSGMás tópicos en PSG

Fundamentos de codificación de nucleótidosPuentes de hidrógenoCodificación de aminoácidosSíntesis de proteínasIndicador de secuencias y sus FFT´sPotenciales de interacción electrón-iónHMM Parsing de secuencias de ADNGenómica comparativaGramáticasMicroarrays de cDNA y mRNADinámica de hibridación


Métodos de Procesado de Señal en GenómicaMétodos de Procesado de Señal en Genómica

• Redes bayesianas• Redes probabilísticas booleanas• Clustering de genes: k-means, hierarchical, GMM’s• Técnicas de Dynamic Time Warping• Principal Component Analysis• Independent Component Analysis• Higher Order Statistics• Spatial FFT Filtering• Adaptive Estimation and Modeling (Direct and Inverse)• Multiple Regression Methods• Optimal Estimation• Sequence Detection: HMM’s• Mutual Information Methods

9


Expresión genéticaExpresión genética

(De Vaidyanathan)


Indicador de secuencias y sus FFT’sIndicador de secuencias y sus FFT’sSea por ejemplo xA(n) = 000110111000101010. . . , donde 1 indica la

presencia de una A y 0 indica su ausencia. Los indicadores de secuencias para las otras bases se definen de forma similar.

Sea XA[k] la transformada de Fourier discreta o DFT de longitud N de xA(n):

Las DFTs de XT [k], XC [k] y XG[k] se definen de forma similar

1Nk0;e)n(x)n(X1N

0n

N/kn2jAA −≤≤= ∑

−

=

− π

(De Vaidyanathan)

Identificación de exones en virtud del pico a 2π/3 producido por el sesgo en la traducción de codonesen aminoácidos

10


HMM parsing de sequencias genéticasHMM parsing de sequencias genéticas

(De Vaidyanathan)

Aplicación de los HMM en genómica:Identificación de genes, identificación de secuencias específicas en el ADN, alineamiento de secuencias de ADN.


HMM Parsing de secuencias de ADNHMM Parsing de secuencias de ADN

1. Dado un HMM (i.e., dadas las matrices Σ -transiciones entre estados- y Π -probabilidad de salida-) y una secuencia de salidas y(1), y(2), . . . , calcular la secuancia de estados x(k) que con mayor probabilidad la generaron. Esto se resuelve mediante el algoritmo de Viterbi.

2. Dado el HMM y la secuencia de salidas y(1), y(2), . . . Calcular la probabilidad de que un HMM dado la genere. El algoritmo forward-backward lo resuelve.

3. El tercer problema es el del entrenamiento: ¿cómo se deben diseñar los parámetros del modelo de modo que sean óptimos para una aplicación dada, p. ej., para representar exones?.El algoritmo más popular para esto es el de “expectationmaximization” conocido como algoritmo EM o algoritmo de Baum-Welch.

11


Termodinámica de genómica y proteómica: Potenciales de Interacción Electrón-ión

Termodinámica de genómica y proteómica: Potenciales de Interacción Electrón-ión

(De Vaidyanathan)

Si un grupo de proteínas tiene una función en común, el producto de los espectros de potencia de las secuencias de EIIP (espectro de consenso) presenta un pico significativo en una frecuencia característica (0,0234 para hemoglobinas, 0,3203 para glucagón).

Aplicación potencial: síntesis artificial de péptidos con una propiedad determinada.


Genómica ComparativaGramáticas

Genómica ComparativaGramáticas

(De Vaidyanathan)

12


From S. K. Moore, “Making Chips”, IEEE Spectrum, March 2001, pp. 54-60

Microarrays GenómicosMicroarrays Genómicos


Microarrays GenómicosMicroarrays Genómicos

13


D.J. Duggon, M. Bittner, Y. Chen, P. Meltzer, and J.M. Trent, “Expression profilingusing cDNA microarrays,” Nature Genetics, vol. 21, pp. 10-14, 1999.

Tecnología de Microarrays de ADN


Microarrays de Oligonucleótidos

S. K. Moore, “Making Chips”, IEEE Spectrum, March 2001, pp. 54-60

14


Tecnología de microarrays de OligonucleótidosTecnologTecnologííaa de de microarraysmicroarrays de de OligonucleOligonucleóótidostidos

Mismatch probe cells

mRNA reference sequence

Perfect Match probe cells

5' 3'

x x x x x x xx x x x

Reference sequence

…TGTGATGGTGGGAATGGGTCAGAAGGACTCCTATGATACACCCACGCA ...ACCCAGTCTTCCTGAGGATACTAT Perfect Match OligoACCCAGTCTTCCAGAGGATACTAT Mismatch Oligo

Fluorescence Intensity Image

Space DNA probe pairs

Probe Pairs


Arrays de oligonucleótidosArrays de oligonucleótidos

Se producen empleando tecnologías de microchips derivadas de VLSI

Affymetrix produce arrays de oligonucleótidos en los que lassecuencias de test de se sintetizanmediante máscaras fotolitográficas.

15


Arrays de oligonucleótidosArrays de oligonucleótidosLas celdas de un chip genético de Affimetrics contienenmillones de secuencias idénticas de secuencias de 25 bases (25-meros)



Hibridación entre el mRNA marcado y lassecuencias objetivo en el chip

16



Un láser induce fluorescencia en las sondas marcadas. Éstoes detectado mediante un scáner.


Affymetrix GeneChipTM

18 µm

Millions of copies of a specificoligonucleotide sequence element

Image of Hybridised Array

>400,000 differentcomplementary oligonucleotides

Single stranded, labeled RNA sampleOligonucleotide element

* **

**

1.28cm

GeneChip® ArrayHybridised Spot

_________________________________________________________________


17


Microarrays de oligonucleótidosMicroarrays de oligonucleótidos

Probe set

Probe pair

Each Gene Chip contains tens of thousands of probe sets

Data for the same gene

Mismatch (MM)

Perfect Match (PM)

Probe cell


Metodología de Detección Diferencial PM-MM para la estimación de la

Expresión

Metodología de Detección Diferencial PM-MM para la estimación de la

Expresión

Kevin R. Coombes and Keith A. Baggerly:http://bioinformatics.mdanderson.org/MicroarrayCourse/Lectures/index.html

18


Detección PM-MMDetección PM-MM



• Ruido de fondo: uniformemente distribuido

• Distorsiones en la densidad: localmente distribuidas

• Contaminación: localmente distribuida

• Dinámicas de hibridación diferencial: aleatoriamentedistribuidas

Objetivo: Estimación robusta de la expresión del PM-MM

Problemas en la detección de la expresión PM-MM

19


Estimación de la Expresión a partir de los patrones PM-MM

Estimación de la Expresión a partir de los patrones PM-MM

Takenfrom:

Coombes& Baggerly


Estabilidad de la estimación PM-MM

Estabilidad de la estimación PM-MM

After:

Coombes& Baggerly

20


Algoritmos para la Estimación de la ExpresiónAlgoritmos para la Estimación de la Expresión


¿Es suficientemente robusto el PSMG?¿Es suficientemente robusto el PSMG?

La mayor parte de los defectos proceden del manejo inadecuado que los operadores humanos realizan de los microarrays

21


ProcesamientoProcesamiento de de imimáágenesgenes de de datosdatos de de MicroarraysMicroarrays


Procesamiento de imágenes de datos de Microarrays

22


Procesamiento de imágenes de datos de Microarrays


Otros defectos habitualesOtros defectos habitualesOriginal log image selected by Row+Column Reticled De-mean

50 100 150 200 250

50

100

150

200

250

23


Procesamiento Robusto de Imágenes de Microarrays

Procesamiento Robusto de Imágenes de Microarrays

Excerpts from: Benjamin Stetter, “Gene expression estimation by automatic detection ofhybridization spots in cDNA microarray images”, Diplomarbeit in Informatik, TechnischeUniversität München, 9 August 2006. Work done under Erasmus Mobility Agreement betweenTUM and UPM


La Transformada de Fourier discreta de 2D es:

( ) ( )∑ ∑−

=

−

=

⎟⎠⎞

⎜⎝⎛ +−

=1M

0x

1N

0y

Nvy

Mux2j

ey,xfv,uFπ u = 0, ..., M-1,

v = 0, …, N-1

La Transformada inversa de Fourier discreta de 2D es:

( ) ( )∑ ∑−

=

−

=

⎟⎠⎞

⎜⎝⎛ +

=1M

0u

1N

0v

Nvy

Mux2j

ev,uFMN1y,xf

π x = 0, …, M-1,y = 0, ..., N-1

Sea una imagen MxN f(x,y), x=0,…,M-1, y=0,…,N-1

Algunos problemas pueden resolverse mediante post-procesado: filtrado espacial

Algunos problemas pueden resolverse mediante post-procesado: filtrado espacial

24


Filtrado espacialFiltrado espacial

Si f(x,y) es real, su transformada F(u,v) es en general compleja.

Espectro of F(u,v); magnitud:

fase:

( ) ( ) ( )[ ] 2/122 v,uIv,uRv,uF +=

( ) ( )( )⎥⎦

⎤⎢⎣

⎡= −

v,uRv,uItanv,u 1Φ

R(u,v) y I(u,v) son los componentes real e imaginario de F(u,v)


El filtrado en el dominio espacial consiste en la convolución de unaimagen f(x,y) con la máscara de un filtro h(x,y).

( ) ( ) ( ) ( )v,uFv,uHy,xhy,xf ⋅⇔∗

La convolución lineal espacial se puede implementar en el dominio frecuencial mediante el producto de la transformada de Fourier de la la imagen F(u,v) con la transformada de Fourier de la máscara del filtro H(u,v).

Para obtener la imagen filtrada en el dominio espacial, basta con calcular la transformada inversa de Fourier del producto H(u,v).F(u,v).


25


Para filtrar una imagen de un chip genético, se emplea un filtro en el dominio espacial

El filtro empleado es un filtro gausiano paso bajo (GLF):

( ) ( )( )∑∑

=

1 2n n21g

21g21 n,nh

n,nhn,nh ( ) ( ) ( )22

221 2/nn

21g en,nh σ+−=

donde n1, n2 especifican el número de filas y columnas y σ es la desviación estándar.



El objetivo del filtrado es la detección de patrones de corrupción(fibras o motas de polvo) en la imagen escaneada


26


Modelo de composición para preprocesado FFTModelo de composición para preprocesado FFT

Pd * Xh * Pn = Yo

lnn

lhh

ldd

lo www PXPY ++=

( ) ( ) ( ) ( )nlnh

lhd

ldo

lo log;log;log;log PPXXPPYY ====

donde Y0, Pd, Xh and Pn son las matrices de observaciones (datos del microarray), la matriz de disposición de targets (patrón de distribuciones), la matriz de hibridación cuya detección es el objetivo y la matriz del proceso quecorrompe (matriz de ruido)


m, n son los índices espaciales del array, j, k los índices de los armónicos, NxN el tamaño de la matriz de observaciones Yo e i la unidad imaginaria. Se aplica un filtro paso alto bidimensional Hu a la matriz resultante Ψo paraproducir la matriz de observaciones relacionada con contenidos en altafrecuencia (perturbaciones de pequeña longitud de onda)

Modelo de preprocesadoModelo de preprocesado

∑∑−−

=j

N2ijn

N2ikm

k

loo ee)n,m()k,j(

ππ

YΨ

ouu ΨHΨ =

∑∑=j

N2ijn

N2ikm

ku2u ee)k,j(

N1)n,m(

ππ

ΨY

27


Empleo de 2D-FFT para eliminar ruido localmente distribuido

Empleo de 2D-FFT para eliminar ruido localmente distribuido



Imagen contaminada Imagen filtrada

HT: High, Thin

HB: High, Bold


28


LT: Low, Thin

LB: Low, Bold




MT: Medium, Thin

MB: Medium, Bold



29


Análisis de Componentes IndependientesAnálisis de Componentes Independientes

• Es una herramienta propuesta para diferentes fines en el Procesado Robusto de Micoarrays: eliminación de ruido, extracción de relaciones independientes entre genes, estimación robusta de la expresión, etc.

• Se basa en invertir modelos de mezclas empleando momentos de orden superior (kurtosis, cumulantes de orden k, etc)


Análisis de Componentes Independientes para Procesado Robusto de Microarrays

Análisis de Componentes Independientes para Procesado Robusto de Microarrays

After: A. Cichocki & S. I. Amari

Adaptive Blind Signal and Image Processing

John Wiley, 2003

ICA puede ser usado en microarrays para detectar procesos ocultos que se expresan

30


Modelo ICA - PM vs MMModelo ICA - PM vs MM

[ ] ⎥⎦

⎤⎢⎣

⎡=

ch

phmp ,

XX

AYY

[ ] ⎥⎦

⎤⎢⎣

⎡= +

m

pchph

ˆ,ˆYY

WXX

Modelo de composición

Modelo de detección

21;ˆˆ

ˆˆijij

jcip

jcipij cc −==

+

+

γxx

xxModelo de selección

Xph: Señal de expresión genética que muestra un patrón de hibridación proporcional

Xch: Señal de expresión genética con hibridación corrupta

Yp: Patrón de Perfect Match (observaciones)

Ym: Patrón de Mismatch (observaciones)

|xc |cosβ

xp

xc

β


Ortogonalización y alineamiento de datosOrtogonalización y alineamiento de datos

El proceso de alineación de datos se puedederivar facilmente del modelo geométrico de proyecciónLa componente colineal del vector MM

La componente ortogonal:

2

,

pi

pi

mip

iici

x

xxxx == λ

2

,

pi

pi

mim

ipii

mi

oi

x

xxxxxx −=−= λ

31


Análisis de Componentes IndependientesAnálisis de Componentes Independientes

• Dado un conjunto de observaciones de variables independientes {x1,x2,…,xn}

• Se asume que están generadas poruna mezcla lineal de componentes independientes {s1,s2,…,sm}

• ICA consiste en estimar tanto la matriz desconocida Acomo las fuentes si tan sólo con la observación de xi

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

mn s

ss

A

x

xx

......2

1

2

1

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

nmnn

m

m

aaa

aaaaaa

A

..........................

21

22221

11211


Modelo ICAModelo ICA

• Se emplea un sistema con „variables latentes“• sk se considera una variable aleatoria en vez de una

señal temporal• xj = aj1s1 + aj2s2 + .. + ajmsm, para todo j de 1 a n• Modelo ICA:

ai - functiones basesi - componentes independentes (IC‘s)

∑=

=

=m

1iii sax

Asx

32


Resolución del modelo ICAResolución del modelo ICA

• Suposiciones adicionales:– Las IC‘s son estadísticamente independentes

y con distribución no gausiana– A cuadradae invertible

• Se estima A• Se calcula W = A-1

• Se obtienen las IC‘s de:– s = Wx


Preprocesado para ICAPreprocesado para ICA

Antes de aplicar un algoritmo ICA es necesario un preprocesado de los datos

1. Centrado – el proceso de centrado de la variable x consiste en sustraer la media del vector paraconvertirlo en una variable de media cero

2. Blanqueado – el blanqueado de las variables consisteen transformar el vector x de modo que el nuevovector sea blanco: sus componentes incorreladas y con varianza la unidad

33


Algoritmo FastICAAlgoritmo FastICA

• based on a fixed-point iteration scheme for finding a maximum of the nongaussianity of wTx

• tanh

• pow3

• skew

( ) ( ){ } ( ){ }[ ]2GEyGEyJ ν−∝

( ) ( )uatanhguacoshloga1G 1111

1 =→=

( ) ( ) 32

42 uugu

41uG =→=

( ) ( ) 23

33 uugu

31uG =→=


Algoritmo FastICA (cont)Algoritmo FastICA (cont)

The basic steps for one unit algorithm:1. Choose an initial (e.g. random) weight vector w2. Let

3. Let

4. If not converging, go back to 2.

( ){ } ( ){ }wxwgExwxgEw T'T −=+

++= w/ww

34


ICA for oligo-microarray dataICA for oligo-microarray data

• data from HG133A chip array was analyzed using a gene expression method based on correlation coefficient algorithm

• initial Dataset contained 22283 genes in 4 tissue experiments

• after thresholding for γ>0.3, 2160 genes left

• the chip was first analyzed with MAS 5.0


ICA MethodologyICA Methodology

• The well known MATLAB toolbox from A. Cichocki & S. I. Amari was used

• Nat. Grad. -FICA yielded quite good results• Expression matrices were converted to gray

images and processed• PM and MM matrices were used as inputs to the

algorithm

35


DatasetDataset


Preprocessing of datasetPreprocessing of dataset

36


FastICA results – ICs using “tanh”FastICA results – ICs using “tanh”


Results: reliable probeResults: reliable probe

37


Results: unreliable probeResults: unreliable probe


eColi matrixeColi matrix

38


Rel. Exp. Gene position: 190, 401Rel. Exp. Gene position: 190, 401


Unrel. Expl. Gene position: 219, 1Unrel. Expl. Gene position: 219, 1

39


Resumen de resultadosResumen de resultados

73,11

15,59

11,30

100,00

Rel. (%)

5346Unrel. expressed p. s.

1140Relat. rel. probe sets

826Highly reliable probe s.

7312Genes analizados

AbsoluteConcepto


Procesado de Microarrays de cDNAProcesado de Microarrays de cDNA

40


Procesado de MicroarraysProcesado de Microarrays


Segmentación de ImágenesSegmentación de Imágenes

41


Segmentación de ImágenesSegmentación de Imágenes


Estimación de la intensidad del SpotEstimación de la intensidad del Spot

42


Estimación de la intensidad del SpotEstimación de la intensidad del Spot


Procesado de MicroarraysProcesado de Microarrays

43


SegmentaciónSegmentación


AddressingAddressing

44


Sobre-excitaciónSobre-excitación


DesalineamientoDesalineamiento

45


Gridding Global Gridding Global


GriddingGridding

WTH: White Top Hat transformation based on background removal

46


Patronaje local basado en GMM’sPatronaje local basado en GMM’s


Algunos ResultadosAlgunos Resultados

47


Algunos resultadosAlgunos resultados



48




Otras estrategias: detección sin malladoOtras estrategias: detección sin malladoOriginal selected image

50 100 150 200 250

50

100

150

200

250

Original log image selected by Row+Column Reticled De-mean

50 100 150 200 250

50

100

150

200

250

Original log image selected by Row+Column Reticled De-mean Thresholded

50 100 150 200 250

50

100

150

200

250

Main Technology: Image Processing

Spatial Filtering

Spot Detection, Clustering, Estimation

49


Projectos: ACIMEG, ICAGEM Projectos: ACIMEG, ICAGEM

Reticle borders and centers of gravity

50 100 150 200 250

50

100

150

200

250

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Second Placement

50 100 150 200 250

50

100

150

200

250

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Row+Column Reticle De-meaned

50 100 150 200 250

50

100

150

200

250

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Image ProcessingTools: Wavelet

BasedSelesnik et al., IEEE SP Magazine, November 2005


Acción encimática o del

calor

Modelado de Hibridación de MicroarraysModelado de Hibridación de Microarrays

50


)|(),,(

)|(),,(

,,,,

,,,,m

kikitkim

ki

pkikitki

pki

zspyxsx

zspyxsx

ρ

ρ

=

=

0;,;1)|(0 /,, ≥∀≤≤ tkizsp mpkikit

12/

,,/

,, );|()|(12

ttzspzsp mpkikit

mpkikit >∀≥

1)|( /,,lim =

∞→

mpkikit

tzsp

12,,,, );|()|(12

ttzspzsp mkikit

pkikit =∀≥

Modelo de probabilidad:

Consistencia:

Monotonicidad:

Saturación:

Dominancia:


Densidad superficial del segmento i en el gen k para el punto x,y

Probabilidad de hibridación en el tiempo t

Cantidad de material hibridado


0t);e1)(0(p)z|s(pm/p

k,itm/pk,i

m/pk,ik,it ≥−= − τ∆

12mk,ik,itk,i

pk,ik,it tt);z|s(p)z|s(p

12==η

j,i;k,jk,i ∀=ηη

m/pk,i

m/pk,i

m/pk,i

m/pk,ik,it t);0(pt)z|s(p ττ <<≅

τnN

dtdn −

=Modelo generador:

Soluciones Naturales:

Linearización:

Linearidad:

Homogeneidad:


51


TT

satm/p

k,iRT

E

satm/p

k,im/p

k,i

m/pk,i

m/pk,i

epep)T(p−−

==

Donde es la Temperatura de Hibridación del segmento i del gen k respecto a sus pares perfect match mismatch, lo que en general dependerá de la estructura de los segmentos a hibridar

m/pk,iT

Modelado de Hibridación de MicroarraysModelado de Hibridación de MicroarraysBajo estas condiciones las probabilidades de hibridación dependerán de la temperatura de acuerdo con la siguiente expresión dinámica:

Obviamente, para un microarray estándar donde diferentes segmentos de genes se hibridan de forma simultánea bajo las mismas condiciones termodinámicas esto va a producir una corrupción dinámica diferencial. Esto necesitará ser eliminado mediante métodos de regresión múltiple.


Ejemplos de condiciones de hibridación diferencialEjemplos de condiciones de hibridación diferencial

52


Modelado de la dinámica de HibridaciónModelado de la dinámica de Hibridación

El modelo de hibridación empleado se basa en la suposición de quelas cantidades de material hibridado para los pares de sondas iperfect match ( ) y mismatch ( ) relacionadas con el gen kresponden a probabilidades de hibridación proporcionales:

Que deben ser proporcionales bajo condiciones temporales y termodinámicas invariantes:

pk,i

mk,i

mk,ik,it

pk,ik,it

k,i)z|s(p

)z|s(p

τ

τη ==

donde 0m/pk,i >τ

Son las constantes de tiempo para los PM ó MM de lospares de segmentos i, k

pk,ix

)z|s(p pk,ik,it )z|s(p m

k,ik,it

mk,ix


Modelado de la HibridaciónModelado de la Hibridación

La hipótesis de proporcionalidad: j,i;k,jk,i ∀=ηη

1. Reliably expressed probe sets – la hipótesis se cumple en ciertamedida.

2. Unreliably expressed probe sets – casos en los que la proporcionalidaf estricta no se cumple

Objectivo: Como detectar si un conjunto de test se expresa de forma fiable o no

53


¿Cómo detectar conjuntos de sondas que se expresan de forma no fiable?

¿Cómo detectar conjuntos de sondas que se expresan de forma no fiable?

El parámetro de proporcionalidad para el gen i, λi se emplea para medir si un conjunto de sondas se expresa de forma fiable. El diagrama vectorial muestra el caso en el que la hipótesis muestra un alto grado de colinearidad entre losvectores PM y MM.

mix

pix

imi cos βx

cix

oix

iβ

∑

∑

=

==== K

1k

pk,ik,i

2t

K

1k

mk,ik,it

pk,ik,it

2pi

pi

mi

pi

imi

i

)z|s(p

)z|s(p)z|s(p,cos

x

xx

x

x βλ

mix

pix

iβ

- vector de test PM

- vector de test MM

- ángulo entre los vectores PM y MM


Modelado de hibridación de MicroarraysModelado de hibridación de Microarrays

Ejemplos de dos conjuntos de expresiones diferentes: expresado de forma fiable (izquierda) y de forma no fiable (derecha)

54


Fundamentos Termodinámicos de la HibridaciónFundamentos Termodinámicos de la Hibridación

CTPbK

fK

⎯⎯ ⎯←⎯⎯→⎯

+

( ) ( )[ ]τtexp1KT

TtC −−+

=

fb kkK =

( )KTk1

f +=τ

El proceso de hibridación debe ser considerado desde el punto de vista de lascondiciones termodinámicas generales de las interacciones químicas reversibles. Un concepto básico en este sentido es el de la probabilidad de hibridación de un segmento de sonda P con un segmento de test TLa probabilidad de hibridación de un segmento de test dado se definirá mediantesus condiciones termodinámicas, es decir, mediante su temperatura de hibridación.El proceso de hibridación responderá a la ecuación dinámica:

• P - concentración de oligos disponible para hibridación• T - concentración de test de RNA objetivo• C - número de complejos enlazados• kf , kb – tasas de hibridación y desnaturalización dinámica

- Constante de disociación de equilibrio

La solución en el dominio del tiempo viene dada por la expresión:

Constante de tiempo dependientede la dinámica de

equilibrio


Soluciones iterativas de regresiónSoluciones iterativas de regresión

( )( )bxexp1ay −−=

( )( )

( )∑

∑

=+

=+

−+=

−−+=

n

1iikikk,ibkk1k

n

1iikk,iakk1k

xbexpxa2bb

xbexp12aa

εβ

εβ

( )( )[ ]ikkik,i xbexp1ay −−−=ε bk,aβ

El problema a resolver es la forma de estimar los parámetros dinámicos del modelo (constantes de tiempo) a partir de experimentos de hibridacióndiacrónicos (llevados a cabo sobre las mismas configuraciones de microarrayspermitiendo diferentes tiempos de hibridación bajo las mismas condicionestermodinámicas. Para ello se considerará que las estimaciones discretas se deben ajustar según una forma funcional:

Lo que se puede resolver de forma iterativa mediante el par de recursiones:

Con la función de error y pasos de iteración:

55




IteracionesIteraciones

56


Diagramas de convergenciaDiagramas de convergencia


Evolución de las Iteraciones: AmplitudesEvolución de las Iteraciones: Amplitudes

57


Evolución de las Iteraciones: constantes de tiempoEvolución de las Iteraciones: constantes de tiempo


Resultados finalesResultados finales

58


Un caso de aplicación: Herrameintas de Ayuda Clínica en Tratamientos Coadyuvantes

Un caso de aplicación: Herrameintas de Ayuda Clínica en Tratamientos Coadyuvantes

• Los tratamientos coadyuvantes son una herramienta importante para parar o ralentizar el progreso de las metástasis en el tratamiento del cáncer

• Se basan en la aplicación de ciertas drogas cuya toxicidad es selectivamente mayor en las células malignas que en las normales

• El umbral entre las dosis terapéuticas y las potencialmente peligrosas es muy tenue

• Es de crucial interés en estos casos establecer un límite claro en:– Resistencia de un paciente dado a una dosis específica de una droga– Grado de eficiencia de la droga medida según el decrecimiento del tamaño

del tumor, supervivencia, efectos secundarios, alteración en el balance bioquímico, etc.

– Establecer la mejor temporización para sucesivas aplicaciones de una dosis de una droga

• Para ello, se debe diseñar un modelo holístico y sistemático de las condiciones del paciente y de los protocolos de administración de drogas y de resultados


PROMISSEPROMISSE

• Objetivos:– Establecer un protocolo para la prognosis y diagnosis

de tratamientos coadyuvantes en cánceres de pecho y colon empleando microarrays como principales herramientas de test

– Establecer una metodología sincrónica y diacrónica para el procesado de microarrays

– Determinar las drogas y dosis más apropadas para un paciente específico dependiendo del balance bioquímico y hemodinámico y de las condiciones clínicas generales

59


Realimentación de ControlRealimentación de Control• Los tratamientos coadyuvantes pueden verse como procesos

exógenos que influyen en la expresión genética bloqueando o alterando el funcionamiento general del sistema realimentado:– Alteración de segmentos de secuencias de ADN– Modificaciones en la expresión de ADN– Interferencia en la amplificación de mRNA– Interferencia en la síntesis de aminoácidos– Alteraciones en la operación de encimas y ribosomas– Etc.

• Estos procesos pueden afectar los niveles de expresión general de oncogenes y de otros genes que marcan el metabolismo y la dinámica del tumor

• El trazado de los niveles de expresión de los oncogenes y de los genes metabólicos es una de las fuentes de información para inferir el estado de la célula bajo tratamiento (control plant approach)

• Experimento de Lee y Batzoglou• Independent Component Analysis


El problema del sistema de control bioquímicoEl problema del sistema de control bioquímico

Metabolismo celular

Motor asociativo

Tipo de droga dosificación

temporización

Procesos Exógenos:

Nutricionales, medioambientales,

condiciones de salud,

Estado observado: marcadores, bioquímicos,

proteínas, encimas, hemodinámica, etc.

Datos clínicos: condiciones

generales de salud, sueño, apetito,

nauseas, efectos secundarios, etc.

Base de datos

Historia clínica

60


Datos clínicos

Clustering Prognosis

Clustering de Microarrays GenómicosClustering de Microarrays Genómicos


Metodologías de ClusteringMetodologías de Clustering• Artificial Neural Networks• Independen Component Analysis• Principal Component Analysis• Hierarchical and k-means clustering• Fuzzy Systems

HierarchicalClustering

Raul E. Malutan, Pedro Gómez Vilda, Monica E. Borda, “Microarray imageclassification and recognition for cancer treatment. K-Means clustering of publicdata base from breast cancer treatment”, Proceedings of the Symposium of Electronics and Telecommunications ETc2004 - Volume: 49 pp. 337-342, Timisoara, Rumanía

61


• Las tecnologías de la Información han desarrollado poderosos métodos y herramientas durante los últimos años en principio destinadas a otros campos

• Ahora es el momento de traducir esas herramientas, métodos y soluciones al mundo de las Biociencias(también ciencias de la vida)

• La teccnología de lo ultra-pequeño (microtecnología) se ha aplicado de forma satisfactoria en la producción y proceado de microarrays

• Es posible traducir más herrameintas, métodos y soluciones

• Éste es un campo abierto con multitud de oportunidades para la investigación y el desarrollo

• El campo de los sistemas y ciencias de la vida es un área emergente

IT’s going BioIT’s going Bio


IT’s going Bio: Labs On-ChipIT’s going Bio: Labs On-Chip

62


Labs On-ChipLabs On-Chip



63





MEMS: Micro Electro-Mechanical Systems

64




Micro Electro-Mechanical SystemsMicro Electro-Mechanical Systems

65


MEMS for Genomic Signal ProcessingMEMS for Genomic Signal Processing

Mass can be estimated from resonant frequency


More on MEMS for GSPMore on MEMS for GSP

• Resonant cantilever sensing is a method to detect the presence of various analytes in anenvironment.

• Cantilevers are coated with a receptor material that selectively binds to specific chemical orbiological species.

• The attachment changes the mass of the cantilever, thereby changing its resonantfrequency.

• Mass resolution on the order of attograms(10-18 grams) has been reported using cantileverdetectors.

• For comparison, the mass of single virus particles can be on the order of 10’s of attograms.

66


Hand-held microarray processingHand-held microarray processing

Charge-CoupledDevice

A/D Converter

CCD Control+Spot Processing+

USB Port Interfacing (VHDL)

USB 2

Memory

FPGA-Based Control Unit

CCD-A/D Controls

Expression Evaluated Microarray Files

Hand-held fixed mount CCD bar code-like double light laser

scanner

Scanned Microarray Raw Images in a 2-light laser

system

Scanner Controls


Future of microarraysFuture of microarrays

• The cost of a single microarray test is now around 1000$• Will microarrays become a routine test within five years?• Could we expect a Moore’s Law for microarrays?

67


ConclusionesConclusiones

• El Procesado de Señal Genómica es un campo de estudio y desarrollo muy prometedor

• Hay que resolver muchos problemas específicos• Uno de los puntos esenciales es el de la

interdisciplinariedad• Se requieren grupos de investigación con suficiente

experiencia en la mayoría de los campos• En los próximos años se espera que este campo

acapare una financiación importante• Las acciones supra-nacionales son esenciales• Es importante estar posicionado de cara a los próximos

años creando grupos de investigación y definiendo objetivos


Reflections from the moveReflections from the move• Conclusions in this field are efimerous: the train is moving

so fast… (this is a big move!)• Information Technologies are moving to Life Sciences:

strong thurst.• Two samples:

– IEEE/NML on Life Sciences, Systems and Applications(NIH, Bethesda, Maryland, July 2006) 90% Eng. 10% MD or Biologists

– Advances on Voice Quality (School of MD, Groningen, The Netherlands, October 2006) 80% Eng. 20% MD

• Engineers are very active in translational knowledge, MD and Bio should move fast as well, for the better of all

• SP as part of IT is a powerful tool when combined withMEMS

• Labs On-Chip are a reality• Labs On-Body are waiting at the other side of the corner…

68


ReferencesReferences

1. Moore, S. K., “Making Chips”, IEEE Spectrum, March 2001, pp. 54-602. Vaidyanathan, P., “Genomics and Proteomics: A Signal Processor’s Tour”,

IEEE Circuits and Systems Magazine, October 2004, pp. 6-293. Amaratunga, D. and Cabrera, J., Exploration and analysis of DNA

microarray and protein array data, Ed. Wiley Interscience, Hobooken, N.J., 2004

4. Doughtery, E. R., Shmulevich, I., Chen, J., and Wang, Z. J. (editors), Genomic Signal Processing and Statistics, Eurasip Book Series on Signal Processing and Communications, 2005

5. Schena, M., Microarray Analysis, 1st Edition, J. Wiley & Sons, Hoboken, NJ, 2003

6. Proceedings of the IEEE/NML Life Sciences, Systems and Applications Workshop, National Institute of Health, Bethesda, Maryland, July 13-14, 2006

7. Special Issue on Genomic Signal Processing, IEEE Trans. On SignalProcessing, Vol. 54, No. 6, June 2006

La medicina personalizada del futuro: plataformas de microtest en oncología clínica La medicina...

Documents

Transcript of La medicina personalizada del futuro: plataformas de microtest en oncología clínica La medicina...