47-152-1-PB

JETri, Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372

* Alumni Jurusan Teknik Elektro-FTI, Universitas Trisakti

SIMULASI IDENTIFIKASI DAERAH CODING PADA

DEOXYRIBONUCLEIC ACID DENGAN

MENGGUNAKAN DISCRETE

FOURIER TRANSFORM

Suhartati Agoes & Suryadi*

Dosen Jurusan Teknik Elektro-FTI, Universitas Trisakti

Abstract Deoxyribonucleic acid (DNA) is a genetic substance that brings heredity factor. DNA consist

of four bases, which are adenine, timine, guanine, and citosine. Each base is symbolized by

A, T, G, and C. There are coding and noncoding regions in DNA data. Coding region (called

exon) is a DNA region thats useful to describe heredity factor. Many methods can be used to

determine coding region in DNA data, one of them is by using Discrete Fourier Transform

(DFT). Simulation using DFT is performed by entering the algoritm similarities into Matlab

language program. The purpose of simulation are to predict exon length, to get the value of

optimized spectral and to get the value of exon total power spectral. Optimized spectral is

useful to identify exon position in DNA data. The results of simulation reveal that the total

power spectral value of exon is proportional to N-point DFT value for each DNA sequence

and the optimized spectral value of DNA is also proportional to quantity of exon bases and

exon length. Optimized spectral value reaches maximum for more quantity of exon bases and

more length of exon than when optimized spectral value reaches minimum.

Keywords: deoxyribonucleic acid, exon, optimized spectral, total power spectral.

1. Pendahuluan

Kemajuan zaman saat ini mengarah ke segala sesuatu yang serba

digital. Berbagai macam peralatan elektronik yang ada di pasaran kini telah

dilengkapi dengan sistem digital. Sistem digital itu sendiri memanfaatkan

data biner dalam proses pengolahan datanya. Data biner ini merupakan

sistem angka berbasis dua, yaitu 0 dan 1. Data-data seperti suara, gambar,

atau teks dapat disandikan ke bentuk data biner tersebut. Hal ini tentu saja

memudahkan dalam pengolahan data secara komputasi untuk berbagai

tujuan.

Demikian halnya dalam bidang digital signal processing. Penelitian

yang melibatkan penyandian secara biner dalam signal processing untuk

menganalisis data biomolekuler sel telah melahirkan bidang bioinformatika.

Bioinformatika merupakan kajian yang memadukan disiplin ilmu biologi

molekul, matematika dan komputer. Kajian ini didefinisikan sebagai

aplikasi dari alat komputasi dan analisis untuk menangkap dan

JETri, Tahun Volume 4, Nomor 2, Februari 2005, Halaman 45-60, ISSN 1412-0372

46

menginterpretasikan data-data biologi molekul, seperti data

deoxyribonucleic acid (DNA) mahkluk hidup.

Rantai DNA yang menyandi protein disebut gen. Gen

ditranskripsikan menjadi ribonucleic acid messenger (mRNA). Kemudian

mRNA ditranslasikan menjadi protein. Arus informasi dari DNA, RNA, dan

terakhir menjadi protein inilah yang disebut sentral dogma dalam biologi

molekul. Rantai DNA dari satu organisme tersusun atas puluhan, ratusan,

bahkan jutaan jumlah nukleotida yang diwakili oleh empat abjad yaitu

adenin (A), timin (T), guanin (G), dan citosin (C).

Enzim dalam sel hidup membaca data-data genetik yang tersimpan

dalam DNA (dalam bentuk kode A, T, G, C) menggunakan cara yang

sangat mirip dengan cara komputer membaca data biner. Analogi antara

keduanya inilah yang selanjutnya dimanfaatkan dalam bioteknologi

modern.

Para peneliti telah berhasil membaca rantai DNA yang berjumlah

ratusan nukleotida secara menyeluruh pada abad ke-18 (Alberts, B., 1994 :

145-161). Hal ini terus berkembang hingga saat ini terdapat milyaran data

nukleotida yang tersimpan dalam database DNA. Database DNA ini dapat

di download melalui situs http://www.ncbi.nlm.nih.gov/entrez/.

Desakan kebutuhan untuk mengumpulkan, menyimpan dan

menganalisis data-data biologis dari database DNA inilah yang semakin

memacu perkembangan kajian bioinformatika.

Tujuan penelitian ini adalah mempelajari signal processing pada

urutan diskrit dari data DNA serta memperoleh sinyal spektrum yang

mengandung informasi genetik dari hasil analisis output simulasi (berupa

spektrum optimal (optimized spectral) dan spektrum daya total (total power

spectral)) dengan menggunakan metode DFT untuk input data DNA yang

mengacu pada parameter-parameter data DNA Caenorhabditis elegans

(cacing tanah/parasit). Metode penelitian yang digunakan dalam pembuatan

tulisan ini yaitu program simulasi yang adalah software Matlab 6.5.1.

2. Deoxyribonucleic Acid

Ilmu yang mempelajari pewarisan sifat individu kepada

keturunannya disebut genetika. Ilmu tersebut dinamakan genetika karena

Suhartati Agoes & Suryadi, Simulasi Identifikasi Daerah Coding Pada Deoxyribonucleid Acid

47

berkaitan dengan gen. Gen adalah faktor pembawa sifat suatu individu yang

akan diturunkan pada generasi berikutnya.

Setiap gen berfungsi mengontrol atau menentukan satu macam

sifat, misalnya gen jenis rambut, gen warna mata, gen warna kulit, dan

sebagainya. Gen ini terdapat berderet di dalam kromosom pada tempat-

tempat yang disebut lokus. Setiap gen disusun oleh substansi genetik yang

dikenal sebagai asam nukleat (asam inti), yaitu deoxyribonucleic acid

(DNA) dan rybonucleic acid (RNA) (Supeni, T., 1996 : 72-73).

Dari sejumlah organel yang terdapat di dalam sel, nukleus (inti sel)

merupakan organ yang paling banyak mendapat perhatian. Berdasarkan

membran (selaput pelindung) pada inti sel, makhluk hidup dikelompokkan

menjadi 2 yaitu prokariotik dan eukariotik.

Prokariotik adalah kelompok makhluk hidup yang nukleusnya tidak

diselubungi oleh membran dan DNAnya tidak berada dalam kromosom

(contohnya bakteri). Sedangkan eukariotik merupakan kelompok makhluk

hidup yang nukleusnya diselubungi oleh membran dan DNAnya tersusun

rapi di dalam kromosom (contohnya manusia, hewan, dan tumbuhan).

DNA terdiri dari dua jenis rangkaian yaitu rangkaian panjang yang

tak terpilin (single helix) dan rangkaian panjang yang terpilin seperti

tangga (double helix), seperti terlihat pada gambar 1. pada halaman berikut

ini.

Pada DNA double helix, dua untaian DNA tersusun atas ribuan

unit nukleotida (polinukleotida). Setiap nukleotida disusun oleh basa

nitrogen, gula deoksiribosa dan asam fosfat. Antara nukleotida yang satu

dengan nukleotida lainnya dihubungkan oleh suatu ikatan kimia antara

gula dan fosfat. Ada 4 macam basa nitrogen yang ditemukan pada DNA,

yaitu adenin (A), timin (T), citosin (C), dan guanin (G). Keempat macam

basa nitrogen ini menyusun DNA secara berpasangan. Guanin hanya dapat

berpasangan dengan citosin, sedangkan adenin berpasangan dengan timin.

Puluhan, ratusan, bahkan ribuan basa-basa nitrogen menyusun

rantai DNA dari mahkluk hidup. Dalam kumpulan basa-basa nitrogen yang

terdiri dari karakter a, t, c, dan g ini (data DNA) terkandung informasi genetik yang menjadi ciri khas suatu individu (gambar 2).


48

Gambar 1 Struktur DNA.

Gambar 2 Contoh data DNA.


49

3. Ekson Dan Intron

Suatu data DNA tersusun atas rangkaian penyandi protein (ekson)

dan rangkaian bukan penyandi protein (intron). Ekson didefinisikan

sebagai kodon yang memiliki arti dan dapat ditranslasi menjadi protein

(asam amino). Kodon adalah satu kelompok nukleotida (3 basa) yang

memperinci suatu asam amino. Atau dengan kata lain ekson adalah daerah

coding. Sedangkan intron adalah daerah pengkodean yang tidak memiliki

arti dan tidak dapat ditranslasi menjadi protein. Intron disebut juga daerah

noncoding. Intron ini dihilangkan saat akan ditranslasi menjadi protein.

Dalam data DNA, kemunculan intron diawali oleh basa gt dan diakhiri oleh basa ag. Sedangkan ekson diawali dengan basa atg. Untuk posisinya, intron diapit oleh dua ekson. Ini berarti jumlah intron satu lebih

sedikit dari jumlah ekson. Kumpulan ekson yang membentuk rangkaian

nukleotida baru dinamakan open reading frame (ORF). Gambar 3 pada

halaman berikut ini menjelaskan proses pemisahan intron dari rantai RNA.

4. Reading Frame

Rangkaian nukleotida dalam molekul mRNA dibaca secara berurut

dalam kelompok-kelompok tiga (kodon). Setiap kodon menyatakan sebuah

asam amino. Cara membaca rangkaian nukleotida ini disebut reading

frame (kerangka pembacaan). Ada tiga macam reading frame yaitu

reading frame 1, reading frame 2, dan reading frame 3 (tabel 1). Ketiga

reading frame tersebut menghasilkan pengkodean protein yang berbeda.

Dalam setiap kasus, hanya satu dari ketiga reading frame itu akan

memproduksi sebuah protein yang fungsional. Karena tidak adanya "tanda

baca" kecuali pada awal dan akhir pesan RNA, kerangka pembacaan

ditentukan sejak proses translasi dimulai dan selanjutnya tetap demikian.

Tabel 1 Reading frames

Data DNA aatgacggatccgat

Readind frame 1

Readind frame 2

Readind frame 3

aat gat gga tcc gat

atg acg gat ccg

tga cgg atc cga


50

Gambar 3 Proses pemisahan intron dari rantai RNA.

5. Numerical Data Sequence

Untuk menggunakan metode DFT dalam menganalisis data DNA,

data DNA harus diubah ke bentuk numerik. Caranya yaitu dengan

membentuk 4 binary indicator sequences (tabel 2. pada halaman berikut)

(Anastassiou, D., 2000: np).

Urutan numerik data DNA {x[n]} adalah:

x[n] = auA[n] + tuT[n] + cuC[n] + guG[n] (1)

untuk n = 0,1,2,..., N-1

Sitoplasma

nucleus

intron ekson DNA

TRANSKRIPSI

RNA

PENYAMBUNGAN

mRNA

protein


51

dimana uA[n], uT[n], uC[n], dan uG[n] adalah binary indicator sequences

yang dapat bernilai 1 atau 0 pada urutan n sesuai dengan urutan karakter

sebenarnya dalam data DNA.

Tabel 2 Binary indicator sequences

Data DNA . . . . a g t a c c g . . . .

Indikator uA[n] . . . 1 0 0 1 0 0 0 . . .

Indikator uT[n] . . . 0 0 1 0 0 0 0 . . .

Indikator uC[n] . . . 0 0 0 0 1 1 0 . . .

Indikator uG[n] . . . 0 1 0 0 0 0 1 . . .

Untuk setiap n, hanya satu dari binary indicator sequences yang

bernilai 1. Dengan mengabaikan nilai a, t, c, dan g, persamaan (1) menjadi:

uA[n] + uT[n] + uC[n] + uG[n] = 1, untuk semua n (2)

6. Discrete Fourier Transform (Dft)

DFT adalah urutan frekuensi diskrit waktu terbatas yang diperoleh

dengan proses sampling suatu periode terhadap transformasi fourier. DFT

{H(k)} dari urutan waktu diskrit {h(n)} sepanjang N diberikan pada

persamaan (3) berikut ini.

H(k) =

1

0

2

)(N

n

knN

j

enh

, k = 0, 1, 2, ..., N-1 (3)

Persamaan (3) disebut juga N-point DFT. Dalam pemrosesan sinyal suatu

input DNA, urutan waktu diskrit adalah urutan numerik x[n] input data

DNA. Maka persamaan (3) menjadi:

X[k] =

1

0

2

][N

n

knN

j

enx

, k = 0, 1, 2, ..., N-1 (4)


52

=

1

0

2

])[][][][(N

n

knN

j

GCTA enguncuntunau

= a UA[k] + t UT[k] + c UC[k] + g UG[k] (5)

DFT untuk binary indicator sequences berdasarkan persamaan (5)

adalah UA[k], UT[k], UC[k], dan UG[k]. Setiap k dapat dicari spektrum daya

totalnya (total power spectral) {S[k]} dengan cara menjumlahkan nilai dari

masing-masing DFT binary indicator sequences.

S[k] = |UA[k]|2 + |UT[k]|

2 + |UC[k]|

2 + |UG[k]|

2 (6)

Dalam daerah coding DNA, frekuensi k = N/3 merupakan bagian

yang penting karena menyangkut dengan panjang kodon yang berkelipatan

tiga (triplet). Jika k = N/3 disubstitusi pada persamaan (5) dan setiap DFT

binary indicator sequences dinormalisasi, maka diperoleh:

]3

[1

]3

[1

]3

[1

]3

[1

]3

[1 N

UN

gN

UN

cN

UN

tN

UN

aN

XN

GCTA (7)

Dengan menetapkan:

N

1X[

3

N] = W

N

1UA[

3

N] = A

N

1UT[

3

N] = T

N

1UC[

3

N] = C

N

1UG[

3

N] = G


53

persamaan (7) menjadi:

W = aA + tT + cC + gG (8)

Nilai spektrum optimal (W2)

dapat diperoleh dengan mencari hasil kuadrat

nilai W dari persamaan (8).

W2 = |aA + tT + cC + gG|

2 (9)

Nilai a, t, c, dan g dalam tulisan ini diambil berdasarkan nilai yang

diperoleh dari hasil analisis data DNA Caenorhabditis elegans (8000 bp,

urutan ke-7021 s.d. 15020) yaitu:

a = 0,10 + 0,12j

t = -0,30 0,20j

c = 0

g = 0,45 0,19j

Nilai kompleks inilah yang nantinya diikutsertakan pada penggunaan

persamaan (9) guna medapatkan nilai spektrum optimal untuk setiap

panjang data DNA (Anastassiou, D., 2001: np).

7. Rancangan Simulasi

Ada 3 data DNA hewan (no.1 s.d. 3) dan 1 data DNA tumbuhan

(no.4) yang didownload melalui situs http://www.ncbi.nlm.nih.gov/entrez/

dan akan digunakan sebagai input simulasi yaitu:

1. Caenorhabditis elegans (accession number AF099922, 8000 bp, data urutan ke 7021 s.d. 15020).

2. Felis catus (accession number AC146679, 3000 bp, data urutan ke 60541 s.d. 63540).

3. Mus musculus (accession number AC154359, 2520 bp, data urutan ke 14581 s.d. 17100).

4. Oryza sativa (accession number AC161790, 2160 bp, data urutan ke 4981 s.d. 7140).


54

Output simulasi adalah gambar spektrum daerah coding DNA

hewan dan tumbuhan sesuai dengan reading frame-nya serta gambar

spektrum daya total (total power spectral) dari daerah coding sesuai dengan

open reading frame-nya.

Proses simulasi berlangsung saat program yang telah dibuat untuk

simulasi dapat dijalankan pada Matlab 6.5.1 tanpa ada pesan error.

Prosedur proses simulasi mulai dari awal sampai akhir simulasi dijelaskan

dalam bentuk blok diagram simulasi berikut ini.

Gambar 4 Blok diagram simulasi.

Gambar 4 diatas merupakan urut-urutan proses simulasi identifikasi

daerah coding pada DNA. Proses pertama yaitu memasukkan input berupa

data DNA yang merupakan kumpulan karakter string (a, t, c, g). Proses

berikutnya adalah mengubah karakter string pada data DNA menjadi data

numerik dengan membentuk binary indikator sequences. Proses selanjutnya

yaitu mengolah data numerik tersebut dengan metode DFT guna

mendapatkan output berupa sinyal spektrum.

8. Hasil Dan Analisis Simulasi

Sebagai hasil dari simulasi, diperoleh gambar spektrum daerah

coding pada DNA serta spektrum daya total dari ORF DNA untuk empat

data DNA yang digunakan sebagai input simulasi.


55

Gambar 5 Hasil dan analisis data DNA Caenorhabditis elegans (urutan data

ke 7021 s.d. 15020): (1) Spektrum optimal (8000 bp), (2) Grafik

perbandingan jumlah basa dalam ekson I dan II, (3) Spektrum daya total

ORF (1332 bp).


56

Gambar 6 Hasil dan analisis data DNA Felis catus (urutan data ke 60541

s.d. 63540): (1) Spektrum optimal (3000 bp), (2) Grafik perbandingan

jumlah basa dalam ekson I dan V, (3) Spektrum daya total ORF (1056 bp).


57

Gambar 7 Hasil dan analisis data DNA Mus musculus (urutan data ke 14581

s.d. 17100): (1) Spektrum optimal (2520 bp), (2) Grafik perbandingan

jumlah basa dalam ekson IV dan V, (3) Spektrum daya total ORF (1578

bp).


58

Gambar 8 Hasil dan analisis data DNA Oryza sativa (urutan data ke 4981

s.d. 7140): (1) Spektrum optimal (2160 bp), (2) Grafik perbandingan jumlah

basa dalam ekson II dan IV, (3) Spektrum daya total ORF (780 bp).


59

Berdasarkan hasil analisis gambar spektrum optimal DNA

Caenorhabditis elegans (gambar 5) menunjukkan bahwa terdapat 5 posisi

ekson dalam DNA Caenorhabditis elegans. Nilai optimized spectral dari

data DNA Caenorhabditis elegans sepanjang 8000 bp (accession number

AF099922, data urutan ke 7021 s.d. 15020) mencapai maksimum pada 4,96

x 10-3

(ekson ke-II) dan minimum pada 1,61 x 10-3

(ekson ke-I). Panjang

sequence adalah urutan data terakhir dikurangi urutan data awal ditambah 1.

Panjang ekson dapat ditentukan dengan cara yang sama dengan panjang

sequence. Posisi puncak ekson adalah panjang ekson dibagi 3 lalu

dijumlahkan pada posisi awal ekson. Untuk ekson dengan nilai spektral

maksimum (ekson ke-II) dan minimum (ekson ke-I) dianalisis untuk

mengetahui perbandingan jumlah masing-masing basa penyusunnya.

Ternyata ekson dengan nilai spektral maksimum memiliki jumlah basa dan

panjang ekson yang lebih besar dibandingkan ekson dengan nilai spektral

minimum (gambar 5(2)). Spektrum dari open reading frame atau gabungan

dari seluruh ekson (ekson ke-I s.d V) dapat ditentukan dengan

menggunakan persamaan 6 dan tampilannya adalah seperti pada gambar

spektrum daya total (gambar 5(3)). Ciri khas dari spektrum daya total suatu

ORF ditandai dengan adanya puncak spektrum yang lebih tinggi dari

puncak-puncak spektrum lainnya (Anastassiou, D., 2001: np).

Berdasarkan hasil analisis gambar spektrum optimal DNA Felis

catus (gambar 6) menunjukkan bahwa terdapat 5 posisi ekson dalam DNA

Felis catus. Nilai optimized spectral dari data DNA Felis catus sepanjang

3000 bp (accession number AC146679, data urutan ke 60541 s.d. 63540)

mencapai maksimum pada 1,32 x 10-3

(ekson ke-V) dan minimum pada

4,51 x 10-4

(ekson ke-I). Ekson ke-V memiliki jumlah basa dan panjang

ekson yang lebih besar daripada ekson ke-I (gambar 6(2)). Besarnya

spektrum daya total dari ORF (ekson ke- I s.d. V) ditentukan dengan

menggunakan persamaan 6 (gambar 6(3)).

Berdasarkan hasil analisis gambar spektrum optimal DNA Mus

musculus (gambar 7) menunjukkan bahwa terdapat 7 posisi ekson dalam

DNA Mus musculus. Nilai optimized spectral dari data DNA Mus musculus

sepanjang 2520 bp (accession number AC154359, data urutan ke 14581 s.d.

17100) mencapai maksimum pada 1,29 x 10-3

(ekson ke-IV) dan minimum

pada 5,14 x 10-4

(ekson ke-V). Ekson ke-IV memiliki jumlah basa dan

panjang ekson yang lebih besar daripada ekson ke-V (gambar 7(2)).

Besarnya spektrum daya total dari ORF (ekson ke-I s.d. VII) ditentukan

dengan menggunakan persamaan 6 (gambar 7(3)).


60

Berdasarkan hasil analisis gambar spektrum optimal DNA Oryza

sativa (gambar 8) menunjukkan bahwa terdapat 4 posisi ekson dalam DNA

Oryza sativa. Nilai optimized spectral dari data DNA Oryza sativa

sepanjang 2160 bp (accession number AC161790, data urutan ke 4981 s.d.

7140) mencapai maksimum pada 1,18 x 10-3

(ekson ke-II) dan minimum

pada 5,56 x 10-4

(ekson ke-IV). Ekson ke-II memiliki jumlah basa dan

panjang ekson yang lebih besar daripada ekson ke-IV (gambar 8(2)).

Besarnya spektrum daya total dari ORF (ekson ke-I s.d. IV) ditentukan

dengan menggunakan persamaan 6 (gambar 8(3)).

9. Kesimpulan

Dari keseluruhan simulasi identifikasi daerah coding yang

dilakukan, maka dapat disimpulkan bahwa:

1. Besarnya nilai maksimum dan minimum dari optimized spectral pada daerah coding (ekson) DNA bergantung pada 2 faktor, yaitu kuantitas

basa-basa penyusun ekson (a, t, g, c) serta panjang ekson.

2. Nilai optimized spectral mencapai maksimum untuk kuantitas basa-basa penyusun ekson dan panjang ekson yang lebih besar daripada saat nilai

optimized spectral mencapai minimum.

3. Nilai total power spectral dari open reading frame data DNA hewan dan tumbuhan bergantung pada besarnya nilai N-point DFT masing-

masing sequence-nya. Hubungan antara nilai total power spectral

dengan N-point DFT adalah berbanding lurus. Semakin besar nilai N-

point DFT maka nilai total power spectralnya akan semakin besar juga.

4. Suatu informasi genetik yang diperoleh dari hasil analisis data DNA dengan memakai metode discrete fourier transform (DFT) dapat

digunakan untuk menunjang penelitian-penelitian lebih lanjut dalam

bidang bioinformatika.

Daftar Pustaka

1. Alberts, B., Dennis Bray, Julian Lewis, dkk. 1994. Biologi Molekuler Sel 1: Mengenal Sel. Jakarta: PT. Gramedia Pustaka Utama.

2. Anastassiou D. 2000. Digital Signal Processing of Biomolecular Sequences. Technical Report EE000420-1.

3. Anastassiou D. Genomic Signal Processing. 2001. IEEE Signal Processing Magazine.

4. Supeni, T., Mintje SL Tobando, Yan Piet Talumewo. 1996. Biologi SMU Jilid 3A. Jakarta: Erlangga.

47-152-1-PB

Documents

Transcript of 47-152-1-PB