Tri Yani Akhirina dan Fitriana Destiawati

6

Click here to load reader

description

Seminar Nasional Disc Maranatha Tri Yani Akhirina dan Fitriana Destiawati

Transcript of Tri Yani Akhirina dan Fitriana Destiawati

Page 1: Tri Yani Akhirina dan Fitriana Destiawati

86

Penerapan Model Decision Tree pada Analisis Prediksi Keberhasilan Diet berdasarkan Kadar Trigliserida (Lemak pada Darah)

Tri Yani Akhirina

1, Fitriana Destiawati

2

1 Universitas Indraprasta PGRI, alamat, [email protected]

2 Universitas Indraprasta PGRI, [email protected]

ABSTRAK

Dalam makalah ini menjelaskan tentang penerapan model decision tree pada analisis prediksi keberhasilan diet berdasarkan kadar trigliserida atau yang dikenal dengan lemak pada darah. Hasil dari model decision tree pemilik kadar trigliserida tahap akhir pada bulan ke empat lebih dari 140 diprediksi tidak berhasil dalam melakukan diet dan Pemilik kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan diet. Pemilik kadar trigliserida pada tahap akhir kurang dari sama dengan 140 dan memiliki kadar trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan diet. Sehingga dapat disimpulkan bahwa kadar trigliserida mempengaruhi keberhasilan diet dan pada kadar lebih dari 140 diprediksi tidak akan berhasil melakukan diet. Hasil ini mendekatii pernyataan yang terdapat pada artikel kesehatan bahwa kadar normal adalah kurang dari 150. Kata kunci: decision tree, diet, trigliserida, lemak darah 1. Pendahuluan Pengolahan data memiliki banyak manfaat salah satu dalam membuat keputusan yang lebih dikenal sistem pengambilan keputusan. Tentunya diperlukan analisa dari setiap data yang berjumlah banyak sehingga pada akhirnya sampai pada titik kesimpulan untuk mengambil keputusan berdasarkan data. Salah satu solusi untuk mengambil keputusan adalah Data Mining. Menurut (Abdul K.,2010), Data mining merupakan serangkaian proses untuk menggali suatu informasi terpendam dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Terdapat teknologi data mining yang telah telah dikembangkan diantaranya clustering, classification, association rule, neural network, decision tree, dan lain-lain. Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node. Pengembangan decision tree dimulai dari root node, berdasarkan konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap abang dapat masuk baik ke decision node yang lain ataupun ke leaf node (Wibisono,2007). Persyaratan yang harus dipenuhi dalam penerapan algoritma decision tree (Wibisono, 2007) 1. Algoritma decision tree merepresentasikan supervised learning sehingga

membutuhkan target preclassified. 2. Training data set harus kaya dan bervariasi. 3. Kelas atribut target harus diskrit. Dalam decision tree terdapat ruang data sample (S) yang digunakan untuk training. Dalam data sample tersebut terdapat (P+) jumlah data yang bersolusi negative (tidak mendukung) dan yang bersolusi positive (mendukung). Data sample menentukan Entropy. Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample (S). Persamaan Entropy adalah sebagai berikut:

……………………………………………(1) Untuk menentukan node awal pada tree sehingga menghasilkan rule adalah atribut yang memiliki entropy terkecil (Gambetta, 2003).

Page 2: Tri Yani Akhirina dan Fitriana Destiawati

87

Banyak orang yang kerap kali tertarik melakukan diet untuk menurunkan berat badanya karena berat badan yang melebihi batas normal. Berdasarkan ilmu kesehatan dan beberapa artilkel kesehatan berat badan yang berlebihan adalah akibat dari nafsu makan yang terlalu tinggi sehingga lemak dalam darah meningkat. Lemak dalam darah ini disebut Trigliserida. Trigliserida adalah lemak. Semua lemak yang kita makan ialah trigliserida. Mereka lalu ditranspor melalui aliran darah untuk dimanfaatkan sebagai sumber energi tubuh. Asam lemak yang membentuk trigliserida dimanfaatkan sebagai sumber energi yang diperlukan oleh otot-otot tubuh untuk bekerja atau disimpan sebagai cadangan energi dalam bentuk lemak. Mirip dengan yang terjadi dengan kelebihan kolesterol atau gula darah, kadar trigliserida yang berlebihan dalam darah dapat melahirkan berbagai problem kesehatan. Pengukuran kadar trigliserida mesti dikerjakan setelah puasa selama 12-14 jam. Di Amerika Serikat patokan nilai yang digunakan adalah berdasarkan rekomendasi yang berasal dari National Cholesterol Education Program, sebagaimana tersebut di bawah ini: - Acceptable (dapat diterima) kurang dari 200 - Borderline high (perbatasan tinggi) 200-400 - Tinggi 400-1000 - Sangat tinggi lebih tinggi dari 1000 Diet Study ini merupakan salah satu kasus yang cukup menarik bagi penulis. Berdasarkan data dari hasil beberapa orang yang sudah melakukan diet, penulis mencoba menganalisa data tersebut untuk mendapatkan kesimpulan. Penulis menggunakan salah satu teknik dari data mining yaitu menggunakan decision tree dengan case tool Rapid Miner 5. Perangkat lunak ini sebagai Case Tool dalam sistem pengambilan keputusan secara komputerisasi sehingga akan menghasilkan akurasi dan grafik sesuai data yang diolah. Tujuan Penulisan ini adalah untuk menganalisa data dari sejumlah orang yang sudah melakukan diet dan memprediksi apakah kadar trigliserida mempengaruhi keberhasilan diet. Metode yang digunakan penulis adalah pendekatan kualitatif yaitu dalam menentukan variabel-variabel yang sesuai dengan kebutuhan sehingga mendapatkan atribut dan label untuk diubah menjadi rule dalam teknik decision tree. Selanjutnya penulis menggunakan pendekatan kuantitatif dengan melakukan percobaan terhadap sejumlah orang untuk melakukan diet dalam waktu 4 bulan dan merekam setiap bulannya hasilnya secara teratur sehingga penulis memperoleh sejumlah data yang dibutuhkan untuk memprediksi apa yang mempengaruhi dari keberhasilan diet yang dilakukan banyak orang. Selanjutnya penulis akan melakukan perbandingan dengan data kadar trigliserida dari National Cholesterol Education Program (Gambar 1). 2. Pembahasan

Variabel yang digunakan penulis berdasarkan data kesehatan adalah usia (age), jenis kelamin (gender), kadar trigliserida pada bulan pertama hingga bulan ke-empat (tg0, tg1, tg2, tg3,tg4 dan berat badan pada bulan pertama hingga bulan keempat. Penelitian dilakukan terhadap 16 orang yang memiliki range usia dari 45-63 tahun. Berikut data yang terkumpul:

Tabel 1. Data Diet Study

Patid Age G t0 t1 t2 t3 t4 w0 w1 w2 w3 w4 Result

1 45 0 180 148 106 113 100 198 196 193 188 192 Yes

2 56 0 139 94 119 75 92 237 233 232 228 225 Yes

3 50 0 152 185 86 149 118 233 231 229 228 226 Yes

4 46 1 112 145 136 149 82 179 181 177 174 172 Yes

5 64 0 156 104 157 79 97 219 217 215 213 214 Yes

6 49 1 167 138 88 107 171 169 166 165 162 161 No

7 63 0 138 132 146 143 132 222 219 215 215 210 Yes

Page 3: Tri Yani Akhirina dan Fitriana Destiawati

88

8 63 1 160 128 150 118 123 167 167 166 162 161 Yes

9 52 0 107 120 129 195 174 199 200 196 196 193 No

10 45 0 156 103 126 135 92 233 229 229 229 226 Yes

11 61 1 94 144 114 114 121 179 181 176 173 173 No

12 49 1 107 93 156 148 150 158 153 155 155 154 No

13 61 1 145 107 129 86 159 157 151 150 145 143 No

14 59 0 186 142 128 122 101 216 213 210 210 206 Yes

15 52 0 112 107 103 89 148 257 255 254 252 249 No

16 60 1 104 103 117 79 130 151 146 144 144 140 No

Data yang terkumpul bersumber dari 16 orang yang sudah dipilih untuk melakukan diet dengan memeriksa perubahan kadar trigliserida dan berat badan secar signifikan dari waktu ke waktu selama 4 bulan. Definisi dari variable diatas: a. Patid: id dalam database b. Age: usia c. G: jenis kelamin d. t0: kadar awal trigliserida e. t1: kadar trigliserida bulan pertama f. t2: kadar trigliserida bulan kedua g. t3: kadar trigliserida bulan ketiga

h. t4: kadar trigliserida bulan keempat i. w0: berat badan awal j. w1: berat badan pada kadar tg1 k. w2: berat badan pada kadar tg2 l. w3: berat badan pada kadar tg3 m. w4: berat badan pada kadar tg4

Berikut data yang penulis peroleh dari artikel kesehatan:

Gambar 1. Data kadar trigliserida

Berdasarkan data tersebut dapat dilihat bahwa batas normal kadar trigliserida manusia harus kurang dari 150. Maka melalui data ini penulis mencoba membuktikan apakah benar kadar trigliserida mempengaruhi berat badan seseorang. Sumber data penulis merupakan berekstensi excel agar dapat diolah dengan RapidMiner 5.0 maka data harus dimport untuk dikonversikan. Berikut hasil data yang sudah dikonversi:

Page 4: Tri Yani Akhirina dan Fitriana Destiawati

89

Gambar 2. Data View

Import data excel menjadi data Respository dalam RapidMiner 5.0 menjadikan variable sebagai atribut yang dibutuhkan untuk dijadika rule dalam pengambilan keputusan. Dari berbagai atribut terdapat satu atribut yang dibuat sebagai target atribut atau label. Sebagian besar data merupakan data yang numerik. Pengolahan data pada RapidMiner 5.0 ini menggunakan model Decision Tree dengan teknik validasi sehingga mencapai akurasi/ kecermatan yang memiliki presentase maksimal. Pada gambar 3 dibawah ini digambarkan proses modeling decision tree dengan menggunakan teknik validasi.

Gambar 3. Validasi Data

Pada prosesnya data yang akan diolah dihubungkan dengan node split validation yang ada pada folder evaluation. Didalam node split validation inilah akan memvalidasikan data yang dimodelkan kedalam decision tree. Pada gambar 4 ditampilkan proses memvalidasikan model decision tree.

Gambar 4. Modeling Decision Tree dalam Node Validation

Page 5: Tri Yani Akhirina dan Fitriana Destiawati

90

Sebelumnya sudah dijelaskan bahwa fungsi validation adalah memaksimalkan nilai akurasi pengolahan data. Apakah bisa tanpa validation? Tentu saja bisa akan tetapi nilai akurasinya akan berbeda. Selanjutnya data di Run untuk melihat hasil model decision tree berupa grafis pohon.

Gambar 5. Grafik Decision Tree

Data yang sudah diolah dengan menggunakan RapidMiner5.0 menghasilkan grafis pohon sehingga tampaklah dengan jelas algoritma pengambilan keputusan.

Berdasarkan teori pada studi pustaka sebelumnya dinyatakan bahwa data semple

yang memiliki entropy terkecillah yang menjadi node awal. Terlihat melalui

Software DSS RapidMiner 5.0 secara otomatis menyatakan bahwa t4 atau tg4

memiliki entropy terkecil. Mengapa bukan gender atau Age atau wtg Karena

entropy mereka lebih tinggi dibandingkan kadar trigilserida. Perhatikan

perhitungan entropy pada data gender dibawah ini.

Tabel 2. Data Gender

Gender Result Jumlah

0 Yes 7

0 No 3

1 Yes 2

1 No 4

Gender=0, q1=-7/10 log2 7/10-3/10 log2 3/10=-0.7*-0.51457317283-0.3*-

1.73696559417= 0.881291.

Gender=1, q2=-2/6 log2 2/6-4/6 log2 4/6 -2/6*-1.59946207042-4/6*-

0.577766999317= 0.918332.

Maka Entropy Gender adalah:

=10/16*0.881291+6/16*0.918332= 0.895181=0.9 - merupakan nilai entropy

yang tinggi.

Penulis tidak menjabarkan nilai entropy semua atribut karena instance pada

atribut memiliki nilai yang sangat kecil dan numeric sehingga dapat dipastikan

entropy yang dapat dijadikan node awal bukanlah gender. Dan sudah pasti sulit

jika secara manual dihitung entropynya oleh karena itu penulis menganalisa

menggunakan RapidMiner 5.0 untuk mempermudah analisa. Berikut text view yang dihasilkan:

Gambar 6. Text View Decision Tree

Berdasarkan Text View makan Rule yang dihasilkan adalah sebagai berikut:

Page 6: Tri Yani Akhirina dan Fitriana Destiawati

91

If t4 > 140 then result=no Else If t4 <= 140 then If t0 > 108 then result=yes Else If t0 <= 108 then result=no;

Berikut akurasi dan precision yang digambarkan:

Gambar 7. Accuracy

Gambar 8. Precision

Tampak jelas bahwa akurasi/ kecermatan yang diperoleh dari model decision tree adalah 60% dengan precision 33% dimana positive class= no. 3. Kesimpulan Maka kesimpulan yang dapat diperoleh dari hasil pemodelan decision tree adalah: 1. Pemilik kadar Trigliserida tahap akhir pada bulan ke empat (t4) lebih dari 140

diprediksi tidak berhasil dalam melakukan diet (menurunkan berat badan). 2. Pemilik kadar trigliserida pada tahap terakhir (t4) kurang dari atau sama dengan 140

dan memiliki kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan diet.

3. Pemilik kadar trigliserida pada tahap akhir (t4) kurang dari sama dengan 140 dan memiliki kadar trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan diet.

Berdasarkan kesimpulan tersebut jelas digambarkan bahwa kadar trigliserida mempengaruhi keberhasilan diet dan pada kadar lebih dari 140 diprediksi tidak akan berhasil melakukan diet. Hasil ini mendekati pernyataan yang terdapat pada artikel kesehatan bahwa kadar normal adalah kurang dari 150. Daftar Pustaka

1. Basuki, A., Syarif, I., 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya. 2. Gambetta, W., 2003, Pohon Keputusan (Decision Tree), Institut Teknologi

Bandung,Bandung. 3. Kadir, M.,A., 2010, Perbandingan Performance Algoritma Decision Tree CART dan

CHAID. Bandung. 4. Wibisono, Y., Y., 2007, Perbandingan Performansi Algoritma Decision Tree C5.0,

CART dan CHAD : Kasus Prediksi Status Resiko Kredit di Bank X, Seminar, 2007(Snati) 0-3. Unpar, Bandung.

5. Obat Trigliserida. Http://www.trigliserida.com/ [14.00 PM, 25 Nov 2012]. 6. 2011. Tips Menurunkan Kadar Trigliserida.

Http://www.didiksugiarto.com/2009/05/tips-menurunkan-kadar-trigliserida.html [10.44 AM,26 November 2012].