Data Mining

22
DATA MINING FINAL PROJECT Lapora n ini diajukan unt uk memen uhi tugas Mata Kuliah Data Minin g Tahun 2013/2014 Disusun Oleh: 117006118 SAEPUL MILLAH TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS SILIWANGI Jln. Siliwangi no. 24 tasikmalay a kotak pos 164 tlp. (026 5) 323537 E-mail : [email protected] ; url : www.unsil.ac.id 2014

description

Data mining studi kasus Alcoholic Liver Disease (ALD) akibat potensial yang diakibatkan oleh konsusi alkohol

Transcript of Data Mining

  • DATA MININGFINAL PROJECT

    Laporan ini diajukan untuk memenuhi tugas Mata Kuliah Data MiningTahun 2013/2014

    Disusun Oleh:

    117006118 SAEPUL MILLAH

    TEKNIK INFORMATIKAFAKULTAS TEKNIK UNIVERSITAS SILIWANGI

    Jln. Siliwangi no. 24 tasikmalaya kotak pos 164 tlp. (0265) 323537E-mail : [email protected] ; url : www.unsil.ac.id

    2014

  • iKATA PENGANTAR

    Puji dan syukur kami ucapkan ke hadirat Allah SWT, bahwasannya atas segalapertolongan-Nya penyusun dapat menyelesaikan makalah ini walaupun masih banyaksekali kekurangannya. Shalawat dan salam semoga dilimpah curahkan kepada junjunganalam Nabi Muhammad SAW, yang menjadi panutan di muka bumi ini.

    Tujuan penyusunan ini adalah untuk menyelesaikan salah satu tugas besar DataMining, melalui tugas yang diberikan dosen kepada penyusun. Makalah ini disusun gunamemenuhi tugas mata kuliah Data Mining tahun pelajaran 2013/2014.

    Walaupun begitu penyusun menyadari sepenuhnya dalam pembuatan laporan inimasih banyak sekali kekurangan baik dalam penulisan ataupun dalam penyusunan sumber-sumber. Untuk itu maka penyusun mengharapkan dari semua pihak untuk ikut adilmemperbaiki laporan ini agar lebih sempurna lagi.

    Akhirnya penyusun memohon kepada Allah SWT, semoga makalah ini bergunabagi penyusun sendiri khususnya dan bagi para pembaca umumnya.

    Tasikmalaya, 24 Juni 2014

    Penyusun

  • ii

    DAFTAR ISIKata Pengantar ........................................................................................................................................ iDaftar Isi...................................................................................................................................... iiBAB I PENDAHULUAN................................................................................................................... 1

    A. PENDAHULUAN................................................................................................................ 1B. RUMUSAN MASALAH....................................................................................................... 1C. TUJUAN ........................................................................................................................... 1

    BAB II PEMBAHASAN ................................................................................................................... 21. PEMBAHASAN TEORITIS ................................................................................................... 22. METODOLOGI .................................................................................................................. 53. PENGUMPULAN DAN PENGOLAHAN DATA ....................................................................... 64. ANALISIS DAN PEMBAHASAN......................................................................................... 115. HASIL KESELURUHAN ..................................................................................................... 17

    BAB III KESIMPULAN DAN SARAN ............................................................................................... 18A. KESIMPULAN ................................................................................................................. 18B. SARAN........................................................................................................................... 18

    DAFTAR PUSTAKA ...................................................................................................................... 19

  • 1BAB I

    PENDAHULUAN

    A. PENDAHULUANPenemuan pattern dari data medis dalam dunia kedokteran saat ini menjadi fokus yang

    cukup penting. Dalam hal ini, pentingnya peranan data Mining akan mampu memberikanhasil yang optimal serta merupakan solusi yang potensial, khususnya bagi knowledgeDiscovery techniques. Konsumsi minuman beralkohol di dunia saat ini cukup banyak ditemuipada masyarakat, khususnya pada negara-negara Eropa dan Amerika. Sayangnya, hal tersebutmemiliki efek yang kurang baik bagi kesehatan. Di samping itu, konsumsi minumanberalkohol yang berlebih juga mampu merusak fungsi hati sebagai organ vital manusia.

    B. RUMUSAN MASALAHBerdasarkan Latar belakang diatas maka rumusan masalahnya adalah :

    1. Pembahasan Teoritis Data Mining, Weka, Alkohol.2. Algoritma J48 dan Simple K-MEANS?3. Perhitungan Data diagnosa Alcoholic Liver Disease (ALD) dengan menggunakan

    metode klasifikasi maupun Clustering?

    C. TUJUANTujuan pembuatan laporan ini :

    a) Untuk Mengenal secara menyeluruh Konsep dasar tahapan data Mining yang dilakukan.b) Untuk bisa memahami fungsi dari setiap tahapan Data Mining.c) Untuk memahami alur penyelesaian kasus dalam tahapan data Mining dengan

    menggunakan Algoritma J48 dan Simple K-Means

  • 2BAB II

    PEMBAHASAN

    1. PEMBAHASAN TEORITIS

    A. ALKOHOLMinuman beralkohol adalah minuman yang mengandung etanol. Etanol adalah bahan

    psikoaktif dan konsumsinya menyebabkan penurunan kesadaran. Etanol ialah sejenis bahankimia yang berupaya menekankan aktivitas otak, justru mengubah kewibawaan akal pikiran.Minuman beralkohol dibuat dengan cara fermentasi dari bahan baku yang mengandung patiatau gula tinggi.

    Penggunaan alkohol secara berterusan untuk jangka masa yang lama boleh menyebabkankesan toleransi yaitu peminum terpaksa mengambil ramuan yang semakin banyak bagimendapatkan kesan yang serupa. Di berbagai negara, penjualan minuman beralkohol dibatasike sejumlah kalangan saja, umumnya orang-orang yang telah melewati batas usia tertentu.Kandungan alkohol di atas 40 gram untuk pria setiap hari atau di atas 30 gram untuk wanitasetiap hari dapat berakibat kerusakan pada organ/bagian tubuh peminumnya.

    B. ALCOHOLIC LIVER DISEASE (ALD)Hati adalah organ vital hadir dalam vertebrata. Sampai saat ini, masih belum ada cara untukmentolerir ketiadaan fungsi hati. Banyak gangguan hati dapat terjadi seperti penyakit akibatalkohol hati. Penyakit kelainan hati akibat alkohol atau Alcoholic Liver Disease (ALD)adalah akibat potensial yang diakibatkan oleh konsumsi alkohol. Diagnosis dari ALD dapatdidasarkan dari beberapa hal, yakni data-data historis konsumsi alkohol, tanda-tanda fisik,serta tes laboratorium.Studi ini akan menggunakan data mengenai Alcoholic Liver Disease (ALD) dari UCIMachine Learning Repository. Secara keseluruhan, data ALD mengandung 7 atribut yangdijelaskan pada tabel berikut.

  • 3Tabel 1. Deskripsi Atribut pada Data ALD

    Lima atribut pertama diperoleh dari hasil laporan tes darah yang dianggap sensitif terhadapgangguan hati yang mungkin timbul dari konsumsi alkohol yang berlebihan. Variabelkeenam, yakni 'miras', berisikan pengukuran konsumsi alkohol, dan variabel terakhir adalahvariabel 'Class' yang merupakan class atribut pada data.

    C. DATA MININGSecara umum, data Mining dapat disebut juga dengan knowledge discovery. Definisi daridata Mining adalah sebuah proses menganalisis data dari perspektif yang berbeda danmerangkumnya menjadi sebuah informasi yang berguna, informasi berguna ini contohnyainformasi yang dapat digunakan untuk meningkatkan pendapatan, mengurangi biaya ataubahkan keduanya. Software data Mining adalah salah satu dari sejumlah alat-alat analisisuntuk menganalisis data yang ada. Hal ini memungkinkan pengguna untuk menganalisis datadari berbagai dimensi atau sudut pandang, mengkategorikan dan merangkumnya,mengidentifikasi hubungannya. Secara teknis, data Mining adalah proses menemukankorelasi atau pola antara puluhan field dalam satu basis data yang besar dan memiliki relasi.

  • 4D. CLASSIFICATION METHODMetode klasifikasi adalah suatu proses untuk mengelompokkan sejumlah data ke dalamkelas-kelas tertentu yang sudah ditentukan berdasarkan kesamaan sifat dan pola yang adadalam data-data tersebut. Umumnya, proses klasifikasi dimulai dengan diberikannyasejumlah data yang dijadikan acuan untuk membuat aturan klasifikasi data. Data-data inibiasa disebut dengan Training set. Dari Training set itu kemudian dibuat sebuah model untukmengklasifikasikan data. Model tersebut kemudian dijadikan sebagai acuan untukmengklasifikasikan data-data yang belum diketahui kelasnya, ini disebut dengan Test set.Beberapa metode klasifikasi adalah dengan menggunakan pohon Keputusan (decision tree),kaidah (rule), Memory Based Reasoning, Neural Networks, Nave Bayes, dan Support VectorMachine.

    E. CLUSTERING METHODMetode clustering digunakan untuk menganalisis pengelompokkan terhadap data, miripdengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tooldata Mining. Biasanya menggunakan metode Neural network atau statistik. Clusteringmembagi item menjadi kelompok-kelompok berdasarkan temuan yang ditemukan tool dataMining. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelasdan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yangmemiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.

    F. WEKAWEKA (Wakaito Environment for Knowledge Analysis) adalah aplikasi yang dikembangkanoleh University of Waikato, New Zealand. WEKA menyediakan banyak metode-metodeuntuk data Mining seperti re-processing, classification, clustering, regression,association danbeberapa metode lainnya. Sebagian besar kasus yang bertujuan untuk menganalisispengelompokkan data umumnya menggunakan metode klasifikasi dan klastering. Berikut inimerupakan beberapa jenis classifier yang ada pada metode klasifikasi maupun metodeklastering.

    1) J48J48 merupakan salah satu jenis classifier pada metode klasifikasi dalam data Mining. J48classifier adalah C4.5 decision tree yang sederhana. Ini menciptakan sebuah binary tree.Pendekatan decision tree adalah hal yang paling penting dalam masalah klasifikasi. Dengan

  • 5menggunakan teknik ini, sebuah tree dibentuk untuk model proses klasifikasi. Setelah treedibentuk, itu diterapkan untuk setiap record dalam database dan hasil dalam klasifikasi recorditu.

    2) SIMPLE K-MEANSSimple K-Means merupakan salah satu jenis classifier pada metode klastering dalam dataMining. K-Means adalah suatu metode analisis data atau metode data Mining yangmelakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satumetode yang melakukan pengelompokan data dengan sistem partisi. Metode k-meansberusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalamsatu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyaikarakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan katalain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatucluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.

    2. METODOLOGIMetodologi yang digunakan meliputi tiga proses utama, yakni: (1)input, (2)proses, dan(3)output. Gambaran metodologi tersebut dapat dilihat pada gambar berikut.

    Gambar 1. Metode Pengerjaan

    Adapun tahapan pengelolaan data akan dibagi lagi ke dalam dua proses, yakni:

    Proses Klasifikasi dengan Tree J48Metode ini digunakan untuk mengelompokkan data ke dalam dua class yang berbeda, yakni:(1)cukup beresiko, dan (2)sangat beresiko. Proses ini akan melibatkan beberapa pilihan test,yakni: Use Training Set, Supplied Test Set, Cross Validation, dan Percentage Split.

  • 6 Proses Clustering dengan Simple K-MeansProses ini juga akan melibatkan beberapa pilihan test, yakni: Use Training Set, Supplied TestSet, Cross Validation, dan Percentage Split.

    Gambar 2. Teknik Pengolahan Data

    3. PENGUMPULAN DAN PENGOLAHAN DATA

    A. DATA ALCOHOLIC LIVER DISEASEData yang akan digunakan dalam proses pengolahan terdiri atas data Training dan datatesting.

    1) TRAININGData Training yang digunakan berisikan sebanyak 190 line data yang mengandung ketujuhatribut yang telah dijelaskan di awal. Berikut ini merupakan beberapa data Training yangakan digunakan.

  • 7Gambar 3. Raw Data Training2) TESTINGData testing terdiri atas 155 line data (jumlah yang lebih sedikit dibandingkan dengan dataTraining). Berikut ini merupakan beberapa data Training yang akan digunakan.

    Gambar 4. Raw Data Testing

    B. PEMBUATAN DATA INPUTDikarenakan pengolahan data selanjutnya akan dilakukan menggunakan aplikasi WEKA,maka format data input harus diolah terlebih dahulu agar aplikasi dapat membaca set datayang ada. Dalam hal ini, akan digunakan data input dengan format C45. Data ini terdiri atasdua bagian, yakni file.names serta file.data, dimana file.names akan berisikan mengenai entrimengenai class, atribut, serta nilai dari set data. Berikut ini merupakan file.names yangdigunakan.

    Gambar 5. file.namesFile.data mengandung contoh data yang membentuk set data. Terdapat dua file.data yakniuntuk set data Training serta untuk set data testing.

  • 8Gambar 6. Data input Training

    Gambar 7. Data input testing

    C. PENGOLAHAN DATA PADA WEKALangkah selanjutnya yang dilakukan yaitu proses pengolahan data (Explorer) dengan

    menggunakan aplikasi WEKA.

  • 9Gambar 8. WEKA GUI

    Data input (Training) yang telah diolah sebelumnya, akan dimasukkan dan diolah denganmetode klasifikasi maupun Clustering. Gambar berikut menampilkan bahwa pada dataTraining, terdapat 78 orang yang cukup beresiko terhadap ALD, sedangkan 112 oranglainnya telah tergolong sangat beresiko mengenai ALD.

    Gambar 9. Instances dalam Pengujian

    1) CLASSIFICATIONMetode klasifikasi pada WEKA akan menggunakan classifier tree J48. Pemilihan classifiertersebut ditampilkan pada gambar berikut.

  • 10

    Gambar 10. Classifier Tree J48

    2) CLUSTERINGMetode Clustering menggunakan Simple K-MEANS diharapkan akan membentuk sebanyakdua cluster. Pengaturan cluster tersebut ditampilkan pada gambar berikut.

    Gambar 11. Pengaturan cluster

  • 11

    4. ANALISIS DAN PEMBAHASAN

    A. CLASSIFICATIONHasil pengolahan data menggunakan classifier tree J48 menghasilkan sebanyak 10 leaf node.

    Gambar 12. Tree dan Leaves

    Gambaran tree yang dibentuk oleh Training data adalah sebagai berikut.

    Gambar 13. Visualisasi Tree

    1) Use Training SetPengolahan klasifikasi data ALD pada tree J48 dengan pilihan tes untuk set data Training,menghasilkan data sebagai berikut.

  • 12

    Gambar 16. Hasil Cross Validation

    Akurasi yang diperoleh adalah 61,5789% dengan jumlah correctly classified instancessebanyak 90.

    Jumlah incorrectly classified instances adalah sebanyak 73 atau 38,4211%.

    Hasil akar dari mean squared error adalah 0,5475.

    4) Percentage splitPilihan tes untuk set data Training, dengan pembagian prosentase 66% untuk Trainingdan 34% untuk testing menghasilkan data sebagai berikut.

    Gambar 17. Hasil Percentage split

  • 13

    Akurasi yang diperoleh adalah 56,9231% dengan jumlah correctly classifiedinstances sebanyak 37.

    Jumlah incorrectly classified instances adalah sebanyak 28 atau 43,0769%.

    Hasil akar dari mean squared error adalah 0,4961.

    B. CLUSTERING

    1) Use Training SetPengolahan klasifikasi data ALD pada simple K-Means dengan pilihan tes untuk set datatraining, menghasilkan data sebagai berikut.

    Gambar 18. Hasil Use Training Set

    Jumlah iterasi yang diperoleh yakni sebanyak 2 iterasi.

    Nilai SSE (Sum of Squared Error) antar kluster adalah 24,62. Waktu yang dibutuhkan dalam membuat model adalah 0,02 detik.

    Data yang terbentuk oleh kedua kluster, terbagi atas diagnosa sangat beresiko sertacukup beresiko.

  • 14

    2) Supplied Test SetPilihan tes untuk set data testing, menghasilkan data sebagai berikut.

    Gambar 19. Hasil Supplied Test Set

    Jumlah iterasi yang diperoleh yakni sebanyak 2 iterasi.

    Nilai SSE (Sum of Squared Error) antar kluster adalah 24,62. Waktu yang dibutuhkan dalam membuat model adalah 0 detik.

    Data yang terbentuk oleh kedua kluster, terbagi atas diagnosa sangat beresiko sertacukup beresiko.

    3) Cross ValidationPilihan tes untuk cross validation, dengan jumlah folds sebanyak 10 menghasilkan datasebagai berikut.

  • 15

    Gambar 20. Hasil Cross Validation

    Jumlah iterasi yang diperoleh yakni sebanyak 6 iterasi.

    Nilai SSE (Sum of Squared Error) antar kluster adalah 62,91. Waktu yang dibutuhkan dalam membuat model adalah 0 detik.

    Data yang terbentuk oleh kedua kluster, hanya mencakup atas diagnosa sangat beresiko

    saja.

    4) Percentage splitPilihan tes untuk set data training, dengan pembagian prosentase 66% untuk training dan34% untuk testing menghasilkan data sebagai berikut.

  • 16

    Gambar 21. Hasil Percentage split

    Jumlah iterasi yang diperoleh yakni sebanyak 6 iterasi.

    Nilai SSE (Sum of Squared Error) antar kluster adalah 18,42. Waktu yang dibutuhkan dalam membuat model adalah 0,01 detik.

    Pada percentage split, dapat ditunjukkan bahwa terdapat 92 incorrectly clusteredinstances atau sejumlah 48,4211%.

    Gambar 22. Assignment Percentage split

  • 17

    5. HASIL KESELURUHAN

    Hasil yang diperoleh dari keseluruhan tes pengolahan data dapat dilihat padatabel-tabel berikut.

    Tabel 2. Hasil Classification pada WEKA

    Untuk pengolahan data dengan metode klasifikasi, diperoleh tingkat akurasi yang cukuptinggi, yakni diatas 50% untuk masing-masing tes. Namun, menimbang jumlahincorrectly classified instances, correctly classified instances, dan mean er ror jenis tesyang baik digunakan adalah Use training set dengan jumlah paling minimal incorrectlyclassified instances 39, tingkat akurasi tertinggi yakni 79,473%, dan mean Error palingminimal sebanyak 0,3887.

    Tabel 3. Hasil Clustering pada WEKA

    Untuk pengolahan data dengan metode Clustering, dengan menimbang hasil keseluruhan,maka tes yang sesuai adalah Use training set dan Supplied test set. Namun dari segikecepatan, Supplied test set sedikit lebih unggul dibandingkan Use training set.

  • 18

    BAB III

    KESIMPULAN DAN SARAN

    A. KESIMPULANData diagnosa Alcoholic Liver Disease (ALD) dapat diolah dengan baik menggunakanmetode klasifikasi maupun Clustering yang diproses menggunakan Software WEKA.Pemilihan metode dan jenis tes yang diperlukan dapat disesuaikan dengan tujuan maupunkebutuhan yang ingin diolah selanjutnya.

    B. SARANpengolahan Data diagnosa Alcoholic Liver Disease diharapkan dapat dikembangkan kembalidengan menggunakan metode lain dan menggunakan Software analisis data Mining yangberbeda.

  • 19

    DAFTAR PUSTAKA

    Rayned Alfred, 2008, Data mining, Academia.edu(https://www.academia.edu/769175/A_Data_Summarization_Approach_to_Knowledge_Discovery) di akses pada 24 juni 2014 pukul 16.10 WIBIka Nurlaily Isnainiah, 2008, Clasification Clustering ADL, Academia.edu(https://www.academia.edu/7019870/Uji_Coba_Classification_dan_Clustering_pada_Data_Alcoholic_Liver_Disease_Data_Mining_Experimental_on_the_data_of_ALD_) diakses pada24 juni 2014 pukul 16.10 WIBYudho Giri Sucahyo, 2003, Penerapan Data Mining, Artikel PopulerIlmuKomputer.Com (Artikel Internet www.google.com) diakses pada 24 juni 2014 pukul16.15 WIBIko Pramudiono, 2003, Pengantar Data Mining, Kuliah UmumIlmuKomputer.Com (Artikel Internet www.google.com) diakses pada 24 juni 2014 pukul16.15 WIBRadhiyatul Fajri, 2011, WEKA [software for Data Mining]http://radhiyatulfajri.wordpress.com/2011/11/08/weka-software-for-datamining/, diaksespada 24 juni 2014 pukul 17.11 WIB

    Cover DATA MINING.pdfKATA PENGANTAR.pdfDM_Final_C_117006118.pdf