15 Metode Meyelesaikan Data Mining,Sistem Pakar Dan SPK

85Sistem Pakar

KATA PENGANTAR

Puji dan syukur kehadirat Tuhan Yang Maha Esa atas segala berkat danlindunganNya sehingga buku yang berjudul 15 Metode Menyelesaikan DataMining, Sistem Pakar dan Sistem Pendukung Keputusan ini dapat sayaselesaikan dengan tuntas setelah melewati masa-masa yang cukup melelahkankurang lebih 14 bulan dengan menelusuri beberapa referensi dari jurnal, internet,buku dan artikel-artikel lainnya.

Buku 15 Metode Menyelesaikan Data Mining, Sistem Pakar dan SistemPendukung Keputusan ini ditujukan khusus untuk mahasiswa dan tidak tertutupkemungkinan juga para masyarakat awam yang ingin memahami caramembangun system berbasis artificial intelligence. Karena memang sengajadisusun lengkap dengan contoh-contoh dan latihan sehingga benar-benar parapembaca mudah memahami dan mampu mengimplementasikannya.

Kalangan mahasiswa sering terkendala dengan metode-metode yang berhubungandengan Data Mining, Sistem Pakar dan Sistem Pendukung Keputusan, dalambuku ini penulis membahas 15 metode sehingga antar metode dapatdiimplementasikan ke dalam Data Mining, Sistem Pakar dan Sistem PendukungKeputusan.

Melalui kata pengantar ini, penulis ingin mengucapkan trimakasih yang sebesar-besarnya kepada Yayasan Teknologi Informasi Mutiara dan STMIK Kaputamaserta seluruh civitas akademika STMIK KAPUTAMA Binjai yang turut sertamembantu dari segi doa dan motivasi hingga selesainya buku ini, danpersembahan khusus buku ini kepada Triple-R Buaton Junior (Randhy, Richard,Rachel) dan istri tercinta Dewi Sartika. Akhir kata semoga buku ini bermanfaatbagi kita semua

Medan 2014

86Sistem Pakar

Penulis

DAFTAR ISI

Kata PengantarDaftar IsiBAB 1 : PendahuluanBAB 2 : DATA MINING

2.1. Pengertian Data Mining2.2.1. Data Warehouse2.2.2. Proses Data Mining2.2.3. Teknik Data Mining

2.2. Metode Rough Set2.2.1. Pengantar Rough Set2.2.2. Discernibility Matrix2.2.3. Discernibility Matrix Modulo D2.2.4. Reduct2.2.5. Generating Rules

2.3. Metode Association Rules2.3.1. Pengantar Association Rules2.3.2. Terminologi Association Rule2.3.3. Langkah-Langkah Algoritma PadaAssociation Rule

2.4.Metode Clustering2.4.1. Pengantar Clustering2.4.2. Algoritma K-Means

2.5. Artificial Neural Networ(ANN)2.5.1. Pengantar Jaringan syaraf Tiruan2.5.2. Perceptron2.5.3. BACK PROPAGATION(Perambatan Galat Mundur)

2.5.3.1. Pengantar Back Propagation2.6. Decision Tree(Pohon Keputusan)

2.6.1. Pengantar Decision Tree2.6.2.AlgoritmaID3

BAB 3 : SISTEM PAKAR3.1. Sekilar Tentang Artificial Inteligence

3.1.1. Pengertian Sistem Pakar3.1.2. Konsep Dasar Sistem Pakar3.1.3. Ciri-Ciri Sistem Pakar3.1.4. Struktur Sistem Pakar3.1.5. Keuntungan Sistem Pakar3.1.6. Representasi pengetahuan3.1.7. Model Representasi Pengetahuan3.1.8. Inferensi

3.2. Metode Bayes

87Sistem Pakar

3.2.1. Prior3.2.1. Posterior3.2.3. Penerapan Metode Bayes

3.3. Fuzzy Sistem3.3.1 Fuzziness dan Probabilitas3.3.2 Fuzzy Set3.3.3 Fuzzy logic

3.4. Certainty Factor3.4.1.Pengertian Faktor Kepastian ( Certainty Factor )3.4.2.Perhitungan Certainty Factor

BAB 4: SISTEM PENDUKUNG KEPUTUSAN4.1. Fuzzy Multiple Attribute Decision Making (FMADM)

4.1.1. Sistem Pendukung Keputusan4.1.2. Ciri-ciri Decision Support System (DSS)4.1.3. Karakteristik, Kemampuan dan Keterbatasan SPK4.1.4. Komponen - Komponen Sistem Pendukung Keputusan4.1.5. Tahapan Proses Pengambilan Keputusan

4.2. Metode Analytical Hierarchy Process (AHP)4.2.1 Kelebihan AHP4.2.2 Prinsip - Prinsip Analytical Hierarchy Process4.2.3 Langkah-Langkah Analytical Hierarchy Process4.2.4. Contoh Kasus Dengan Metode AHP

4.3.Metode TOPSIS( Technique For Order Preference by Similarity to4.3.1. Langkah-langkah metode TOPSIS4.3.2. Contoh Penerapan Metode Topsis

4.4.Metode Weighted Product (WP)4.4.1.Contoh Kasus Dengan Metode WP

4.5. Metode Simple Additive Weighting (SAW)4.5.1. Analisis Pemecahan Masalah dengan Metode SAW4.5.2.Studi Kasus

Daftar Pustaka

88Sistem Pakar

MOTTO

Jangan Pernah Berhenti Untuk Belajar

89Sistem Pakar

Tentang Penulis

Relita Buaton, ST, M. Kom, lahir pada tahun 1979yang selalu mendapat prestasi baik sejak SD, SMP,SMA hingg jenjang Perguruan Tinggi. Gelar ST diraihdi ISTP(Institut Sains dan Teknologi TD. Pardede) padatahun 2004 di Medan, Gelar M. Kom diraih di UPI(Universitas Putra Indonesia) di Padang tahun 2010.

Berbagai pengalaman dan pekerjaan telah didapatsebagai EDP Staff, IT Manager di beberapa perusahaan swasta di Kota Medan,Sejak tahun 2006 mengabdi sebagai dosen di beberapa PTS Medan, dan tahun2009 sebagai dosen tetap di STMIK Kaputama Binjai sampai saat ini

Penulis gemar pada beberapa cabang ilmu computer diantaranya,pemrograman(desktop maupun web base), Artificial Inteligence, Expert Systemdan Data Mining. Kontak dengan penulis dapat [email protected]

90Sistem Pakar

BAB I

PENGANTAR

Buku ini terdiri dari 4 bab, yang terdiri dari Data Mining, Sistem Pakar danSistem Pendukung Keputusan, berikut akan dijelaskan gambaran bab demi bab

Bab I pengantar

Bab II tentang data mining mencakupa. Konsep data miningb. Metode Rough Setc. Apriori

d. Clusteringe. Perceptro

f. Back Propagation

g. Decision Tree

Data mining merupakan serangkaian proses untuk menggali nilai tambah darisuatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secaramanual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai prosesuntuk mendapatkan informasi yang berguna dari gudang basis data yang besar.Data mining juga diartikan sebagai pengekstrakan informasi baru yang diambildari bongkahan data besar yang membantu dalam pengambilan keputusan. Istilahdata mining kadang disebut juga knowledge discovery. Istilah data mining danKnowledge Discovery in Database (KDD) sering kali digunakan secara bergantianuntuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basisdata yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda,

91Sistem Pakar

tetapi berkaitan satu sama lain. KDD adalah kegiatan yang meliputi pengumpulan,pemakaian data, historis untuk menemukan keteraturan, pola atau hubungandalam set data yang berukuran besar

Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Polayang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan.Karakteristik data mining sebagai berikut

1. Data mining berhubungan dengan penemuan sesuatu yang tersembunyidan pola data tertentu yang tidak diketahui sebelumnya.

2. Data mining biasa menggunakan data yang sangat besar. Biasanya datayang besar digunakan untuk membuat hasil lebih dipercaya.

3. Association rule mining adalah teknik mining untuk menemukan aturanassosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif darianalisa pembelian di suatu pasar swalayan adalah bisa diketahui berapabesar kemungkinan seorang pelanggan membeli roti bersamaan dengansusu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapatmengatur penempatan barangnya atau merancang kampanye pemasarandengan memakai kupon diskon untuk kombinasi barang tertentu. Pentingtidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter,support yaitu persentase kombinasi item tersebut dalam database danconfidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.

4. Classification adalah proses untuk menemukan model atau fungsi yangmenjelaskan atau membedakan konsep atau kelas data, dengan tujuanuntuk dapat memperkirakan kelas dari suatu objek yang labelnya tidakdiketahui.

5. Decision tree adalah salah satu metode classification yang paling populerkarena mudah untuk diinterpretasi oleh manusia. Setiap percabanganmenyatakan kondisi yang harus dipenuhi dan tiap ujung pohonmenyatakan kelas data. Algoritma decision tree yang paling terkenaladalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang

92Sistem Pakar

mampu menangani data skala besar yang tidak dapat ditampung di mainmemory seperti RainForest.

6. ClusteringBerbeda dengan association rule dan classification dimana kelas data telahditentukan sebelumnya, clustering melakukan pengelompokan data tanpaberdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untukmemberikan label pada kelas data yang belum diketahui itu. Karena ituclustering sering digolongkan sebagai metode unsupervised learning.Prinsip clustering adalah memaksimalkan kesamaan antar anggota satukelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapatdilakukan pada data yang memiliki beberapa atribut yang dipetakansebagai ruang multidimensi.

7. Neural Network

Merupakan pendekatan perhitungan yang melibatkan pengembanganstruktur secara matematis dengan kemampuan untukbelajar dan mampumenurunkan pengertian dari data yang kompleks dan tidak jelas dan dapatdigunakan pula untuk mengekstrak pola dan mendeteksi trend-trend yangsangat kompleks untuk dibicarakan baik oleh manusia maupun teknikkomputer lainnya. Jaringan syaraf buatan yang terlatih dapat dianggapsebagai pakar dalam kategori informasi yang akan dianalisis. Pakar inidapatbdigunakan untuk memproyeksi situasi baru dari ketertarikaninformasi

Dengan memahami bab 2, maka dapat memecahkah masalah yang berhubungandengan tumpukan data, sehingga mampu mendapatkan informasi ataupengetahuan baru sekumpulan atau tumpukan data. Untuk memahami metode-metode yang terdapat dalam data mining, penulis membuat beberapa contoh untukmemahami perhitungan secara matematis

Kalangan mahasiswa terkadang mengalami kesulitan dalam memilihi metodeuntuk penelitian, pada bab 2 penulis juga menjelaskan saat kapan metode terdebutdigunakan sesuai data.

93Sistem Pakar

Bab III tentang Sistem pakar, mencakupa. Konsep system pakar

b. Backward Chainingc. Forward Chainingd. Metode Fuzzy Logice. Certainty factorf. Metode Bayes

Sistem Pakar ( Expert System ) adalah sistem yang berusaha mengadopsipengetahuan manusia ke komputer, agar komputer dapat menyelesaikan masalahseperti biasa yang dilakukan para ahli Sistem pakar (expert system) mulaidikembangkan pada pertengahan tahun 1960-an oleh Artificial IntelligenceCorporation. Sistem pakar yang muncul pertama kali adalah General-purposeProblem Solver (GPS) yang merupakan sebuah predecessor untuk menyusunlangkah-langkah yang dibutuhkan untuk mengubah situasi awal menjadi statetujuan yang telah ditentukan sebelumnya dengan menggunakan domain masalahyang kompleks. Sistem pakar dapat diterapkan untuk persoalan di bidang industri,pertanian, bisni, kedokteran, militer, komunikasi dan transportasi, pariwisata,pendidikan, dan lain sebagainya. Permasalahan tersebut bersifat cukup kompleksdan terkadang tidak memiliki algoritma yang jelas di dalam pemecahannya,sehingga dibutuhkan kemampuan seorang atau beberapa ahli untuk mencarisistematika penyelesaiannya secara evolutif.

Sistem pakar disusun oleh dua bagian utama, yaitu: lingkunganpengembangan (development environment) dan lingkungan konsultasi(consultation environment) (Muhammad Arhami, 2005). Lingkunganpengembangan sistem pakar digunakan untuk memasukkan pengetahuan pakarkedalam lingkungan sistem pakar, sedangkan lingkungan konsultasi digunakanoleh pengguna yang bukan pakar guna memperoleh pengetahuan pakar.

94Sistem Pakar

Komponen-komponen yang terdapat dalam sistem pakar antara lain adalahsebagai berikut :

1. Antarmuka pengguna (user interface)User interface merupakan mekanisme yang digunakan oleh pengguna dansistem pakr untuk berkomunikasi. Antarmuka menerima informasi daripemakai dan mengubahnya kedalam bentuk yang dapat diterima olehsistem. Pada bagian ini terjadi dialog antara program dan pemakai, yangmemungkinkan sistem pakar menerima instruksi dan informasi (input) daripemakai, juga memberikan informasi (output) kepada pemakai.

1. Basis Pengetahuan

Basis pengetahuan berisi pengetahuan-pengetahuan dalam penyelesaianmasalah dalam domain tertentu.Ada dua bentuk pendekatan basispengetahuan yang sangat umum digunakan, yaitu :

a) Penalaran berbasis aturan (Rule-Based Reasoning)Pengetahuan direpresentasikan dengan menggunakan aturan berbentuk : IF-THEN. Bentuk ini digunakan apabila memiliki sejumlah pengetahuan pakarpada suatu permasalahan tertentu, dan pakar dapat menyelesaikan masalahtersebut secara berurutan.

b) Penalaran berbasis kasus (Case-Based Reasoning)Basis pengetahuan berisi solusi-solusi yang telah dicapai sebelumnya,kemudian akan diturunkan suatu solusi untuk keadaan yang terjadi sekarang.

3. Akuisisi Pengetahuan (knowledge acquisition)Akuisisi pengetahuan adalah akumulasi, transfer, dan transformasi keahliandalam menyelesaikan masalah dari sumber pengetahuan kedalam programkomputer. Dalam tahap ini knowledge engineer berusaha menyerappengetahuan untuk selanjutnya di transfer ke dalam basispengetahuan.Terdapat empat metode utama dalam akuisisi pengetahuan, yaitu:wawancara, analisis protocol, observasi pada pekerjaan pakar dan induksiaturan dari contoh.

95Sistem Pakar

4. Mesin inferensi

Mesin inferensi merupakan perangkat lunak yang melakukan penalaran denganmenggunakan pengetahuan yang ada untuk menghasilkan suatu kesimpulanatau hasil akhir. Dalam komponen ini dilakukan permodelan proses berfikirmanusia.

5. WorkplaceWorkplace merupakan area dari sekumpulan memori kerja yang digunakanuntuk merekam hasil-hasil dan kesimpulan yang dicapai. Ada tiga tipekeputusan yang direkam, yaitu :a) Rencana : Bagaimana menghadapi masalah.b) Agenda : Aksi-aksi yang potensial yang sedang menunggu untuk eksekusi.c) Solusi : calon aksi yang akan dibangkitkan.

6. Fasilitas penjelasanFasilitas penjelasan adalah komponen tambahan yang akan meningkatkankemampuan sistem pakar. Komponen ini menggambarkan penalaran sistemkepada pemakai dengan cara menjawab pertanyaan-pertanyaan.

7. Perbaikan pengetahuanPakar memiliki kemampuan untuk menganalisis dan meningkatkan kinerjanyaserta kemampuan untuk belajar dan kinerjanyaSistem pakar merupakan program yang dapat menggantikan keberadaan seorangpakar. Alasan mendasar mengapa sistem pakar dikembangkan menggantikanseorang pakar adalah sebagai berikut :

1. Dapat menyediakan kepakaran setiap waktu dan di berbagai lokasi.2. Secara otomatis mengerjakan tugas-tugas rutin yang membutuhkan

seorang pakar.

3. Seorang pakar akan pensiun atau pergi.

4. Menghadirkan atau menggunkan jasa seorang pakar memerlukan biayayang mahal.

5. Kepakaran dibutuhkan juga pada lingkungan yang tidak bersahabat(hostile environment).

96Sistem Pakar

Dengan memahami bab 3 yaitu tentang system pakar, para pembaca diharapkanmampu menerapkan metode-metode tersebut untuk membangun system pakarmaupun memahami perhitungan secara matematis

Bab IV tentang Sistem Pendukung Keputusan, mencakupa. Konsep system pendukung keputusanb. MADMc. AHP

d. SAWe. WP

f. TOPSIS

Fuzzy Multiple Attribute Decision Making (FMADM) adalah suatu metode yangdigunakan untuk mencari alternatif optimal dari sejumlah alternatif dengankriteria tertentu. Inti dari FMADM adalah menentukan nilai bobot untuk setiapatribut, kemudian dilanjutkan dengan proses perankingan yang akan menyeleksialternatif yang sudah diberikan. Pada dasarnya, ada tiga pendekatan untukmencari nilai bobot atribut, yaitu pendekatan subyektif, pendekatan obyektif danpendekatan integrasi antara subyektif & obyektif. Masing-masing pendekatanmemiliki kelebihan dan kelemahan. Pada pendekatan subyektif, nilai bobotditentukan berdasarkan subyektifitas dari para pengambil keputusan, sehinggabeberapa faktor dalam proses perankingan alternatif bisa ditentukan secara bebas.Sedangkan pada pendekatan obyektif, nilai bobot dihitung secara matematissehingga mengabaikan subyektifitas dari pengambil keputusan

Sistem Pendukung Keputusan adalah suatu sistem informasi bebasis komputeryang menghasilkan berbagai alternatif keputusan untuk membantu manajemendalam menangani berbagai permasalahan yang terstruktur ataupun tidakterstruktur dengan menggunakan data dan model. Kata berbasis komputermerupakan kata kunci, karena hampir tidak mungkin membangun SPK tanpa

97Sistem Pakar

memanfaatkan komputer sebagai alat bantu, terutama untuk menyimpan data sertamengelola model

a. Karakteristik DSS

1. Mendukung seluruh kegiatan organisasi

2. Mendukung beberapa keputusan yang saling berinteraksi

3. Dapat digunakan berulang kali dan bersifat konstan

4. Terdapat dua komponen utama, yaitu data dan model

5. Menggunakan baik data eksternal dan internal

6. Memiliki kemampuan what-if analysis dan goal seeking analysis

7. Menggunakan beberapa model kuantitatif

b. Kemampuan DSS

1. Menunjang pembuatan keputusan manajemen dalam menangani masalahsemi terstruktur dan tidak terstruktur

2. Membantu manajer pada berbagai tingkatan manajemen, mulai darimanajemen tingkat atas sampai manajemen tingkat bawah

3. Menunjang pembuatan keputusan secara kelompok maupun perorangan4. Menunjang pembuatan keputusan yang saling bergantung dan berurutan5. Menunjang tahap-tahap pembuatan keputusan antara lain intelligensi,

desain, choice, dan implementation6. Menunjang berbagai bentuk proses pembuatan keputusan dan jenis

keputusan

7. Kemampuan untuk melakukan adaptasi setiap saat dan bersifat fleksibel8. Kemudahan melakukan interaksi system

98Sistem Pakar

9. Meningkatkan efektivitas dalam pembuatan keputusan daripada efisiensi10. Mudah dikembangkan oleh pemakai akhi11. Kemampuan pemodelan dan analisis pembuatan keputusan12. Kemudahan melakukan pengaksesan berbagai sumber dan format data

Di samping berbagai Karakteristik dan Kemampuan seperti dikemukakandi atas, SPK juga memiliki beberapa keterbatasan, diantaranya adalah

1. Ada beberapa kemampuan manajemen dan bakat manusia yang tidak dapatdimodelkan, sehingga model yang ada dalam sistem tidak semuanyamencerminkan persoalan sebenarnya.

2. Kemampuan suatu SPK terbatas pada pembendaharaan pengetahuan yangdimilikinya (pengetahuan dasar serta model dasar).

3. Proses-proses yang dapat dilakukan oleh SPK biasanya tergantung jugapada kemampuan perangkat lunak yang digunakannya.

4. SPK tidak memiliki kemampuan intuisi seperti yang dimiliki olehmanusia. Karena walau bagaimana pun canggihnya suatu SPK, hanyalahsautu kumpulan perangkat keras, perangakat lunak dan sistem operasiyang tidak dilengkapi dengan kemampuan berpikir.

Dengan membaca bab 4 yakni tentang system pendukung keputusan, pembacamampu membangun system pendukung keputusan, yan tentu konsepnya berbedadengan data mining dan system pendukung keputusan

Buku ini juga disertai dengan beberapa contoh kasus, dimana kasus tersebutdiambil dari pengalaman penulis dalam beberap jurnal yang penulis buatdan sedang proses penerbitan

99Sistem Pakar

BAB II

DATA MINING

2.1. Pengertian Data Mining

Sebelum membahas lebih jauh tentang data mining, mari kita simakterlebih dahulu pengalaman 2 orang mahasiswa pasca sarjana di Curtin Universityof Tecnology berikut ini(Yudho, 2003)

Ketika saya mengikuti program orientasi mahasiswa baru pasca sarjanadi Curtin University of Technology, saya berkenalan dengan seorangmahasiswi asal Australia. Dia mengambil program Master di bidangJaringan Komputer dan telah menyandang gelar MCSE (MicrosoftCertified Systems Engineer), lalu dia bertanya pada saya, Apa topik

penelitian Anda?, saya menjawab Data Mining. Dia kemudian

memberi komentar kepada saya, Oh. itu bagus sekali. Anda tepat

sekali mengambil topik itu disini, karena kita punya pertambangan emasyang besar sekali di Kalgoorlie (Kalgoorlie berada 600 km di sebelah timurPerth dan Curtin University mempunyai cabang kampus disana). Data

Mining memang salah satu cabang ilmu komputer yang relatif baru. Dansampai sekarang orang masih memperdebatkan untuk menempatkan datamining di bidang ilmu mana, karena data mining menyangkut database,kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yangberpendapat bahwa data mining tidak lebih dari machine learning atauanalisa statistik yang berjalan di atas database. Namun pihak lainberpendapat bahwa database berperanan penting di data mining karenadata mining mengakses data yang ukurannya besar (bisa sampai terabyte)dan disini terlihat peran penting database terutama dalam optimisasi query-nya. Lalu apakah data mining itu? Apakah memang berhubungan erat

100Sistem Pakar

dengan dunia pertambangan, tambang emas, tambang timah, dsb. Definisisederhana dari data mining adalah ekstraksi informasi atau pola yangpenting atau menarik dari data yang ada di database yang besar. Dalamjurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discoveryin Databases (KDD)

Kutipan di atas menceritakan 2 orang mahasiswa yang memiliki perbedaanpersfektif dan pemahaman terkait dengan data mining, ketika dia mengatakantopik penelitiannya tentang data mining, dan temannya beranggapan bahwa datamining itu berarti penggalian atau penambangan(emas, timah, dll), sehingga diamengatakan , oh itu bagus sekali karena kita punya pertambangan emas yangbesar sekali di Kalgoorlie, mungkin kata mining diasumsikan sama denganpenambangan atau penggalian emas atau timah.

Setiap hari, bulan atau tahun data transaksi di perusahaan, perguruantinggi, swalayan atau instansi lainnya terakumulasi dalam jumlah yang besar. Jikadalam satu hari ada 200 transaksi, maka dalam setahun kurang lebih sekitar72.000 transaksi. Kemudian berapa transaksi jika data itu diakumulasikan untuk10 tahun. Pertanyaannya setelah data itu selesai digunakan setiap bulannya,

untuk apa data itu disimpan?apakah dibuang, atau disimpan begitu saja hingga menjadi gunung data?

Kalau disimpan terus menerus tentu membutuhkan biaya untuk penambahankapasitas memori penyimpanan dan biaya perawatan. Solusi terbaik adalahdengan membuang data, tetapi sebelum data itu dimusnahkan maka data tersebutdigali terlebih dahulu untuk mendapatkan pengetahuan baru, informasi baru yangsangat berarti dengan menggunakan teknik data mining.

Data mining merupakan serangkaian proses untuk menggali nilai tambahdari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahuisecara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagaiproses untuk mendapatkan informasi yang berguna dari gudang basis data yangbesar. Data mining juga diartikan sebagai pengekstrakan informasi baru yangdiambil dari bongkahan data besar yang membantu dalam pengambilan

101Sistem Pakar

keputusan. Istilah data mining kadang disebut juga knowledge discovery (EkoPrasetyo, 2012). Istilah data mining dan Knowledge Discovery in Database(KDD) sering kali digunakan secara bergantian untuk menjelaskan prosespenggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnyakedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu samalain. KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historisuntuk menemukan keteraturan, pola atau hubungan dalam set data yang berukuranbesar (Budi Santoso , 2007a).

Data mining didefinisikan sebagai proses menemukan pola-pola dalamdata. Pola yang ditemukan harus penuh arti dan pola tersebut memberikankeuntungan. Karakteristik data mining sebagai berikut

8. Data mining berhubungan dengan penemuan sesuatu yang tersembunyidan pola data tertentu yang tidak diketahui sebelumnya.

9. Data mining biasa menggunakan data yang sangat besar. Biasanya datayang besar digunakan untuk membuat hasil lebih dipercaya.

Data mining berguna untuk membuat keputusan yang kritis, terutamadalam strategi (Davies, 2004), juga dapat digunakan untuk pengambilankeputusan di masa depan berdasarkan informasi yang diperoleh dari data masalalu. Tergantung pada aplikasinya, data bisa berupa data mahasiswa, data pasien,data nasabah atau penjualan. Banyak kasus dalam kehidupan sehari-hari yangtanpa disadari bisa diselesaikan dengan data mining, diantaranya adalah

1. Memprediksi harga saham dalam beberapa bulan ke depan berdasarkanperformansi perusahaan dan data-data ekonomi

2. Memprediksi berapa jumlah mahasiswa baru di perguruan tinggiberdasarkan data pendaftar pada tahun-tahun sebelumnya

3. Memprediksi nilai indeks prestasi mahasiswa berdasarkan nilai IPsetiap semester sebelumnya

4. Produk apa yang akan dibeli pelanggan secara bersamaan jika membeliproduk di swalayan

102Sistem Pakar

5. Bagaimana mengetahui karakteristik nasabah yang kredit lancar ataumacet dalam suatu perbankan atau finance

6. Mengelompokan customer berdasarkan minat, atau pola kebiasaansehingga mempermudah menentukan target pemasaran

7. Dll.

Tentu masih banyak lagi contoh-contoh dalam bidang lain atau kasuslain yang kaitannnya dengan penggalian data sehingga bisa menghasilkanpengetahuan baru dan informasi baru menjadi strategi dalam mengembangkansuatu bidang uasaha.

9.1.1. Data WarehouseData warehouse merupakan kumpulan data dari berbagai sumber yang

disimpan dalam suatu gudang data (repository) dalam kapasitas besar dandigunakan untuk proses pengambilan keputusan (Prabhu, 2007). Data warehousemenyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunandata warehouse meliputi pembersihan data, penyatuan data dan transformasi datadan dapat dilihat sebagai praproses yang penting untuk digunakan dalam datamining. Selain itu data warehouse mendukung On-line Analitycal Processing(OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif daribentuk multidimensi yang mempunyai data yang rinci. Sehingga dapatmemfasilitasi secara efektif data generalization dan data mining. Banyak metode-metode data mining yang lain seperti asosiasi, klasifikasi, prediksi, dan clustering,dapat diintegrasikan dengan operasi OLAP untuk meningkatkan proses miningyang interaktif dari beberapa level dari abstraksi. Oleh karena itu data warehousemenjadi platform yang penting untuk data analisis dan OLAP untuk dapatmenyediakan platform yang efektif untuk proses data mining.

Menurut William Inmon, karakteristik dari data warehouse adalah sebagaiberikut :

1. Subject oriented.

103Sistem Pakar

Pada sistem operasional, data disimpan berdasarkan aplikasi. Set datahanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait danaplikasinya. Sedangkan pada data warehouse, data disimpan bukanberdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuksebuah perusahaan manufaktur subjek bisnis yang penting, yaitupenjualan, pengangkutan, dan penyimpanan barang.

2. Integrated.Data yang tersimpan dalam data warehouse terdiri dari berbagai systemoperasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapaperbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut datadan pengukuran data. Keempat perbedaan tersebut harus disamakanterlebih dahulu sesuai dengan standar tertentu agar data yang nantinyatersimpan dalam data warehouse dapat terintegrasi.

3. Time variant.

Pada data warehouse, data yang tersimpan adalah data historis dalamkurun waktu tertentu, bukan data terkini. Oleh karena itu data yangtersimpan mengandung keterangan waktu, misalnya tanggal, minggu,bulan, catur wulan,dan sebagainya. Karakteristik time variant pada datawarehouse memiliki karakteristik sebagai berikut:

a. Melakukan analisa terhadap hal di masa lalu.b. Mencari hubungan antara informasi dengan keadaan saat ini.c. Melakukan prediksi hal yang akan datang.

4. Non-volatile.Data dalam sistem operasional dapat di update sesuai transaksi

bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse,data tidak dapat diubah karena bersifat read only.Arsitektur data warehouse (gambar 2.1) mencakup proses ETL

(Extraction,Transformation, Loading) untuk memindahkan data dari operationaldata source dan sumber data eksternal lainnya ke dalam data warehouse . Datawarehouse dapat dibagi menjadi beberapa data mart, berdasarkan fungsibisnisnya (contoh: data mart untuk penjualan, pemasaran, dan keuangan). Data

104Sistem Pakar

dalam data warehouse dan data mart diatur oleh satu atau lebih server yangmewakili multidimensional view dari data terhadap berbagai front end tool, sepertiquerytools, analysis tools, report writers, dan data mining tools.

Gambar 2.1 Arsitektur Data Warehouse (Prabhu, 2007)

2.1.2. Proses Data Mining

Data mining merupakan rangkaian proses, data mining dapat dibagimenjadi beberapa tahap yang diilustrasikan di Gambar 2.2. Tahap-tahap tersebutbersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledgebase.

105Sistem Pakar

Gambar 2.2. Tahapan Data Mining

Karena data mining adalah suatu rangkaian proses, maka data miningdapat dibagi menjadi beberapa tahap seperti yang diilustrasikan pada gambar 2.2

1. Pembersihan data (membuang data yang tidak konsisten atau noise)Pembersihan data merupakan proses menghilangkan noise dan data yangtidak konsisten atau data tidak relevan. Pada umumnya data yangdiperoleh, baik dari database suatu perusahaan maupun hasil eksperimen,memiliki isian-isian yang tidak sempurna seperti data yang hilang, datayang tidak valid atau juga hanya sekedar salah ketik

2. Integrasi data (penggabungan data dari beberapa sumber)Integrasi data merupakan penggabungan data dari berbagai database kedalam satu database baru. Tidak jarang data yang diperlukan untuk datamining tidak hanya berasal dari satu database tetapi juga berasal daribeberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas

3. Transformasi data (mengubah data menjadi bentuk lain)Data diubah atau digabung ke dalam format yang sesuai untuk diprosesdalam data mining. Beberapa metode data mining membutuhkan formatdata yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapametode standar seperti analisis asosiasi dan clustering hanya bisamenerima input data kategorikal. Oleh sebab itu data berupa angka/numerik perlu dibagi-bagi menjadi beberapa interval. Proses ini seringdisebut transformasi data

4. Aplikasi teknik data miningMerupakan suatu proses utama saat metode diterapkan untuk menemukanpengetahuan berharga dan tersembunyi dari data.

106Sistem Pakar

5. Evaluasi dan Presentasi pengetahuan (dengan teknik visualisasi)Menyajikan pengetahuan mengenai metode yang digunakan untukmemperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dariproses data mining adalah bagaimana memformulasikan keputusan atauaksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkanorang-orang yang tidak memahami data mining. Karenanya presentasihasil data mining dalam bentuk pengetahuan yang bisa dipahami semuaorang adalah satu tahapan yang diperlukan dalam proses data mining

2.1.3. Teknik Data Mining

Data mining berkaitan dengan bidang ilmu ilmu lain, seperti databasesystem, data warehousing, statistik, machine learning, information retrieval, dankomputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain sepertineural network, pengenalan pola, spatial data analysis, image database, signalprocessing. Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas,yaitu

1. Deskripsi

memperoleh pola (correlation, trend,cluster, trajectory, anomaly) untukmenyimpulkan hubungan di dalam data

2. Prediksimemprediksikan nilai dari atribut tertentu berdasarkan nilai dari atributlainnya. Atribut yang diprediksi dikenal sebagai target atau dependentvariable, sedangkan atribut yang digunakan untuk membuat prediksidisebut penjelas atau independent variable

Beberapa teknik yang sering terdapat dalam literatur data mining antaralain yaitu association rule mining, clustering, klasifikasi, neural network dan lain-lain.

107Sistem Pakar

a. Association rule mining adalah teknik mining untuk menemukan aturanassosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif darianalisa pembelian di suatu pasar swalayan adalah bisa diketahui berapabesar kemungkinan seorang pelanggan membeli roti bersamaan dengansusu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapatmengatur penempatan barangnya atau merancang kampanye pemasarandengan memakai kupon diskon untuk kombinasi barang tertentu. Pentingtidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter,support yaitu persentase kombinasi item tersebut dalam database danconfidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.

b. Classification adalah proses untuk menemukan model atau fungsi yangmenjelaskan atau membedakan konsep atau kelas data, dengan tujuanuntuk dapat memperkirakan kelas dari suatu objek yang labelnya tidakdiketahui.

c. Decision tree adalah salah satu metode classification yang paling populerkarena mudah untuk diinterpretasi oleh manusia. Setiap percabanganmenyatakan kondisi yang harus dipenuhi dan tiap ujung pohonmenyatakan kelas data. Algoritma decision tree yang paling terkenaladalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yangmampu menangani data skala besar yang tidak dapat ditampung di mainmemory seperti RainForest.

d. ClusteringBerbeda dengan association rule dan classification dimana kelas data telahditentukan sebelumnya, clustering melakukan pengelompokan data tanpaberdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untukmemberikan label pada kelas data yang belum diketahui itu. Karena ituclustering sering digolongkan sebagai metode unsupervised learning.Prinsip clustering adalah memaksimalkan kesamaan antar anggota satukelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapatdilakukan pada data yang memiliki beberapa atribut yang dipetakansebagai ruang multidimensi.

108Sistem Pakar

e. Neural Network

Merupakan pendekatan perhitungan yang melibatkan pengembanganstruktur secara matematis dengan kemampuan untukbelajar dan mampumenurunkan pengertian dari data yang kompleks dan tidak jelas dan dapatdigunakan pula untuk mengekstrak pola dan mendeteksi trend-trend yangsangat kompleks untuk dibicarakan baik oleh manusia maupun teknikkomputer lainnya. Jaringan syaraf buatan yang terlatih dapat dianggapsebagai pakar dalam kategori informasi yang akan dianalisis. Pakar inidapatbdigunakan untuk memproyeksi situasi baru dari ketertarikaninformasi

2.2. Metode Rough Set2.2.1. Pengantar Rough Set

Teori rough set adalah sebuah teknik matematik yang dikembangkan olehPawlack pada tahun 1980 (Chouchoulas, 1999). Rough Set salah satu teknik datamining yang digunakan untuk menangani masalah Uncertainty, Imprecision danVagueness dalam aplikasi Artificial Intelligence (AI). Rouh set merupakan teknikyang efisien untuk Knowledge Discovery in Database (KDD) dalam tahapanproses dan Data Mining.

Secara umum, teori rough set telah digunakan dalam banyak aplikasiseperti medicine, pharmacology, business, banking, engineering design, imageprocessing dan decision analysis.

1. Representasi Data Dalam Rough Set

Rough set direpresentasikan dalam 2 elemen yakni Information Systems (IS) danDecision Systems (DS).

Information Systems (IS) adalah pasangan IS={U,A}, dimana

109Sistem Pakar

U={e1, e2,, em} dan A={a1, a2, , an} merupakan sekumpulan exampledan attribute kondisi secara berurutan.

Definisi di atas memperlihatkan bahwa sebuah Information Systems terdiri darisekumpulan example, seperti {e1, e2, , em} dan attribute kondisi, seperti {a1, a2,, an}. Sebuah Information Systems yang sederhana diberikan dalam tabel 2.1.

Tabel 2.1. Information Systems

Example Studies Education .. Works1 Poor SMU .. Poor

2 Poor SMU .. Good

3 Moderate Diploma .. Poor

4 Moderate MSc .. Poor

5 Poor Diploma .. Good

6 Good SMU .. Poor

7 Moderate Diploma .. Poor

..

..

100 Good MSc .. Good

Data di atas merupakan kumpulan data 100 orang dengan melihat tingkatpendapatan berdasarkan kriteria studies, education dan works . Dalam InformationSystem, tiap-tiap baris merepresentasikan objek sedangkan columnmerepresentasikan attribute yang terdiri dari m objek,

U={e1, e2,, em}: Example 1,2,3

A={a1, a2, , an}: Studies, EducationWorks

Dalam banyak aplikasi, sebuah outcome / keputusan dari pengklasifikasiandiketahui yang direpresentasikan dengan sebuah Decision Attribute, C={C1, C2,, Cp}. Maka Information Systems (IS) menjadi IS=(U,{A,C}). DecisionSystems (DS) yang sederhana diperlihatkan pada table 2.2.

110Sistem Pakar

Table 2.2. Sistem Informasi dan Keputusan

Example Studies Education .. Works Income(D)

1 Poor SMU .. Poor None

2 Poor SMU .. Good Low

3 Moderate Diploma .. Poor Low

4 Moderate MSc .. Poor Medium

5 Poor Diploma .. Good Medium

6 Good SMU .. Poor Low

7 Moderate Diploma .. Poor Medium

..

..

100 Good MSc .. Good High

Tabel 2.2. memperlihatkan sebuah Decision Systems yang sederhana,terdiri dari m objek, seperti E1, E2, , Em, dan n attribute, seperti Studies,Education, , Works dan Income (D). Dalam tabel ini, n-1 attribute, Studies,Education, , Works, adalah attribute kondisi, sedangkan Income adalah decisionattribute.

2. Equivalence ClassEquivalence class adalah mengelompokan objek-objek yang sama untuk attributeA (U, A). Diberikan Decision Systems pada table 2.2, dapat memperolehequivalence class (EC1-EC5) seperti digambarkan pada tabel-2.3

Tabel 2.3. Equivalen ClassClass Studies Education Works Income Jumlah

EC1 Poor SMU Poor None 50

EC2 Poor SMU Good Low 5

EC3 Moderate SMU Poor Low 30

EC4 Moderate Diploma Poor Low 10

EC5,1 Good MSc Good Medium 4

EC5,2 Good MSc Good High 1

111Sistem Pakar

Class EC5 adalah sebuah indeterminacy yang memberikan 2 (dua) keputusan yangberbeda. Situasi ini dapat ditangani dengan teknik data cleaning karena kelasEC5,2 hanya memiliki 1objek. Kolom yang paling kanan mengindikasikan jumlahobjek yang ada dalam Decision System untuk class yang sama.Contoh dalam table2.4 disederhanakan kedalam numerical representation untuk mempermudahpengolahan datanya, dengan transformasi atribut sebagai berikut.

Tabel 2.4 memperlihatkan numerical representation dari equivalence class daritable 2.3

Tabel 2.4. Equivalen Class(Transformasi)

Class Studies Education Works Income JumlahEC1 1 2 3 1 50

EC2 1 2 1 2 5

EC3 2 2 3 2 30

EC4 2 3 3 2 10

EC5,1 3 5 1 3 4

EC5,2 3 5 1 4 1

2.2.4. Discernibility Matrix

S t u d i e s :

P o o r : 1

M o d e r a t e : 2

G o o d : 3

E d u c a t i o n :

S M U : 2

D i p l o m a : 3

M S c : 5

112Sistem Pakar

Diberikan sebuah IS A=(U,A) and B A, discernibility matrix dari A adalahMB, dimana tiap-tiap entry MB(I,j) tediri dari sekumpulan attribute yang berbedaantara objek Xi dan Xj. Bandingkan setiap class, bila ada perbedaan pada atributclass kemudian tuliskan pada table discerdibility matrix, sedangkan jika semuaatribut sama maka tuliskan dengan tanda kali (X). Atribut dimodelkan dengan:

Studies : AEducation : BWorks : C

Contoh: EC1 dengan EC1, semua atribut sama sehingga hasilnya X(Baris 2 kolom2), EC1 dengan EC2, terdapat perbedaan yaitu atribut works, sehingga pada table2.5 baris 2 kolom 3 hasilnya C, begitu selanjutnya. Tabel 2.5 memperlihatkandiscerniblity matrix dari table 2.4.

Table 2.5. Discernibility Matrix

EC1 EC2 EC3 EC4 EC5EC1 X C A AB ABC

EC2 C X AC ABC AB

EC3 A AC X B ABC

EC4 AB ABC B X ABC

EC5 ABC AB ABC ABC X

2.2.5. Discernibility Matrix Modulo D

Diberikan sebuah DS A=(U,A{d{) dan subset dari attribute B A, discernibilitymatrix modulo D dari A, MBd, didefinisikan seperti berikut dimana MB(I,j)

113Sistem Pakar

adalah sekumpulan attribute yan berbeda antara objek Xi dan Xj dan juga berbedaattribute keputusan. Berdasarkan table 2.5, bandingkan setiap class berdasarkandecision/keputusan, jika keputusan(income) sama maka tuliskan tanda kali(X),jika income berbeda tuliskan perbedaan atributnya berdasarkan table 2.5. ContohEC3 dengan EC2 income sama sehingga hasilnya : X (baris 4 kolom 3)

Table 2.6. Discernibility Matrix Modulo D

EC1 EC2 EC3 EC4 EC5EC1 X C A AB ABC

EC2 C X X X AB

EC3 A X X X ABC

EC4 AB X X X ABC

EC5 ABC AB ABC ABC X

2.2.6. Reduct

Reduct adalah penyeleksian attribut minimal (interesting attribute) darisekumpulan attribut kondisi dengan menggunakan Prime Implicant fungsiBoolean. Kumpulan dari semua Prime Implicant mendeterminasikan sets ofreduct. Discernibility matrix modulo D pada table 2.6 dapat ditulis sebagaiformula CNF seperti diperlihatkan pada table 2.7. Gunakan aljabar Boolean untukmencari prime implicant

A+1=1+A=1

AA=A

Class EC1 terdiri dari X,C,A,AB,ABC menjadi C^A^(AvB)^(AvBvC)

=C^A^(AvB)^(AvBvC)

=C^(AA+AB) ^(AvBvC)

=C^(A+AB)^(AvBvC)

114Sistem Pakar

=C^(A(1+B))^(AvBvC)

=CÂ^(AvBvC)

=CÂA+AB+AC

=CÂ(1+B)+AC

=CÂ+AC

=CÂ(1+C)

=CÂ=A^C=AC

Class EC2 terdiri dari C,X,X,X,AB menjadi C^(AvB)

=AC+BC

=AC,BC

Class EC3 terdiri dari A,X,X,X,ABC menjadi A^(AvBvC)

=AA+AB+AC

=A(1+B)+AC

=A+AC

=A(1+C)

=A

Class EC4 terdiri dari AB,X,X,X,ABC menjadi (AvB)^(AvBvC)

=AA+AB+AC+AB+BB+BC

=A(1+B)+AC+AB+BB+BC

=A+AC+AB+BB+BC

=A(1+C)+AB+BB+BC

115Sistem Pakar

=A+AB+BB+BC

=A(1+B)+BB+BC

=A+B(1+C)

=A+B

=A,B

Calss EC5 terdiri dari ABC,AB,ABC,ABC,X menjadi(AvBvC)^(AvB)^(AvBvC)^(AvBvC)

=(AvBvC)^(AvB)^(AvBvC)^(AvBvC)

=AA+AB+AB+BB+AC+BC^(AvBvC)^(AvBvC)

=A(1+B)+AB+BB+AC+BC^(AvBvC)^(AvBvC)

=A+AB+BB+AC+BC^(AvBvC)^(AvBvC)

=A(1+B)+BB+AC+BC^(AvBvC)^(AvBvC)

=A+AC+BB+BC^(AvBvC)^(AvBvC)

=A(1+C)+BB+BC^(AvBvC)^(AvBvC)

=A+B(1+C)^(AvBvC)^(AvBvC)

=A+B^(AvBvC)^(AvBvC)

=B+A^(AvBvC)^(AvBvC)

=B+AA+AB+AC^(AvBvC)

=B+A(1+B)+AC^(AvBvC)

=B+A+AC^(AvBvC)

=B+A(1+C)^(AvBvC)

116Sistem Pakar

=B+A^(AvBvC)

=B+AA+AB+AC

=B+A(1+B)+AC

=B+A+AC

=B+A(1+C)

=B+A=A,B

Tabel 2.7. Reduce

Class CNF of Function Boolean Prime Implicant ReduceEC1 C^A^(AvB)^(AvBvC) A^C {A,C}EC2 C^(AvB) C(AvB) {A,C},{B,C}EC3 A^(AvBvC) A {A}EC4 (AvB)^(AvBvC) AvB {A},{B}EC5 (AvBvC)^(AvB) AvB {A},{B}

2.2.7. Generating Rules

Setelah mendapatkan reduce, maka dapat ditarik kesimpulan atauditentukan rule dengan menyesuaikan reduce setiap equivalen class terhadap table2.3(Equivalen Class). Contoh untuk EC1 reduce={A,C}. Pada table discerdibilitymatrix Studies dimodelkan dengan A, Education : B dan Works : C, sehinggarulenya adalah Jika studies=poor dan work=poor maka income=none.

Berikut akan ditarik kesimpulan untuk semua kelas

a. Class EC1 menghasilkan prime implicant {A,C}, Rulenya adalah

1. Jika studies=poor dan work=poor maka income=none

b. Class EC2 menghasilkan prime implicant {AC},{BC}, Rulenya adalah

117Sistem Pakar

2. Jika studies=poor dan work=good maka income=low3. Jika education=SMU dan work=good maka income=low

c. Class EC3 menghasilkan prime implicant {A}, Rulenya adalah

4. Jika studies=moderate maka income low

d. Class EC4 menghasilkan prime implicant {A},{B}, Rulenya adalah

5. Jika studies=moderate maka income=low6. Jika education=Diploma maka income=low

e. Class EC5 menghasilkan prime implicant {A},{B}, Rulenya adalah

7. Jika studies=good maka income=moderate8. Jika education=MSc maka income=moderate

Dari 8 rule diatas dapat disimpulkan dengan menggunakan logika OR, menjadi

1. Jika studies=poor dan work=poor maka income=none2. Jika (studies=poor dan work=good) atau(education=SMU dan

work=good) atau studies=moderate ataueducation=Diploma makaincome=low

3. Jika studies=good atau education=MSc maka income=moderate

2.3. Metode Association Rules

2.3.1. Pengantar Association Rules

Analisis asosiasi atau association rule adalah teknik data mining untukmenemukan aturan assosiatif antara suatu kombinasi item. Aturan asosiasimerupakan pernyataan implikasi bentuk XY, dimana X dan Y adalah itemsetyang lepas(disjoint)dan memenuhi persyaratan X Y={}(Eko Prasetyo, 2012),

118Sistem Pakar

Contoh aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalahdapat diketahuinya berapa besar kemungkinan seorang pelanggan membeli gulabersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayandapat mengatur tata letak atau penempatan barangdagangannya(Kantardzic,2003).

Algoritma A Priori termasuk jenis aturan asosiasi pada data mining. Selaina priori, yang termasuk pada golongan ini adalah metode generalized ruleinduction dan algoritma hash based. Aturan yang menyatakan asosiasi antarabeberapa atribut sering disebut affinity analysis atau market basket analysis.Analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisa isikeranjang belanja di pasar swalayan. Analisis asosiasi juga sering disebut denganistilah market basket analysis. Analisis asosiasi dikenal juga sebagai salah satuteknik data mining yang menjadi dasar dari berbagai teknikdata mining lainnya.Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis polafrequensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untukmenghasilkan algoritma yang efisien (Kantardzic, 2003).

Penting tidaknya suatu aturan assosiatif dapat diketahui dengan duaparameter, support (nilai penunjang)yaitu persentase kombinasi item tersebutdalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antaritem dalam aturan assosiatif.

Nilai support untuk 2 item diperoleh dengan rumusSupport(a b) = Jumlah transaksi mengandung a dan bTotal transaksi x 100%Nilai confidence untuk 2 item diperoleh dengan rumus

Conidence = p(b|a) = Jumlah transaksi mengandung a dan bTotal transaksi a x 100%Aturan assosiatif biasanya dinyatakan dalam bentuk :{gula, kopi}{susu} (support = 60%, confidence = 50%)Yang artinya : "50% dari transaksi di database yang memuat item gula dan kopijuga memuat item susu. Sedangkan 60% dari seluruh transaksi yang ada di

119Sistem Pakar

database memuat ketiga item itu." Dapat juga diartikan : "Seorang konsumen yangmembeli gula dan susu mempunyai kemungkinan 50% untuk juga membeli susu.Aturan ini cukup signifikan karena mewakili 60% dari catatan transaksi selamaini."

Analisis asosiasi didefinisikan suatu proses untuk menemukan semuaaturan assosiatif yang memenuhi syarat minimum untuk support (minimumsupport) dan syarat minimum untuk confidence (minimumconfidence).

2.3.2. Terminologi Association Rule1. I adalah himpunan yang tengah dibicarakan.

Contoh:{Gula,Kopi,Susu, ,Mentega}

2. D adalah Himpunan seluruh transaksi yang tengah dibicarakanContoh:{Transaksi 1, transaksi 2, , transaksi n}

3. Proper Subset adalah Himpunan Bagian murniContoh:- Ada suatu himpunan A={a,b,c,}- Himpunan Kosong = {}- Himpunan 1 Unsur = {a},{b},{c}- Himpunan 2 Unsur = {a,b},{a,c},{b,c}- Himpunan 3 Unsur = {a,b,c,}Proper subset nya adalah Himpunan 1 Unsur dan Himpunan 2 Unsur

4. Item set adalah Himpunan item atau item-item pada IContoh:Ada suatu himpunan A={a,b,c,}Item set nya adalah{a};{b}:{c};{a,b};{a,c};{b,c}

5. K- item set adalah Item set yang terdiri dari K buah item yang ada pada I atau Kadalah jumlah unsur yang terdapat pada suatu Himpunan

Contoh:3-item set adalah yang bersifat 3 unsur6. Item set Frekuensi adalah Jumlah transaksi di I yang mengandung jumlah item

set tertentu. Intinya jumlah transaksi yang membeli suatu item set.Contoh:

120Sistem Pakar

- frekuensi Item set yang sekaligus membeli susu dan roti adalah 3- frekuensi item set yang membeli sekaligus membeli roti,susu dan kopi

adalah 27. Frekuen Item Set adalah item set yang muncul sekurang-kurangnya sekian kali

di D. Kata sekian biasanya di simbolkan dengan . merupakan batas

minimum dalam suatu transaksi8. Fk adalah Himpunan semua frekuen Item Set yang terdiri dari K item.

2.3.3. Langkah-Langkah Algoritma PadaAssociation Rule1. Tentukan

2. Tentukan semua Frekuen Item set

3. Untuk setiap Frekuen Item set lakukan hal sbb:1. Ambil sebuah unsur, namakanlah s2. Untuk sisanya namakanlah ss-s

3. Masukkan unsur-unsur yang telah di umpamakan ke dalam rule If(ss-s) then s

Untuk langkah ke 3 lakukan untuk semua unsur.

Contoh:

Data PenjualanTransaksi Item

1 Gula,Susu,Kopi

2 Roti,Susu,Mentega

3 Gula,Roti,Susu,Mentega

4 Roti,Mentega

Langkah 1: Pisahkan semua item

Gula,Kopi,Susu,Roti, MentegaLangkah 2: Lakukan Transformasi

Misalkan A:Gula, B:Roti, C:Susu, D:Kopi, E:Mentega, sehingga table datapenjualan menjadi sbb

Transaksi Item

1 A,C,D

121Sistem Pakar

2 B,C,E

3 A,B,C,E

4 B,E

Langkah 3: Buat dalam matrix untuk menentukan jumlah item muncul dalamdatabase

Transaksi A B C D E1 1 0 1 1 0

2 0 1 1 0 1

3 1 1 1 0 1

4 0 1 0 0 1

Jumlah 2 3 3 1 3

Langkah 4: Tentukan frekuen item set(), misalkan =2 atau 50%Sesuai dengan frekuen item set yang telah ditentukan, maka item yang memenuhiadalah A,B,C,E, sedangkan D tidak termasuk karena hanya 1 kali muncul dalamdatabase.Langkah 5: Tentukan item set

a. 2 item set, merupakan kombinasi dari item yang memenuhi frekuenitem set yaitu AB,AC,AE,BC,BE,CE

b. Lakukan pengujian untuk calon 2 item set untuk mengetahui 2 item setyang memenuhi syarat sesuai frekuen item set yang telah ditentukansebelumnyaItem set AB

Transaksi A B Hasil

1 1 0 0

2 0 1 0

3 1 1 1

4 0 1 0

Total 1

Item set AC

Transaksi A C Hasil

122Sistem Pakar

1 1 1 1

2 0 1 0

3 1 1 1

4 0 0 0

Total 2

Item set AE

Transaksi A E Hasil

1 1 0 0

2 0 1 0

3 1 1 1

4 0 1 0

Total 1

Item set BC

Transaksi B C Hasil1 0 1 0

2 1 1 1

3 1 1 1

4 1 0 0

Total 2

Item set BE

Transaksi B E Hasil

1 0 0 0

2 1 1 1

3 1 1 1

4 1 1 1

Total 3

Item set CE

Transaksi C E Hasil1 1 0 0

2 1 1 1

123Sistem Pakar

3 1 1 1

4 0 1 0

Total 2

Dari ke 6 calon 2 item set yang memenuhi syarat sesuai denganfrekuen item yaitu minimal 2 adalah AC,BC,BE,CE

c. Tentukan 3 item set(bila diperlukan)Untuk menentukan calon 3 item set, merupakan kombinasi dari 2 itemset yaitu dengan 2 item yang bersamaan, maka calon 3 item set adalahAC dengan BC: ABCAC dengan EC: AECBC dengan EC: BCE

d. Lakukan pengujian untuk calon 3 item set untuk mengetahui 3 item setyang memenuhi syarat sesuai frekuen item set yang telah ditentukansebelumnyaItem set ABC

Transaksi A B C Hasil1 1 0 1 0

2 0 1 1 0

3 1 1 1 1

4 0 1 0 0

Total 1

Item set AEC

Transaksi A E C Hasil1 1 0 1 0

2 0 1 1 0

3 1 1 1 1

4 0 1 0 0

Total 1

Item set BCE

Transaksi B C E Hasil

124Sistem Pakar

1 0 1 0 0

2 1 1 1 1

3 1 1 1 1

4 1 0 1 0

Total 2

Dari ke 3 calon 3 item set yang memenuhi syarat sesuai denganfrekuen item yaitu minimal 2 adalah BCE

Langkah 6: Membuat ruleRule yang dipakai adalah if x then y, dimana x adalah antecendent dan y adalahconsequent. Berdasarkanrule tersebut, maka dibutuhkan 2 buah item yang manasalah satunya sebagai antecedent dan sisanya sebagai consequent. Untukantecedent boleh lebih dari 1 unsur, sedangkan untuk consequent terdiri dari1unsur.

a. Rule 2 item set (AC,BC,BE,CE)1. If buy A then buy C2. If buy C then buy A3. If buy B then buy C4. If buy C then buy B5. If buy B then buy E6. If buy E then buy B7. If buy C then buy E8. If buy E then buy C

b. Rule 2 item set (BCE)1. If buy B and C then buy E2. If buy B and E then buy C3. If buy C and E then Buy B

Langkah 7: hitung support dan confidencec. Kandidat association rule 2 item set

Rule Support Confidence

125Sistem Pakar

1. If buy A then buy C 2/4x100%=50%2/2x100%=100%

2. If buy C then buy A 2/4x100%=50%2/3x100%=75%

3. If buy B then buy C 2/4x100%=50%2/3x100%=75%

4. If buy C then buy B 2/4x100%=50%2/3x100%=75%

5. If buy B then buy E 3/4x100%=75%3/3x100%=100%

6. If buy E then buy B 3/4x100%=75%3/3x100%=100%

7. If buy C then buy E 2/4x100%=50%2/3x100%=75%

8. If buy E then buy C 2/4x100%=50%2/3x100%=75%

d. Kandidat association rule 3 item setRule Support Confidence1. If buy B and C then buy E 2/4x100%=50%

2/2x100%=100%

2. If buy B and E then buy C 2/4x100%=50%2/3x100%=68%

3. If buy C and E then Buy B 2/4x100%=50%2/2x100%=100%

Langkah 8: Lakukan perkalian support dan confidence, nilai paling tinggi itulahrule of the best sebagai rule association

e. Untuk 2 item set, nilai paling tinggi adalahRule Support Confidence

1. If buy B then buy E 3/4x100%=75%3/3x100%=100%

126Sistem Pakar

2. If buy E then buy B 3/4x100%=75%3/3x100%=100%

Jika membeli roti maka membeli mentegaJika membeli mentega maka memebeli roti

f. Kandidat association rule 3 item setRule Support Confidence4. If buy B and C then buy E 2/4x100%=50%

2/2x100%=100%

5. If buy C and E then Buy B 2/4x100%=50%2/2x100%=100%

2.4.Metode Clustering2.4.1. Pengantar Clustering

Kesamaan adalah dasar untuk mendefinisikan cluster , ukuran kesamaanantara dua pola yang diambil dari ruang fitur yang sama sangat penting di dalamalgoritma clustering. Penentuan kesamaan sangat hati-hati karena kualitas proses

pengelompokan tergantung pada keputusan ini(Kantardzic,2003).

Custering menganalisis objek datayang digunakan untuk menghasilkan grup, grup tersebut didapatkan berdasarkanprinsip memaksimalkan kesamaan dalam kelas dan meminimalkan kesamaanantar kelas, artinya bahwa kelompok terbentuk sehingga objek dalam clustermemiliki kemiripan yang tinggi dibandingkan dengan yang lain, tetapi sangatberbeda dengan objek dalam cluster lain(Jiawei,2000).

Salah satu metode yang diterapkan dalam KDD adalah clustering.

Clustering adalah membagi data ke dalam grupgrup yang mempunyai obyekdengan karakteristiknya sama. Clustering memegang peranan penting dalamaplikasi data mining,misalnya eksplorasi data ilmu pengetahuan, pengaksesaninformasi dan textmining, aplikasi basis data spasial, dan analisis web. Clusteringditerapkan dalam mesin pencari di Internet. Web mesin pencari akan mencari

127Sistem Pakar

ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumendokumen tersebut dikelompokkan dalam clustercluster sesuai dengan kata-katayang digunakan(Sri Andayani, 2007). Pada dasarnya metode pengelompokan ada2 yakni Hierarchical clustering method dan Non Hierarchical clustering method.Metode Hirarki digunakan jika jumlah kelompok tidak diketahui sebelumnya,sedangkan non hirarki digunakan jika jumlah kelompok sudah diketahui darisejumlah objek. Salah satu algoritma yang termasuk dalam non hirarki adalahalgoritma K-Means.

Metode Hirarki memulai pengelompokan dengan dua atau lebih obyekyang mempunyai kesamaan paling dekat. Kemudian diteruskan pada obyek yanglain dan seterusnya hingga cluster akan membentuk semacam pohon dimanaterdapat tingkatan (hirarki) yang jelas antar obyek, dari yang paling mirip hinggayang paling tidak mirip. Non Hirarki dimulai dengan menentukan terlebih dahulujumlah cluster yang diinginkan (dua,tiga, atau yang lain). Setelah jumlah clusterditentukan, maka proses cluster dilakukan dengan tanpa mengikuti proses hirarki

2.4.3. Algoritma K-MeansAlgoritma KMeans adalah algoritma clustering yang popular dan banyak

digunakan dalam dunia industri. Algoritma ini disusun atas dasar ide yangsederhana. Pada awalnya ditentukan berapa cluster yang akan dibentuk. Sebarangobyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagaititik tengah (centroid point) cluster. Algoritma KMeans selanjutnya akanmelakukan pengulangan langkahlangkah berikut sampai terjadi kestabilan (tidakada obyek yang dapat dipindahkan).

Konsep kesamaan adalah hal yang fundamental dalam analisis cluster.Kesamaan antar objek merupakan ukuran korespondensi antar objek. Ada tigametode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuranasosiasi. Dengan menggunakan ukuran jarak, ukuran kemiripan yang dapatdigunakan adalah jarak dEeculidean dan dManhattan City. Jika objek pertamayang diamati adalah X=[X1,X2..Xp] dan Y=[Y1,Y2Yp] antara 2 objek dari p

dimensi maka

128Sistem Pakar

dEculidean: , = ( )dManhattan: , = | |

Adapun pun langkah-langkahnya dengan menggunakan algoritma K-Meanssebagai berikut

1. Tentukan jumlah cluster2. Menentukan centroid(koordinat titik tengah setiap cluster), untuk iterasi

pertama diambil secara random3. Menghitung jarak obyek ke centroid dengan menggunakan rumus

jarakEuclidean atau Manhattan.4. Menentukan jarak setiap obyek terhadap koordinat titik tengah,5. mengelompokkan obyekobyek tersebut berdasarkan pada jarak

terdekat

Berikut ditampilkan diagram alir dari algoritma KMeans.

129Sistem Pakar

Gambar 2.4. Algoritma K-Means

Contoh:

Mahasiswa IPK Alamat

Paijo 3,5 SiantarSarinem 2,9 Berastagi

Karsono 1,0 Tj. MorawaTukiman 1,8 Medan

ITERASI:I

130Sistem Pakar

Langkah 1: lakukan transformasi, karena data harus dalam bentuk numeric sesuaidengan rumus kedekatan yang digunakan Distance Euqlidean

IPK ALAMAT

Mahasiswa IPK Alamat

Paijo 5 4Sarinem 4 3

Karsono 1 1

Tukiman 2 1

Langkah 2: tentukan grup(misalkan k=2)

Langkah 3: Tentukan centroid, misalkan (C1:5,4|C2:4,3)

Langkah 4: hitung objek terhadap centroid

P(1,1)= (5 5) + (4 4) =0P(1,1)= (5 4) + (4 3) =1,4S(1,1)= (4 5) + (3 4) =1,4S(1,1)= (4 4) + (3 3) =0K(1,1)= (1 5) + (1 4) =5

131Sistem Pakar

K(1,1)= (1 4) + (1 3) =3,6T(1,1)= (2 5) + (1 4) =4,2T(1,1)= (2 4) + (1 3) =2,8Langkah 5: grupkan berdasarkan jarak terdekat

Objek IPK Alamat Jarak C1 Jarak C2 GrupPaijo 5 4 0 1,4 1Sarinem 4 3 1,4 0 2

Karsono 1 1 5 3,6 2

Tukiman 2 1 4,2 2,8 2

Grup baru : 1 2 2 2, iterasi pertama dianggap berpindah grup sehingga dilanjutkanke iterasi ke 2, iterasi pertama belum ada grup karena centroid diambil secara acak

ITERASI II

Langkah 1 dan 2 sama dengan itetarsi ke 2

Langkah 3: Tentukan centroid

Centroid I: 5|4

Centroid II: diambil dari grup 2 yaitu Sarinem, Karsono dan

Tukiman=( ))=2,3|=( ))=1,6Langkah 4: hitung objek terhadap centroid

P(1,1)= (5 5) + (4 4) =0P(1,1)= (5 2,3) + (4 1,6) =3,6S(1,1)= (4 5) + (3 4) =1,4

132Sistem Pakar

S(1,1)= (4 2,3) + (3 1,6) =2,2K(1,1)= (1 5) + (1 4) =5K(1,1)= (1 2,3) + (1 1,6) =1,4T(1,1)= (2 5) + (1 4) =4,2T(1,1)= (2 2,3) + (1 1,6) =0,6Langkah 5: grupkan berdasarkan jarak terdekat

Objek IPK Alamat Jarak C1 Jarak C2 GrupPaijo 5 4 0 3,6 1Sarinem 4 3 1,4 2,2 1

Karsono 1 1 5 1,4 2

Tukiman 2 1 4,2 0,6 2

Grup lama : 1 2 2 2 dan Grup baru : 1 1 2 2, terjadi perpindahan grup makadilanjutkan iterasi berikutnya yaitu iterasi ke 3

ITERASI III

Langkah 1 dan 2 sama dengan itetarsi ke 3

Langkah 3: Tentukan centroid

Centroid I: diambil dari grup 1 yaitu Paijo dan Sarinem=( ))=4,5|=( ))=3,5Centroid II: diambil dari grup 2 yaitu Karsono dan Tukiman=( ))=1,5|=( ))=1Langkah 4: hitung objek terhadap centroid

P(1,1)= (5 4,5) + (4 3,5) =0,7P(1,1)= (5 1,5) + (4 1) =4,6

133Sistem Pakar

SP(1,1)= (4 4,5) + (3 3,5) =0,7S(1,1)= (4 1,5) + (3 1) =3,2KP(1,1)= (1 4,5) + (1 3,5) =4,3K(1,1)= (1 1,5) + (1 1) =0,5T(1,1)= (2 4,5) + (1 3,5) =3,5T(1,1)= (2 1,5) + (1 1) =0,5Langkah 5: grupkan berdasarkan jarak terdekat

Objek IPK Alamat Jarak C1 Jarak C2 GrupPaijo 5 4 0,7 4,6 1Sarinem 4 3 0,7 3,2 1

Karsono 1 1 4,3 0,5 2

Tukiman 2 1 3,5 0,5 2

Grup lama : 1 1 2 2 dan Grup baru : 1 1 2 2, tidak terjadi perpindahan grup makastop dengan

Centroid I: diambil dari grup 1 yaitu Paijo dan Sarinem=( ))=4,5|=( ))=3,5Centroid II: diambil dari grup 2 yaitu Karsono dan Tukiman=( ))=1,5|=( ))=1Secara grafik dapat digambarkan sebagai berikut

134Sistem Pakar

Gambar 2.5. Hasil Clustering

Dari gfarik di atas dapat ditarik kesimpulan

Goup 1: IPK tinggi dan alamat jauh dari kampus

Group 2: IPK rendah dan alamat dekat dengan kampus

Sehingga disimpulkan mahasiswa yang rumahnya jauh dengan kampus akanmemperoleh IPK tinggi

2.5. Artificial Neural Networ(ANN)

2.5.1. Pengantar Jaringan syaraf Tiruan

Jaringan saraf tiruan (Artificial Nueral Network) atau disingkat JST adalahsistem komputasi dimana arsitektur dan operasi diilhami dari pengetahuan tentangsel saraf biologis di dalam otak manusia, yang merupakan salah satu representasi

00,51

1,52

2,53

3,54

4,5

0 1 2 3 4 5 6

IPK

Alamat

Grup 2

Grup 1

135Sistem Pakar

buatan dari otak manusia yang selalu mencoba menstimulasi proses pembelajaranpada otak manusia tersebut. Model saraf ditunjukkan dengan kemampuannyadalam emulasi, analisis, prediksi dan asosiasi. Kemampuan yang dimiliki JSTdapat digunakan untuk belajar dan menghasilkan aturan atau operasi dari beberapacontoh atau input yang dimasukkan dan membuat prediksi tentang kemungkinanoutput yang akan muncul atau menyimpan karaktristik dari input yang disimpankepadanya.

Valluru B.Rao dan Hayagriva V.Rao (1993) mendefenisi jaringan sarafsebagai sebuah kelompok pengolahan elemen dalam suatu kelompok yang khususmembuat perhitungan sendiri dan memberikan hasilnya kepada kelompok keduaatau berikutnya. Setiap sub kelompok menurut gilirannya harus membuatperhitungan sendiri dan memberikan hasilnya untuk subgrup atau kelompok yangbelum melakukan perhitungan. Pada akhirnya sebuah kelompok dari satu ataubeberapa pengolahan elemen tersebut menghasilkan keluaran (output) darijaringan.

Setiap pengolahan elemen membuat perhitungan berdasarkan pada jumlahmasukan (input). Sebuah kelompok pengolahan elemen disebut layer atau lapisandalam jaringan. Lapisan pertama adalah input dan yang terakhir adalah output.Lapisan di antara lapisan input dan output disebut dengan lapisan tersembunyi(hidden layer). Jaringan saraf tiruan merupakan suatu bentuk arsitektur yangterdistribusi paralel dengan sejumlah besar node dan hubungan antar nodetersebut. Tiap titik hubungan dari satu node ke node yang lain mempunyai hargayang diasosiasikan dengan bobot. Setiap node memiliki suatu nilai yangdiasosiasikan sebagai nilai aktivasi node.

Salah satu organisasi yang dikenal dan sering digunakan dalam paradigmajaringan saraf buatan adalah perambatan Galat Mundur (back-propagation).Sebelum dikenal adanya jaringan saraf perambatan Galat Mundur pada tahun1950-1960-an,dikenal dua paradigma penting yang nantinya akan menjadi dasardari saraf Perambatan Galat Mundur, yakni perceptron dan Adaline/Madaline

136Sistem Pakar

(adaptive linier neuron/multilayer adaline). Dalam buku ini akan dibahasPerceptron dan Back Propagation( Arif Hermawan, 2006).

2.5.2. Perceptron

Arsitektur pembelajaran perceptron yakni dengan mengenali pola denganmetode belajar terbimbing. Pola yang diklasifikasikan biasanya berupa bilanganbiner (kombinasi 1 dan 0) dan kategori pengklasifikasian juga di wujudkan dalambilangan biner. Perceptron dibatasi untuk dua lapisan pengolah dengan satulapisan bobot yang dapat beradabtasi.

Gambar 2.6. Arsitektur Perceptron

Elemen pada Gambar 2.6 adalah unit pengolah dasar dari perceptron. Unitpengolah ini mendapat masukan dari unit pengolah lain yang masing-masingdihubungkan melalui bobot interkoneksi Wi. Unit pengolah melakukanpenjumlahan berbobot untuk masukannya, dengan rumus berikut ini.

n

iiiwxX

1

Dengan:

Wi=bobot sambungan dari unit input ke output

Xi=masukan yang berasal dari unit input

Threshold

Inputs

x1

x2

OutputY

HardLimiter

w2

w1

LinearCombiner

137Sistem Pakar

Sebuah nilai prasikap(fungsi aktivasi) diberikan sebagai tambahan masukankepada unit pengolah. Nilai fungsi aktivasi ini pada umumnya menggunakanFA(Fungsi Aktivasi)Ystep yaitu 1 atau 0, dan dihubungkan dengan unit pegolahoutput melalui pembobot yang nilainya selalu beradaptasi selama jaringanmengalami pelatihan.

Fungsi Aktivasi YStep

XX

Yif,1if,1

Gambar 2.7. Jenis-Jenis Fungsi Aktivasi

Perceptron dilatih dengan menggunakan sekumpulan pola yang diberikankepadanya secara berulang-ulang selama latihan. Setiap pola yang diberikanmerupakan pasangan pola masukan dan pola yang diinginkan. Perceptronmelakukan penjumlahan berbobot terhadap tiap-tiap masukannya danmenggunakan fungsi ambang untuk menghitung keluaraannya. Keluaran inikemudian dibandingkan dengan hasil yang diinginkan dengan rumus

)()()( pYpYpe d

Dimana

138Sistem Pakar

E=eror

Yd=output destination(diharapkan)

Yp=output actual

Perbedaan yang dihasilkan dari perbandingan ini digunakan untuk merubah bobot-bobot yang ada dalam jaringan. Demikian dilakukan berulang-ulang sehinggadihasilkan keluaran yang sesuai dengan hasil yang diinginkan.

Langkah-langkah Penyelesaian Perceptron

1. Inisiali

Tentukan input, bobot awal, output yang diharapkan, threshold dantraining rate

2. Hitung keluaran(output actual) dengan rumus

n

iii pwpxsteppY

1)()()(

Gunakan fungsi aktivasi Y step untuk menentukan output actual

0if,00if,1

XX

Y

3. Hitung eror dengan menggunakan rumus

)()()( pYpYpe d 4. Update bobot dengan menggunakan rumus

)()()1( pwpwpw iii )()()( pepxpw ii

5. Lakukan iterasi

Contoh Penerapan

Input Output ygdiharapkan

Bobot awal Outputactual

Error Bobot akhir

X1 X2 Yd W1 W2 Ya e W1 W2

139Sistem Pakar

0 0 0 0,3 -0,1

0 1 0

1 0 0

1 1 1

Threshold: = 0.2; learning rate: = 0.1

Dengan arsitektur 2-1(2 input dan 1 output)

Epoch I

Iterasi 1

1. Hitung output actual

n

iii pwpxsteppY

1)()()(

2,0)1,00()3,00()1(1

n

ixxstepY

2,0)1( stepY0)1( Y

2. Hitung error

)()()( pYpYpe d 000)1( e

3. Update bobot

Threshold

Inputs

x1

x2

OutputY

HardLimiter

w2

w1

LinearCombiner

140Sistem Pakar

a. Bobot w1

)()()1( pwpwpw iii 3,003,0)1,1( iw

)()()( pepxpw ii 0001,0)1,1( xxwi

b. Bobot w2

)()()1( pwpwpw iii 1,001,0)2,1( iw)()()( pepxpw ii

0001,0)2,1( xxwiHasil iterasi 1 sebagai berikut:



Error Bobot akhir


0 0 0 0,3 -0,1 0 0 0,3 -0,1

0 1 0 0,3 -0,1

1 0 0

1 1 1

Iterasi 2


2,0)1,01()3,00()2(1

n

ixxstepY

3,0)2( stepY0)2( Y

2. Hitung error

000)2( e3. Update bobot

141Sistem Pakar

c. Bobot w1

3,003,0)1,2( iw)()()( pepxpw ii

0001,0)1,2( xxwid. Bobot w2

1,001,0)2,2( iw0011,0)2,2( xxwi

Hasil iterasi 2 sebagai berikut:



Error Bobot akhir


0 0 0 0,3 -0,1 0 0 0,3 -0,1

0 1 0 0,3 -0,1 0 0 0,3 -0,1

1 0 0 0,3 -0,1

1 1 1

Iterasi 3


2,0)1,00()3,01()3(1

n

ixxstepY

1,0)3( stepY 1)3( Y

2. Hitung error101)3( e

3. Update bobote. Bobot w1

2,01,03,0)1,3( iw1,0111,0)1,3( xxwi

f. Bobot w2

142Sistem Pakar

1,001,0)2,3( iw0101,0)2,3( xxwi




Error Bobot akhir


0 0 0 0,3 -0,1 0 0 0,3 -0,1

0 1 0 0,3 -0,1 0 0 0,3 -0,1

1 0 0 0,3 -0,1 1 -1 0,2 -0,1

1 1 1 0,2 -0,1

Iterasi 4


2,0)1,01()2,01()4(1

n

ixxstepY

1,0)4( stepY0)4( Y

5. Hitung error101)4( e

6. Update bobotg. Bobot w1

3,01,02,0)1,4( iw1,0111,0)1,4( xxwi

h. Bobot w2

01,01,0)2,3( iw1,0111,0)2,4( xxwi


Input Output yg Bobot awal Output Error Bobot akhir

143Sistem Pakar

diharapkan actual


0 0 0 0,3 -0,1 0 0 0,3 -0,1

0 1 0 0,3 -0,1 0 0 0,3 -0,1

1 0 0 0,3 -0,1 1 -1 0,2 -0,1

1 1 1 0,2 -0,1 1 1 0,3 0

Untuk epoch I hingga iterasi ke-4 error belum nol(0), masih terdapat error -1 dan1 untuk iterasi ke 3 dan 4, maka harus dilanjutkan untuk epoch selanjutnya untukmencapai error 0 untuk semua input. Jika dilanjutkan ke epoch berikutnya makahasilnya sebagai berikut

Epoch Input Output ygdiharapkan

Bobot

awal

Outputactual

Error Bobot

akhir


I 0 0 0 0,3 -0,1 0 0 0,3 -0,1

0 1 0 0,3 -0,1 0 0 0,3 -0,1

1 0 0 0,3 -0,1 1 -1 0,2 -0,1

1 1 1 0,2 -0,1 0 1 0,3 0

II 0 0 0 0,3 0 0 0 0,3 0

0 1 0 0,3 0 0 0 0,3 0

1 0 0 0,3 0 1 -1 0,2 0

1 1 1 0,2 0 1 1 0,2 0

III 0 0 0 0,2 0 0 0 0,2 0

0 1 0 0,2 0 0 0 0,2 0

1 0 0 0,2 0 1 -1 0,1 0

1 1 1 0,1 0 0 1 0,2 0,1

IV 0 0 0 0,2 0,1 0 0 0,2 0,1

0 1 0 0,2 0,1 0 0 0,2 0,1

1 0 0 0,2 0,1 1 -1 0,1 0,1

144Sistem Pakar

1 1 1 0,1 0,1 1 0 0,1 0,1

IV 0 0 0 0,1 0,1 0 0 0,1 0,1

0 1 0 0,1 0,1 0 0 0,1 0,1

1 0 0 0,1 0,1 0 0 0,1 0,1

1 1 1 0,1 0,1 1 0 0,1 0,1

Error 0 dicapai pada poch ke-5, dikatakan cerdas dan dapat digunakan untukmemprediksi.

2.5.3. BACK PROPAGATION(Perambatan Galat Mundur)

2.5.3.1. Pengantar Back Propagation

Jaringan perambatan galat mundur (backpropagation) adalah salah satualgoritma yang sering digunakan dalam menyelesaikan masalah-masalah yangrumit. Hal ini dimungkinkan karena pelatihan dengan menggunakan metodebelajar terbimbing. Pada jaringan back propagation diberikan sepasang pola yangterdiri atas pola masukan dan pola yang diinginkan. Ketika suatu pola diberikankepada jaringan, maka bobot-bobot diubah untuk memperkecil perbedaan polakeluaran dan pola yang diinginkan. Latihan ini dilakukan berulang-ulang sehinggasemua pola yang dikeluarkan jaringan dapat memenuhi pola yang diinginkan.

145Sistem Pakar

Algoritma pelatihan jaringan saraf perambatan galat mundur terdiri atasdua langkah,yaitu perambatan maju dan perambatan mundur. Langkahperambatan mundur ini dilakukan pada jaringan untuk setiap pola yang diberikanselama jaringan mengalami pelatihan. Jaringan perambatan galat mundur terdiriatas tiga lapisan atau lebih unit pengolah.

I J K

Gambar 2.8. Arsitektur Backpropagation

Gambar 2.8 menunjukkan jaringan perambatan galat mundur dengan tigalapisan pengolah, bagian kiri sebagai masukan, bagian tengah disebut sebagailapisan tersembunyi dan bagian kanan disebut lapisan keluaran. Ketiga lapisan initerhubung secara penuh. Perambatan maju dimulai dengan memberikan polamasukan ke lapisan masukan. Pola masukan ini merupakan nilai aktivasi unit-unit

masukan. Dengan melakukan perambatan maju dihitung nilai aktivasi pada unit-unit di lapisan berikutnya. Pada setiap lapisan,tiap unit pengolah melakukanpenjumlahan berbobot dan menerapkan fungsi sigmoid untuk menghitungkeluarannya.

Keluaran Hiden layer dengan menggunakan rumus

n

ijpwijxpxiSigmoidpYj

1)()()(

In p u tla yer

x i

x 1

x 2

x n

1

2

i

n

O u tp u tla yer

1

2

k

l

y k

y 1

y 2

y l

In p u t s ig n a ls

E rro r s ig n a ls

w jk

H id d enla yer

w ij

1

2

j

m

146Sistem Pakar

Dimana

Yj=keluaran unit j

Sigmoid=fungsi aktivasi

Xi=input dari unit i

Wij=bobot dari unit i ke j

j =batas ambang unit j

P=iterasi

Keluaran Output layer dengan menggunakan rumus

m

jkpWjkxpXjksigmoidYk

1)()(

Dimana

Yk=keluaran unit k

Sigmoid=fungsi aktivasi

Xjk=input dari unit j

Wjk=bobot dari unit j ke k

k =batas ambang unit k

P=iterasi

Menentukan Erorr dengan menggunakan rumus

)()(,)( pYkpkYdpek

Dimana

ek=error unit k(output layer)

147Sistem Pakar

Ydk=output yang diharapkan pada unit k

Yk=output actual pada unit k

P=iterasi

Fungsi Aktivasi Ysigmoid

X

Sigmoid

eY 1

1

Dimana

x=nilai Yj/Yk

Gradien error Hidden

)()(1)()( pekxpYkxpYkpk Gradien error Input

l

kpWjkxpkxpYjxpYjpj

1)()()(1)()(

Langkah-Langkah Penyelesaian Backpropagation

1. Inisialisasi

Tentukan input, output yang diharapkan, bobot input, bobot hidden,treshold hidden, threshold output, training rate,

2. Hitung keluaran hidden

n


1)()()(

Gunakan fungsi aktivasi Ysigoid untuk menentukan keluaran hidden danoutput layer dengan rumus

X

Sigmoid

eY 1

1

3. Hitung keluaran output

148Sistem Pakar

m

jkpWjkxpXjksigmoidYk

1)()(

4. Hitung error dengan rumus

)()(,)( pYkpkYdpek 5. Update bobot hidden(Wjk)

a. Hitung gradien error

)()(1)()( pekxpYkxpYkpk b. Update bobot

)()()1( pWjkpWjkpWjk )()()( pkxpYjxpWjk

6. Update bobot input(Wij)a. Hitung gradient error

l

kpWjkxpkxpYjxpYjpj

1)()()(1)()(

b. Update bobot

)()()1( pWijpWijpWij )()()( pjxpXixpWij

7. Lakukan iterasi

Contoh Penerapan Back Propagation

3.0,1.0,8.01 32 , = 0.3

Dengan arsitektur 3-2-1(3 input, 2 hidden dan 1 output)

149Sistem Pakar

Iterasi 1


a. Keluaran hidden layer

n


1)()()(

n

ixxxSigmoidYj

18,0)5,01()4,01()2,00()1(

1,0)1( SigmoidYj X

Sigmoid

eY 1

1

1,011

eYSigmoid

52,0)1( Yj

n

ixxxSigmoidYj

11,0)3,01()3,01()2,00()2(

1,0)2( SigmoidYj1,01

1e

YSigmoid

47,0)2( Yjb. Keluaran output layer

n

ixxSigmoidYj

13,0)6,047,0()4,052,0()3(

19,0)3( SigmoidYj

X

Sigmoid

eY 1

1

19,011 eY

Sigmoid

150Sistem Pakar

54,0)3( Yj

5. Hitung error)()(,)( pYkpkYdpek

46,0154,0)1( ekError tidak sama dengan nol, sehingga penelusura mundur(back) sambilmemperbaharui bobot hingga error =0

3. Update bobot hidden(Wjk)a. Hitung gradien error output layer

)()(1)()( pekxpYkxpYkpk 46,054,0154,0)1( xxk

11,0)1( kb. Update bobot hidden layer(Wjk1)

)()()( pkxpYjxpWjk 11,052,03,0)1( xxWjk

01,0)1( Wjk)()()1( pWjkpWjkpWjk

39,0)01,0(4,0)1( Wjkc. Update bobot hidden layer (Wjk2)

)()()( pkxpYjxpWjk 11,047,03,0)2( xxWjk

01,0)2( Wjk)()()1( pWjkpWjkpWjk

59,0)01,0(6,0)2( Wjk

4. Update bobot input(Wij)a. Hitung gradient error hidden(Y1)

l

kpWjkxpkxpYjxpYjpj

1)()()(1)()(

151Sistem Pakar

4,0)11,0(52,0152,0)1( xxxj 0110,0)1( j

b. Hitung gradient error hidden(Y2)

l

kpWjkxpkxpYjxpYjpj

1)()()(1)()(

6,0)11,0(47,0147,0)2( xxxj 0164,0)2( j

c. Update bobot input layer(Wij1))()()( pjxpXixpWij

0)0110,0(03,0)1( xxWij)()()1( pWijpWijpWij

2,002,0)1( Wijd. Update bobot input layer(Wij2)

)()()( pjxpXixpWij 0033,0)0110,0(13,0)2( xxWij

)()()1( pWijpWijpWij 4033,00033,04,0)2( Wij

e. Update bobot input layer(Wij3))()()( pjxpXixpWij

0033,0)0110,0(13,0)3( xxWij)()()1( pWijpWijpWij

5033,00033,05,0)2( Wijf. Update bobot input layer(Wij4)

)()()( pjxpXixpWij 0)0164,0(03,0)4( xxWij

)()()1( pWijpWijpWij 2,002,0)4( Wij

g. Update bobot input layer(Wij5)

152Sistem Pakar

)()()( pjxpXixpWij 0049,0)0164,0(13,0)5( xxWij

)()()1( pWijpWijpWij 2051,0)0049,0(3,0)5( Wij

h. Update bobot input layer(Wij6))()()( pjxpXixpWij

0049,0)0164,0(13,0)6( xxWij)()()1( pWijpWijpWij

3049,0)0049,0(3,0)6( WijUntuk iterasi 1 sudah selesai dan hasil akhir setelah dilakukan

update bobot adalah

untuk mencapai error=0 harus dilanjutkan perhitungan untuk iterasiselanjutnya dan melakukan update bobot

2.6. Decision Tree(Pohon Keputusan)

2.6.1. Pengantar Decision Tree

153Sistem Pakar

Decision tree salah satu metode learning yang dapat mendefenisikan ataumenemukan aturan secara otomatis dan dapat berlaku umum untuk data-datayang belum pernah di ketahui. Decision tree juga salah satu metode belajar yangsangat populer dan banyak digunakan secara praktis karena dengan Decison treeakan berusaha menemukan fungsi-fungsi pendekatan yang bernilai diskrit dantahan terhadap data-data yang terdapat kesalahan(noise data) serta mampumempelajari ekspresi-ekspresi disjunctive(ekpresi OR). Ada beberapa algoritmayang termasuk dalam decision tree yaitu ASISTANT, C. 45 dan ID3. Dalam bukuini fokus pembahasan tentang algoritma ID3(Iterative Dychotomizer version 3).Dengan ID3 berusaha membangun pohon keputusan secara top-down(dari atas kebawah) yang dimulai dengan penentuan atribut sebagai akar(root). Untukmenentukan root dengan cara mengevaluasi semua atribut dengan ukuran statistikyaitu information gain dengan tujuan mengukur efektifitas atribut dalammengklasifikasikan kumpulan sampel data. Information Gain yang paling besaradalah atribut sebagai root (Suyanto, 2011).

Table 2.8. Contoh Data Penerima Beasiswa

Nim IPK Kehadiran Attitude DapatBeasiswa

001 Bagus Tinggi Baik Ya

002 Bagus Sedang Baik Ya

003 Bagus Sedang Kurang Ya

004 Bagus Rendah Kurang Tidak

005 Cukup Tinggi Baik Ya

006 Cukup Sedang Baik Ya

007 Cukup Sedang Kurang Ya

008 Cukup Rendah Kurang Tidak

009 Kurang Tinggi Baik Ya

010 Kurang Sedang Kurang Tidak

011 Kurang Rendah Baik Ya

154Sistem Pakar

1. EntropyUntuk menghitung information gain, terlebih dahulu dengan menghitungentropy sebagai parameter untuk mengukur heterogenitas(keberagaman)dari suatu kumpulan sampel. Jika kumpulan sampel data semakinheterogen maka nilai entropy nya semakin besar. Secara matematisdituliskan sebagai berikutEntropy(S) = pi log piDimana C : jumlah nilai atribut target(jumlah kelas klasifikasi)

pi: jumlah sampel untuk kelas i

Tabel 2.8. menunjukkan data penerima mahasiswa, yang dikatakan targetadalah dapat beasiswa(Decision system) jumlah kelas=2 yaitu ya dantidak, berarti c=2. Jumlah data=11, untuk kelas ya=8 dan kelas tidak=3,maka entropynya adalah:entropy(S)=(8/11)*log2(8/11) (3/11)*log2(3/11)

2. Iformation Gain

Setelah mendapatkan hasil entropy, berikut mengukur mengukur evektivitas suatuatribut dalam mengklasifikasikan data. Ukuran evektivitas ini disebut sebagaiinformation gain, secara matematis information gain dari suatu atribut A,dituliskan sebagai berikut:

Gain(S, A) = ( ) |Sv||S| Entropy(Sv) ( )Di mana:

A : atribut

V : menyatakan suatu nilai yang mungkin untuk atribut A

155Sistem Pakar

Values(A) : himpunan nilai-nilai yag mungkin untuk atribut A

|Sv| : jumlah sampel untuk nilai v

|S| : jumlah seluruh sampel data

Entropy(Sv) : entropy untuk sampel_sampel yang memiliki nilai v

Untuk memahami information gain lebih detail, perhatikan bagaimanamenghitung information gain untuk IPK di bawah ini :

Pada table 2.8 di atas atribut dapat beasiswa =Ya dikatakan sebagaisampel positif (+),dan atribut dapat beasiswa =Tidak dikatakan sebagaisampel negatif (-), dari sampel data pada table 2.8 didapatkan:

Values(IPK)=Bagus,Cukup,KurangS=[8+,3-],|S|=11SBagus=[3+,1-],|SBagus|=4SCukup=[3+,1-],|SCukup|=4SKurang=[2+,1-],|SKurang|=3

Selanjutnya,nilai-nilai entropy untuk S, SBagus,SCukup,SKurang daninformation gain untuk IPK adalah:

Entropy(S)=-(8/11)log2(8/11)-(3/11)log2(3/11)

=0,8454

Entropy(SBagus)=-(3/4)log2(3/4)-(1/4)log2(1/4)

=0,8113

Entropy(SCukup) =-(3/4)log2(3/4)-(1/4)log2(1/4)

=0,8113

Entropy(SKurang)=-(2/3)log2(2/3)-(1/3)log2(1/3)

=0,9183

156Sistem Pakar

Gain(S,IPK)= Entropy(S)-(4/11)Entropy(SBagus)-(4/11)Entropy(SCukup) 3/11)Entropy(SKurang)

=0,8454-(4/11)0,8113-(4/11)0,8113-(3/11)0,9183

=0,0049

2.6.2. AlgoritmaID3

IDE3 adalah algoritma decision tree learning (algoritma pembelajaranpohon keputusan ) yang paling dasar. Algoritma ID3 melakukan pencarian secararakus/menyeluruh (greedy) pada semua kemungkinan pohon keputusan.Alogoritma IDE3 dapat diimplementasikan mengunakan fungsi rekursif (fungsiyang memangil dirinya sendiri ),sebagai berikut:

Function IDE3 (Kumpulan sampel,Atribut Target,Kumpulan Atribut )

1. Buat simpul Root

2. If semua sampel adalah kelas i,maka Return pohon satu simpul Rootndengan label=i

3. If kumpulan Atribut kosong ,Return pohon satu simpul Root dengan label=nila atribut target yang paling umum (yang paling sering muncul)Else

AAtribut yang merupakan the best classifer (dengan informationgain terbesar)

Atribut untuk keputussan untuk rootA For vi (setiap nilai pada A)

Tambahkan suatu cabang di bawah Root sesuai nilai vi Buat satu variabel ,misalnya sampel vi,sebagai himpunan

bagian(subset)dari kumpulan sampel yang bernilai vi padaatribut A

If sampel vi kosongThen

157Sistem Pakar

di bawah cabang ini tambahkan suatu simpul daun(leafnode,simpul yang tidak punya anak di bawahnya )denganlabel=nilai atribut target yang paling umum(yang plingsering muncul)

Else

di bawah cabang ini tambahkan subtree denganmemanggil fungsi ID3(Sampelvi,Atribut Target Atribut-{A}

End

End

End

4.Retrun Root

Agar lebih memehami algoritma ID3 di atas,marilah kita terapkanalgoritma tersebut untuk menemukan decision tree yang tepat untuk data tabel 2.8tentang data penerima beasiswa sebagai berikut:

Rekursi level 0 interasi ke-1

Memanggil fungsi ID3 dengan kumpulan sampel berupa semua sampeldata=[8+,3-],Atribut Target=diterima,dan kumpulanatribut={IPK,Kehadiran,Attitude}. Pada halaman sebelumnya, kita sudahmenghitung information gain untuk IPK, yaitu Gain(S,IPK)=0,0049. Untukmenemukan atribut yang merupakan the best classifer dan di letakkan sebagaiRoot ,kita perlu menghitung information gain untuk 2 atribut yang lain, yaituKehadiran dan Attitude. Dari tabel 2.8 dengan cara yang sama pada prosespenghitungan gain(S,IPK),kita dapatkan Gain (S,Kehadiran):

Values(Kehadiran)=Tinggi, Sedang, Rendah

S=[8+3-],|S|=11

158Sistem Pakar

STinggi=[3+.0-],|STinggi|=3,Entropy(STinggi)=0

SSedang=[4+,1-] ,|SSedang|=5,Entropy(SSedang)=0,7219

SRendah=[1+,2-],|SRendah|=3,Entropy(SRendah)=0,9183

Gain(S,Kehadiran)=Entropy(S)-(3/11)Entropy(STinggi) -(5/11) Entropy(SSedang)-(3/11)Entropy(SRendah)

=0,8454-(3/11)0-(5/11)0,7219-(3/11)0,9183

=0,2668

Dari tabel 2.8 dan dengan cara yang sama pada proses penghitungan gain(S,IPK),kita dapatkan Gain(S,Attitude):

Values(Attitude)=Baik,Buruk

S=[8+,3-),|S|=11

SBaik=[6+,0-),|SBaik|=6, Entropy(SBaik)=0

SBuruk=[2+,3-],|SBuruk|=5 Entropy(SBuruk)=0,9710

Gain (S, Attitude)= Entropy(S)-(6/11) Entropy(SBaik)-(5/11) Entropy(SBuruk)

=0,8454-(6/11)0-(5/11)0,9710

=0,4040

Dari tiga nilai information gain di atas,Gain(S, Attitude)adalah yang terbesar,sehingga Attitude adalah atribut yang merupakan the best classifer dan harus diletakkan sebagai Root. Selanjutnya ,setiap nilai pada atribut Attitude akan dicekapakah perlu di buat subtree di level berikutnya atau tidak. Untuk nilai baik

terdapat 6 sampel ,berarti SampleBaik tidak kosong .Sehingga ,perlu memanggilfungsi ID3 dengan kumpulan sampel berupa SampleBaik=[6+,0-],AtributTarget=Diterima,dan Kumpulan Atribut={IPK,Kehadiran }.Pada tahap ini ,diperolehstruktur pohon pada gambar 2.9 berikut ini

159Sistem Pakar

Gambar 2.9. Pohon keputusan yang dihasilkan pada rekursi level 1 iterasike-1

Rekursi Level 1 iterasi ke-1

Memangil fungsi ID3 dengan kumpulan sampel berupa SampleBaik=[6+,0-]Atribut Target=Diterima,dan KumpulanAtribut ={IPK,Kehadiran }.Karenasemua sample pada SampleBaik termasuk dalam kelas ya,maka fungsi ini akanberhenti dan menggembalikan satu simpul tunggal Root dengan label ya pada

tahap ini,dihasilkan pohon pada gambar 5-3 selanjutnya,proses akan kembali kerekkursi level o ke 2.

Gambar 2.10. Pohon keputusan yang di hasilkan pada rekursi level 1 iterasike-1

Baik

Attitude

Ya

Attitude

Baik

160Sistem Pakar

Rekursi Level o Iterasi ke-2

Pada rekursi level 0 iterasi ke-1 sudah dilakukan pengecekan untuk atributAttitude dengan nilai baik. Selanjutnya,dilakukan pengecekan untuk atributAttitude dengan nilai Buruk. Untuk nilai Buruk terdapat 5 sampel, berarti

sample Buruk tidak kosong, sehingga perlu memenggil fungsi ID3 dengankumpulan sampel berupa sampleBuruk =[2+,3-], Atribut Target=diterima, dankumpulan atribut ={IPK,Kehadiran}, pada tahap ini dihasilkan pohon sebagaiberikut.

Gambar 2.11 : pohon keputasan yang dihasilkan pada rekursi level 0 iterasike-2

Rekursi Level 1 iterasi ke-2

Memanggil fungsi ID3 dengan kumpulan sampel berupaSampleBuruk=[2+,3- ] ,AtributTarget=Diterima,dan kumpulanatribut={IPK,Kehadiran}. Pada tahap ini,dilakukan perhitungan information gainuntuk atribut IPK dan Kehadiran, tetapi kumpulan semple yang diperhitungkanadalah sampleBuruk dengan 5 sample data,yaitu [2+,3-].dengan kata lain,S=SampleBuruk

Attitude

Baik Buruk

Ya

161Sistem Pakar

Values(IPK)=Bagus,Cukup,Kurang

S=SampleBuruk=[2+,3-],|S|=5

SBagus=[1+,1-],|SBagus|=2

SCukup=[1+,1-],|SCukup|=2

SKurang=[0+,1-],|SKurang|=1

Selajutnya, nilai-nilai entropy untuk S, SBagus, SCukup, SKurang,dan information gainuntuk IPK adalah:

Entropy(S)=-(2/5)log2,(2/5)-(3/5)log2(3/5)

=0,9710

Entropy(SBagus)=-(1/2)log2(1/2)-(1/2)log2(1/2)

=1

Entropy(SCukup)=-(1/2)log2(1/2)-(1/2)log2(1/2)

=1

Entropy(SKurang)=(0)log2(0)-(1)log2(1)

=0

Gain(S,IPK)= Entropy(S) - (2/5)Entropy(SBagus) - (2/5)Entropy(SCukup) -(1/5)Entropy(SKurang)

=0,9710-(2/5)1-(2/5)1-(1/5)0

=0,1710

Values(Kehadiran)=Tinggi,Sedang,Rendah

S=SampleBuruk=[2+,3-],|S|=5, Entropy(S)=0,9710

STinggi=[0+,0-],|STinngi|=0,Entropy(STinggi)=0

162Sistem Pakar

SSedang=[2+,1-]|SSedang|=3 Entropy(SSedang)=0,9183

SRendah=[0+,2-],|SRendah|=2, Entropy(SRendah)=0

Gain(S, Kehadiran)= Entropy(S) - (0/5)Entropy(STinggi) - (3/5)Entropy(SSedang) -(2/5)Entropy(SRendah)

=0,9710-(0/5)0-(3/5)0,9183-(2/5)0

=0,4200

Dari dua nilai information gain di atas ,gain (S, Kehadiran) adalah yang terbesar,sehingga Kehadiran adalah adalah atribut yang merupakan the best classifer danharus di letakkan sebagai simpul di bawah simpul Attitude pada cabang nilaiBuruk . Selanjutnya ,setiap nilai pada atribut Kehadiran akan di cek apakahperlu di buat subtree di level berikut nya atau tidak .Utuk nilai Tinggi (Pada

kumpulan sampel berupa SampleBuruk=[2+,3-]),terdapat 0 sampel, berartiSampleTinggi kosong. Sehingga perlu dibuat satu simpul daun (leaf node,simpulyang tidak punyak anak di bawahnya) dengan label yang paling sering munculpada SampleBuruk yaitu tidak. Kemudian dilakukan pengecekan untuk atributKehadiran bernilai sedang. Untuk nilai Sedang (Pada Kumpulan Sampelberupa SampleBuruk =[2+,3-]),terdapat tiga sample ,berarti sampleSedang tidakkosong. Sehingga perlu memangil fungsi IDE3 dengan kumpulan sample berupaSampleSedang=[2+,1-],

15 Metode Meyelesaikan Data Mining,Sistem Pakar Dan SPK

Documents

Transcript of 15 Metode Meyelesaikan Data Mining,Sistem Pakar Dan SPK