Tugas 2. Data Mining

TUGASDATA MINING

Nama Kelompok :

I Putu Ari Ratna Pratama (1208605055)Putu Mega Suryawan (1208605069)Ida Bagus Surya Winantara (1208605085)

PROGRAM STUDI TEKNIK INFORMATIKAJURUSAN ILMU KOMPUTER - FMIPAUNIVERSITAS UDAYANABUKIT JIMBARAN2015ALGORITMA ID3

PengertianID3 (Iterative Dichotomiser Three) atau yang disebut juga denganInduction of Decision Treeadalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3 yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. ID3 diperkenalkan pertama kali oleh Ross Quinlan (1979).ID3 merepresentasi konsep-konsep dalam bentuk pohon keputusan.Aturan-aturan yang dihasilkan oleh ID3 mempunyai relasi yang hirarkis seperti suatu pohon (mempunyai akar, titik, cabang, dan daun). Beberapa peneliti menyebut struktur model yang dihasilkan ID3 sebagai pohon keputusan (decision tree) sementara peneliti yang lain menyebutnya pohon aturan (rule tree).Algoritma pada ID3 berbasis pada Occams razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occams razor bersifat heuristik. Occams razor diformalisasi menggunakan konsep dari entropi informasi.

Algoritma ID3Input : sampel training, label training, atribut Membuat simpul akar untuk pohon yang dibuat Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label (+) Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar beri label (-) Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training Untuk yang lain, Mulai A atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan gain ratio) Atribut keputusan untuk simpul akar A Untuk setiap nilai, vi, yang mungkin untuk A, Tambahkan cabang di bawah akar yang berhubungan dengan A=vi Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atribut A Jika sampel Svi kosong, Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang aa pada label training Yang lain, tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A]) Berhenti

Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu : Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3. Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang continue dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi hard, quite hard, flexible, soft, quite soft. Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain.Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut entropi.Entropi mengukur jumlah dari informasi yang ada pada atribut.

Rumus untuk menghitung entropi informasi adalah :

Rumus untuk menghitung gain adalah :

ContohMencatat Keadaan 14 Minggu Permainan Tenis pada Setiap Sabtu Pagi

MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis

M1CerahPanasTinggiLemahTidak

M2CerahPanasTinggiKuatTidak

M3MendungPanasTinggiLemahYa

M4HujanSejukTinggiLemahYa

M5HujanDinginNormalLemahYa

M6HujanDinginNormalKuatTidak

M7MendungDinginNormalKuatYa

M8CerahSejukTinggiLemahTidak

M9CerahDinginNormalLemahYa

M10HujanSejukNormalLemahYa

M11CerahSejukNormalKuatYa

M12MendungSejukTinggiKuatYa

M13MendungPanasNormalLemahYa

M14HujanSejukTinggiKuatTidak

Atribut Tujuan adalah Bermain Tenis yang memiliki value ya atau tidak.Atribut adalah Ramalan_Cuaca, Suhu, Kelembaban, dan Angin.

Algoritma Dan FlowchartEntropy adalah formula untuk menghitung homogenitas dari sebuah sample/contoh.Solusi menggunakan entropy dari contoh kasus di atas :

S adalah koleksi dari 14 contoh dengan 9 contoh positif dan 5 contoh negatif, ditulis dengan notasi [9+,5-].Positif di sini maksudnya value Bermain_Tenis = Ya sedangkan negatif sebaliknya.Entropy dari S adalah :

Entropy(S) = - pi log2pi

pi = Zi = contoh positif + contoh negatifN = jumlah dataEntropy([9+,5-])= - (9/14) log2 (9/14) - (5/14) log2 (5/14)= - (0.6429) ((log (9/14))/log 2) - (0.3571) ((log (5/14))/log 2)= - (0.6429) (-0.1919/0.3010) - (0.3571) (-0.4472/0.3010)= - (0.6429) (-0.6375) - (0.3571) (-1.4857)= 0.4098 + 0.5305

= 0.94029Catatan : Entropy(S) = 0, jika semua contoh pada S berada dalam kelas yang sama. Entropy(S) = 1, jika jumlah contoh positif dan jumlah contoh negative dalam S adalah sama. 0 < Entropy(S) < 1, jika jumlah contoh positif dan jumlah contoh negatif dalam S tidak sama. Gain(S,A) adalah Information Gain dari sebuah atribut A pada koleksi contoh S : Gain(S,A) = Entropy(S) - Entropy(Sv)

1. Values(Angin)= Lemah, Kuat SLemah= [6+,2-]SKuat= [3+,3-]Gain(S,Angin)= Entropy(S) - (8/14)Entropy(SLemah) - (6/14)Entropy(SKuat)= 0.94029 - (8/14)0.81128 - (6/14)1.0000= 0.048132. Values(Kelembaban)= Tinggi, NormalSTinggi= [3+,4-]SNormal= [6+,1-]Gain(S,Kelembaban)= Entropy(S) - (7/14)Entropy(STinggi) - (7/14)Entropy(SNormal)= 0.94029 - (7/14)0.98523 - (7/14)0.59167= 0.151843. Values(Suhu)= Panas, Sejuk, DinginSPanas= [2+,2-]SSejuk= [4+,2-]SDingin= [3+,1-]Gain(S,Suhu)= Entropy(S) - (4/14)Entropy(SPanas) - (6/14)Entropy(SSejuk) - (4/14)Entropy(SDingin)= 0.94029 - (4/14)1.00000 - (6/14)0.91830 - (4/14)0.81128= 0.029224. Values(Ramalan_Cuaca)= Cerah, Mendung, HujanSCerah= [2+,3-]SMendung= [4+,0-]SHujan= [3+,2-]Gain(S,Ramalan_Cuaca)= Entropy(S) - (5/14)Entropy(SCerah) - (4/14)Entropy(SMendung) - (5/14)Entropy(SHujan)= 0.94029 - (5/14)0.97075 - (4/14)1.00000 - (5/14)0.97075= 0.24675Jadi, information gain untuk 3 atribut yang ada adalah :Gain(S,Angin) = 0.04813Gain(S,Kelembaban) = 0.15184Gain(S,Suhu) = 0.02922Gain(S,Ramalan_Cuaca) = 0.24675Tampak bahwa attribute Ramalan_Cuaca akan menyediakan prediksi terbaik untuk target attribute Bermain_Tenis.

[M1, M2, ..., M14][9+,5-]

Ramalan_Cuaca

HujanCerahMendungYa

??

[M4, M5, M6, M10, M14][3+,2-][M1, M2, M8, M9, M11][2+,3-]

Untuk node cabang Ramalan_Cuaca = Cerah,SCerah = [M1, M2, M8, M9, M11]MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis

M1CerahPanasTinggiLemahTidak

M2CerahPanasTinggiKuatTidak

M8CerahSejukTinggiLemahTidak

M9CerahDinginNormalLemahYa

M11CerahSejukNormalKuatYa

1. Values(Suhu)= Panas, Sejuk, DinginSPanas= [0+,2-]SSejuk= [1+,1-]SDingin= [1+,0-]Gain(SCerah,Suhu)= Entropy(SCerah) - (2/5)Entropy(SPanas) - (2/5)Entropy(SSejuk) - (1/5)Entropy(SDingin)= 0.97075 - (2/5)0.00000 - (2/5)1.00000 - (1/5)0.00000= 0.570752. Values(Kelembaban)= Tinggi, NormalSTinggi= [0+,3-]SNormal= [2+,0-]Gain(SCerah,Kelembaban)= Entropy(SCerah) - (3/5)Entropy(STinggi) - (2/5)Entropy(SNormal)= 0.97075 - (3/5)0.00000 - (2/5)0.00000= 0.97075

3. Values(Angin)= Lemah, KuatSLemah= [1+,2-]SKuat= [1+,1-]Gain(SCerah,Angin)= Entropy(SCerah) - (3/5)Entropy(SLemah) - (2/5)Entropy(SKuat)= 0.97075 - (3/5)0.91830 - (2/5)1.00000= 0.01997

Atribut Kelembaban menyediakan prediksi terbaik pada level ini.

[M1, M2, ..., M14][9+,5-]CerahRamalan_Cuaca

Hujan

Mendung

[M1, M2, M8, M9, M11][2+,3-]

?Ya

Kelembaban

TinggiNormalTidakYa[M4, M5, M6, M10, M14][3+,2-]

[M1, M2, M8][0+,3-][M9, M11][2+,0-]

Untuk node cabang Ramalan_Cuaca = Hujan,SHujan = [M4, M5, M6, M10, M14]MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis

M4HujanSejukTinggiLemahYa

M5HujanDinginNormalLemahYa

M6HujanDinginNormalKuatTidak

M10HujanSejukNormalLemahYa

M14HujanSejukTinggiKuatTidak

1. Values(Suhu)= Sejuk, Dingin (Tidak ada suhu = panas saat ini)SSejuk= [2+,1-]SDingin= [1+,1-]Gain(SHujan,Suhu)= Entropy(SHujan) - (3/5)Entropy(SSejuk) - (2/5)Entropy(SDingin)= 0.97075 - (3/5)0.91830 - (2/5)1.00000= 0.019972. Values(Kelembaban)= Tinggi, NormalSTinggi= [1+,1-]SNormal= [2+,1-]Gain(SHujan,Kelembaban)= Entropy(SHujan) - (2/5)Entropy(STinggi) - (3/5)Entropy(SNormal)= 0.97075 - (2/5)1.00000 - (3/5)0.91830= 0.019973. Values(Angin)= Lemah, KuatSLemah= [3+,0-]SKuat= [0+,2-]Gain(SHujan,Angin)= Entropy(SHujan) - (3/5)Entropy(SLemah) - (2/5)Entropy(SKuat)= 0.97075 - (3/5)0.00000 - (2/5)0.00000= 0.97075Atribut Angin menyediakan prediksi terbaik pada level ini.

Algoritma :If Ramalan_Cuaca = Cerah AND Kelembaban = Tinggi THEN Bermain_Tenis = TidakIf Ramalan_Cuaca = Cerah AND Kelembaban = Normal THEN Bermain_Tenis = YaIf Ramalan_Cuaca = Mendung THEN Bermain_Tenis = YaIf Ramalan_Cuaca = Hujan AND Angin = Kuat THEN Bermain_Tenis = TidakIf Ramalan_Cuaca = Hujan AND Angin = Lemah THEN Bermain_Tenis = YaRamalan_CuacaSuhuKelembabanAnginBermain_Tenis

CerahPanasTinggiKuatTidak

CerahPanasTinggiLemahTidak

CerahPanasNormalKuatYa

CerahPanasNormalLemahYa

CerahSejukTinggiKuatTidak

CerahSejukTinggiLemahTidak

CerahSejukNormalKuatYa

CerahSejukNormalLemahYa

CerahDinginTinggiKuatTidak

CerahDinginTinggiLemahTidak

CerahDinginNormalKuatYa

CerahDinginNormalLemahYa

MendungPanasTinggiKuatYa

MendungPanasTinggiLemahYa

MendungPanasNormalKuatYa

MendungPanasNormalLemahYa

MendungSejukTinggiKuatYa

MendungSejukTinggiLemahYa

MendungSejukNormalKuatYa

MendungSejukNormalLemahYa

MendungDinginTinggiKuatYa

MendungDinginTinggiLemahYa

MendungDinginNormalKuatYa

MendungDinginNormalLemahYa

HujanSejukTinggiKuatTidak

HujanSejukTinggiLemahYa

HujanSejukNormalKuatTidak

HujanSejukNormalLemahYa

HujanDinginTinggiKuatTidak

HujanDinginTinggiLemahYa

HujanDinginNormalKuatTidak

HujanDinginNormalLemahYa

Flowchart :

ALGORITMA C4.5

PengertianAlgoritma C4.5 merupakan algoritma yang digunakan untuk membangun sebuah pohon keputusan (decision tree) dari data.Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang juga merupakan algoritma untuk membangun sebuah pohon keputusan.Algoritma C4.5 secara rekursif mengunjungi tiap simpul keputusan, memilih percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan.Algoritma C4.5 merupakan salah satu algoritma machine learning. Dengan algoritma ini, mesin(komputer) akan diberikan sekelompok data untuk dipelajari yang disebut learning dataset.Kemudian hasil dari pembelajaran selanjutnya akan digunakan untuk mengolah data-data yangbaru yang disebut test dataset. Karena algoritma C4.5 digunakan untuk melakukan klasifikasi,jadi hasil dari pengolahan test dataset berupa pengelompokkan data ke dalam kelas-kelasnya.

Algoritma C4.5Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih percabangan yang optimal. Misalkan terdapat sebuah variabel X dimana memiliki sejumlah k nilai yang mungkin dengan probabilitas p1, p2, , pk. Entropy menggambarkan keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan menggunakan persamaan sebagai berikut.

Misalkan terdapat sebuah kandidat simpul yang akan dikembangkan (S), yang membagi data T ke dalam sejumlah subset T1, T2, , Tk. Dengan menggunakan persamaan entropy diatas, nilai entropy tiap subset dihitung (HS(Ti)). Kemudian total bobot subset simpul S dihitung dengan menggunakan persamaan sebagai berikut.

dimana Pi merupakan proporsi record pada subset i. Semakin seragam sebuah subset terhadap kelas-kelas pembaginya, maka semakin kecil nilai entropy. Nilai entropy paling kecil adalah 0, yang dicapai ketika record subset berada pada satu kelas yang sama. Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.

Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui persamaan sebagai berikut.

Pada algoritma C4.5, nilai information gain dihitung untuk seluruh simpul yang mungkin dikembangkan. Simpul yang dikembangkan adalah simpul yang memiliki nilai information gain yang paling besar.

ContohBerikut ini adalah uraian langkah-langkah dalam algoritma C4.5 untuk menyelesaikan kasussuatu pertandingan tenis akan dilakukan atau tidak, berdasarkan keadaan cuaca, suhu,kelembaban, dan angin. Data yang telah ada pada Tabel 1, akan digunakan untuk membentukpohon keputusan. Pada Tabel 1, atribut-atributnya adalah Cuaca, Suhu, Kelembaban, dan Berangin. Setiap atributmemiliki nilai.Sedangkan kelasnya ada pada kolom Main yaitu kelas Tidak dan kelas Ya.Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 Ya dan 4Tidak pada kolom Main (lihat Tabel 2).Tabel 1. Learning DatasetNoCuacaSuhuKelembabanBeranginMain

1CerahPanasTinggiSalahTidak

2CerahPanasTinggiBenarTidak

3BerawanPanasTinggiSalahYa

4HujanSejukTinggiSalahYa

5HujanDinginNormalSalahYa

6HujanDinginNormalBenarYa

7BerawanDinginNormalBenarYa

8CerahSejukTinggiSalahTidak

9CerahDinginNormalSalahYa

10HujanSejukNormalSalahYa

11CerahSejukNormalBenarYa

12BerawanSejukTinggiBenarYa

13BerawanPanasNormalSalahYa

14HujanSejukTinggiBenarTidak

Kemudian hitung entropi dengan rumus sebagai berikut :

Keterangan : S adalah himpunan (dataset) kasus k adalah banyaknya partisi S Pj adalah probabilitas yang di dapat dari Sum(Ya) dibagi Total Kasus

Tabel 2. Hasil Perhitungan Pada DatasetTotal KasusSum (Ya)Sum (Tidak)Entropi Total

141040.8631

Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada setiap atribut dannilai-nilainya dan hitung entropinya seperti yang ditampilkan pada Tabel 3.

Tabel 3. Analisis Atribut, Nilai, Banyaknya Kejadian Nilai, Entropi dan GainNodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain

1CuacaBerawan4400

Hujan5410.7219

Cerah5230.9709

0.2585

SuhuDingin4400

Panas4221

Sejuk6420.9182

0.1838

KelembabanTinggi7340.9852

Normal7700

0.3705

BeranginSalah8620.8112

Benar6240.9182

0.0059

Untuk menghitung gain setiap atribut rumusnya adalah :

Hitung pula Gain (Suhu), Gain (Kelembaban), dan Gain (Berangin). Hasilnya dapat dilihat padaTabel 3.Karena nilai gain terbesar adalah Gain (Kelembaban).Maka Kelembaban menjadi nodeakar (root node).Kemudian pada kelembaban normal, memiliki 7 kasus dansemuanya memiliki jawaban Ya (Sum(Total) / Sum(Ya) = 7/7 = 1).Dengan demikian kelembaban normal menjadi daun atau leaf.Lihat Tabel 3 yang selnya berwarna hijau.

Gambar. Pohon Keputusan Node 1 (root node)Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebihlanjut. Untuk mempermudah, Tabel 1 difilter, dengan mengambil data yang memilikiKelembaban = Tinggi sehingga jadilah Tabel 4.

Tabel 4. Data yang Memiliki Kelembaban = TinggiNoCuacaSuhuKelembabanBeranginMain

1CerahPanasTinggiSalahTidak

2CerahPanasTinggiBenarTidak

3BerawanPanasTinggiSalahYa


5CerahSejukTinggiSalahTidak

6BerawanSejukTinggiBenarYa


Kemudian data di Tabel 4 dianalisis dan dihitung lagi entropi atribut Kelebaban Tinggi danentropi setiap atribut serta gainnya sehingga hasilnya seperti data pada Tabel 5. Setelah itutentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node berikutnya.

Tabel 5. Hasil Analisis Node 1.1Kelembaban TinggiSum (Ya)Sum (Tidak)Entropi

7340.9852

NodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain

1CuacaBerawan2200

Hujan2111

Cerah3030

0.6995

SuhuDingin0000

Panas3120.9182

Sejuk4221

0.0202

BeranginSalah4221

Benar3210.9182

0.0202

Dari Tabel 5, gain tertinggi ada pada atribut Cuaca, dan Nilai yang dijadikan daun atau leafadalah Berawan dan Cerah. Jika divualisasi maka pohon keputusan tampak seperti Gambar (Pohon Keputusan Analisis Node 1.1).Untuk menganalisis node 1.1.2, lakukan lagi langkah-langkah yang sama seperti sebelumnya.Hasilnya ditampilkan pada Tabel 6 dan Gambar (Pohon Keputusan Akhir).

Gambar. Pohon Keputusan Analisis Node 1.1

Tabel 6.Hasil Analisi Node 1.1.2.NoCuacaSuhuKelembabanBeranginMain



Kelembaban Tinggi & HujanSum (Ya)Sum (Tidak)Entropi

2111

NodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain

1SuhuDingin0000

Panas0000

Sejuk2111

0

BeranginSalah1100

Benar1010

1

Gambar. Pohon Keputusan AkhirALGORITMA CART

PengertianMetode CART ini pertama kali diajukan oleh Leo Breiman et al. pada tahun 1984.Pohon keputusan yang dihasilkan CART merupakan pohon biner dimana tiap simpul wajib memiliki dua cabang. CART secara rekursif membagi records pada data latihan ke dalam subset-subset yang memiliki nilai atribut target (kelas) yang sama.

Algoritma CARTAlgoritma CART mengembangkan pohon keputusan dengan memilih percabangan yang paling optimal bagi tiap simpul.Pemilihan dilakukan dengan menghitung segala kemungkinan pada tiap variabel.Misalkan (s|t) merupakan nilai kebaikan kandidat cabang s pada simpul t, maka nilai (s|t) dapat dihitung sebagai berikut:

Dimana

Nilai maksimal ketika record yang berada pada cabang kiri atau kanan simpul memiliki kelas yang sama (seragam). Nilai maksimal yang dicapai sama dengan jumlah kelas pada data. Misalkan jika data terdiri atas dua kelas, maka nilai maksimal adalah 2.Semakin seragam record pada cabang kiri atau kanan, maka semakin tinggi nilai . Nilai maksimal 2PLPR sebesar 0.5 dicapai ketika cabang kiri dan kanan memiliki jumlah record yang sama. Kandidat percabangan yang dipilih adalah kandidat yang memiliki nilai (s|t) paling besar.

ContohAnda diberi data mengenai 8 orang nasabah yang pernah memperoleh kredit dari Bank Indra. Data tersebut meliputi besarnya tabungan (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya aset (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya pendapatan pertahun (dalam ribuan dollars, yang berjenis numerik dan berskala ration) dan risiko kredit (yang berjenis kategorial: risiko baik atau buruk)

NasabahTabunganAsetPendapatanRisiko Kredit

ASedangTinggi75Baik

BRendahRendah50Buruk

CTinggiSedang25Buruk

DSedangSedang50Baik

ERendahSedang100Baik

FTinggiTinggi25Baik

GRendahRendah25Buruk

HSedangSedang75Baik

Klasifikasi Cart Noktah yang berbentuk elips disebut dengan noktah keputusan. Noktah jenis ini adalah notkah yang masih akan bercabang karena pada noktah ini suatu record belum ditentukan klasifikasinya. Noktah keputusan pertama biasanya disebut noktah dasar Noktah yang berbentuk persegi panjang disebut dengan noktah terminasi

Pembahasan Permasalahan Pertama, kita memiliki data dari 8 nasabah seperti tertera di tabel sebelumnya dan ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang berpotensi menjadi nasabah ke-9, ke-10, etc sehingga dengan mengetahui aset, tabungan, dan pendapatan, ,kita dapat menentukan risiko kredit mereka Kedua, data itu kelak akan kita jadikan input bagi suatu algoritma Ketiga, sebagai keluaran dari algoritma, kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pohon keputusan

Langkah-Langkah Algoritma CART : Pertama, susun calon cabang (candidate split). Penyusunan ini dlakukan terhadap seluruh variabel prediktor. Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir. Calon cabang prediktor tabungan Tabungan=rendah, dan tabungan={sedang, tinggi} Tabungan=sedang, dan tabungan={rendah, tinggi} Tabungan=tinggi, dan tabungan={rendah, sedang} Calon cabang prediktor aset Aset=rendah, dan aset={sedang, tinggi} Aset=sedang, dan aset={rendah, tinggi} Aset=tinggi, dan aset={rendah, sedang} Calon cabang preditor pendapatan Pendapatan 25.000 dan pendapatan > 25.000 Pendapatan 50.000 dan pendapatan > 50.000 Pendapatan 75.000 dan pendapatan > 75.000

Nama Calon CabangCalon Cabang KiriCalon Cabang Kanan

1tabungan=rendahtabungan={sedang, tinggi}

2tabungan=sedangtabungan={rendah, tinggi}

3tabungan=tinggitabungan={rendah, sedang}

4aset=rendahaset={sedang, tinggi}

5aset=sedangaset={rendah, tinggi}

6aset=tinggiaset={rendah, sedang}

7pendapatan 25.000

8pendapatan 50.000

9pendapatan 75.000

Kedua, menilai kinerja keseluruhan calon cabang yang ada di daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian. Kinerja setiap calon cabang akan diukur melalui ukuran yang disebut dengan kesesuaian (goodness). Kesesuain dari calon cabang s pada noktah keputusan t dilambangkan dengan (s|t)

Dimana

NoPLPRRisiko KreditP(j|tL)P(j|tR)2xPLxPR Q(s|t)Phi (s|t)

13/8=0,3755/8=0,625Baik:1/3=0,3334/5=0,80,468750,9330,4375

Buruk:2/3=0,6671/5=0,2

23/8=0,3755/8=0,625Baik:3/3=12/5=0,40,468751,20,5625

Buruk:0/3=03/5=0,6

32/8=0,2506/8=0,75Baik:1/2==0,54/6=0,6670,3750,3330,125

Buruk: 1/2=0,52/6=0,333

42/8=0,2506/8=0,75Baik:0/2=05/6=0,8330,3751,6670,625

Buruk:2/2=11/6=0,167

54/8=0,54/8=0,5Baik:3/4=0,752/4=0,50,50,50,5

Buruk:1/4=0,252/4=0,5

62/8=0,256/8=0,75Baik:2/2=13/6=0,50,37510,375

Buruk:0/2=03/6=0,5

73/8=0,3755/8=0,625Baik:1/3=0,3334/5=0,80,468750,93330,4375

Buruk:2/3=0,6671/5=0,2

85/8=0,6253/8=0,375Baik:2/5=0,43/3=10,468751,20,5625

Buruk:3/5=0,60/3=0

97/8=0,8751/8=0,125Baik:4/7=0,5711/1=00,218750,8570,1875

Buruk:3/7=0,4290/1=0

Ketiga, menentukan calon cabang manakah yang akan benar-benar menjadi cabang dengan memilih calon cabang yang memiliki nilai kesesuaian (s|t) terbesar. Setelah itu gambarkan percabangan. Menentukan calon cabang yang manakah yang benar-benar menjadi cabang (s|t) terbesar

Kembali ke Langkah Kedua dengan melihat daftar calon cabang mutakhir masalah nasabah








7pendapatan 25.000

8pendapatan 50.000

9pendapatan 75.000


11/6=0,1675/6=0,833Baik:1/1=14/5=0,80,277780,40,1111

Buruk:0/1=01/5=0,2

23/6=0,53/6=0,5Baik:3/3=12/3=0,6670,50,6670,333

Buruk:0/3=01/3=0,333

32/6=0,3334/6=0,667Baik:1/2==0,54/4=10,44410,444

Buruk: 1/2=0,50/4=0

54/6=0,6672/6=0,333Baik:3/4=0,752/2=10,4440,50,222

Buruk:1/4=0,250/2=0

62/6=0,3334/6=0,667Baik:2/2=13/4=0,750,4440,50,222

Buruk:0/2=01/4=0,25

72/6=0,3334/6=0,667Baik:1/2=0,54/4=10,44410,444

Buruk:1/2=0,50/4=0

83/6=0,53/6=0,5Baik:2/3=0,6673/3=10,50,6670,333

Buruk:1/3=0,3330/3=0

95/6=0,8331/6=0,167Baik:4/5=0,81/1=00,277780,40,111

Buruk:1/5=0,20/1=0

Kembali ke Langkah Kedua dengan melihat daftar calon cabang mutakhir masalah nasabah








7pendapatan 25.000

8pendapatan 50.000

9pendapatan 75.000


10/2=02/2=1Baik:01/2=0,5010

Buruk:01/2=0,5

20/2=02/2=1Baik:01/2=0,5010

Buruk:01/2=0,5

51/2=0,51/2=0,5Baik:0/1=01/1=00,521

Buruk:1/1=10/1=0

61/2=0,51/2=0,5Baik:1/1=10/1=00,521

Buruk:0/1=01/1=1

72/2=10/2=0Baik:1/2=0,50/2=0010

Buruk:1/2=0,50/2=0

82/2=10/2=0Baik:1/2=0,50010

Buruk:1/2=0,50

95/6=0,8331/6=0,167Baik:4/5=0,80010

Buruk:1/5=0,20

PegawaiJabatanKelaminUmur AsalKategori Level

1ServicePerempuan45Kota besarLevel 3

2ServiceLaki-laki25Kota besarLevel 1

3ServiceLaki-laki33kota kecilLevel 2

4ManajemenLaki-laki25Kota besarLevel 3

5Manajemenperempuan35kota kecilLevel 4

6ManajemenLaki-laki26kota kecilLevel 3

7ManajemenPerempuan45Kota besarLevel 4

8SalesPerempuan40kota kecilLevel 3

9SalesLaki-laki30Kota besarLevel 2

10SalesPerempuan50Kota besarLevel 2

11SalesLaki-laki25kota kecilLevel 1

Jika tidak ada noktah keputusan, pelaksanaan algoritma CART dihentikan dan sebaliknya jika ada kembali ke langkah kedua.

Referensi :Pengertian dan Konsep Algoritma ID3. Diakses dari web, http://s3.amazonaws.com/academia.edu.documents/31971224/Interactive_Dychotomizer_Three.docx, pada tanggal 28 Maret 2015

Pengertian dan Konsep Algoritma C4.5 dan CART. Diakses dari web, http://download.portalgaruda.org/article.php?article=161148&val=5450&title=PERBANDINGAN%20PERFORMANSI%20ALGORITMA%20C4.5%20DAN%20CART%20DALAM%20%20KLASIFIKSI%20DATA%20NILAI%20MAHASISWA%20PRODI%20TEKNIK%20KOMPUTER%20%20POLITEKNIK%20NEGERI%20PADANG, pada tanggal 28 Maret 2015

Contoh Algoritma ID3. Diakses dari web, https://kaparang.files.wordpress.com/2011/09/bahan-6-ai-id3.doc, pada tanggal 28 Maret 2015

Contoh Algoritma C4.5. Diakses dari web, http://s3.amazonaws.com/academia.edu.documents/32989710/Belajar_Mudah_Algoritma_Data_Mining_C4.5.pdf, pada tanggal 28 Maret 2015

Contoh Algoritma CART. Diakses dari web, http://dc492.4shared.com/download/L2h55DbQ/metode_klasifikasi.pptx, pada tanggal 28 Maret 2015

Tugas 2. Data Mining

Documents

Transcript of Tugas 2. Data Mining