Algoritma C4

download Algoritma C4

of 12

description

Algoritma C4

Transcript of Algoritma C4

KonsepDataMining

DECISIONTREE(POHONKEPUTUSAN)

LatarBelakangPohonKeputusanDidalamkehidupanmanusiasehari-hari,manusiaselaludihadapkanolehberbagaimacammasalahdariberbagaimacambidang.Masalah-masalahyangdihadapiolehmanusiamemilikitingkatkesulitandankompleksitasyangsangatbervariasi,mulaidarimasalahyangteramatsederhanadengansedikitfaktor-faktoryangterkait,sampaidenganmasalahyangsangatrumitdenganbanyaksekalifaktor-faktoryangterkaitdanperluuntukdiperhitungkan.Untukmenghadapimasalah-masalahini,manusiamulaimengembangkansebuahsistemyangdapatmembantumanusiaagardapatdenganmudahmampuuntukmenyelesaikanmasalah-masalahtersebut.Adapunpohonkeputusaniniadalahsebuahjawabanakansebuahsistemyangmanusiakembangkanuntukmembantumencaridanmembuatkeputusanuntukmasalah-masalahtersebutdandenganmemperhitungkanberbagaimacamfaktoryangadadidalamlingkupmasalahtersebut.Denganpohonkeputusan,manusiadapatdenganmudahmengidentifikasidanmelihathubunganantarafaktor-faktoryangmempengaruhisuatumasalahdandapatmencaripenyelesaianterbaikdenganmemperhitungkanfaktor-faktortersebut.Pohonkeputusaninijugadapatmenganalisanilairesikodannilaisuatuinformasiyangterdapatdalamsuatualternatifpemecahanmasalah.Perananpohonkeputusansebagaialatbantudalammengambilkeputusan(decisionsupporttool)telahdikembangkanolehmanusiasejakperkembanganteoripohonyangdilandaskanpadateorigraf.Kegunaanpohonkeputusanyangsangatbanyakinimembuatnyatelahdimanfaatkanolehmanusiadalamberbagaimacamsistempengambilankeputusan.

PengertianPohonKeputusanPohondalamanalisispemecahanmasalahpengambilankeputusanadalahpemetaanmengenaialternatif-alternatifpemecahanmasalahyangdapatdiambildarimasalahtersebut.Pohontersebutjugamemperlihatkanfaktor-faktorkemungkinan/probablitasyangakanmempengaruhialternatif-alternatifkeputusantersebut,disertaidenganestimasihasilakhiryangakandidapatbilakitamengambilalternatifkeputusantersebut.

ManfaatPohonKeputusanPohonkeputusanadalahsalahsatumetodeklasifikasiyangpalingpopulerkarenamudahuntukdiinterpretasiolehmanusia.Pohonkeputusanadalahmodelprediksimenggunakanstrukturpohonataustrukturberhirarki.Konsepdaripohonkeputusanadalahmengubahdatamenjadipohonkeputusandanaturan-aturankeputusan.Manfaatutamadaripenggunaanpohonkeputusanadalahkemampuannyauntukmem-breakdownprosespengambilankeputusanyangkompleksmenjadilebihsimpelsehinggapengambilkeputusanakanlebihmenginterpretasikansolusidaripermasalahan.PohonKeputusanjugabergunauntukmengeksplorasidata,menemukanhubungantersembunyiantarasejumlahcalonvariabelinputdengansebuahvariabeltarget.Pohonkeputusanmemadukanantaraeksplorasidatadanpemodelan,sehinggasangatbagussebagailangkahawaldalamprosespemodelanbahkanketikadijadikansebagaimodelakhirdaribeberapatekniklain.Seringterjaditawarmenawarantarakeakuratanmodeldengantransparansimodel.Dalambeberapaaplikasi,akurasidarisebuahklasifikasiatauprediksiadalahsatu-satunyahalyangditonjolkan,misalnyasebuahperusahaandirectmailmembuatsebuahmodelyangakuratuntukmemprediksianggotamanayangberpotensiuntukmeresponpermintaan,tanpamemperhatikanbagaimanaataumengapamodeltersebutbekerja.

PohonKeputusanPage1KonsepDataMining

KelebihanPohonKeputusanKelebihandarimetodepohonkeputusanadalah:Daerahpengambilankeputusanyangsebelumnyakompleksdansangatglobal,dapatdiubahmenjadilebihsimpeldanspesifik.Eliminasiperhitungan-perhitunganyangtidakdiperlukan,karenaketikamenggunakanmetodepohonkeputusanmakasamplediujihanyaberdasarkankriteriaataukelastertentu.Fleksibeluntukmemilihfiturdariinternalnodeyangberbeda,fituryangterpilihakanmembedakansuatukriteriadibandingkankriteriayanglaindalamnodeyangsama.Kefleksibelanmetodepohonkeputusaninimeningkatkankualitaskeputusanyangdihasilkanjikadibandingkanketikamenggunakanmetodepenghitungansatutahapyanglebihkonvensional.Dalamanalisismultivariat,dengankriteriadankelasyangjumlahnyasangatbanyak,seorangpengujibiasanyaperluuntukmengestimasikanbaikitudistribusidimensitinggiataupunparametertertentudaridistribusikelastersebut.Metodepohonkeputusandapatmenghindarimunculnyapermasalahaninidenganmenggunakancriteriayangjumlahnyalebihsedikitpadasetiapnodeinternaltanpabanyakmengurangikualitaskeputusanyangdihasilkan.

KekuranganPohonKeputusanTerjadioverlapterutamaketikakelas-kelasdancriteriayangdigunakanjumlahnyasangatbanyak.Haltersebutjugadapatmenyebabkanmeningkatnyawaktupengambilankeputusandanjumlahmemoriyangdiperlukan.Pengakumulasianjumlaherordarisetiaptingkatdalamsebuahpohonkeputusanyangbesar.Kesulitandalammendesainpohonkeputusanyangoptimal.Hasilkualitaskeputusanyangdidapatkandarimetodepohonkeputusansangattergantungpadabagaimanapohontersebutdidesain.

ModelPohonKeputusan

Pohonkeputusanadalahmodelprediksimenggunakanstrukturpohonataustrukturberhirarki.ContohdaripohonkeputusandapatdilihatdiGambar1berikutini.

Gambar1.ModelPohonKeputusan(Pramudiono,2008)

Disinisetiappercabanganmenyatakankondisiyangharusdipenuhidantiapujungpohonmenyatakankelasdata.ContohdiGambar1adalahidentifikasipembelikomputer,daripohonkeputusantersebutdiketahuibahwasalahsatukelompokyangpotensialmembelikomputeradalah

PohonKeputusanPage2

NOOUTLOOKTEMPERATUREHUMIDITYWINDYPLAY

1SunnyHotHighFalseNo

2SunnyHotHighTrueNo

3CloudyHotHighFalseYes

4RainyMildHighFalseYes

5RainyCoolNormalFalseYes

6RainyCoolNormalTrueYes

7CloudyCoolNormalTrueYes

8SunnyMildHighFalseNo

9SunnyCoolNormalFalseYes

10RainyMildNormalFalseYes

11SunnyMildNormalTrueYes

12CloudyMildHighTrueYes

13CloudyHotNormalFalseYes

14RainyMildHighTrueNo

KonsepDataMining

orangyangberusiadibawah30tahundanjugapelajar.Setelahsebuahpohonkeputusandibangunmakadapatdigunakanuntukmengklasifikasikanrecordyangbelumadakelasnya.Dimulaidarinoderoot,menggunakantesterhadapatributdarirecordyangbelumadakelasnyatersebutlalumengikuticabangyangsesuaidenganhasildaritestersebut,yangakanmembawakepadainternalnode(nodeyangmemilikisatucabangmasukdanduaataulebihcabangyangkeluar),dengancaraharusmelakukanteslagiterhadapatributataunodedaun.Recordyangkelasnyatidakdiketahuikemudiandiberikankelasyangsesuaidengankelasyangadapadanodedaun.Padapohonkeputusansetiapsimpuldaunmenandailabelkelas.Prosesdalampohonkeputusanyaitumengubahbentukdata(tabel)menjadimodelpohon(tree)kemudianmengubahmodelpohontersebutmenjadiaturan(rule).

AlgoritmaC4.5UntukmemudahkanpenjelasanmengenaialgoritmaC4.5berikutinidisertakancontohkasusyangdituangkandalamTabel1:Tabel1.KeputusanBermainTenis

DalamkasusyangterterapadaTabel1,akandibuatpohonkeputusanuntukmenentukanmaintenisatautidakdenganmelihatkeadaancuaca(outlook),temperatur,kelembaban(humidity)dankeadaanangin(windy).

SecaraumumalgoritmaC4.5untukmembangunpohonkeputusanadalahsebagaiberikut:1.Pilihatributsebagaiakar2.Buatcabanguntukmasing-masingnilai3.Bagikasusdalamcabang4.Ulangiprosesuntukmasing-masingcabangsampaisemuakasuspadacabangmemilikikelasyangsama.

Untukmemilihatributsebagaiakar,didasarkanpadanilaigaintertinggidariatribut-atributyangada.UntukmenghitunggaindigunakanrumussepertiterteradalamRumus1.

PohonKeputusanPage3

NODEJUMLAHKASUS(S)NO(S1)YES(S2)ENTROPYGAIN

1TOTAL144100.863120569

OUTLOOK0.258521037

CLOUDY4040

RAINY5140.721928095

SUNNY5320.970950594

TEMPERATURE0.183850925

COOL4040

HOT4221

MILD6240.918295834

HUMIDITY0.370506501

HIGH7430.985228136

NORMAL7070

WINDY0.005977711

FALSE8260.811278124

TRUE6420.918295834

KonsepDataMining

Sedangkanperhitungannilaientropydapatdilihatpadarumus2berikut:

Berikutiniadalahpenjelasanlebihrincimengenaimasing-masinglangkahdalampembentukanpohonkeputusandenganmenggunakanalgoritmaC4.5untukmenyelesaikanpermasalahan.

a.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributOUTLOOK,TEMPERATURE,HUMIDITYdanWINDY.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel2.

Tabel2.PerhitunganNode1

PohonKeputusanPage4

KonsepDataMining

BarisTOTALkolomEntropypadaTabel2dihitungdenganrumus2,sebagaiberikut:

SedangkannilaiGainpadabarisOUTLOOKdihitungdenganmenggunakanrumus1,sebagaiberikut:

SehinggadidapatGain(Total,Outlook)=0.258521037

DarihasilpadaTabel2dapatdiketahuibahwaatributdenganGaintertinggiadalahHUMIDITYyaitusebesar0.37.DengandemikianHUMIDITYdapatmenjadinodeakar.Ada2nilaiatributdariHUMIDITYyaituHIGHdanNORMAL.Darikeduanilaiatributtersebut,nilaiatributNORMALsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYes,sehinggatidakperludilakukanperhitunganlebihlanjut,tetapiuntuknilaiatributHIGHmasihperludilakukanperhitunganlagi.

DarihasiltersebutdapatdigambarkanpohonkeputusansementarasepertiGambar2.

Gambar2.PohonKeputusanHasilPerhitunganNode1

b.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributOUTLOOK,TEMPERATUREdanWINDYyangdapatmenjadinodeakardarinilaiatributHIGH.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel3.

PohonKeputusanPage5

KonsepDataMining

Tabel3.PerhitunganNode1.1

DarihasilpadaTabel3dapatdiketahuibahwaatributdenganGaintertinggiadalahOUTLOOKyaitusebesar0.67.DengandemikianOUTLOOKdapatmenjadinodecabangdarinilaiatributHIGH.Ada3nilaiatributdariOUTLOOKyaituCLOUDY,RAINYdanSUNNY.Dariketiganilaiatributtersebut,nilaiatributCLOUDYsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYesdannilaiatributSUNNYsudahmengklasifikasikankasusmenjadisatudengankeputusanNo,sehinggatidakperludilakukanperhitunganlebihlanjut,tetapiuntuknilaiatributRAINYmasihperludilakukanperhitunganlagi.

Pohonkeputusanyangterbentuksampaitahapiniditunjukkanpadagambar3.

Gambar3.PohonKeputusanHasilPerhitunganNode1.1

PohonKeputusanPage6

KonsepDataMining

c.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributTEMPERATUREdanWINDYyangdapatmenjadinodecabangdarinilaiatributRAINY.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel4.

Tabel4.PerhitunganNode1.1.2

Darihasilpadatabel4dapatdiketahuibahwaatributdenganGaintertinggiadalahWINDYyaitusebesar1.DengandemikianWINDYdapatmenjadinodecabangdarinilaiatributRAINY.Ada2nilaiatributdariWINDYyaituFALSEdanTRUE.Darikeduanilaiatributtersebut,nilaiatributFALSEsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYesdannilaiatributTRUEsudahmengklasifikasikankasusmenjadisatudengankeputusanNo,sehinggatidakperludilakukanperhitunganlebihlanjutuntuknilaiatributini.

PohonkeputusanyangterbentuksampaitahapiniditunjukkanpadaGambar4.

Gambar4.PohonKeputusanHasilPerhitunganNode1.1.2

PohonKeputusanPage7

KonsepDataMining

DenganmemperhatikanpohonkeputusanpadaGambar4,diketahuibahwasemuakasussudahmasukdalamkelas.Dengandemikian,pohonkeputusanpadaGambar4merupakanpohonkeputusanterakhiryangterbentuk.

Referensi:KusrinidanEmhaTaufiqLuthfi.2009.AlgoritmaDataMining.PenerbitAndiOffset,Yogyakarta.Larose,DanielT.2005.DiscoveringKnowledgeiniData:AnIntroductiontoDataMining.Wiley.Pramudiono,Iko.PengantarDataMining:MenambangPermataPengetahuandiGunungData.http://www.ilmukomputer.comSantosa,Budi.2007.DataMining:TeknikPemanfaatanDatauntukkeperluanBisnis.GrahaIlmu.Yogyakarta.Tan,Pang-Ning,MichaelSteinbach,andVipinKumar.2004.IntroductiontoDataMining.

PohonKeputusanPage8