Algoritma C4
-
Upload
anonymous-wbxdckga9 -
Category
Documents
-
view
217 -
download
0
Embed Size (px)
description
Transcript of Algoritma C4
KonsepDataMining
DECISIONTREE(POHONKEPUTUSAN)
LatarBelakangPohonKeputusanDidalamkehidupanmanusiasehari-hari,manusiaselaludihadapkanolehberbagaimacammasalahdariberbagaimacambidang.Masalah-masalahyangdihadapiolehmanusiamemilikitingkatkesulitandankompleksitasyangsangatbervariasi,mulaidarimasalahyangteramatsederhanadengansedikitfaktor-faktoryangterkait,sampaidenganmasalahyangsangatrumitdenganbanyaksekalifaktor-faktoryangterkaitdanperluuntukdiperhitungkan.Untukmenghadapimasalah-masalahini,manusiamulaimengembangkansebuahsistemyangdapatmembantumanusiaagardapatdenganmudahmampuuntukmenyelesaikanmasalah-masalahtersebut.Adapunpohonkeputusaniniadalahsebuahjawabanakansebuahsistemyangmanusiakembangkanuntukmembantumencaridanmembuatkeputusanuntukmasalah-masalahtersebutdandenganmemperhitungkanberbagaimacamfaktoryangadadidalamlingkupmasalahtersebut.Denganpohonkeputusan,manusiadapatdenganmudahmengidentifikasidanmelihathubunganantarafaktor-faktoryangmempengaruhisuatumasalahdandapatmencaripenyelesaianterbaikdenganmemperhitungkanfaktor-faktortersebut.Pohonkeputusaninijugadapatmenganalisanilairesikodannilaisuatuinformasiyangterdapatdalamsuatualternatifpemecahanmasalah.Perananpohonkeputusansebagaialatbantudalammengambilkeputusan(decisionsupporttool)telahdikembangkanolehmanusiasejakperkembanganteoripohonyangdilandaskanpadateorigraf.Kegunaanpohonkeputusanyangsangatbanyakinimembuatnyatelahdimanfaatkanolehmanusiadalamberbagaimacamsistempengambilankeputusan.
PengertianPohonKeputusanPohondalamanalisispemecahanmasalahpengambilankeputusanadalahpemetaanmengenaialternatif-alternatifpemecahanmasalahyangdapatdiambildarimasalahtersebut.Pohontersebutjugamemperlihatkanfaktor-faktorkemungkinan/probablitasyangakanmempengaruhialternatif-alternatifkeputusantersebut,disertaidenganestimasihasilakhiryangakandidapatbilakitamengambilalternatifkeputusantersebut.
ManfaatPohonKeputusanPohonkeputusanadalahsalahsatumetodeklasifikasiyangpalingpopulerkarenamudahuntukdiinterpretasiolehmanusia.Pohonkeputusanadalahmodelprediksimenggunakanstrukturpohonataustrukturberhirarki.Konsepdaripohonkeputusanadalahmengubahdatamenjadipohonkeputusandanaturan-aturankeputusan.Manfaatutamadaripenggunaanpohonkeputusanadalahkemampuannyauntukmem-breakdownprosespengambilankeputusanyangkompleksmenjadilebihsimpelsehinggapengambilkeputusanakanlebihmenginterpretasikansolusidaripermasalahan.PohonKeputusanjugabergunauntukmengeksplorasidata,menemukanhubungantersembunyiantarasejumlahcalonvariabelinputdengansebuahvariabeltarget.Pohonkeputusanmemadukanantaraeksplorasidatadanpemodelan,sehinggasangatbagussebagailangkahawaldalamprosespemodelanbahkanketikadijadikansebagaimodelakhirdaribeberapatekniklain.Seringterjaditawarmenawarantarakeakuratanmodeldengantransparansimodel.Dalambeberapaaplikasi,akurasidarisebuahklasifikasiatauprediksiadalahsatu-satunyahalyangditonjolkan,misalnyasebuahperusahaandirectmailmembuatsebuahmodelyangakuratuntukmemprediksianggotamanayangberpotensiuntukmeresponpermintaan,tanpamemperhatikanbagaimanaataumengapamodeltersebutbekerja.
PohonKeputusanPage1KonsepDataMining
KelebihanPohonKeputusanKelebihandarimetodepohonkeputusanadalah:Daerahpengambilankeputusanyangsebelumnyakompleksdansangatglobal,dapatdiubahmenjadilebihsimpeldanspesifik.Eliminasiperhitungan-perhitunganyangtidakdiperlukan,karenaketikamenggunakanmetodepohonkeputusanmakasamplediujihanyaberdasarkankriteriaataukelastertentu.Fleksibeluntukmemilihfiturdariinternalnodeyangberbeda,fituryangterpilihakanmembedakansuatukriteriadibandingkankriteriayanglaindalamnodeyangsama.Kefleksibelanmetodepohonkeputusaninimeningkatkankualitaskeputusanyangdihasilkanjikadibandingkanketikamenggunakanmetodepenghitungansatutahapyanglebihkonvensional.Dalamanalisismultivariat,dengankriteriadankelasyangjumlahnyasangatbanyak,seorangpengujibiasanyaperluuntukmengestimasikanbaikitudistribusidimensitinggiataupunparametertertentudaridistribusikelastersebut.Metodepohonkeputusandapatmenghindarimunculnyapermasalahaninidenganmenggunakancriteriayangjumlahnyalebihsedikitpadasetiapnodeinternaltanpabanyakmengurangikualitaskeputusanyangdihasilkan.
KekuranganPohonKeputusanTerjadioverlapterutamaketikakelas-kelasdancriteriayangdigunakanjumlahnyasangatbanyak.Haltersebutjugadapatmenyebabkanmeningkatnyawaktupengambilankeputusandanjumlahmemoriyangdiperlukan.Pengakumulasianjumlaherordarisetiaptingkatdalamsebuahpohonkeputusanyangbesar.Kesulitandalammendesainpohonkeputusanyangoptimal.Hasilkualitaskeputusanyangdidapatkandarimetodepohonkeputusansangattergantungpadabagaimanapohontersebutdidesain.
ModelPohonKeputusan
Pohonkeputusanadalahmodelprediksimenggunakanstrukturpohonataustrukturberhirarki.ContohdaripohonkeputusandapatdilihatdiGambar1berikutini.
Gambar1.ModelPohonKeputusan(Pramudiono,2008)
Disinisetiappercabanganmenyatakankondisiyangharusdipenuhidantiapujungpohonmenyatakankelasdata.ContohdiGambar1adalahidentifikasipembelikomputer,daripohonkeputusantersebutdiketahuibahwasalahsatukelompokyangpotensialmembelikomputeradalah
PohonKeputusanPage2
NOOUTLOOKTEMPERATUREHUMIDITYWINDYPLAY
1SunnyHotHighFalseNo
2SunnyHotHighTrueNo
3CloudyHotHighFalseYes
4RainyMildHighFalseYes
5RainyCoolNormalFalseYes
6RainyCoolNormalTrueYes
7CloudyCoolNormalTrueYes
8SunnyMildHighFalseNo
9SunnyCoolNormalFalseYes
10RainyMildNormalFalseYes
11SunnyMildNormalTrueYes
12CloudyMildHighTrueYes
13CloudyHotNormalFalseYes
14RainyMildHighTrueNo
KonsepDataMining
orangyangberusiadibawah30tahundanjugapelajar.Setelahsebuahpohonkeputusandibangunmakadapatdigunakanuntukmengklasifikasikanrecordyangbelumadakelasnya.Dimulaidarinoderoot,menggunakantesterhadapatributdarirecordyangbelumadakelasnyatersebutlalumengikuticabangyangsesuaidenganhasildaritestersebut,yangakanmembawakepadainternalnode(nodeyangmemilikisatucabangmasukdanduaataulebihcabangyangkeluar),dengancaraharusmelakukanteslagiterhadapatributataunodedaun.Recordyangkelasnyatidakdiketahuikemudiandiberikankelasyangsesuaidengankelasyangadapadanodedaun.Padapohonkeputusansetiapsimpuldaunmenandailabelkelas.Prosesdalampohonkeputusanyaitumengubahbentukdata(tabel)menjadimodelpohon(tree)kemudianmengubahmodelpohontersebutmenjadiaturan(rule).
AlgoritmaC4.5UntukmemudahkanpenjelasanmengenaialgoritmaC4.5berikutinidisertakancontohkasusyangdituangkandalamTabel1:Tabel1.KeputusanBermainTenis
DalamkasusyangterterapadaTabel1,akandibuatpohonkeputusanuntukmenentukanmaintenisatautidakdenganmelihatkeadaancuaca(outlook),temperatur,kelembaban(humidity)dankeadaanangin(windy).
SecaraumumalgoritmaC4.5untukmembangunpohonkeputusanadalahsebagaiberikut:1.Pilihatributsebagaiakar2.Buatcabanguntukmasing-masingnilai3.Bagikasusdalamcabang4.Ulangiprosesuntukmasing-masingcabangsampaisemuakasuspadacabangmemilikikelasyangsama.
Untukmemilihatributsebagaiakar,didasarkanpadanilaigaintertinggidariatribut-atributyangada.UntukmenghitunggaindigunakanrumussepertiterteradalamRumus1.
PohonKeputusanPage3
NODEJUMLAHKASUS(S)NO(S1)YES(S2)ENTROPYGAIN
1TOTAL144100.863120569
OUTLOOK0.258521037
CLOUDY4040
RAINY5140.721928095
SUNNY5320.970950594
TEMPERATURE0.183850925
COOL4040
HOT4221
MILD6240.918295834
HUMIDITY0.370506501
HIGH7430.985228136
NORMAL7070
WINDY0.005977711
FALSE8260.811278124
TRUE6420.918295834
KonsepDataMining
Sedangkanperhitungannilaientropydapatdilihatpadarumus2berikut:
Berikutiniadalahpenjelasanlebihrincimengenaimasing-masinglangkahdalampembentukanpohonkeputusandenganmenggunakanalgoritmaC4.5untukmenyelesaikanpermasalahan.
a.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributOUTLOOK,TEMPERATURE,HUMIDITYdanWINDY.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel2.
Tabel2.PerhitunganNode1
PohonKeputusanPage4
KonsepDataMining
BarisTOTALkolomEntropypadaTabel2dihitungdenganrumus2,sebagaiberikut:
SedangkannilaiGainpadabarisOUTLOOKdihitungdenganmenggunakanrumus1,sebagaiberikut:
SehinggadidapatGain(Total,Outlook)=0.258521037
DarihasilpadaTabel2dapatdiketahuibahwaatributdenganGaintertinggiadalahHUMIDITYyaitusebesar0.37.DengandemikianHUMIDITYdapatmenjadinodeakar.Ada2nilaiatributdariHUMIDITYyaituHIGHdanNORMAL.Darikeduanilaiatributtersebut,nilaiatributNORMALsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYes,sehinggatidakperludilakukanperhitunganlebihlanjut,tetapiuntuknilaiatributHIGHmasihperludilakukanperhitunganlagi.
DarihasiltersebutdapatdigambarkanpohonkeputusansementarasepertiGambar2.
Gambar2.PohonKeputusanHasilPerhitunganNode1
b.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributOUTLOOK,TEMPERATUREdanWINDYyangdapatmenjadinodeakardarinilaiatributHIGH.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel3.
PohonKeputusanPage5
KonsepDataMining
Tabel3.PerhitunganNode1.1
DarihasilpadaTabel3dapatdiketahuibahwaatributdenganGaintertinggiadalahOUTLOOKyaitusebesar0.67.DengandemikianOUTLOOKdapatmenjadinodecabangdarinilaiatributHIGH.Ada3nilaiatributdariOUTLOOKyaituCLOUDY,RAINYdanSUNNY.Dariketiganilaiatributtersebut,nilaiatributCLOUDYsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYesdannilaiatributSUNNYsudahmengklasifikasikankasusmenjadisatudengankeputusanNo,sehinggatidakperludilakukanperhitunganlebihlanjut,tetapiuntuknilaiatributRAINYmasihperludilakukanperhitunganlagi.
Pohonkeputusanyangterbentuksampaitahapiniditunjukkanpadagambar3.
Gambar3.PohonKeputusanHasilPerhitunganNode1.1
PohonKeputusanPage6
KonsepDataMining
c.Menghitungjumlahkasus,jumlahkasusuntukkeputusanYes,jumlahkasusuntukkeputusanNo,danEntropydarisemuakasusdankasusyangdibagiberdasarkanatributTEMPERATUREdanWINDYyangdapatmenjadinodecabangdarinilaiatributRAINY.SetelahitulakukanpenghitunganGainuntukmasing-masingatribut.HasilperhitunganditunjukkanolehTabel4.
Tabel4.PerhitunganNode1.1.2
Darihasilpadatabel4dapatdiketahuibahwaatributdenganGaintertinggiadalahWINDYyaitusebesar1.DengandemikianWINDYdapatmenjadinodecabangdarinilaiatributRAINY.Ada2nilaiatributdariWINDYyaituFALSEdanTRUE.Darikeduanilaiatributtersebut,nilaiatributFALSEsudahmengklasifikasikankasusmenjadi1yaitukeputusan-nyaYesdannilaiatributTRUEsudahmengklasifikasikankasusmenjadisatudengankeputusanNo,sehinggatidakperludilakukanperhitunganlebihlanjutuntuknilaiatributini.
PohonkeputusanyangterbentuksampaitahapiniditunjukkanpadaGambar4.
Gambar4.PohonKeputusanHasilPerhitunganNode1.1.2
PohonKeputusanPage7
KonsepDataMining
DenganmemperhatikanpohonkeputusanpadaGambar4,diketahuibahwasemuakasussudahmasukdalamkelas.Dengandemikian,pohonkeputusanpadaGambar4merupakanpohonkeputusanterakhiryangterbentuk.
Referensi:KusrinidanEmhaTaufiqLuthfi.2009.AlgoritmaDataMining.PenerbitAndiOffset,Yogyakarta.Larose,DanielT.2005.DiscoveringKnowledgeiniData:AnIntroductiontoDataMining.Wiley.Pramudiono,Iko.PengantarDataMining:MenambangPermataPengetahuandiGunungData.http://www.ilmukomputer.comSantosa,Budi.2007.DataMining:TeknikPemanfaatanDatauntukkeperluanBisnis.GrahaIlmu.Yogyakarta.Tan,Pang-Ning,MichaelSteinbach,andVipinKumar.2004.IntroductiontoDataMining.
PohonKeputusanPage8