METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI ... · KLASIFIKASI KEMISKINAN DI KABUPATEN...
Transcript of METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI ... · KLASIFIKASI KEMISKINAN DI KABUPATEN...
METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG
MUHAMMAD JAMAL MUTTAQIN1311 201 205
PEMBIMBINGDR. BAMBANG WIDJANARKO OTOK, M.SI.SANTI PUTERI RAHAYU, M.SI., PH.D.
Latar belakang
Klasifikasi CART (1984)
Ensemble Learning (1990s)
Meningkatkan akurasi
klasifikasi
Bagging, Boosting,
Random ForestProblematika Kemiskinan
Klasifikasi kemiskinan di
Jombang
Penelitian Terkait
Suryadarma, Akhmad, Nina (2005)
• Ukurankesejahteraankeluarga berbeda-beda untuk tiapdaerah
Aeni (2009)
• Karakteristik rumahtangga miskin diJawa Tengah:• Pekerjaan bidang
pertanian• Pendidikan rendah• Banyaknya
anggota rumahtangga
• Metode ensemble Arcing CART meningkatkanakurasi klasifikasi12,7%
Permatasari (2013)
• Karakteristik penentudaerah miskin:• Penggunaan
jamban• Rata-rata lama
sekolah• Sektor pekerjaan• Angka melek huruf
• Metode ensemble Boosting MARS meningkatkanakurasi klasifikasi7,9%
Rumusan masalah
Penerapan CART?
Peningkatan akurasiBagging, boosting, random forest?
Perbandingan akurasi dan stabilitas ensembleuntuk mencapai akurasi konvergen?
Classification and regression trees (CART)
Dikembangkan Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone pada 1984
Pohon keputusan Algoritma penyekatan rekursif biner Mengelompokkan ke dalam simpul agar homogen
Ilustrasi CART
Parent node
Child node
Terminal node
t1
t3t2
t4t6
t11
t5
t12
t8 t9
t13
t10
t7
Pemilah 1
Pemilah 2 Pemilah 3
Pemilah 4 Pemilah 5
Pemilah 6
Pemilihan Pemilah
i(t) = fungsi heterogenitas pada simpul t pL = proporsi pengamatan simpul kiri pR = proporsi pengamatan menuju simpul kanan i(tL) = fungsi heterogenitas pada simpul anak kiri i(tR) = fungsi heterogenitas pada simpul anak kanan φ(s,t) = goodness of split
( ) ( | ) ( | )j i
i t p j t p i t≠
=∑ ( , ) ( ) ( ) ( )L L R Rs t i t p i t p i tφ = − −
Metode ensemble
Menggabungkan prediksi klasifikasi dari banyak pohon klasifikasi melalu proses voting prediksi mayoritas
Pohon klasifikasi 1
Pohon klasifikasi 2
Pohon klasifikasi T
Prediksi 1
Prediksi 2
Prediksi T
VotingPrediksi akhir
Bagging
Bootstrap Aggregating Resampling acak dengan pengembalian
Dataset hasil resampling 1
Dataset hasil resampling 2
Dataset hasil resampling T
CART 1
CART 2
CART T
Prediksi 1
Prediksi 2
Prediksi T
Voting
Boosting
Keluarga ensemble dengan banyak algoritma Dataset yang digunakan bergantung dari pohon
klasifikasi sebelumnya Berfokus kepada data sampel yang salah diprediksi
Dataset (terboboti) 1
Dataset (terboboti) 2
Dataset (terboboti) T
CART 1
CART 2
CART T
Prediksi 1
Prediksi 2
Prediksi T
Voting
Random Forest
Perlu ada penambahan layer dari proses bagging Saat penentuan pemilah, variabel yang digunakan
diambil secara acak
Dataset hasil resampling 1
Dataset hasil resampling 2
Dataset hasil resampling T
CART 1(prediktor acak)
CART 2(prediktor acak)
CART T(prediktor acak)
Prediksi 1
Prediksi 2
Prediksi T
Voting
Konsep kemiskinan
BPS: ketidakmampuan untuk memenuhi standar minimum kebutuhan dasar, baik makanan maupun bukan makanan
Pengukuran kemiskinan BPS: tingkat konsumsi baik makanan/non makanan
Garis Kemiskinan Susenas
Sumber data
Data sekunder Survey Verifikasi rumah tangga miskin Kabupaten
Jombang 2010 Bappeda – Kabupaten Jombang Data sampel rumah tangga miskin berjumlah
1353 Data sampel rumah tangga sangat miskin
berjumlah 618 Perbandingan antarkelas 2,19 : 1
Variabel Penelitian
Variabel Definisi Operasional SkalaPengukuran
Y Status kemiskinan rumah tangga Nominalx1 Status penguasaan bangunan tempat tinggal Nominalx2 Luas kavling termasuk bangunan (m2) Rasiox3 Luas lantai (m2) Rasiox4 Jenis atap terluas Nominalx5 Jenis dinding terluas Nominalx6 Jenis lantai terluas Nominalx7 Tempat buang air besar (jamban) Nominalx8 Tempat pembuangan air tinja Nominalx9 Sumber penerangan utama Nominalx10 Sumber air minum Nominalx11 Bahan bakar memasak Nominalx12 Pengobatan Nominalx13 Ijazah terakhir kepala keluarga Ordinalx14 Penghasilan tiap bulan (Rp) Rasio
Langkah-langkah penelitian
Pre-processing Data
Analisis Klasifikasi dengan CART
Analisis Klasifikasi
Bagging CART
Analisis Klasifikasi
Boosting CART
Membandingkan Klasifikasi antarmetode ensemble
Menarik Kesimpulan Penelitian
Analisis Klasifikasi
Random Forest
Tabel Klasifikasi
1-APER
Sensitivity
Specificity
Ukuran akurasi klasifikasi
Kelas Sebenarnyay1= -1 y2= 1
Kelas Prediksi
h1 = -1 TN FNh2 = 1 FP TP
TP TNTP FP TN FN
++ + +
TPTP FN+
TNTN FP+
G-means
Luas AUCsensitivity specificity×
Uji Press’s Q
N = Jumlah pengamatan total n = Jumlah pengamatan yang benar
diklasifikasikan K = Jumlah kelas
[ ]2( )Press's Q =
( 1)N nKN K−
−
Analisis CART
Variabel menentukan klasifikasi kemiskinan: Penghasilan kepala Rumah Tangga (x14) Luas Lantai Bangunan (x3) Luas kavling termasuk bangunan (x2) Sumber air minum (x10)
Dihasilkan 4 simpul kelas miskin dan 3 simpulkelas sangat miskin
Analisis CART
|x14< 2.125e+05
x3>=4.5
x10=abdefg
x3>=13.5
x14< 8.75e+05
x2< 49
miskin432/141
miskin770/363
miskin130/74
sangat3/9
sangat4/11
miskin14/9
sanga0/11
Akurasi Klasifikasi
Keterangan : * Statistik Press’s Q signifikan
Akurasi CART Bagging Boosting Random Forest
1-APER 0,6986* 0,7438* 0,9006* 0,9812*
Sensitivity 0,0502 0,1926 0,7589 0,9466Specificity 0,9948 0,9956 0,9653 0,9970G-Means 0,2234 0,4378 0,8559 0,9715Luas AUC 0,568 0,872 0,967 0,999
Performa Ensemble untuk mencapaiakurasi konvergen
Metode Klasifikasi St. Dev 1-APERBagging CART 0,014Boosting CART 0,069Random Forest 0,039
20151050
1.00
0.95
0.90
0.85
0.80
0.75
0.70
Jumlah Pohon
1-A
PER
BaggingBoostingRF
Ensemble