METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI ... · KLASIFIKASI KEMISKINAN DI KABUPATEN...

23
METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG MUHAMMAD JAMAL MUTTAQIN 1311 201 205 PEMBIMBING DR. BAMBANG WIDJANARKO OTOK, M.SI. SANTI PUTERI RAHAYU, M.SI., PH.D.

Transcript of METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI ... · KLASIFIKASI KEMISKINAN DI KABUPATEN...

METODE ENSEMBLE PADA CART UNTUK PERBAIKAN KLASIFIKASI KEMISKINAN DI KABUPATEN JOMBANG

MUHAMMAD JAMAL MUTTAQIN1311 201 205

PEMBIMBINGDR. BAMBANG WIDJANARKO OTOK, M.SI.SANTI PUTERI RAHAYU, M.SI., PH.D.

Latar belakang

Klasifikasi CART (1984)

Ensemble Learning (1990s)

Meningkatkan akurasi

klasifikasi

Bagging, Boosting,

Random ForestProblematika Kemiskinan

Klasifikasi kemiskinan di

Jombang

Penelitian Terkait

Suryadarma, Akhmad, Nina (2005)

• Ukurankesejahteraankeluarga berbeda-beda untuk tiapdaerah

Aeni (2009)

• Karakteristik rumahtangga miskin diJawa Tengah:• Pekerjaan bidang

pertanian• Pendidikan rendah• Banyaknya

anggota rumahtangga

• Metode ensemble Arcing CART meningkatkanakurasi klasifikasi12,7%

Permatasari (2013)

• Karakteristik penentudaerah miskin:• Penggunaan

jamban• Rata-rata lama

sekolah• Sektor pekerjaan• Angka melek huruf

• Metode ensemble Boosting MARS meningkatkanakurasi klasifikasi7,9%

Rumusan masalah

Penerapan CART?

Peningkatan akurasiBagging, boosting, random forest?

Perbandingan akurasi dan stabilitas ensembleuntuk mencapai akurasi konvergen?

Classification and regression trees (CART)

Dikembangkan Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone pada 1984

Pohon keputusan Algoritma penyekatan rekursif biner Mengelompokkan ke dalam simpul agar homogen

Ilustrasi CART

Parent node

Child node

Terminal node

t1

t3t2

t4t6

t11

t5

t12

t8 t9

t13

t10

t7

Pemilah 1

Pemilah 2 Pemilah 3

Pemilah 4 Pemilah 5

Pemilah 6

Pemilihan Pemilah

i(t) = fungsi heterogenitas pada simpul t pL = proporsi pengamatan simpul kiri pR = proporsi pengamatan menuju simpul kanan i(tL) = fungsi heterogenitas pada simpul anak kiri i(tR) = fungsi heterogenitas pada simpul anak kanan φ(s,t) = goodness of split

( ) ( | ) ( | )j i

i t p j t p i t≠

=∑ ( , ) ( ) ( ) ( )L L R Rs t i t p i t p i tφ = − −

Metode ensemble

Menggabungkan prediksi klasifikasi dari banyak pohon klasifikasi melalu proses voting prediksi mayoritas

Pohon klasifikasi 1

Pohon klasifikasi 2

Pohon klasifikasi T

Prediksi 1

Prediksi 2

Prediksi T

VotingPrediksi akhir

Bagging

Bootstrap Aggregating Resampling acak dengan pengembalian

Dataset hasil resampling 1

Dataset hasil resampling 2

Dataset hasil resampling T

CART 1

CART 2

CART T

Prediksi 1

Prediksi 2

Prediksi T

Voting

Boosting

Keluarga ensemble dengan banyak algoritma Dataset yang digunakan bergantung dari pohon

klasifikasi sebelumnya Berfokus kepada data sampel yang salah diprediksi

Dataset (terboboti) 1

Dataset (terboboti) 2

Dataset (terboboti) T

CART 1

CART 2

CART T

Prediksi 1

Prediksi 2

Prediksi T

Voting

Algoritma adaboost.M1

Random Forest

Perlu ada penambahan layer dari proses bagging Saat penentuan pemilah, variabel yang digunakan

diambil secara acak

Dataset hasil resampling 1

Dataset hasil resampling 2

Dataset hasil resampling T

CART 1(prediktor acak)

CART 2(prediktor acak)

CART T(prediktor acak)

Prediksi 1

Prediksi 2

Prediksi T

Voting

Konsep kemiskinan

BPS: ketidakmampuan untuk memenuhi standar minimum kebutuhan dasar, baik makanan maupun bukan makanan

Pengukuran kemiskinan BPS: tingkat konsumsi baik makanan/non makanan

Garis Kemiskinan Susenas

Sumber data

Data sekunder Survey Verifikasi rumah tangga miskin Kabupaten

Jombang 2010 Bappeda – Kabupaten Jombang Data sampel rumah tangga miskin berjumlah

1353 Data sampel rumah tangga sangat miskin

berjumlah 618 Perbandingan antarkelas 2,19 : 1

Variabel Penelitian

Variabel Definisi Operasional SkalaPengukuran

Y Status kemiskinan rumah tangga Nominalx1 Status penguasaan bangunan tempat tinggal Nominalx2 Luas kavling termasuk bangunan (m2) Rasiox3 Luas lantai (m2) Rasiox4 Jenis atap terluas Nominalx5 Jenis dinding terluas Nominalx6 Jenis lantai terluas Nominalx7 Tempat buang air besar (jamban) Nominalx8 Tempat pembuangan air tinja Nominalx9 Sumber penerangan utama Nominalx10 Sumber air minum Nominalx11 Bahan bakar memasak Nominalx12 Pengobatan Nominalx13 Ijazah terakhir kepala keluarga Ordinalx14 Penghasilan tiap bulan (Rp) Rasio

Langkah-langkah penelitian

Pre-processing Data

Analisis Klasifikasi dengan CART

Analisis Klasifikasi

Bagging CART

Analisis Klasifikasi

Boosting CART

Membandingkan Klasifikasi antarmetode ensemble

Menarik Kesimpulan Penelitian

Analisis Klasifikasi

Random Forest

Tabel Klasifikasi

1-APER

Sensitivity

Specificity

Ukuran akurasi klasifikasi

Kelas Sebenarnyay1= -1 y2= 1

Kelas Prediksi

h1 = -1 TN FNh2 = 1 FP TP

TP TNTP FP TN FN

++ + +

TPTP FN+

TNTN FP+

G-means

Luas AUCsensitivity specificity×

Uji Press’s Q

N = Jumlah pengamatan total n = Jumlah pengamatan yang benar

diklasifikasikan K = Jumlah kelas

[ ]2( )Press's Q =

( 1)N nKN K−

Analisis CART

Variabel menentukan klasifikasi kemiskinan: Penghasilan kepala Rumah Tangga (x14) Luas Lantai Bangunan (x3) Luas kavling termasuk bangunan (x2) Sumber air minum (x10)

Dihasilkan 4 simpul kelas miskin dan 3 simpulkelas sangat miskin

Analisis CART

|x14< 2.125e+05

x3>=4.5

x10=abdefg

x3>=13.5

x14< 8.75e+05

x2< 49

miskin432/141

miskin770/363

miskin130/74

sangat3/9

sangat4/11

miskin14/9

sanga0/11

Akurasi Klasifikasi

Keterangan : * Statistik Press’s Q signifikan

Akurasi CART Bagging Boosting Random Forest

1-APER 0,6986* 0,7438* 0,9006* 0,9812*

Sensitivity 0,0502 0,1926 0,7589 0,9466Specificity 0,9948 0,9956 0,9653 0,9970G-Means 0,2234 0,4378 0,8559 0,9715Luas AUC 0,568 0,872 0,967 0,999

Performa Ensemble untuk mencapaiakurasi konvergen

Metode Klasifikasi St. Dev 1-APERBagging CART 0,014Boosting CART 0,069Random Forest 0,039

20151050

1.00

0.95

0.90

0.85

0.80

0.75

0.70

Jumlah Pohon

1-A

PER

BaggingBoostingRF

Ensemble

Kesimpulan

CART• Var x14, x3, x2, dan x10 paling menentukan klasifikasi

AkurasiEnsemble

• Akurasi Lebih baik dibanding pohon klasifikasi tunggalCART

Performa Ensemble

• Akurasi Random Forest paling baik• Bagging CART paling cepat mencapai akurasi yang

konvergen