Atika Nurani Ambarwati-Template makalah seminar uny.docx

16
Prosiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA, Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012 PENDEKATAN CART DAN REGRESI LOGISTIK PADA POLA TINGKAT KEPARAHAN KORBAN KECELAKAAN LALU LINTAS DI SURABAYA Atika Nurani Ambarwati 1) , Heri Kuswanto 2) , Ismaini Zain 3) 1) Mahasiswa Pascasarjana, Jurusan Statistik, ITS Surabaya ([email protected]) 2) Pengajar, jurusan Statistik, ITS Surabaya ([email protected]) 3) Pengajar, jurusan Statistik, ITS Surabaya ([email protected] .ac.id) Abstrak Kecelakaan lalu lintas merupakan kejadian dimana sebuah kendaraan bermotor bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini mungkin dapat mengakibatkan luka-luka atau kematian manusia atau binatang. Berdasarkan informasi data penyebab kematian di Indonesia, kecelakaan lalu lintas termasuk dalam penyebab kematian ketiga terbesar setelah HIV/AIDS dan TBC. Oleh karena itu masalah ini perlu mendapat perhatian untuk mengantisipasi jatuhnya korban meninggal dunia pada kecelakaan lalu lintas. Dalam berbagai penelitian yang ada, ditemukan banyak faktor yang berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Oleh karena itu dalam penelitian ini dilakukan klasifikasi tingkat keparahan korban kecelakaan lalu lintas dengan pendekatan CART (Classification and Regression Trees) dan regresi logistik untuk melihat karakteristik dan faktor yang paling berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Pada penelitian ini tingkat keparahan korban kecelakaan lalu lintas dibagi menjadi tiga kategori yaitu meninggal dunia, luka berat dan luka ringan. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut akan dibandingkan untuk mendapatkan model terbaik. Selanjutnya, setelah dilakukan klasifikasi didapatkan hasil bahwa variabel prediktor yang paling berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas pada pendekatan regresi logistik ordinal adalah jenis kecelakaan dengan ketepatan klasifikasi untuk data learning dan testing masing- masing 42,79 persen dan 38,77 persen. Sedangkan untuk M-1

Transcript of Atika Nurani Ambarwati-Template makalah seminar uny.docx

Atika Nurani Ambarwati / CART, regresi logistikProsiding Seminar Nasional Penelitian, Pendidikan dan Penerapan MIPA, Fakultas MIPA, Universitas Negeri Yogyakarta, 2 Juni 2012

PENDEKATAN CART DAN REGRESI LOGISTIKPADA POLA TINGKAT KEPARAHAN KORBAN KECELAKAAN LALU LINTAS DI SURABAYA

Atika Nurani Ambarwati1), Heri Kuswanto2), Ismaini Zain3)1)Mahasiswa Pascasarjana, Jurusan Statistik, ITS Surabaya([email protected])2)Pengajar, jurusan Statistik, ITS Surabaya([email protected])3)Pengajar, jurusan Statistik, ITS Surabaya([email protected] .ac.id)

AbstrakKecelakaan lalu lintas merupakan kejadian dimana sebuah kendaraan bermotor bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini mungkin dapat mengakibatkan luka-luka atau kematian manusia atau binatang. Berdasarkan informasi data penyebab kematian di Indonesia, kecelakaan lalu lintas termasuk dalam penyebab kematian ketiga terbesar setelah HIV/AIDS dan TBC. Oleh karena itu masalah ini perlu mendapat perhatian untuk mengantisipasi jatuhnya korban meninggal dunia pada kecelakaan lalu lintas. Dalam berbagai penelitian yang ada, ditemukan banyak faktor yang berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Oleh karena itu dalam penelitian ini dilakukan klasifikasi tingkat keparahan korban kecelakaan lalu lintas dengan pendekatan CART (Classification and Regression Trees) dan regresi logistik untuk melihat karakteristik dan faktor yang paling berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas. Pada penelitian ini tingkat keparahan korban kecelakaan lalu lintas dibagi menjadi tiga kategori yaitu meninggal dunia, luka berat dan luka ringan. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut akan dibandingkan untuk mendapatkan model terbaik. Selanjutnya, setelah dilakukan klasifikasi didapatkan hasil bahwa variabel prediktor yang paling berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas pada pendekatan regresi logistik ordinal adalah jenis kecelakaan dengan ketepatan klasifikasi untuk data learning dan testing masing-masing 42,79 persen dan 38,77 persen. Sedangkan untuk pendekatan CART adalah jenis kecelakaan, usia, peran korban dalam kecelakaan, dan jenis kendaran dengan ketepatan klasifikasi untuk data learning dan testing masing-masing 52,80 persen dan 48 persen.

Kata kunci: CART, kecelakaan lalu lintas, regresi logistik.

1. PENDAHULUAN Kecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini mungkin dapat mengakibatkan luka-luka atau kematian manusia atau binatang. Kecelakaan lalu lintas di Indonesia masih cukup tinggi. Saat ini di Indonesia, kecelakaan lalu lintas adalah penyebab kematian ketiga terbesar setelah HIV/AIDS dan TBC. (Departeman Perhubungan RI, 2010). Kota Surabaya sebagai salah satu kota besar di Indonesia, memiliki tingkat kecelakaan lalu lintas yang cukup tinggi. Kota Surabaya terbagi menjadi dua kawasan hukum, yaitu kawasan hukum jajaran Polrestabes Surabaya dan Polres Pelabuhan Tanjung Perak. Selama tahun 2010 di kawasan hukum jajaran Polrestabes Surabaya terjadi kecelakaan lalu lintas sebanyak 411 kasus yang menyebabkan jatuhnya korban sebanyak 507 orang.Karena tingginya tingkat kecelakaan lalu lintas, maka perlu dilakukan penelitian tentang pola tingkat keparahan korban kecelakaan lalu lintas di Surabaya. Penelitian tentang kecelakaan lalu lintas untuk mengetahui faktor-faktor yang mempengaruhi tingkat keparahan korban kecelakaan lalu lintas Kota Surabaya pernah dilakukan oleh Afidah (2011) metode yang digunakan dalam penelitian tersebut yaitu metode regresi logistik. Namun dalam penelitian tersebut menghasilkan ketepatan klasifikasi yang kecil, sehingga perlu untuk memodelkan dengan metode lain yang diharapkan dapat menghasilkan ketepatan klasifikasi yang lebih besar.Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel respon yang memiliki skala nominal atau ordinal dengan variabel prediktor. Regresi logistik tidak memerlukan asumsi normalitas, meskipun screening data outliers tetap dapat dilakukan. Regresi logistik yang memiliki variabel respon dengan tiga atau lebih kategori yang memiliki tingkatan dinamakan regresi logistik ordinal. CART adalah suatu metode nonparametrik dimana setelah didapatkan model klasifikasinya, maka struktur data dapat dilihat secara visual, sehingga memudahkan dalam eksplorasi dan pengambilan keputusan, selain itu CART dapat mengekplorasi struktur data yang komplek dengan banyak variabel. Penelitian tentang regresi logistik telah banyak dilakukan antara lain Analisis regresi ordinal oleh Salam (2010) membahas tentang pengujian kesamaan vektor parameter pada beberapa model regresi logistik ordinal (faktor-faktor yang mempengaruhi indeks pembangunan manusia di Provinsi Jawa Timur, Nusa Tenggara Timur, dan Papua) dengan kesimpulan ketiga provinsi mempunyai perbedaan antara satu dan yang lainnya dalam hal pengaruh indikator pendidikan terhadap IPM. Sementara itu CART lebih banyak digunakan karena kemudahan interpretasi dan kemampuan penanganan data missing. Aplikasi yang menggunakan CART adalah oleh Prasetyo (2009) membahas tentang klasifikasi deteksi intrusi menggunakan pendekatan CART dan MARS. Penelitian tersebut menunjukkan bahwa tingkat akurasi CART dalam mengidentifikasi ketepatan klasifikasi lebih tinggi dibandingkan dengan MARS.Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000) meneliti tentang penggabungan antara regresi logistik, CART dan MARS dapat menghasilkan model yang lebih informatif dan prediktif. Dalam penelitian tersebut juga dijelaskan penggunaan gabungan CART, MARS dengan regresi logistik tidak hanya untuk pemodelan tetapi sebagai alat eksplorasi untuk analisa yang lebih rinci dengan menggunakan metode konvensional seperti regresi logistik. Dalam penelitian ini akan diaplikasikan dua pendekatan yang berbeda yaitu CART dan regresi logistik untuk mengetahui tingkat keparahan korban kecelakaan lalu lintas yang dibagi menjadi tiga kategori yaitu meninggal dunia, luka berat dan luka ringan.. Hasil klasifikasi yang diperoleh dari dua pendekatan tersebut akan dibandingkan untuk mendapatkan model terbaik.

2. Regresi Logistik Ordinal

Model yang dapat digunakan untuk regresi logistik ordinal adalah model logit kumulatif (cumulative logit models). Misalkan variabel respon Y berskala ordinal memiliki G buah kategori dan menyatakan vektor variabel prediktor pada pengamatan ke-i, dengan , maka model logit kumulatif dinyatakan :

(1)

dengan adalah peluang kumulatif kategori ke-g terhadap , adalah parameter intersep dan memenuhi dan adalah vektor koefisien regresi yang bersesuaian dengan . Logit kumulatif didefinisikan sebagai (Agresti, 2002) :

(2)berdasarkan persamaan (1) dan (2) maka model regresi logistik ordinal dapat dinyatakan

(3)Penaksiran parameter model regresi logistik ordinal dilakukan dengan menggunakan metode Maximum Likelihood Estimation (MLE), kemudian diselesaikan dengan metode iterasi numerik yaitu Newton-Raphson. Pengujian parameter model regresi logistik ordinal dapat dilakukan secara serentak maupun parsial. Hipotesis dalam uji serentak adalah :

minimal ada satu , k =1,2,,p

Statistik uji yang digunakan:

dengan merupakan nilai maksimum likelihood di bawah populasi dan merupakan nilai maksimum likelihood di bawah . Kriteria penolakan yaitu tolak apabila nilai lebih besar dari atau p-value kurang dari . Sedangkan hipotesis dalam uji parsial adalah :

, k =1,2,,p

Statistik uji yang digunakan:

Kriteria penolakan yaitu tolak apabila nilai lebih besar dari atau p-value kurang dari .

3. CART (Classification and Regression Trees)CART adalah salah satu metode nonparametrik dari salah satu teknik eksplorasi data yaitu suatu teknik pohon keputusan (decisions tree). Jika variabel responnya berupa variabel kontinu maka disebut regresi pohon (regression trees), jika variabel responnya kategorik maka metode CART menghasilkan classification trees (pohon klasifikasi) (Breiman, Friedman, Olshen dan Stone, 1984). Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memprediksi nilai variabel respon berjenis kategorik yang dipengaruhi variabel-variabel bebas berjenis kategorik, kontinyu ataupun kombinasi keduanya.

Gambar 3.1 Struktur Pohon KlasifikasiProses pembentukan CARTa. Proses pembentukan klasifikasi pohon meliputi 3 tahapan yaitu (Breiman et al., 1993): 1. Pemilihan pemilaha. Fungsi keheterogenan simpul untuk mengurangi keheterogenan pada simpul utama dan memaksimumkan kehomogenan pada simpul anak. b. Pemilahan simpul c. Kriteria Goodness of Split 2. Penentuan simpul terminal 3. Penandaan label kelasproses pembentukan pohon dilakukan sampai tidak memungkinkan lagi untuk dilanjutkan (Lewis, 2000). b. Pemangkasan Klasifikasi Pohon Untuk mendapatkan pohon yang layak maka perlu dilakukan pemangkasan (pruning) yaitu suatu penilaian ukuran pohon tanpa pengorbanan ketepatan atau kebaikannya melalui pengurangan simpul pohon sehingga dicapai ukuran pohon yang layak dan berdasarkan pada ukuran cost complexity pruning.c. Pohon Klasifikasi OptimalPohon klasifikasi optimal yang dipilih adalah pohon optimal yang berukuran tepat dan mempunyai nilai penduga pengganti yang cukup kecil. Ukuran pohon klasifikasi yang sangat besar akan memberikan nilai penduga pengganti yang sangat kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respon. Yang perlu diperhatikan adalah ukuran pohon yang besar akan mempunyai nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks. Data sampel akan digunakan untuk mendapatkan nilai pengganti yang paling kecil dari pohon klasifikasi yang dipilih.Ada 2 jenis penduga pengganti yaitu (Breiman et. al., 1993) :1. Penduga sampel uji (test sample estimate).2. Penduga validasi silang lipat V (cross validation V-fold estimate).

4. Kecelakaan lalu lintasKecelakaan lalu lintas adalah kejadian dimana sebuah kendaraan bermotor bertabrakan dengan benda lain sehingga menyebabkan kerusakan. Kecelakaan ini dapat mengakibatkan luka-luka atau kematian manusia atau binatang. (www.republika.co.id)Pada suatu kecelakaan lalu lintas yang terjadi, ada beberapa kriteria keparahan korban kecelakaan menurut PP No 43 Thn 1993 Pasal 93, antara lain:1. Korban MeninggalKorban meninggal adalah korban yang dipastikan meninggal dunia akibat kecelakaan lalu lintas dalam jangka waktu paling lama 30 hari setelah kecelakaan tersebut.2. Korban Luka BeratKorban luka berat adalah korban yang karena luka-lukanya menderita cacat tetap atau harus dirawat dalam jangka waktu lebih dari 30 hari sejak terjadi kecelakaan.3. Korban Luka RinganKorban luka ringan adalah korban yang tidak termasuk dalam kategori korban meninggal dunia dan korban luka berat.

5. Metode PenelitianPenelitian ini menggunakan data yang diambil dari penelitian sebelumnya oleh Afidah (2011). Data ini terdiri dari 507 data korban kecelakaan lalu lintas selama tahun 2010 di kawasan hukum jajaran Polrestabes Surabaya.Variabel respon (Y) dalam penelitian ini adalah tingkat keparahan korban kecelakaan lalu lintas yang terdiri dari tiga kategori, yaitu korban meninggal dunia, korban luka berat dan korban luka ringan. Sedangkan variabel prediktor (Xj) yang digunakan yaitu jenis kecelakaan (X1) yang terdiri dari empat kategori, yaitu tabrakan belakang (TB), tabrakan depan (TD), tabrakan samping (TS), dan lain-lain, jenis kelamin (X2) yang terdiri dari dua kategori, yaitu laki-laki dan perempuan, Usia (X3) yang terdiri dari tiga kategori, yaitu anak-anak dan remaja (0-21 tahun), dewasa (22-55 tahun) dan lanjut usia (lebih dari 55 tahun), peran korban dalam kecelakaan (X4) yang terdiri dari tiga kategori, yaitu pengendara, penumpang kendaraan selain pengendara dan penggunna jalan non penumpang kendaraan (penyeberang jalan, pejalan kaki, dll), jenis kendaraan (X5) yang terdiri dari tiga kategori, yaitu sepeda motor (kendaraan bermotor roda dua atau tiga), kendaraan roda empat atau lebih dan lain-lain (sepeda angin, becak atau kendaraan bukan bermotor lainnya), Waktu kecelakaan (X6) yang terdiri dari dua kategori, yaitu padat kendaraan (pukul 06.00 WIB-08.00 WIB, 12.00 WIB-13.30 WIB, 16.00 WIB-18.00 WIB) dan sepi (selain waktu padat), tanggal perayaan khusus (X7) yang terdiri dari dua kategori, yaitu libur hari raya idul fitri, natal, dan tahun baru dan lainnya.Untuk mengetahui faktor-faktor yang berpengaruh terhadap tingkat keparahan korban kecelakaan lalu lintas dilakukan analisis dengan langkah-langkah sebagai berikut :1. Memodelkan dengan menggunakan regresi logistik ordinal 2. Memodelkan dengan menggunakan CART dengan langkah-langkah :a. Penentuan pemilah dan pemilahan secara rekrusif pada simpul.Penentuan pemilah dilakukan dengan menentukan satu gugus pertanyaan dikotomus, dimana jawaban dari pertanyaan tersebut menentukan sekatan atau pemilah, bagi ruang variabel prediktor. Selanjutnya pemilahan dievaluasi dengan menggunakan kriteria goodness-of-split Pemilah terbaik adalah pemilah yang memberikan penurunan keheterogenan tertinggi. b. Penentuan simpul terminal (terminal node).Penentuan simpul terminal dilakukan jika suatu simpul t dicapai sehingga tidak terdapat penurunan keheterogenan secara berarti.c. Penandaan label kelas (class label).Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu jika maka label kelas untuk simpul terminal t adalah yang memberikan nilai dugaan kesalahan pengklasifikasian pada simpul t paling kecil sebesar d. Penghentian pembentukan pohon klasifikasi.Penghentian pembentukan pohon klasifikasi dilakukan dengan menentukan minimum n pada simpul anak, kedalaman (depth) dalam pohon maksimal (maximal tree) atau dengan menentukan ambang batas (threshold) .e. Pemangkasan pohon klasifikasi (pruning).Pemangkasan pohon klasifikasi dilakukan dengan menggunakan kriteria ukuran cost complexity minimum.f. Pemilihan pohon klasifikasi optimal melalui test sample estimates.g. Memilih model pohon terbaik dengan nilai kesalahan relatif tes set (test set relative cost) yang minimum.

6. PEMBAHASANSebelum dilakukan analisis regresi logistik ordinal, maka perlu dilakukan pemilihan variabel prediktor yang berpengaruh nyata secara individu terhadap variabel respon, yaitu dengan cara meregresikan tiap-tiap variabel prediktor terhadap variabel responnya sehingga dapat diketahui variabel prediktor mana saja yang secara univariabel berpengaruh nyata terhadap variabel respon. Untuk menentukan variabel prediktor yang berpengaruh, digunakan statistik uji Wald. Hipotesis yang digunakan adalah sebagai berikut:

: , dengan Statistik uji yang digunakan adalah statistik Kesimpulan ditolak jika atau pvalue Apabila digunakan tingkat signifikansi sebesar 10%, maka variabel jenis kecelakaan , usia , peran korban dalam kecelakaan dan jenis kendaran memiliki nilai lebih besar dari atau p-value yang kurang .Setelah didapatkan variabel-variabel yang signifikan berpengaruh secara parsial, maka akan dimodelkan secara serentak untuk mendapatkan model yang lebih sederhana dan tepat berpengaruh secara serentak terhadap tingkat keparahan korban kecelakaan lalu lintas. Hipotesisnya adalah:

: paling sedikit ada satu , .Statistik uji Kesimpulan : ditolak jika atau p-value .Dapat dilihat bahwa nilai statistik yang dihasilkan adalah sebesar 257,901 dan apabila dibandingkan dengan nilai maka nilai statistik lebih besar dari pada sehingga keputusan tolak yang berarti minimal ada satu variabel prediktor yang berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu lintas di Surabaya.

Tabel 6.1 Nilai statistik uji model regresi logistik ordinal multivariabelStatistik dfP-value

257,90190,000

Tabel 6.2 Pengujian serentak variabel prediktorKategori variabel prediktorBExp(B)waldp-valuekeputusan

Konstanta (1)1,3043,68410,0010,002*

Konstanta (2)2,96519,39546,8680,000*

Jenis Kecelakaan

TB 1,3653,91617,7350,000*Tolak

TD0,9712,6419,3730,002*Tolak

TS1,1613,19313,2330,000*Tolak

Variabel-variabel prediktor yang digunakan dalam pengujian analisis regresi ordinal secara parsial yaitu jenis kecelakaan , usia , peran korban dalam kecelakaan dan jenis kendaran . Dari pengujian serentak digunakan tingkat signifikansi sebesar 10%, variabel yang berpengaruh signifikan terhadap tingkat keparahan korban kecelakaan lalu lintas yaitu jenis kecelakaan karena memiliki nilai lebih besar dari atau p-value yang kurang .Fungsi logit yang terbentuk digunakan untuk membentu fungsi model peluang yang menggambarkan pola hubungan antar variabel respon dengan variabel prediktor. Fungsi logit tersebut adalah:

Fungsi model peluang untuk kategori korban meninggal dunia dilambangkan , korban luka berat dan korban luka ringan , sehingga mendapatkan nilai peluang sebagai berikut:

Pada variabel jenis kecelakaan menunjukkan bahwa risiko korban kecelakaan kategori tabrak belakang 3,916 kali lebih banyak daripada korban kecelakaan kategori lainnya. Risiko korban kecelakaan kategori tabrak depan 2,641 kali lebih banyak daripada korban kecelakaan kategori lainnya, dan risiko korban kecelakaan kategori tabrak samping 3,193 kali lebih banyak daripada korban kecelakaan kategori lainnya.Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan observasi.Tabel 6.3 Hasil Klasifikasi dengan Model Regresi Logistik Data Learningobservasiprediksi

Meninggal DuniaLuka BeratLuka RinganKetepatan klasifikasi

Meninggal Dunia6878536,9%

Luka Berat45911436,7%

Luka Ringan23691626,4%

Total keseluruhan42,79%

Tabel 6.4 Hasil Klasifikasi dengan Model Regresi Logistik Data Testingobservasiprediksi

Meninggal DuniaLuka BeratLuka RinganKetepatan klasifikasi

Meninggal Dunia04200%

Luka Berat0380100%

Luka Ringan01800%

Total keseluruhan38,77%

Selanjutnya dilakukan pemodelan menggunakan model CART. Model yang dihasilkan dalam CART bukan merupakan model matematis akan tetapi berupa model pohon/topologi.

Tabel 6.5 Nilai Simpul Terminal, Test Set Relative Cost, Resubstitution Relative Cost dan Complexity menurut nomor pohonTreeNumberTerminalNodesTest SetRelative CostResubstitutionRelative CostComplexity

1*520.936 0.0790.624-1.000

2470.901 0.0800.6243.57E-005

3450.845 0.0800.6250.000257

4430.845 0.0800.6280.001

5420.845 0.0800.6300.001

6410.858 0.0800.6320.001

7370.806 0.0800.6420.002

8360.792 0.0800.6450.002

9350.792 0.0800.6480.002

10330.792 0.0800.6550.002

11260.792 0.0800.6780.002

12**240.753 0.0800.6850.002

13220.779 0.0800.6930.002

14210.794 0.0800.6970.003

15190.781 0.0800.7060.003

16170.766 0.0800.7150.003

17160.766 0.0800.7220.004

18140.765 0.0790.7360.005

1990.753 0.0790.7720.005

2080.757 0.0790.7790.005

2150.798 0.0750.8050.006

2240.788 0.0760.8210.011

2330.806 0.0720.8440.015

2411.000 0.0001.0000.052

* Maksimum ** Optimal

Pohon klasifikasi maksimal yang dihasilkan terdiri dari 52 simpul terminal. Pohon maksimal yang terbentuk mengandung test set relative cost sebesar 0,936 0,079 dengan resubstitution relative cost sebesar 0,624 dan kompleksitas paramete -1,000. Pohon klasifikasi maksimal menggambarkan struktur data yang sangat kompleks, sehinga perlu dilakukan pemangkasan pohon agar diperoleh nilai kompleksitas yang relatif kecil (Breiman, dkk 1993).Pohon optimal merupakan pohon yang memiliki test set relative cost terkecil. Pohon optimal yang terbentuk terdiri dari jumlah simpul terminal sebanyak 24 buah terlihat pada nomor pohon 12. Classification tree topology for: KEPARAHAN

Gambar 6.1 Pohon Klasifikasi Optimal dengan 24 Simpul Terminal

Node 2Class = 0MOMEN = (1)Class cases %0 35 60,31 14 24,12 9 15,5N = 58TerminalNode 4Class = 2Class cases %0 32 30.81 31 29.82 41 39.4N = 104TerminalNode 1Class = 0Class cases %0 33 63,51 13 25,02 6 11,5N = 52TerminalNode 2Class = 2Class cases %0 2 33,31 1 16,72 3 50,0N = 6Gambar 6.2 Ilustrasi Proses Pemilahan pada Pohon Klasifikasi Optimal dengan 24 Simpul TerminalPada pohon optimal yang menjadi simpul utama adalah kelompok jenis tabrakan (simpul 1), dimana ada 409 korban kecelakaan yang dipilah menjadi 2 simpul anak yaitu simpul kiri sebanyak 58 korban dan 351 korban menjadi simpul kanan. Kelompok jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang, tabrakan depan, dan tabrakan samping) dikelompokkan pada simpul kiri (simpul 2). Simpul 2 dipilah lagi dengan variabel pemilah adalah variabel momen. Simpul kiri (simpul terminal 1) sebanyak 52 korban dengan karakteristik selain libur hari raya idul fitri, natal, dan tahun baru. Simpul kanan (simpul terminal 2) sebanyak 6 korban dengan karakteristik selain libur hari raya idul fitri, natal, dan tahun baru. Setiap simpul terminal tidak dipilah lagi karena sudah bersifat homogen.Adapun interpretasi hasil untuk masing-masing simpul terminal adalah sebagai berikut:1. Simpul terminal 1, korban kecelakaan dengan jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang, tabrakan depan, dan tabrakan samping), momen lainnya (bukan libur hari raya idul fitri, natal, dan tahun baru), mempunyai dugaan sebesar 52 korban kecelakaan. Dimana sebanyak 33 korban meninggal dengan presentase 63,5 persen, 13 korban mengalami luka berat dan 6 korban mengalami luka ringan, masing-masing dengan presentase sebesar 25,0 persen dan 11,5 persen.2. Simpul terminal 2, korban kecelakaan dengan jenis tabrakan lain-lain (kecelakaan yang bukan termasuk dalam tabrakan belakang, tabrakan depan, dan tabrakan samping), momen libur hari raya idul fitri, natal, dan tahun baru,mempunyai dugaan sebesar 6 korban kecelakaan. Dimana sebanyak 2 korban meninggal dengan presentase 33,3 persen, 1 korban mengalami luka berat dan 3 korban mengalami luka ringan, masing-masing dengan presentase sebesar 16,7 persen dan 50,0 persen.3. Simpul terminal 4, korban kecelakaan dengan jenis tabrakan tabrak depan dan tabrak samping, usia lebih dari 55 tahun (lanjut usia), peran korban dalam kecelakaan pengendara dan penumpang, pada jam sepi,mempunyai dugaan sebesar 7 korban kecelakaan. Dimana sebanyak 1 korban meninggal dengan presentase 14,3 persen, masing-masing 3 korban mengalami luka berat dan luka ringan, dengan presentase sebesar 42,9 persen.Pada pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model, yaitu jenis kecelakaan , jenis kelamin , usia , peran korban dalam kecelakaan , jenis kendaran , waktu kecelakaan , dan tanggal perayaan khusus . Lebih jelasnya dapat dilihat pada Tabel 6.6.

Tabel 6.6 Variabel yang Masuk dalam Pohon KlasifikasiVariableScore

JENIS_TA100.00||||||||||||||||||||||||||||||||||||||||||

USIA79.47|||||||||||||||||||||||||||||||||

PERAN_KO53.02||||||||||||||||||||||

JENIS_KE51.19|||||||||||||||||||||

MOMENT49.48||||||||||||||||||||

JAM40.34||||||||||||||||

JK32.10|||||||||||||

Variabel prediktor yang menjadi pemilah pertama (utama) pada simpul induk adalah variabel jenis tabrakan , hal ini disebabkan variabel merupakan variabel paling dominan dalam pembentukan model klasifikasi dengan skor 100.Berdasarkan perhitungan peluang di atas, maka dapat diperoleh hasil prediksi sehingga kebenaran model logit ini dapat dilihat berdasarkan hasil pengklasifikasian antara prediksi dan observasi.

Tabel 6.7 Hasil Klasifikasi Pohon Optimal untuk Data LearningKelas aktualPrediksi kelasKetepatan klasifikasi (%)

MeninggalLuka BeratLuka Ringan

Meninggal59474539,07

Luka Berat17835055,33

Luka Ringan9257468,52

Ketepatan klasifikasi total (%) 52,80

Pada Tabel 6.6 besarnya ketepatan klasifikasi total 52,8 persen, artinya pohon klasifikasi yang terbentuk mampu memprediksi pengamatan dengan tepat sebesar 52,80 persen.

Tabel 6.8 Hasil Klasifikasi Pohon Optimal untuk Data TestingKelas aktualPrediksi kelasKetepatan klasifikasi (%)

MeninggalLuka BeratLuka Ringan

Meninggal14121633,33

Luka Berat5231060,53

Luka Ringan081055,56

Ketepatan klasifikasi total (%) 48,00

Pada Tabel 6.7 besarnya ketepatan klasifikasi total 48 persen, artinya pohon klasifikasi yang terbentuk mampu memprediksi pengamatan dengan tepat sebesar 48 persen.

7. KESIMPULANBerdasarkan analisis dan pembahasan yang telah dilakukan pada bab sebelumnya, maka dapat ditarik kesimpulan sebagai berikut:1. Variabel yang berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di Surabaya berdasarkan penelitian ini adalah variabel jenis kecelakaan , usia , peran korban dalam kecelakaan dan jenis kendaran . Tetapi pada pengujian serentak hanya variabel jenis kecelakaan . Model regresi logistik yang didapatkan adalah sebagai berikut:

2. Analisis menggunakan metode CART menunjukkan bahwa variabel prediktor yang berpengaruh terhadap tingkat keprahan korban kecelakaan lalu lintas di Surabaya pada kondisi pohon optimal yang terbentuk ternyata semua variabel prediktor masuk dalam model, yaitu jenis kecelakaan , jenis kelamin , usia , peran korban dalam kecelakaan , jenis kendaran , waktu/jam kecelakaan , dan momen/tanggal perayaan khusus . Variabel jenis tabrakan merupakan variabel yang paling dominan berpengaruh dibandingkan dengan variabel lainnya.3. Dilihat dari besarnya ketepatan klasifikasi dalam model maka metode CART lebih baik dibandingkan model regresi logistik karena memiliki nilai ketepatan klasifikasi yaitu 52,80 persen.SaranModel yang dihasilkan dalam penelitian ini menghasilkan ketepatan klasifiasi yang kecil, sehingga dalam penelitian selanjutnya disarankan untuk memodelkan dengan metode lain dan hendaknya menggunakan variabel prediktor yang lebih lengkap.

8. DAFTAR PUSTAAfidah, L. N., (2011), Pola Tingkat Keparahan Korban Kecelakaan Lalu Lintas Dengan Menggunakan Regresi Logistik Multinomial (Studi kasus : Kecelakaan Lalu Lintas di Surabaya, Tugas Akhir, (Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember, Surabaya.Agresti, A., (2002), Categorical Data Analysis, John Willey and Sons, New York.Anonim, (2011) Kecelakaan Lalu Lintas,id.wikipedia.org/wiki/Kecelakaan_ lalu-lintas, Diakses 1 Juni 2011.Anonim, (2011), Kecelakaan Lalu Lintas Tempati Urutan Tiga Penyebab Kematian Pusat KomunikasiPublik,http://www.dephub.go.id/read/ berita/direktorat-jenderal...darat/5131, Diakses 30 Oktober 2011.Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J., (1993), Cassification and Regression Tree, Chapman And Hall, New York..Dillon, W.R, (1978), On the performance of soma multnomial classification rules, Journal of American statical Association, vol 73, hal 305-313.Farida, A. (2008), Analisis Regresi Logistk Ordinal (Studi Kasus: Akreditasi SMK di Jawa Timur), Tesis (Tidak Dipubilkasikan),, Institut Teknologi Sepuluh Nopember, Surabaya.Frank, I.E., (1995), Modern nonlinear regression methods, Chem.Int.Lab.Systems Vol 27, hal 1-9.Kuhnert,P.M., Do,Kim-Anh dan McClure,Rod, (2000), Combining non-parametric models with logistic regression: an application to motor vehicle injury data, computational statistics & data analysis, Vol 34, hal 371-386.Maradona, S., (2010), Sebanyak 28 Nyawa Melayang Tiap Hari Akibat Kecelakaan Lalu Lintas, http://www.republika.co.id/berita/breaking-news/nasional/10/12/30/155169-sebanyak-28-nyawa-melayang-tiap-hari-akibat-kecelakaan-lalu-lintas, diakses 30 Oktober 2011.Prasetyo, G. C., (2009), Klasifikasi Deteksi Intrusi Menggunakan Pendekatan Classi-fication And Regression Trees (CART) Dan Multivariate Adaptive Regression Spline (MARS), Tesis, (Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember, Surabaya.Salam, R., (2010), Pengujian Kesamaan Vektor Parameter pada Beberapa Model Regresi Logistik Ordinal (Faktor-faktor Yang Mempengaruhi Indeks Pembangunan Manusia di Provinsi Jawa Timur, Nusa Tenggara Timur, dan Papua Tahun 2006), Tesis, (Tidak Dipubilkasikan), Institut Teknologi Sepuluh Nopember, Surabaya.Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan.M-10M-9