DATA MINING : PREDIKSI
-
Upload
katell-williamson -
Category
Documents
-
view
233 -
download
3
description
Transcript of DATA MINING : PREDIKSI
DATA MINING : PREDIKSI
1. Overview2. Regresi Linear• Regresi Linear Sederhana• Regresi Linear berganda
3. Analisis Garis Regresi menggunakan Koesifien Determinasi
4. Conclusion
Overview
• Sbg gambaran, diberikan data mengenai lamanya wkt yg dihabiskan oleh seorang pegawai resto cepat saji utk mengantarkan pesanan ke rumah pelanggan.
• Wkt sejak pegawai meninggalkan resto hingga mencapai pintu rmh pelanggan di tampilkan sbb:
OverviewNo
pesanan Jarak (km) Waktu (Menit)
1 0,50 9,952 1,10 24,453 1,20 31,754 5,50 35,005 2,95 25,026 2,00 16,867 3,75 14,388 0,52 9,609 1,00 24,35
10 3,00 27,5011 4,12 17,0812 4,00 37,0013 5,00 41,95
No Pesanan Jarak (km) Waktu
(Menit)14 3,60 11,6615 2,05 21,6516 4,00 17,8917 6,00 69,0018 5,85 10,3019 5,40 34,9320 2,50 46,5921 2,90 44,8822 5,10 54,1223 5,90 56,2324 1,00 22,1325 4,00 21,1526 1,5 ?
Overview
• Berapa waktu yg ditempuh utk pesanan ke-26?
• Dlm prediksi menggunakan data yg sdh ada utk memprediksi hasil dari satu hal yg baru yg akan muncul selanjutnya.
• Prediksi dapat memperkirakan hasil dari hal yg belum terjadi.
• Cara prediksi Regresi Linear
Regresi Linear
• Regresi Linear (RL) yg dibahas:– RL Sederhana melibatkan 1 variabel pemberi pengaruh– RL Berganda melibatkan >1 variabel pemberi pengaruh
• Variabel besaran yg berubah2 nilainya• Contoh variabel: nomor rmh pelanggan, luas rmh
pelanggan, jam pemesanan, suhu udara saat pemesanan, jumlah anggota keluarga pemesan, dll
• Belum tentu semua variabel relevan dgn kasus yg dihadapi• Variabel dipilah 2
– Variabel pemberi pengaruh dianalogikan sbg “sebab”– Variabel terpengaruh dianalogikan sbg “akibat”
Regresi Linear
No pesanan
Jarak (km) Waktu (Menit)
1 0,50 9,95... ... ...25 4,00 21,15
Variabel pemberi
pengaruh (Sebab)
Variabel terpengaruh
(akibat)
RL Sederhana
• RL Sederhana salah satu cara prediksi menggunakan garis lurus utk menggambarkan hubungan di antara 2 atw lebih variabel
• Sbg contoh:• Berdasarkan tabel, kita coba menggambarkan
jarak sbg sumbu x (dlm km) dan Waktu sbg sumbu y (dlm menit)
• Setiap pasang jarak dan waktu di gambarkan sebagai titik.
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.000.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
A
B
C
• Tujuan: Membuat garis lurus sedekat mungkin dgn titik2 tsb B lebih baik
• Scr umum, grs tsb dpt kita tulis dlm bentuk persamaan:Y = β0 + β1x
β0 = y - β1x__
β1 =
n∑ yixi i=1
n∑ yi i=1
n∑ xi i=1
n∑ xi i=1n
∑ xi2 i=1
n
n
2
Perincian perhitungan RL-SNo
iJara k
XWaktu
Y YiXi Xi2
1 0,50 9,95 4,98 0,252 1,10 24,45 26,90 1,213 1,20 31,75 38,10 1,444 5,50 35,00 192,50 30,255 2,95 25,02 73,81 8,706 2,00 16,86 33,72 4,007 3,75 14,38 53,93 14,068 0,52 9,60 4,99 0,279 1,00 24,35 24,35 1,0010 3,00 27,50 82,50 9,0011 4,12 17,08 70,37 16,9712 4,00 37,00 148,00 16,0013 5,00 41,95 209,75 25,0014 3,60 11,66 41,98 12,96
No i
Jara k X
Waktu Y YiXi Xi2
15 2,05 21,65 44,38 4,2016 4,00 17,89 71,56 16,0017 6,00 69,00 414,00 36,0018 5,85 10,30 60,26 34,2219 5,40 34,93 188,62 29,1620 2,50 46,59 116,48 6,2521 2,90 44,88 130,15 8,4122 5,10 54,12 276,01 26,0123 5,90 56,23 331,76 34,8124 1,00 22,13 22,13 1,0025 4,00 21,15 84,60 16,00Jmlh 82,94 725,42 2745,81 353,18Rata-2 3,32 29,02
β1 =
n∑ yixi i=1
n∑ yi i=1
n∑ xi i=1
n∑ xi i=1n
∑ xi2 i=1
n
n
2
No i
Jara k X
Waktu Y YiXi Xi2
... ... ... ... ...
23 5,90 56,23 331,76 34,81
24 1,00 22,13 22,13 1,00
25 4,00 21,15 84,60 16,00
Jmlh 82,94 725,42 2745,81 353,18
Rata-2 3,32 29,02
= =
2745,81(725,42)(82,94)
25
353,18(82,94)
25
24,35
β0 = y - β1 x_ _
= 29,02 – (4,35)(3,32)
= 14,58
• Persamaan grs regresi yg kita cari berbentuk:Y = β0 + β1x
• Berdasarkan perhitungan tsd, maka diperoleh:Y = 14,58 + 4,35 x
Pengetahuan apa yg didapat?• Bhw wkt tempuh pengiriman 14,58 menit
ditambah 4,35 kali jarak rumah pelanggan.• Artinya bila jaraknya 1 km maka, wkt tempuhnya
jadi 18,93 menit• Maka, utk pelanggan ke-26 dgn jarak 1,5 km
Y = 14,58 + 4,35 (1,5)Y = 21,1 menit
Regresi Linear Berganda
• Menyusun persamaan linear dgn byk variabel X (pemberi pengaruh)
• Bila kita memiliki k buah variabel pemberi pengaruh, maka bentuk persamaan garis regresinya:
Y = β0 + β1x1 + β2x2 + ... + βkxk• Sehingga kita dpt menyelesaikan persamaan,
sbb:
n n n n nβ0 + β1 ∑ xi1 + β2 ∑ xi2 + ... + βk ∑ xik = ∑ yi i=1 i=1 i=1 i=1
n n n n nβ0 ∑ xi1 + β1 ∑ xi12 + β2 ∑ xi1xi2 + ... + βk ∑ xi1xik = ∑ xi1yi i=1 i=1 i=1 i=1 i=1
.
.
.
n n n n nβ0 ∑ Xik + β1 ∑ XikXi1 + β2 ∑ XikXi2 + ... + βk ∑ Xik2 = ∑ XikYi i=1 i=1 i=1 i=1 i=1
Penambahan variabel pemberi pengaruh banyaknya lampu merah
No Lampu Jarak (km)
Waktu (Menit)
1 2 0,50 9,952 8 1,10 24,453 11 1,20 31,754 10 5,50 35,005 8 2,95 25,026 4 2,00 16,867 2 3,75 14,388 2 0,52 9,609 9 1,00 24,35
10 8 3,00 27,5011 4 4,12 17,0812 11 4,00 37,0013 12 5,00 41,95
No Lampu Jarak (km)
Waktu (Menit)
14 2 3,60 11,6615 4 2,05 21,6516 4 4,00 17,8917 20 6,00 69,0018 1 5,85 10,3019 10 5,40 34,9320 15 2,50 46,5921 15 2,90 44,8822 16 5,10 54,1223 17 5,90 56,2324 6 1,00 22,1325 5 4,00 21,1526 1 1,5 ?
No i
Lampu Xi
Jarak X2
Waktu y Xi12 Xi1Xi2 Xi1Yi Xi22 Xi2Yi
1 2 0,50 9,954,00 1,00 19,90 0,25 4,98
2 8 1,10 24,4564,00 8,80 195,60 1,21 26,90
3 11 1,20 31,75121,00 13,20 349,25 1,44 38,10
4 10 5,50 35,00100,00 55,00 350,00 30,25 192,50
5 8 2,95 25,0264,00 23,60 200,16 8,70 73,81
6 4 2,00 16,8616,00 8,00 67,44 4,00 33,72
7 2 3,75 14,384,00 7,50 28,76 14,06 53,93
8 2 0,52 9,604,00 1,04 19,20 0,27 4,99
9 9 1,00 24,3581,00 9,00 219,15 1,00 24,35
10 8 3,00 27,5064,00 24,00 220,00 9,00 82,50
11 4 4,12 17,0816,00 16,48 68,32 16,97 70,37
12 11 4,00 37,00121,00 44,00 407,00 16,00 148,00
13 12 5,00 41,95144,00 60,00 503,40 25,00 209,75
Perhitungan RL-B
No i
Lampu Xi
Jarak X2
Waktu y Xi12 Xi1Xi2 Xi1Yi Xi22 Xi2Yi
14 2 3,60 11,66 4,00 7,20 23,32 12,96 41,9815 4 2,05 21,65 16,00 8,20 86,60 4,20 44,3816 4 4,00 17,89 16,00 16,00 71,56 16,00 71,5617 20 6,00 69,00 400,00 120,00 1.380,00 36,00 414,0018 1 5,85 10,30 1,00 5,85 10,30 34,22 60,2619 10 5,40 34,93 100,00 54,00 349,30 29,16 188,6220 15 2,50 46,59 225,00 37,50 698,85 6,25 116,4821 15 2,90 44,88 225,00 43,50 673,20 8,41 130,1522 16 5,10 54,12 256,00 81,60 865,92 26,01 276,0123 17 5,90 56,23 289,00 100,30 955,91 34,81 331,7624 6 1,00 22,13 36,00 6,00 132,78 1,00 22,1325 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60
Jumlah 206 82,94 725,42 2.396,00 771,77 8.001,67 353,18 2.745,81
Perhitungan RL-B (lanjutan)
No i
Lampu Xi
Jarak X2
Waktu y Xi12 Xi1Xi2 Xi1Yi Xi12 Xi2Yi
24 6 1,00 22,13 36,00 6,00 132,78 1,00 22,1325 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60
Jumlah 206 82,94 725,42 2.396,00 771,77 8.001,67 353,18 2.745,81
n n
n β0 + β1 ∑ xi1 + β2 ∑ xi2 = 725,42 i=1 i=1 n n n
β0 ∑ xi1 + β1 ∑ xi12 + β2 ∑ xi1xi2 = 8.001,67 i=1 i=1 i=1
n n n
β0 ∑ Xik + β1 ∑ XikXi1 + β2 ∑ XikXi2 = 2.745,81 i=1 i=1 i=1
β0 25 + β1 206 + β2 82,94 = 725,42β0 206 + β1 2.396 + β2 771,77 = 8.001,67β0 82,94 + β1 771,77 + β2 353,18 = 2.745,81
• Ketiga persamaan diatas diselesaikan shg diperoleh β0 = 2,31 ; β1 = 2,74 ; β2 = 1,24
• Maka persamaan RL nya: Y = β0 + β1x1 + β2x2menjadiY = 2,31 + 2,74 x1 + 1,24 x2
Pengetahuan yg diperoleh:• Dari 2,31 waktu tempuh, akan melewati 2,74
kali lampu merah ditambah 1,24 kali jarak rmh pelanggan
• Dari kasus diatas diketahui 1 lampu merah dan 1,5 km jaraknya, maka X1= 1 (lampu) dan X2=1,5 (jarak) shg kita dpt memprediksi lamanya wkt pesanan tiba di rmh pelanggan dgn cara:Y = 2,31 + 2,74 X1 + 1,24 X2Y = 2,31 + 2,74 (1) + 1,24 (1,5) = 6,91 menit
Analisis Garis Regresi Menggunakan Koefisien Determinasi
Kita telah pelajari subbab sblmnya bhw:• Pers. Grs linear pertama dgn var. pemberi
pengaruh x = jarak Y = 14,58 + 4,35 X• Pers. Grs linear kedua dgn var. pemberi
pengaruh x1 = jml lampu merah dan x2 = jarak tempuh Y = 2,31 + 2,74 X1 + 1,24 X2
• Pertanyaan manakah yg lebih baik?• Solusi dpt menggunakan ukuran koefisien
determinasi yg dinotasikan sbg R2
Koefisien Determinasi dpt dihitung dgn rumus:
R2 = 1 -SSE
Syy
n nSSE = ∑ ei
2 = ∑ (yi – yi)2 i=1 i=1
n Syy = ∑ (yi – y)2 i=1
^
Perhitungan Koefisien DeterminasiNo i
Lampu Xi
Jarak X2
Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2
1 2 0,50 9,95 16,76 46,31 8,41 2,37 363,662 8 1,10 24,45 19,37 25,86 25,59 1,31 20,883 11 1,20 31,75 19,80 142,80 33,94 4,79 7,454 10 5,50 35,00 38,51 12,29 36,53 2,34 35,765 8 2,95 25,02 27,41 5,72 27,89 8,23 16,006 4 2,00 16,86 23,28 41,22 15,75 1,23 147,877 2 3,75 14,38 30,89 272,66 12,44 3,76 214,338 2 0,52 9,60 16,84 52,45 8,43 1,36 377,149 9 1,00 24,35 18,93 29,38 28,21 14,90 21,81
10 8 3,00 27,50 27,63 0,02 27,95 0,20 2,3111 4 4,12 17,08 32,50 237,84 18,38 1,69 142,5612 11 4,00 37,00 31,98 25,20 37,41 0,17 63,6813 12 5,00 41,95 36,33 31,58 41,39 0,31 167,1814 2 3,60 11,66 30,24 345,22 12,25 0,35 301,37
Y = 14,58 + 4,35 X Y = 2,31 + 2,74 X1 + 1,24 X2
No i
Lampu Xi
Jarak X2
Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2
14 2 3,60 11,66 30,24 345,22 12,25 0,35 301,37
15 4 2,05 21,65 23,50 3,41 15,81 34,08 54,32
16 4 4,00 17,89 31,98 198,53 18,23 0,12 123,88
17 20 6,00 69,00 40,68 802,02 64,55 19,80 1.598,40
18 1 5,85 10,30 40,03 883,72 12,30 4,02 350,44
19 10 5,40 34,93 38,07 9,86 36,41 2,18 34,93
20 15 2,50 46,59 25,46 446,69 46,51 0,01 308,70
21 15 2,90 44,88 27,20 312,76 47,01 4,52 251,54
22 16 5,10 54,12 36,77 301,20 52,47 2,71 630,01
23 17 5,90 56,23 40,25 255,52 56,21 0,00 740,38
24 6 1,00 22,13 18,93 10,24 19,99 4,58 47,47
25 5 4,00 21,15 31,98 117,29 20,97 0,03 61,94
Jumlah 206 82,94 725,42 725,29 4.609,78 725,04 115,05 6.084,02
Rata-2 3,32 29,02
Perhitungan Koefisien Determinasi (2)
Hasil No i
Lampu Xi
Jarak X2
Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2
24 6 1,00 22,13 18,93 10,24 19,99 4,58 47,47
25 5 4,00 21,15 31,98 117,29 20,97 0,03 61,94
Jumlah 206 82,94 725,42 725,29 4.609,78 725,04 115,05 6.084,02
Rata-2 3,32 29,02
• Pers. Regresi pertama (Y=14,58 + 4,35 X):
R2 = 1 -SSE
Syy
= 1 – (4.609,78 / 6.084,02) = 0,2423 = 24,23 %
• Pers. Regresi kedua (Y = 2,31 + 2,74 X1 +1,24 X2):
R2 = 1 -SSE
Syy
= 1 – (115,05 / 6.084,02) = 0,9811 = 98,11 %
Hasil
• Grs regresi kedua ternyata memiliki Koefisien Determinasi yg lebih tinggi, grs tsb lbh dpt menjelaskan keberagaman wkt pengantaran pesanan.
• Utk memprediksi wkt pengantaran sebaiknya menggunakan garis regresi kedua yg mempertimbangkan dua variabel pemberi pengaruh, yaitu banyaknya lampu merah dan jarak rumah pelanggan
Kesimpulan
• Kegunaan fungsi prediksi• Cara membuat persamaan garis regresi utk
satu atw lbh variabel pemberi pengaruh• Cara melakukan analisis perbandingan antara
dua garis regresi berdasarkan koefisien determinasi