DATA MINING : PREDIKSI

Post on 01-Jan-2016

233 views 3 download

description

DATA MINING : PREDIKSI. Overview Regresi Linear Regresi Linear Sederhana Regresi Linear berganda Analisis Garis Regresi menggunakan Koesifien Determinasi Conclusion. Overview. - PowerPoint PPT Presentation

Transcript of DATA MINING : PREDIKSI

DATA MINING : PREDIKSI

1. Overview2. Regresi Linear• Regresi Linear Sederhana• Regresi Linear berganda

3. Analisis Garis Regresi menggunakan Koesifien Determinasi

4. Conclusion

Overview

• Sbg gambaran, diberikan data mengenai lamanya wkt yg dihabiskan oleh seorang pegawai resto cepat saji utk mengantarkan pesanan ke rumah pelanggan.

• Wkt sejak pegawai meninggalkan resto hingga mencapai pintu rmh pelanggan di tampilkan sbb:

OverviewNo

pesanan Jarak (km) Waktu (Menit)

1 0,50 9,952 1,10 24,453 1,20 31,754 5,50 35,005 2,95 25,026 2,00 16,867 3,75 14,388 0,52 9,609 1,00 24,35

10 3,00 27,5011 4,12 17,0812 4,00 37,0013 5,00 41,95

No Pesanan Jarak (km) Waktu

(Menit)14 3,60 11,6615 2,05 21,6516 4,00 17,8917 6,00 69,0018 5,85 10,3019 5,40 34,9320 2,50 46,5921 2,90 44,8822 5,10 54,1223 5,90 56,2324 1,00 22,1325 4,00 21,1526 1,5 ?

Overview

• Berapa waktu yg ditempuh utk pesanan ke-26?

• Dlm prediksi menggunakan data yg sdh ada utk memprediksi hasil dari satu hal yg baru yg akan muncul selanjutnya.

• Prediksi dapat memperkirakan hasil dari hal yg belum terjadi.

• Cara prediksi Regresi Linear

Regresi Linear

• Regresi Linear (RL) yg dibahas:– RL Sederhana melibatkan 1 variabel pemberi pengaruh– RL Berganda melibatkan >1 variabel pemberi pengaruh

• Variabel besaran yg berubah2 nilainya• Contoh variabel: nomor rmh pelanggan, luas rmh

pelanggan, jam pemesanan, suhu udara saat pemesanan, jumlah anggota keluarga pemesan, dll

• Belum tentu semua variabel relevan dgn kasus yg dihadapi• Variabel dipilah 2

– Variabel pemberi pengaruh dianalogikan sbg “sebab”– Variabel terpengaruh dianalogikan sbg “akibat”

Regresi Linear

No pesanan

Jarak (km) Waktu (Menit)

1 0,50 9,95... ... ...25 4,00 21,15

Variabel pemberi

pengaruh (Sebab)

Variabel terpengaruh

(akibat)

RL Sederhana

• RL Sederhana salah satu cara prediksi menggunakan garis lurus utk menggambarkan hubungan di antara 2 atw lebih variabel

• Sbg contoh:• Berdasarkan tabel, kita coba menggambarkan

jarak sbg sumbu x (dlm km) dan Waktu sbg sumbu y (dlm menit)

• Setiap pasang jarak dan waktu di gambarkan sebagai titik.

0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.000.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

80.00

A

B

C

• Tujuan: Membuat garis lurus sedekat mungkin dgn titik2 tsb B lebih baik

• Scr umum, grs tsb dpt kita tulis dlm bentuk persamaan:Y = β0 + β1x

β0 = y - β1x__

β1 =

n∑ yixi i=1

n∑ yi i=1

n∑ xi i=1

n∑ xi i=1n

∑ xi2 i=1

n

n

2

Perincian perhitungan RL-SNo

iJara k

XWaktu

Y YiXi Xi2

1 0,50 9,95 4,98 0,252 1,10 24,45 26,90 1,213 1,20 31,75 38,10 1,444 5,50 35,00 192,50 30,255 2,95 25,02 73,81 8,706 2,00 16,86 33,72 4,007 3,75 14,38 53,93 14,068 0,52 9,60 4,99 0,279 1,00 24,35 24,35 1,0010 3,00 27,50 82,50 9,0011 4,12 17,08 70,37 16,9712 4,00 37,00 148,00 16,0013 5,00 41,95 209,75 25,0014 3,60 11,66 41,98 12,96

No i

Jara k X

Waktu Y YiXi Xi2

15 2,05 21,65 44,38 4,2016 4,00 17,89 71,56 16,0017 6,00 69,00 414,00 36,0018 5,85 10,30 60,26 34,2219 5,40 34,93 188,62 29,1620 2,50 46,59 116,48 6,2521 2,90 44,88 130,15 8,4122 5,10 54,12 276,01 26,0123 5,90 56,23 331,76 34,8124 1,00 22,13 22,13 1,0025 4,00 21,15 84,60 16,00Jmlh 82,94 725,42 2745,81 353,18Rata-2 3,32 29,02

β1 =

n∑ yixi i=1

n∑ yi i=1

n∑ xi i=1

n∑ xi i=1n

∑ xi2 i=1

n

n

2

No i

Jara k X

Waktu Y YiXi Xi2

... ... ... ... ...

23 5,90 56,23 331,76 34,81

24 1,00 22,13 22,13 1,00

25 4,00 21,15 84,60 16,00

Jmlh 82,94 725,42 2745,81 353,18

Rata-2 3,32 29,02

= =

2745,81(725,42)(82,94)

25

353,18(82,94)

25

24,35

β0 = y - β1 x_ _

= 29,02 – (4,35)(3,32)

= 14,58

• Persamaan grs regresi yg kita cari berbentuk:Y = β0 + β1x

• Berdasarkan perhitungan tsd, maka diperoleh:Y = 14,58 + 4,35 x

Pengetahuan apa yg didapat?• Bhw wkt tempuh pengiriman 14,58 menit

ditambah 4,35 kali jarak rumah pelanggan.• Artinya bila jaraknya 1 km maka, wkt tempuhnya

jadi 18,93 menit• Maka, utk pelanggan ke-26 dgn jarak 1,5 km

Y = 14,58 + 4,35 (1,5)Y = 21,1 menit

Regresi Linear Berganda

• Menyusun persamaan linear dgn byk variabel X (pemberi pengaruh)

• Bila kita memiliki k buah variabel pemberi pengaruh, maka bentuk persamaan garis regresinya:

Y = β0 + β1x1 + β2x2 + ... + βkxk• Sehingga kita dpt menyelesaikan persamaan,

sbb:

n n n n nβ0 + β1 ∑ xi1 + β2 ∑ xi2 + ... + βk ∑ xik = ∑ yi i=1 i=1 i=1 i=1

n n n n nβ0 ∑ xi1 + β1 ∑ xi12 + β2 ∑ xi1xi2 + ... + βk ∑ xi1xik = ∑ xi1yi i=1 i=1 i=1 i=1 i=1

.

.

.

n n n n nβ0 ∑ Xik + β1 ∑ XikXi1 + β2 ∑ XikXi2 + ... + βk ∑ Xik2 = ∑ XikYi i=1 i=1 i=1 i=1 i=1

Penambahan variabel pemberi pengaruh banyaknya lampu merah

No Lampu Jarak (km)

Waktu (Menit)

1 2 0,50 9,952 8 1,10 24,453 11 1,20 31,754 10 5,50 35,005 8 2,95 25,026 4 2,00 16,867 2 3,75 14,388 2 0,52 9,609 9 1,00 24,35

10 8 3,00 27,5011 4 4,12 17,0812 11 4,00 37,0013 12 5,00 41,95

No Lampu Jarak (km)

Waktu (Menit)

14 2 3,60 11,6615 4 2,05 21,6516 4 4,00 17,8917 20 6,00 69,0018 1 5,85 10,3019 10 5,40 34,9320 15 2,50 46,5921 15 2,90 44,8822 16 5,10 54,1223 17 5,90 56,2324 6 1,00 22,1325 5 4,00 21,1526 1 1,5 ?

No i

Lampu Xi

Jarak X2

Waktu y Xi12 Xi1Xi2 Xi1Yi Xi22 Xi2Yi

1 2 0,50 9,954,00 1,00 19,90 0,25 4,98

2 8 1,10 24,4564,00 8,80 195,60 1,21 26,90

3 11 1,20 31,75121,00 13,20 349,25 1,44 38,10

4 10 5,50 35,00100,00 55,00 350,00 30,25 192,50

5 8 2,95 25,0264,00 23,60 200,16 8,70 73,81

6 4 2,00 16,8616,00 8,00 67,44 4,00 33,72

7 2 3,75 14,384,00 7,50 28,76 14,06 53,93

8 2 0,52 9,604,00 1,04 19,20 0,27 4,99

9 9 1,00 24,3581,00 9,00 219,15 1,00 24,35

10 8 3,00 27,5064,00 24,00 220,00 9,00 82,50

11 4 4,12 17,0816,00 16,48 68,32 16,97 70,37

12 11 4,00 37,00121,00 44,00 407,00 16,00 148,00

13 12 5,00 41,95144,00 60,00 503,40 25,00 209,75

Perhitungan RL-B

No i

Lampu Xi

Jarak X2

Waktu y Xi12 Xi1Xi2 Xi1Yi Xi22 Xi2Yi

14 2 3,60 11,66 4,00 7,20 23,32 12,96 41,9815 4 2,05 21,65 16,00 8,20 86,60 4,20 44,3816 4 4,00 17,89 16,00 16,00 71,56 16,00 71,5617 20 6,00 69,00 400,00 120,00 1.380,00 36,00 414,0018 1 5,85 10,30 1,00 5,85 10,30 34,22 60,2619 10 5,40 34,93 100,00 54,00 349,30 29,16 188,6220 15 2,50 46,59 225,00 37,50 698,85 6,25 116,4821 15 2,90 44,88 225,00 43,50 673,20 8,41 130,1522 16 5,10 54,12 256,00 81,60 865,92 26,01 276,0123 17 5,90 56,23 289,00 100,30 955,91 34,81 331,7624 6 1,00 22,13 36,00 6,00 132,78 1,00 22,1325 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60

Jumlah 206 82,94 725,42 2.396,00 771,77 8.001,67 353,18 2.745,81

Perhitungan RL-B (lanjutan)

No i

Lampu Xi

Jarak X2

Waktu y Xi12 Xi1Xi2 Xi1Yi Xi12 Xi2Yi

24 6 1,00 22,13 36,00 6,00 132,78 1,00 22,1325 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60

Jumlah 206 82,94 725,42 2.396,00 771,77 8.001,67 353,18 2.745,81

n n

n β0 + β1 ∑ xi1 + β2 ∑ xi2 = 725,42 i=1 i=1 n n n

β0 ∑ xi1 + β1 ∑ xi12 + β2 ∑ xi1xi2 = 8.001,67 i=1 i=1 i=1

n n n

β0 ∑ Xik + β1 ∑ XikXi1 + β2 ∑ XikXi2 = 2.745,81 i=1 i=1 i=1

β0 25 + β1 206 + β2 82,94 = 725,42β0 206 + β1 2.396 + β2 771,77 = 8.001,67β0 82,94 + β1 771,77 + β2 353,18 = 2.745,81

• Ketiga persamaan diatas diselesaikan shg diperoleh β0 = 2,31 ; β1 = 2,74 ; β2 = 1,24

• Maka persamaan RL nya: Y = β0 + β1x1 + β2x2menjadiY = 2,31 + 2,74 x1 + 1,24 x2

Pengetahuan yg diperoleh:• Dari 2,31 waktu tempuh, akan melewati 2,74

kali lampu merah ditambah 1,24 kali jarak rmh pelanggan

• Dari kasus diatas diketahui 1 lampu merah dan 1,5 km jaraknya, maka X1= 1 (lampu) dan X2=1,5 (jarak) shg kita dpt memprediksi lamanya wkt pesanan tiba di rmh pelanggan dgn cara:Y = 2,31 + 2,74 X1 + 1,24 X2Y = 2,31 + 2,74 (1) + 1,24 (1,5) = 6,91 menit

Analisis Garis Regresi Menggunakan Koefisien Determinasi

Kita telah pelajari subbab sblmnya bhw:• Pers. Grs linear pertama dgn var. pemberi

pengaruh x = jarak Y = 14,58 + 4,35 X• Pers. Grs linear kedua dgn var. pemberi

pengaruh x1 = jml lampu merah dan x2 = jarak tempuh Y = 2,31 + 2,74 X1 + 1,24 X2

• Pertanyaan manakah yg lebih baik?• Solusi dpt menggunakan ukuran koefisien

determinasi yg dinotasikan sbg R2

Koefisien Determinasi dpt dihitung dgn rumus:

R2 = 1 -SSE

Syy

n nSSE = ∑ ei

2 = ∑ (yi – yi)2 i=1 i=1

n Syy = ∑ (yi – y)2 i=1

^

Perhitungan Koefisien DeterminasiNo i

Lampu Xi

Jarak X2

Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2

1 2 0,50 9,95 16,76 46,31 8,41 2,37 363,662 8 1,10 24,45 19,37 25,86 25,59 1,31 20,883 11 1,20 31,75 19,80 142,80 33,94 4,79 7,454 10 5,50 35,00 38,51 12,29 36,53 2,34 35,765 8 2,95 25,02 27,41 5,72 27,89 8,23 16,006 4 2,00 16,86 23,28 41,22 15,75 1,23 147,877 2 3,75 14,38 30,89 272,66 12,44 3,76 214,338 2 0,52 9,60 16,84 52,45 8,43 1,36 377,149 9 1,00 24,35 18,93 29,38 28,21 14,90 21,81

10 8 3,00 27,50 27,63 0,02 27,95 0,20 2,3111 4 4,12 17,08 32,50 237,84 18,38 1,69 142,5612 11 4,00 37,00 31,98 25,20 37,41 0,17 63,6813 12 5,00 41,95 36,33 31,58 41,39 0,31 167,1814 2 3,60 11,66 30,24 345,22 12,25 0,35 301,37

Y = 14,58 + 4,35 X Y = 2,31 + 2,74 X1 + 1,24 X2

No i

Lampu Xi

Jarak X2

Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2

14 2 3,60 11,66 30,24 345,22 12,25 0,35 301,37

15 4 2,05 21,65 23,50 3,41 15,81 34,08 54,32

16 4 4,00 17,89 31,98 198,53 18,23 0,12 123,88

17 20 6,00 69,00 40,68 802,02 64,55 19,80 1.598,40

18 1 5,85 10,30 40,03 883,72 12,30 4,02 350,44

19 10 5,40 34,93 38,07 9,86 36,41 2,18 34,93

20 15 2,50 46,59 25,46 446,69 46,51 0,01 308,70

21 15 2,90 44,88 27,20 312,76 47,01 4,52 251,54

22 16 5,10 54,12 36,77 301,20 52,47 2,71 630,01

23 17 5,90 56,23 40,25 255,52 56,21 0,00 740,38

24 6 1,00 22,13 18,93 10,24 19,99 4,58 47,47

25 5 4,00 21,15 31,98 117,29 20,97 0,03 61,94

Jumlah 206 82,94 725,42 725,29 4.609,78 725,04 115,05 6.084,02

Rata-2 3,32 29,02

Perhitungan Koefisien Determinasi (2)

Hasil No i

Lampu Xi

Jarak X2

Waktuy ŷi (yi-ŷi)2 ŷi (yi-ŷi)2 (yi-ȳ)2

24 6 1,00 22,13 18,93 10,24 19,99 4,58 47,47

25 5 4,00 21,15 31,98 117,29 20,97 0,03 61,94

Jumlah 206 82,94 725,42 725,29 4.609,78 725,04 115,05 6.084,02

Rata-2 3,32 29,02

• Pers. Regresi pertama (Y=14,58 + 4,35 X):

R2 = 1 -SSE

Syy

= 1 – (4.609,78 / 6.084,02) = 0,2423 = 24,23 %

• Pers. Regresi kedua (Y = 2,31 + 2,74 X1 +1,24 X2):

R2 = 1 -SSE

Syy

= 1 – (115,05 / 6.084,02) = 0,9811 = 98,11 %

Hasil

• Grs regresi kedua ternyata memiliki Koefisien Determinasi yg lebih tinggi, grs tsb lbh dpt menjelaskan keberagaman wkt pengantaran pesanan.

• Utk memprediksi wkt pengantaran sebaiknya menggunakan garis regresi kedua yg mempertimbangkan dua variabel pemberi pengaruh, yaitu banyaknya lampu merah dan jarak rumah pelanggan

Kesimpulan

• Kegunaan fungsi prediksi• Cara membuat persamaan garis regresi utk

satu atw lbh variabel pemberi pengaruh• Cara melakukan analisis perbandingan antara

dua garis regresi berdasarkan koefisien determinasi