TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi...
Embed Size (px)
Transcript of TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi...
-
TUGAS KELOMPOK
PENGANTAR BIG DATA
Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan
Menggunakan Package Biglm pada Software R
Yogyakarta, 8 Mei 2017
Kelompok 7
Regina Husnun Nazila 13/349496/PA/15510
Andrianto Maulana 13/350038/PA/15608
Shufi Atiqoh Sa'diah 14/363731/PA/15855
Rully Fitria Nurmalita Sari 14/364189/PA/15941
PROGRAM STUDI STATISTIKA
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
2017
http://forlap.dikti.go.id/mahasiswa/detail/QzlBNEU5M0UtRTQ3Ri00MDQ2LTgwMUQtMDdENEU4NkUzRjk3/0
-
BAB I
LATAR BELAKANG
Pesawat merupakan transportasi udara yang memberikan solusi bagi seseorang yang
ingin berpergian jauh seperti antar negara atau antar benua dengan waktu perjalanan yang
paling singkat dibandingkan dengan transportasi lainnya. Perjalanan yang dilakukan memiliki
banyak tujuan baik tujuan bisnis, pariwisata, maupun akademis. Pengguna pesawat komersial
semakin lama semakin diminati, karena pesawat dirasa sebagai transportasi yang sesuai dengan
kebutuhan dan memberikan kenyamanan tersendiri.
Namun, tak jarang juga pesawat-pesawat komersial yang ada mengalami delay.
Keterlambatan pesawat (delay) tentunya sangat merugikan baik dari sisi konsumen maupun
maskapai penerbangan. Bagi konsumen (penumpang) akan kehilangan waktu yang
menyebabkan terganggunya jadwal kegiatan berikutnya. Lalu kerugian bagi maskapai
penerbangan adalah buruknya citra perusahaan karena membuat ketidaknyamanan konsumen
dengan pelayanan yang ada dan tambahan biaya operasional sebagai ganti rugi yang harus
dikeluarkan sesuai dengan peraturan. Oleh karena itu, transportasi satu ini bisa menurun
ratingnya hanya karena adanya delay tersebut.
Beberapa faktor yang menyebabkan delay secara garis besar yakni manajemen airline,
faktor teknis operasional, faktor cuaca, dan faktor lain seperti kerusuhan/demontrasi di wilayah
bandara. Pada kasus ini, diambil variabel Air Time, Departue Delay, Carrier Delay, Weather
Delay, NAS Delay, dan Security Delay yang dianggap sebagai faktor penyebab keterlambatan
pesawat yang diukur dengan variabel ArrDelay. Diharapkan setelah dilakukannya analisis
regresi ini, dapat diketahui faktor apa saja yang ikut andil dalam keterlambatan dan faktor mana
yang mempunyai kontribusi paling besar sehingga kedepannya keterlambatan dapat terus
dihindari dan diminimalisir. Oleh karena itu, kami mengambil judul kasus penelitian ini yaitu
Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan
Menggunakan Package Biglm pada Software R.
-
BAB II
ANALISIS BIG DATA
2.1 Data yang Digunakan
Delayed Flight (Penundaan Penerbangan)
Sumber : kaggle.com
Deskripsi :
Biro Statistik Transportasi (BTS) Departemen Perhubungan melacak kinerja penerbangan
domestik yang dioperasikan oleh maskapai penerbangan besar. Ringkasan informasi
tentang jumlah penerbangan tepat waktu, tertunda, dibatalkan, dan dialihkan muncul dalam
Laporan Konsumen Perjalanan Udara bulanan DOT yang diterbitkan sekitar 30 hari setelah
akhir bulan, dan juga tabel ringkasan. BTS mulai mengumpulkan rincian penyebab
penundaan penerbangan pada bulan Juni 2003. Ringkasan statistik dan data mentah tersedia
untuk umum pada saat Laporan Konsumen Perjalanan Udara dilepaskan.
Versi dataset ini disusun dari Statistical Computing Statistical Graphics 2009 Data Expo.
Deskripsi variabel yang ada dari dataset :
- Name: Description
- Year: 1987-2008
- Month: 1-12
- DayofMonth: 1-31
- DayOfWeek: 1 (Monday) - 7
(Sunday)
- DepTime: actual departure time
(local, hhmm)
- CRSDepTime: scheduled departure
time (local, hhmm)
- ArrTime: actual arrival time (local,
hhmm)
- CRSArrTime: scheduled arrival
time (local, hhmm)
- UniqueCarrier: unique carrier code
- FlightNum: flight number
- TailNum: plane tail number
- ActualElapsedTime: in minutes
- CRSElapsedTime: in minutes
- AirTime: in minutes
- ArrDelay: arrival delay, in minutes
- DepDelay: departure delay, in
minutes
- Origin: origin IATA airport code
- Dest: destination IATA airport code
- Distance: in miles
- TaxiIn: taxi in time, in minutes
- TaxiOut: taxi out time in minutes
- Cancelled: was the flight cancelled?
- CancellationCode: reason for
cancellation (A = carrier, B =
weather, C = NAS, D = security)
- Diverted: 1 = yes, 0 = no
- CarrierDelay: in minutes
- WeatherDelay: in minutes
- NASDelay: in minutes
- SecurityDelay: in minutes
- LateAircraftDelay: in minutes
2.2 Tujuan Analisis Data
Tujuan analisis big data kali ini adalah untuk proses meneliti data agar dapat
mengetahui pola tersembunyi, korelasi yang belum diketahui, dan informasi berguna
lainnya.
Untuk data Delayed Flight kali ini dilakukan analisis data dengan metode regresi berganda.
-
Ada beberapa tujuan penggunaan analisis regresi, antara lain:
1. Membuat estimasi rata-rata dan nilai variabel terikat dengan didasari pada nilai
variabel bebas.
2. Menguji hipotesis karakteristik dependensi.
3. Untuk meramalkan nilai rata-rata variabel bebas dengan didasarkan pada nilai
variabel bebas diluar jangkauan sample.
2.3 Metode yang Digunakan
Analisis regresi adalah persamaan matematik yang menyatakan hubungan satu arah
yang fungsional antara variabel-variabel. Analisis regresi merupakan salah satu analisis
yang digunakan untuk mengukur besar pengaruhnya variabel bebas terhadap variabel
terikat dan memprediksi variabel terikat dengan menggunakan variabel bebas. Analisis
regresi berganda sebenarnya sama dengan analisis regresi linear sederhana, hanya variabel
bebasnya lebih dari satu buah. Persamaan umumnya adalah:
= + 11 + 22 ++
Dengan Y adalah variabel bebas, dan X adalah variabel-variabel bebas, a adalah
konstanta (intersept) dan b adalah koefisien regresi pada masing-masing variabel bebas.
Sehingga dapat didefinisikan variabel terikat yang digunakan pada kasus data Delayed
Flight kali ini adalah variabel Arrival Delay dengan variabel bebasnya adalah variabel Air
Time, Departure Delay, Carrier Delay, Weather Delay, NAS Delay, dan Security Delay.
Asumsi yang dibutuhkan dalam analisis regresi:
Penggunaan regresi linear didasarkan pada beberapa asumsi diantaranya yaitu:
Model regresi harus linier dalam parameter
Variabel bebas tidak berkorelasi dengan disturbance term (Error)
Nilai disturbance term sebesar 0 atau dengan simbol sebagai berikut:
(E(U/X))= 0
Varian untuk masing-masing error term (kesalahan) konstan
Tidak terjadi otokorelasi
Model regresi dispesifikasi secara benar. Tidak terdapat bias spesifikasi dalam
model yang digunakan dalam analisis empiris
Jika variabel bebas lebih dari satu, maka antara variabel bebas (explanatory)
tidak ada hubungan linier yang nyata
Syarat-Syarat
Model kelayakan regresi linear didasarkan pada hal-hal sebagai berikut:
a. Model regresi dikatakan layak jika angka signifikansi pada ANOVA sebesar <
0.05
b. Predictor yang digunakan sebagai variabel bebas harus layak. Kelayakan ini
diketahui jika angka Standard Error of Estimate < Standard Deviation
c. Koefesien regresi harus signifikan. Pengujian dilakukan dengan uji t. Koefesien
regresi signifikan jika t hitung > t table (nilai kritis). Dapat diganti pula dengan
menggunakan nilai signifikansi (sig) dengan ketentuan sebagai berikut:
-
Jika sig < 0,05; koefesien regresi signifikan
Jika sig > 0,05; koefesien regresi tidak signifikan
d. Tidak boleh terjadi multikolinieritas, artinya tidak boleh terjadi korelasi antar
variabel bebas yang sangat tinggi atau terlalu rendah. Syarat ini hanya berlaku
untuk regresi linier berganda dengan variabel bebas lebih dari satu. Terjadi
multikolinieritas jika koefesien korelasi antara variable bebas > 0,7 atau < - 7
e. Tidak terjadi autokorelasi jika: - 2 DW 2
f. Keselerasan model regresi dapat diterangkan dengan menggunakan nilai r2 semakin
besar nilai tersebut maka model semakin baik. Jika nilai mendekati 1 maka model
regresi semakin baik. Nilai r2 mempunyai karakteristik diantaranya: 1) selalu
positif, 2) Nilai r2 maksimal sebesar 1. Jika Nilai r2
sebesar 1 akan mempunyai arti
kesesuaian yang sempurna. Maksudnya seluruh variasi dalam variabel tergantung
(variabel Y) dapat diterangkan oleh model regresi. Sebaliknya jika r2 sama dengan
0, maka tidak ada hubungan linier antara variabel bebas (variabel X) dan variabel
tergantung (variabel Y).
g. Terdapat hubungan linier antara variabel bebas (X) dan variabel tergantung (Y)
h. Data harus berdistribusi normal
i. Data berskala interval atau rasio
j. Terdapat hubungan dependensi, artinya satu variabel merupakan variabel
tergantung yang tergantung pada variabel (variabel) lainnya.
Uji Hipotesis
Pengujian hipotesis dapat didasarkan dengan menggunakan dua hal, yaitu: tingkat
signifikansi atau probabilitas () dan tingkat kepercayaan atau confidence level. Didasarkan
tingkat signifikansi pada umumnya orang menggunakan 0,05. Kisaran tingkat signifikansi
mulai dari 0,01 sampai dengan 0,1. Yang dimaksud dengan tingkat signifikansi adalah
probabilitas melakukan kesalahan tipe I, yaitu kesalahan menolak hipotesis ketika hipotesis
tersebut benar. Tingkat kepercayaan pada umumnya ialah sebesar 95%, yang dimaksud
dengan tingkat kepercayaan ialah tingkat dimana sebesar 95% nilai sample akan mewakili
nilai populasi dimana sampel berasal. Untuk melakukan uji hipotesis diperlukan hipotesis
riset. Hipotesis riset merupakan dugaan mengenai sifat fakta-fakta yang
memungkinkan. Hipotesis ini dianggap sebagai titik awal penyelidikan. Sebagai contoh,
peneliti berpendapat bahwa promosi secara besar-besar-an berpengaruh terhadap
penjualan. Sedang dalam statistik, terdapat dua hipotesis, yaitu hipotesis nol (H0) dan
hipotesis alternatif (H1). Hipotesis nol dalam statsitik merupakan hipotesis yang sebenarnya
kita uji. Hipotesis ini merupakan pernyataan peneliti yang mengatakan bahwa variabel
bebas tidak mempunyai pengaruh terhadap variabel tergantung (dalam regresi) dan tidak
ada hubungan antara dua variabel (dalam korelasi). Dalam hipotesis nol kita berasumsi
bahwa sampel sampel berasal dari populasi yang sama. Sedang hipotesis alternatif
merupakan hipotesis yang memberikan alternatif berbeda dengan hipotesis nol-
nya. Dengan demikian dalam kaitannya dengan hipotesis nol di
atas maka peneliti mengatakan bahwa variabel bebas mempunyai pengaruh terhadap
variabel tergantung (dalam regresi) dan ada hubungan antara dua variabel (dalam korelasi).
-
Karakteristik Model yang Baik
Model dikatakan baik menurut Gujarati (2009), jika memenuhi beberapa kriteria seperti
di bawah ini:
Parsimoni: Suatu model tidak akan pernah dapat secara sempurna menangkap realitas;
akibatnya kita akan melakukan sedikit abstraksi ataupun penyederhanaan dalam
pembuatan model.
Mempunyai Identifikasi Tinggi: Artinya dengan data yang ada, parameter-parameter
yang diestimasi harus mempunyai nilai-nilai yang unik atau dengan kata lain,
hanya akan ada satu parameter saja.
Keselarasan (Goodness of Fit): Tujuan analisis regresi ialah menerangkan sebanyak
mungkin variasi dalam variabel tergantung dengan menggunakan variabel bebas
dalam model. Oleh karena itu, suatu model dikatakan baik jika eksplanasi diukur
dengan menggunakan nilai adjusted r2 yang setinggi mungkin (mendekati 1).
Konsitensi Dalam Teori: Model sebaiknya segaris dengan teori. Pengukuran tanpa
teori akan dapat menyesatkan hasilnya.
Kekuatan Prediksi: Validitas suatu model berbanding lurus dengan kemampuan
prediksi model tersebut. Oleh karena itu, pilihlah suatu model yang prediksi teoritisnya
berasal dari pengalaman empiris.
2.4 Hasil
1. Menginput Data
Jumlah data :
3.333 + 1.933.425 = 1.936.758
Menunjukkan hasil yang sama, yaitu jumlah data ada sebanyak 1.936.758
2. Prepocessing Data Menghapus Missing Value
-
Didefinisikan :
Data : data awal
Data1 : data setelah dihapus missing value
Jumlah missing value 1.936.758 - 1.247.488 = 689.270
Uji Asumsi
Linearitas
Dengan syntax diatas, diperoleh output berikut:
Interpretasi:
Dari grafik di atas kita bisa mengetahui hubungan antara variabel dependen
dengan masing-masing variabel independen:
-
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen AirTime, karena grafik condong ke kanan dan naik. Variabel
independen AirTime berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai AirTime, maka nilai ArrDelay semakin
besar.
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen DepDelay, karena grafik condong ke kanan dan naik. Variabel
independen DepDelay berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai DepDelay, maka nilai ArrDelay
semakin besar.
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen CarrierDelay, karena grafik condong ke kanan dan naik. Variabel
independen CarrierDelay berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai Carrier Delay, maka nilai ArrDelay
semakin besar.
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen WeatherDelay, karena grafik condong ke kanan dan naik. Variabel
independen WeatherDelay berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai WeatherDelay, maka nilai ArrDelay
semakin besar.
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen NASDelay, karena grafik condong ke kanan dan naik. Variabel
independen NASDelay berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai NASDelay, maka nilai ArrDelay
semakin besar.
- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel
independen SecurityDelay, karena grafik condong ke kanan dan naik. Variabel
independen SecurityDelay berpengaruh secara searah terhadap variabel dependen
ArrDelay yang artinya, semakin besar nilai Security Delay, maka nilai ArrDelay
semakin besar.
3. Melakukan Analisis Regresi
Deskripsi Variabel Dependen
Arrival Delay
Arrival delay atau keterlambatan kedatangan.
Deskripsi Variabel Independen
Carrier Delay
Carrier delay atau keterlambatan operator merupakan keterlambatan yang
berada dalam kendali pengangkut udara. Contoh kejadian yang dapat
menentukan penundaan operator adalah: pembersihan pesawat terbang,
kerusakan pesawat, menunggu kedatangan penumpang atau kru, bagasi,
penyerangan burung, pemuatan kargo, katering, komputer, peralatan
pengangkut barang, legalitas awak kapal (petugas pilot atau petugas),
kerusakan akibat barang berbahaya, inspeksi teknik, pengisian bahan bakar,
-
penanganan penumpang cacat, kru terlambat, perawatan toilet, perawatan
mesin, pengawasan, perawatan air minum, pengusiran penumpang yang tidak
dapat diatur, penyimpanan barang bawaan, serta penundaan karena berat dan
keseimbangan.
Late Arrival Delay
Late arrival delay atau penundaan keterlambatan kedatangan di bandara karena
terlambatnya kedatangan pesawat yang sama di bandara sebelumnya. Efek
penundaan di bandara sebelumnya disebut sebagai delay propagation.
NAS Delay
NAS delay atau keterlambatan NAS merupakan keterlambatan yang berada
dalam kendali National Airspace System (NAS). NAS delay meliputi: kondisi
cuaca yang tidak ekstrem, operasi bandara, volume lalu lintas yang padat,
kontrol lalu lintas udara, dan lain-lain. Penundaan yang terjadi setelah Actual
Gate Out biasanya disebabkan oleh NAS dan juga dilaporkan melalui
OPSNET.
Security Delay
Security delay keterlambatan keamanan disebabkan oleh evakuasi terminal,
naik pesawat karena pelanggaran keamanan, peralatan screening yang tidak
beroperasi, atau jalur panjang lebih dari 29 menit di area penyaringan.
Weather Delay
Weather delay atau keterlambatan cuaca disebabkan oleh kondisi cuaca yang
ekstrem atau berbahaya yang diperkirakan pada titik keberangkatan, sedang
dalam perjalanan, atau pada titik kedatangan.
Departure Delay
Departure delay atau keterlambatan keberangkatan.
Air Time
Air time adalah durasi waktu penerbangan pesawat.
Uji Overall
Hipotesis :
0 : model tidak layak digunakan
1 : model layak digunakan
Tingkat Signifikansi :
= 0,1
Statistik Uji :
Package yang digunakan untuk melakukan uji overall disini yaitu menggunakan
bantuan lm. Hal tersebut menandakan dengan jumlah data 1 juta hingga 7 juta baris,
lm (bukan package big data) masih dapat melakukan proses analisis. Alasan
mengapa dalam melakukan uji overall ini tidak menggunakan biglm yaitu karena
dalam output biglm hanya menampilkan dari uji parsial namun tidak menampilkan
pula statistik uji overall.
-
Daerah Kritik :
0 ditolak jika p-value <
Diperoleh:
P-value <
< 2,26e-16 < 0,1
Kesimpulan :
Karena P-value < 2,26e-16 < = 0,1 maka H0 ditolak. Sehingga dapat
disimpulkan bahwa model layak digunakan.
Interpretasi:
Uji overall digunakan untuk menguji apakah model analisis regresi yang ada
layak digunakan atau tidak. Pertama-tama kita mengidentifikasikan H0 dan H1 terlebih
dahulu. H0 sebagai model regresi tidak layak digunakan dan H1 sebagai model regresi
layak digunakan. Dalam melakukan uji overall ini kita mempunyai tingkat kesalahan
sebesar 10% atau 0,1 dikarenakan pada output diatas digunakan tingkat signifikansi
dengan tanda . sehingga yang digunakan adalah 0,1. Dengan sebesar 0,1, diperoleh
P-value sebesar kurang dari 2,26e-16.
P-value yang telah didapat tersebut nantinya digunakan untuk menentukan
apakah akan menggunakan H0 atau H1 sebagai kesimpulan. Jika P-value yang kita
peroleh kurang dari (0,1) maka H0 ditolak, sehingga kita akan menggunakan H1, begitu
pula sebaliknya.
Karena P-value < 2,26e-16 kurang dari = 0,1, maka H0 ditolak. Sehingga untuk
kesimpulannya kita akan menggunakan H1. Jadi, dapat disimpulkan bahwa model
regresi layak digunakan.
Uji Parsial
Hipotesis :
- Konstanta
-
H0 : 0 = 0
(konstanta tidak signifikan terhadap model)
H1 : 0 0
(konstanta signifikan terhadap model) - Variabel Independen
H0 : i = 0
i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,
SecurityDelay
(variabel independen tidak signifikan terhadap model)
H1 : i 0
i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,
SecurityDelay
(variabel independen signifikan terhadap model)
Tingkat Signifikansi :
= 0,05
Daerah Kritik :
0 ditolak jika P-value <
Statistik Uji :
Variabel P-value Keterangan Kesimpulan
Konstan 0,000 0 ditolak Konstan signifikan
AirTime 0,000 0 ditolak AirTime signifikan
DepDelay 0,000 0 ditolak DepDelay signifikan
CarrierDelay 0,000 0 ditolak CarrierDelay signifikan
WeatherDelay 0,000 0 ditolak WeatherDelay signifikan
NASDelay 0,000 0 ditolak NASDelay signifikan
SecurityDelay 0,000 0 ditolak SecurityDelay signifikan
Interpretasi:
Uji parsial adalah uji yang dilakukan untuk mengetahui apakah konstan maupun
variabel independen signifikan terhadap model atau tidak. Dengan tingkat signifikansi
= 0,05 diperoleh hasil sebagai berikut :
Untuk Konstan
Ingin diketahui apakah konstan layak masuk model atau tidak. Pada tabel sig. dapat
dilihat nilai P-value = 0,000. Karena P-value=0,000 < =0,05 maka H0 ditolak.
Sehingga konstan signifikan terhadap model.
-
Untuk Koefisien Variabel
Ingin diketahui apakah variabel independen yang ada signifikan terhadap model
atau tidak. Kemudian dilakukan uji parsial untuk menarik kesimpulan. Dapat dilihat
dari kesimpulan pada tabel di atas bahwa seluruh variabel independen layak masuk
model. Sehingga tidak ada variabel yang harus dikeluarkan.
Dapat dibandingkan antara melakukan regresi dengan package biglm (ditujukan untuk
kasus big data) dengan lm (ditujukan bukan untuk kasus big data).
1. Dengan package biglm
2. Dengan package lm
Hasil Perbandingan :
Biglm Lm
Tidak dapat menampilkan statistik uji
overall
Statistik uji overall dapat tampil bersama uji
parsial
Menghasilkan nilai estimate (koefisien
parameter) yang nyaris sama dengan lm
Menghasilkan nilai estimate yang nyaris
sama dengan biglm
Terlihat jumlah ukuran data yang dianalisis Tidak memperlihat jumlah ukuran data yang
dianalisis
Tidak menampilkan karakteristik residual
dari model yang dihasilkan
Menampilkan karakteristik residual dari
model yang dihasilkan
-
Tidak menampilkan R2 dan Adjusted R2 Menampilkan R2 dan Adjusted R2
Model :
ArrDelay = 2.5485 + 0.0125AirTime + 0.8552DepDelay + 0.1185CarrierDelay +
0.1844WeatherDelay + 0.3590NASDelay + 0.1139SecurityDelay
Interpretasi :
- Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay
sebesar 0,0125 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival
Delay sebesar 0,8552 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay
sebesar 0,1185 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay
sebesar 0,1844 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay
sebesar 0,3590 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay
sebesar 0,1139 dengan menganggap variabel lain konstan.
-
BAB III
KESIMPULAN
Setelah dilakukan analisis regresi linear untuk data Keterlambatan Penerbangan tahun
2008 dengan menggunakan package Biglm pada software R, diperoleh model terbaik berikut:
ArrDelay = 2,5485 + 0,0125AirTime + 0,8552DepDelay + 0,1185CarrierDelay +
0,1844WeatherDelay + 0,3590NASDelay + 0,1139SecurityDelay
Interpretasi :
- Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay sebesar
0,0125 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival Delay
sebesar 0,8552 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay sebesar
0,1185 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay sebesar
0,1844 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay sebesar
0,3590 dengan menganggap variabel lain konstan.
- Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay sebesar
0,1139 dengan menganggap variabel lain konstan.
Pada package Biglm, tidak terdapat output untuk uji overall sehingga untuk melakukan uji
overall harus menggunakan package lain.
Selain itu, untuk pengetahuan sejauh ini biglm tidak dapat menampilkan hasil uji normalitas
sehingga untuk uji normalitas residual tidak ditampilkan pada analisis.
-
DAFTAR PUSTAKA
biglm: bounded memory linear and generalized linear models, [diakses 18 April 2017]
Giovanni Gonzalez, Airline on-time statistics and delay causes, 2 Januari 2017,
[diakses 28 April 2017]
United States Departement of Transportation, Bureau of Transportation Statistics,Februari
2017, [diakses 30 April 2017]
https://cran.r-project.org/web/packages/biglm/index.htmlhttps://cran.r-project.org/web/packages/biglm/index.htmlhttps://cran.r-project.org/web/packages/biglm/index.htmlhttps://www.kaggle.com/giovamata/airlinedelaycauseshttps://www.transtats.bts.gov/Fields.asp?Table_ID=236