Download - TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi …danardono.staff.ugm.ac.id/matakuliah/bigdata/kel07 Airline-biglm.pdfregresi berganda sebenarnya sama dengan analisis regresi linear

Transcript

TUGAS KELOMPOK

PENGANTAR BIG DATA

Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan

Menggunakan Package Biglm pada Software R

Yogyakarta, 8 Mei 2017

Kelompok 7

Regina Husnun Nazila 13/349496/PA/15510

Andrianto Maulana 13/350038/PA/15608

Shufi Atiqoh Sa'diah 14/363731/PA/15855

Rully Fitria Nurmalita Sari 14/364189/PA/15941

PROGRAM STUDI STATISTIKA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

2017

BAB I

LATAR BELAKANG

Pesawat merupakan transportasi udara yang memberikan solusi bagi seseorang yang

ingin berpergian jauh seperti antar negara atau antar benua dengan waktu perjalanan yang

paling singkat dibandingkan dengan transportasi lainnya. Perjalanan yang dilakukan memiliki

banyak tujuan baik tujuan bisnis, pariwisata, maupun akademis. Pengguna pesawat komersial

semakin lama semakin diminati, karena pesawat dirasa sebagai transportasi yang sesuai dengan

kebutuhan dan memberikan kenyamanan tersendiri.

Namun, tak jarang juga pesawat-pesawat komersial yang ada mengalami delay.

Keterlambatan pesawat (delay) tentunya sangat merugikan baik dari sisi konsumen maupun

maskapai penerbangan. Bagi konsumen (penumpang) akan kehilangan waktu yang

menyebabkan terganggunya jadwal kegiatan berikutnya. Lalu kerugian bagi maskapai

penerbangan adalah buruknya citra perusahaan karena membuat ketidaknyamanan konsumen

dengan pelayanan yang ada dan tambahan biaya operasional sebagai ganti rugi yang harus

dikeluarkan sesuai dengan peraturan. Oleh karena itu, transportasi satu ini bisa menurun

ratingnya hanya karena adanya delay tersebut.

Beberapa faktor yang menyebabkan delay secara garis besar yakni manajemen airline,

faktor teknis operasional, faktor cuaca, dan faktor lain seperti kerusuhan/demontrasi di wilayah

bandara. Pada kasus ini, diambil variabel Air Time, Departue Delay, Carrier Delay, Weather

Delay, NAS Delay, dan Security Delay yang dianggap sebagai faktor penyebab keterlambatan

pesawat yang diukur dengan variabel ArrDelay. Diharapkan setelah dilakukannya analisis

regresi ini, dapat diketahui faktor apa saja yang ikut andil dalam keterlambatan dan faktor mana

yang mempunyai kontribusi paling besar sehingga kedepannya keterlambatan dapat terus

dihindari dan diminimalisir. Oleh karena itu, kami mengambil judul kasus penelitian ini yaitu

“Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan

Menggunakan Package Biglm pada Software R”.

BAB II

ANALISIS BIG DATA

2.1 Data yang Digunakan

Delayed Flight (Penundaan Penerbangan)

Sumber : kaggle.com

Deskripsi :

Biro Statistik Transportasi (BTS) Departemen Perhubungan melacak kinerja penerbangan

domestik yang dioperasikan oleh maskapai penerbangan besar. Ringkasan informasi

tentang jumlah penerbangan tepat waktu, tertunda, dibatalkan, dan dialihkan muncul dalam

Laporan Konsumen Perjalanan Udara bulanan DOT yang diterbitkan sekitar 30 hari setelah

akhir bulan, dan juga tabel ringkasan. BTS mulai mengumpulkan rincian penyebab

penundaan penerbangan pada bulan Juni 2003. Ringkasan statistik dan data mentah tersedia

untuk umum pada saat Laporan Konsumen Perjalanan Udara dilepaskan.

Versi dataset ini disusun dari Statistical Computing Statistical Graphics 2009 Data Expo.

Deskripsi variabel yang ada dari dataset :

- Name: Description

- Year: 1987-2008

- Month: 1-12

- DayofMonth: 1-31

- DayOfWeek: 1 (Monday) - 7

(Sunday)

- DepTime: actual departure time

(local, hhmm)

- CRSDepTime: scheduled departure

time (local, hhmm)

- ArrTime: actual arrival time (local,

hhmm)

- CRSArrTime: scheduled arrival

time (local, hhmm)

- UniqueCarrier: unique carrier code

- FlightNum: flight number

- TailNum: plane tail number

- ActualElapsedTime: in minutes

- CRSElapsedTime: in minutes

- AirTime: in minutes

- ArrDelay: arrival delay, in minutes

- DepDelay: departure delay, in

minutes

- Origin: origin IATA airport code

- Dest: destination IATA airport code

- Distance: in miles

- TaxiIn: taxi in time, in minutes

- TaxiOut: taxi out time in minutes

- Cancelled: was the flight cancelled?

- CancellationCode: reason for

cancellation (A = carrier, B =

weather, C = NAS, D = security)

- Diverted: 1 = yes, 0 = no

- CarrierDelay: in minutes

- WeatherDelay: in minutes

- NASDelay: in minutes

- SecurityDelay: in minutes

- LateAircraftDelay: in minutes

2.2 Tujuan Analisis Data

Tujuan analisis big data kali ini adalah untuk proses meneliti data agar dapat

mengetahui pola tersembunyi, korelasi yang belum diketahui, dan informasi berguna

lainnya.

Untuk data Delayed Flight kali ini dilakukan analisis data dengan metode regresi berganda.

Ada beberapa tujuan penggunaan analisis regresi, antara lain:

1. Membuat estimasi rata-rata dan nilai variabel terikat dengan didasari pada nilai

variabel bebas.

2. Menguji hipotesis karakteristik dependensi.

3. Untuk meramalkan nilai rata-rata variabel bebas dengan didasarkan pada nilai

variabel bebas diluar jangkauan sample.

2.3 Metode yang Digunakan

Analisis regresi adalah persamaan matematik yang menyatakan hubungan satu arah

yang fungsional antara variabel-variabel. Analisis regresi merupakan salah satu analisis

yang digunakan untuk mengukur besar pengaruhnya variabel bebas terhadap variabel

terikat dan memprediksi variabel terikat dengan menggunakan variabel bebas. Analisis

regresi berganda sebenarnya sama dengan analisis regresi linear sederhana, hanya variabel

bebasnya lebih dari satu buah. Persamaan umumnya adalah:

𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2 +⋯+ 𝑏𝑛𝑋𝑛

Dengan Y adalah variabel bebas, dan X adalah variabel-variabel bebas, a adalah

konstanta (intersept) dan b adalah koefisien regresi pada masing-masing variabel bebas.

Sehingga dapat didefinisikan variabel terikat yang digunakan pada kasus data Delayed

Flight kali ini adalah variabel Arrival Delay dengan variabel bebasnya adalah variabel Air

Time, Departure Delay, Carrier Delay, Weather Delay, NAS Delay, dan Security Delay.

Asumsi yang dibutuhkan dalam analisis regresi:

Penggunaan regresi linear didasarkan pada beberapa asumsi diantaranya yaitu:

• Model regresi harus linier dalam parameter

• Variabel bebas tidak berkorelasi dengan disturbance term (Error)

• Nilai disturbance term sebesar 0 atau dengan simbol sebagai berikut:

(E(U/X))= 0

• Varian untuk masing-masing error term (kesalahan) konstan

• Tidak terjadi otokorelasi

• Model regresi dispesifikasi secara benar. Tidak terdapat bias spesifikasi dalam

model yang digunakan dalam analisis empiris

• Jika variabel bebas lebih dari satu, maka antara variabel bebas (explanatory)

tidak ada hubungan linier yang nyata

Syarat-Syarat

Model kelayakan regresi linear didasarkan pada hal-hal sebagai berikut:

a. Model regresi dikatakan layak jika angka signifikansi pada ANOVA sebesar <

0.05

b. Predictor yang digunakan sebagai variabel bebas harus layak. Kelayakan ini

diketahui jika angka Standard Error of Estimate < Standard Deviation

c. Koefesien regresi harus signifikan. Pengujian dilakukan dengan uji t. Koefesien

regresi signifikan jika t hitung > t table (nilai kritis). Dapat diganti pula dengan

menggunakan nilai signifikansi (sig) dengan ketentuan sebagai berikut:

• Jika sig < 0,05; koefesien regresi signifikan

• Jika sig > 0,05; koefesien regresi tidak signifikan

d. Tidak boleh terjadi multikolinieritas, artinya tidak boleh terjadi korelasi antar

variabel bebas yang sangat tinggi atau terlalu rendah. Syarat ini hanya berlaku

untuk regresi linier berganda dengan variabel bebas lebih dari satu. Terjadi

multikolinieritas jika koefesien korelasi antara variable bebas > 0,7 atau < - 7

e. Tidak terjadi autokorelasi jika: - 2 ≤ DW ≤ 2

f. Keselerasan model regresi dapat diterangkan dengan menggunakan nilai r2 semakin

besar nilai tersebut maka model semakin baik. Jika nilai mendekati 1 maka model

regresi semakin baik. Nilai r2 mempunyai karakteristik diantaranya: 1) selalu

positif, 2) Nilai r2 maksimal sebesar 1. Jika Nilai r2

sebesar 1 akan mempunyai arti

kesesuaian yang sempurna. Maksudnya seluruh variasi dalam variabel tergantung

(variabel Y) dapat diterangkan oleh model regresi. Sebaliknya jika r2 sama dengan

0, maka tidak ada hubungan linier antara variabel bebas (variabel X) dan variabel

tergantung (variabel Y).

g. Terdapat hubungan linier antara variabel bebas (X) dan variabel tergantung (Y)

h. Data harus berdistribusi normal

i. Data berskala interval atau rasio

j. Terdapat hubungan dependensi, artinya satu variabel merupakan variabel

tergantung yang tergantung pada variabel (variabel) lainnya.

Uji Hipotesis

Pengujian hipotesis dapat didasarkan dengan menggunakan dua hal, yaitu: tingkat

signifikansi atau probabilitas (α) dan tingkat kepercayaan atau confidence level. Didasarkan

tingkat signifikansi pada umumnya orang menggunakan 0,05. Kisaran tingkat signifikansi

mulai dari 0,01 sampai dengan 0,1. Yang dimaksud dengan tingkat signifikansi adalah

probabilitas melakukan kesalahan tipe I, yaitu kesalahan menolak hipotesis ketika hipotesis

tersebut benar. Tingkat kepercayaan pada umumnya ialah sebesar 95%, yang dimaksud

dengan tingkat kepercayaan ialah tingkat dimana sebesar 95% nilai sample akan mewakili

nilai populasi dimana sampel berasal. Untuk melakukan uji hipotesis diperlukan hipotesis

riset. Hipotesis riset merupakan dugaan mengenai sifat fakta-fakta yang

memungkinkan. Hipotesis ini dianggap sebagai titik awal penyelidikan. Sebagai contoh,

peneliti berpendapat bahwa promosi secara besar-besar-an berpengaruh terhadap

penjualan. Sedang dalam statistik, terdapat dua hipotesis, yaitu hipotesis nol (H0) dan

hipotesis alternatif (H1). Hipotesis nol dalam statsitik merupakan hipotesis yang sebenarnya

kita uji. Hipotesis ini merupakan pernyataan peneliti yang mengatakan bahwa variabel

bebas tidak mempunyai pengaruh terhadap variabel tergantung (dalam regresi) dan tidak

ada hubungan antara dua variabel (dalam korelasi). Dalam hipotesis nol kita berasumsi

bahwa sampel – sampel berasal dari populasi yang sama. Sedang hipotesis alternatif

merupakan hipotesis yang memberikan alternatif berbeda dengan hipotesis nol-

nya. Dengan demikian dalam kaitannya dengan hipotesis nol di

atas maka peneliti mengatakan bahwa variabel bebas mempunyai pengaruh terhadap

variabel tergantung (dalam regresi) dan ada hubungan antara dua variabel (dalam korelasi).

Karakteristik Model yang Baik

Model dikatakan baik menurut Gujarati (2009), jika memenuhi beberapa kriteria seperti

di bawah ini:

• Parsimoni: Suatu model tidak akan pernah dapat secara sempurna menangkap realitas;

akibatnya kita akan melakukan sedikit abstraksi ataupun penyederhanaan dalam

pembuatan model.

• Mempunyai Identifikasi Tinggi: Artinya dengan data yang ada, parameter-parameter

yang diestimasi harus mempunyai nilai-nilai yang unik atau dengan kata lain,

hanya akan ada satu parameter saja.

• Keselarasan (Goodness of Fit): Tujuan analisis regresi ialah menerangkan sebanyak

mungkin variasi dalam variabel tergantung dengan menggunakan variabel bebas

dalam model. Oleh karena itu, suatu model dikatakan baik jika eksplanasi diukur

dengan menggunakan nilai adjusted r2 yang setinggi mungkin (mendekati 1).

• Konsitensi Dalam Teori: Model sebaiknya segaris dengan teori. Pengukuran tanpa

teori akan dapat menyesatkan hasilnya.

• Kekuatan Prediksi: Validitas suatu model berbanding lurus dengan kemampuan

prediksi model tersebut. Oleh karena itu, pilihlah suatu model yang prediksi teoritisnya

berasal dari pengalaman empiris.

2.4 Hasil

1. Menginput Data

Jumlah data :

3.333 + 1.933.425 = 1.936.758

Menunjukkan hasil yang sama, yaitu jumlah data ada sebanyak 1.936.758

2. Prepocessing Data Menghapus Missing Value

Didefinisikan :

Data : data awal

Data1 : data setelah dihapus missing value

Jumlah missing value 1.936.758 - 1.247.488 = 689.270

Uji Asumsi

• Linearitas

Dengan syntax diatas, diperoleh output berikut:

Interpretasi:

Dari grafik di atas kita bisa mengetahui hubungan antara variabel dependen

dengan masing-masing variabel independen:

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen AirTime, karena grafik condong ke kanan dan naik. Variabel

independen AirTime berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai AirTime, maka nilai ArrDelay semakin

besar.

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen DepDelay, karena grafik condong ke kanan dan naik. Variabel

independen DepDelay berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai DepDelay, maka nilai ArrDelay

semakin besar.

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen CarrierDelay, karena grafik condong ke kanan dan naik. Variabel

independen CarrierDelay berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai Carrier Delay, maka nilai ArrDelay

semakin besar.

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen WeatherDelay, karena grafik condong ke kanan dan naik. Variabel

independen WeatherDelay berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai WeatherDelay, maka nilai ArrDelay

semakin besar.

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen NASDelay, karena grafik condong ke kanan dan naik. Variabel

independen NASDelay berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai NASDelay, maka nilai ArrDelay

semakin besar.

- Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

independen SecurityDelay, karena grafik condong ke kanan dan naik. Variabel

independen SecurityDelay berpengaruh secara searah terhadap variabel dependen

ArrDelay yang artinya, semakin besar nilai Security Delay, maka nilai ArrDelay

semakin besar.

3. Melakukan Analisis Regresi

Deskripsi Variabel Dependen

• Arrival Delay

Arrival delay atau keterlambatan kedatangan.

Deskripsi Variabel Independen

• Carrier Delay

Carrier delay atau keterlambatan operator merupakan keterlambatan yang

berada dalam kendali pengangkut udara. Contoh kejadian yang dapat

menentukan penundaan operator adalah: pembersihan pesawat terbang,

kerusakan pesawat, menunggu kedatangan penumpang atau kru, bagasi,

penyerangan burung, pemuatan kargo, katering, komputer, peralatan

pengangkut barang, legalitas awak kapal (petugas pilot atau petugas),

kerusakan akibat barang berbahaya, inspeksi teknik, pengisian bahan bakar,

penanganan penumpang cacat, kru terlambat, perawatan toilet, perawatan

mesin, pengawasan, perawatan air minum, pengusiran penumpang yang tidak

dapat diatur, penyimpanan barang bawaan, serta penundaan karena berat dan

keseimbangan.

• Late Arrival Delay

Late arrival delay atau penundaan keterlambatan kedatangan di bandara karena

terlambatnya kedatangan pesawat yang sama di bandara sebelumnya. Efek

penundaan di bandara sebelumnya disebut sebagai delay propagation.

• NAS Delay

NAS delay atau keterlambatan NAS merupakan keterlambatan yang berada

dalam kendali National Airspace System (NAS). NAS delay meliputi: kondisi

cuaca yang tidak ekstrem, operasi bandara, volume lalu lintas yang padat,

kontrol lalu lintas udara, dan lain-lain. Penundaan yang terjadi setelah Actual

Gate Out biasanya disebabkan oleh NAS dan juga dilaporkan melalui

OPSNET.

• Security Delay

Security delay keterlambatan keamanan disebabkan oleh evakuasi terminal,

naik pesawat karena pelanggaran keamanan, peralatan screening yang tidak

beroperasi, atau jalur panjang lebih dari 29 menit di area penyaringan.

• Weather Delay

Weather delay atau keterlambatan cuaca disebabkan oleh kondisi cuaca yang

ekstrem atau berbahaya yang diperkirakan pada titik keberangkatan, sedang

dalam perjalanan, atau pada titik kedatangan.

• Departure Delay

Departure delay atau keterlambatan keberangkatan.

• Air Time

Air time adalah durasi waktu penerbangan pesawat.

Uji Overall

• Hipotesis :

𝐻0 : model tidak layak digunakan

𝐻1 : model layak digunakan

• Tingkat Signifikansi :

α = 0,1

• Statistik Uji :

Package yang digunakan untuk melakukan uji overall disini yaitu menggunakan

bantuan lm. Hal tersebut menandakan dengan jumlah data 1 juta hingga 7 juta baris,

lm (bukan package big data) masih dapat melakukan proses analisis. Alasan

mengapa dalam melakukan uji overall ini tidak menggunakan biglm yaitu karena

dalam output biglm hanya menampilkan dari uji parsial namun tidak menampilkan

pula statistik uji overall.

• Daerah Kritik :

𝐻0 ditolak jika p-value < α

Diperoleh:

P-value < α

< 2,26e-16 < 0,1

• Kesimpulan :

Karena P-value < 2,26e-16 < α = 0,1 maka H0 ditolak. Sehingga dapat

disimpulkan bahwa model layak digunakan.

Interpretasi:

Uji overall digunakan untuk menguji apakah model analisis regresi yang ada

layak digunakan atau tidak. Pertama-tama kita mengidentifikasikan H0 dan H1 terlebih

dahulu. H0 sebagai model regresi tidak layak digunakan dan H1 sebagai model regresi

layak digunakan. Dalam melakukan uji overall ini kita mempunyai tingkat kesalahan α

sebesar 10% atau 0,1 dikarenakan pada output diatas digunakan tingkat signifikansi

dengan tanda ‘.’ sehingga α yang digunakan adalah 0,1. Dengan α sebesar 0,1, diperoleh

P-value sebesar kurang dari 2,26e-16.

P-value yang telah didapat tersebut nantinya digunakan untuk menentukan

apakah akan menggunakan H0 atau H1 sebagai kesimpulan. Jika P-value yang kita

peroleh kurang dari α (0,1) maka H0 ditolak, sehingga kita akan menggunakan H1, begitu

pula sebaliknya.

Karena P-value < 2,26e-16 kurang dari α = 0,1, maka H0 ditolak. Sehingga untuk

kesimpulannya kita akan menggunakan H1. Jadi, dapat disimpulkan bahwa model

regresi layak digunakan.

Uji Parsial

• Hipotesis :

- Konstanta

H0 : β0 = 0

(konstanta tidak signifikan terhadap model)

H1 : β0 ≠ 0

(konstanta signifikan terhadap model) - Variabel Independen

H0 : βi = 0

i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,

SecurityDelay

(variabel independen tidak signifikan terhadap model)

H1 : βi ≠ 0

i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,

SecurityDelay

(variabel independen signifikan terhadap model)

• Tingkat Signifikansi :

α = 0,05

• Daerah Kritik :

𝐻0 ditolak jika P-value < α

• Statistik Uji :

Variabel P-value Keterangan Kesimpulan

Konstan 0,000 𝐻0 ditolak Konstan signifikan

AirTime 0,000 𝐻0 ditolak AirTime signifikan

DepDelay 0,000 𝐻0 ditolak DepDelay signifikan

CarrierDelay 0,000 𝐻0 ditolak CarrierDelay signifikan

WeatherDelay 0,000 𝐻0 ditolak WeatherDelay signifikan

NASDelay 0,000 𝐻0 ditolak NASDelay signifikan

SecurityDelay 0,000 𝐻0 ditolak SecurityDelay signifikan

Interpretasi:

Uji parsial adalah uji yang dilakukan untuk mengetahui apakah konstan maupun

variabel independen signifikan terhadap model atau tidak. Dengan tingkat signifikansi

α = 0,05 diperoleh hasil sebagai berikut :

Untuk Konstan

Ingin diketahui apakah konstan layak masuk model atau tidak. Pada tabel sig. dapat

dilihat nilai P-value = 0,000. Karena P-value=0,000 < α =0,05 maka H0 ditolak.

Sehingga konstan signifikan terhadap model.

Untuk Koefisien Variabel

Ingin diketahui apakah variabel independen yang ada signifikan terhadap model

atau tidak. Kemudian dilakukan uji parsial untuk menarik kesimpulan. Dapat dilihat

dari kesimpulan pada tabel di atas bahwa seluruh variabel independen layak masuk

model. Sehingga tidak ada variabel yang harus dikeluarkan.

Dapat dibandingkan antara melakukan regresi dengan package biglm (ditujukan untuk

kasus big data) dengan lm (ditujukan bukan untuk kasus big data).

1. Dengan package biglm

2. Dengan package lm

Hasil Perbandingan :

Biglm Lm

Tidak dapat menampilkan statistik uji

overall

Statistik uji overall dapat tampil bersama uji

parsial

Menghasilkan nilai estimate (koefisien

parameter) yang nyaris sama dengan lm

Menghasilkan nilai estimate yang nyaris

sama dengan biglm

Terlihat jumlah ukuran data yang dianalisis Tidak memperlihat jumlah ukuran data yang

dianalisis

Tidak menampilkan karakteristik residual

dari model yang dihasilkan

Menampilkan karakteristik residual dari

model yang dihasilkan

Tidak menampilkan R2 dan Adjusted R2 Menampilkan R2 dan Adjusted R2

Model :

ArrDelay = 2.5485 + 0.0125AirTime + 0.8552DepDelay + 0.1185CarrierDelay +

0.1844WeatherDelay + 0.3590NASDelay + 0.1139SecurityDelay

Interpretasi :

- Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay

sebesar 0,0125 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival

Delay sebesar 0,8552 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay

sebesar 0,1185 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay

sebesar 0,1844 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay

sebesar 0,3590 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay

sebesar 0,1139 dengan menganggap variabel lain konstan.

BAB III

KESIMPULAN

Setelah dilakukan analisis regresi linear untuk data Keterlambatan Penerbangan tahun

2008 dengan menggunakan package Biglm pada software R, diperoleh model terbaik berikut:

ArrDelay = 2,5485 + 0,0125AirTime + 0,8552DepDelay + 0,1185CarrierDelay +

0,1844WeatherDelay + 0,3590NASDelay + 0,1139SecurityDelay

Interpretasi :

- Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay sebesar

0,0125 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival Delay

sebesar 0,8552 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay sebesar

0,1185 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay sebesar

0,1844 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay sebesar

0,3590 dengan menganggap variabel lain konstan.

- Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay sebesar

0,1139 dengan menganggap variabel lain konstan.

Pada package Biglm, tidak terdapat output untuk uji overall sehingga untuk melakukan uji

overall harus menggunakan package lain.

Selain itu, untuk pengetahuan sejauh ini biglm tidak dapat menampilkan hasil uji normalitas

sehingga untuk uji normalitas residual tidak ditampilkan pada analisis.

DAFTAR PUSTAKA

‘biglm: bounded memory linear and generalized linear models’, <https://cran.r-

project.org/web/packages/biglm/index.html> [diakses 18 April 2017]

Giovanni Gonzalez, ‘Airline on-time statistics and delay causes‘, 2 Januari 2017,

<https://www.kaggle.com/giovamata/airlinedelaycauses> [diakses 28 April 2017]

United States Departement of Transportation, ‘Bureau of Transportation Statistics‘,Februari

2017, <https://www.transtats.bts.gov/Fields.asp?Table_ID=236> [diakses 30 April 2017]