TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi...

of 15 /15
TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan Menggunakan Package Biglm pada Software R Yogyakarta, 8 Mei 2017 Kelompok 7 Regina Husnun Nazila 13/349496/PA/15510 Andrianto Maulana 13/350038/PA/15608 Shufi Atiqoh Sa'diah 14/363731/PA/15855 Rully Fitria Nurmalita Sari 14/364189/PA/15941 PROGRAM STUDI STATISTIKA DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2017

Embed Size (px)

Transcript of TUGAS KELOMPOK PENGANTAR BIG DATA Analisis Regresi...

  • TUGAS KELOMPOK

    PENGANTAR BIG DATA

    Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan

    Menggunakan Package Biglm pada Software R

    Yogyakarta, 8 Mei 2017

    Kelompok 7

    Regina Husnun Nazila 13/349496/PA/15510

    Andrianto Maulana 13/350038/PA/15608

    Shufi Atiqoh Sa'diah 14/363731/PA/15855

    Rully Fitria Nurmalita Sari 14/364189/PA/15941

    PROGRAM STUDI STATISTIKA

    DEPARTEMEN MATEMATIKA

    FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

    UNIVERSITAS GADJAH MADA

    2017

    http://forlap.dikti.go.id/mahasiswa/detail/QzlBNEU5M0UtRTQ3Ri00MDQ2LTgwMUQtMDdENEU4NkUzRjk3/0

  • BAB I

    LATAR BELAKANG

    Pesawat merupakan transportasi udara yang memberikan solusi bagi seseorang yang

    ingin berpergian jauh seperti antar negara atau antar benua dengan waktu perjalanan yang

    paling singkat dibandingkan dengan transportasi lainnya. Perjalanan yang dilakukan memiliki

    banyak tujuan baik tujuan bisnis, pariwisata, maupun akademis. Pengguna pesawat komersial

    semakin lama semakin diminati, karena pesawat dirasa sebagai transportasi yang sesuai dengan

    kebutuhan dan memberikan kenyamanan tersendiri.

    Namun, tak jarang juga pesawat-pesawat komersial yang ada mengalami delay.

    Keterlambatan pesawat (delay) tentunya sangat merugikan baik dari sisi konsumen maupun

    maskapai penerbangan. Bagi konsumen (penumpang) akan kehilangan waktu yang

    menyebabkan terganggunya jadwal kegiatan berikutnya. Lalu kerugian bagi maskapai

    penerbangan adalah buruknya citra perusahaan karena membuat ketidaknyamanan konsumen

    dengan pelayanan yang ada dan tambahan biaya operasional sebagai ganti rugi yang harus

    dikeluarkan sesuai dengan peraturan. Oleh karena itu, transportasi satu ini bisa menurun

    ratingnya hanya karena adanya delay tersebut.

    Beberapa faktor yang menyebabkan delay secara garis besar yakni manajemen airline,

    faktor teknis operasional, faktor cuaca, dan faktor lain seperti kerusuhan/demontrasi di wilayah

    bandara. Pada kasus ini, diambil variabel Air Time, Departue Delay, Carrier Delay, Weather

    Delay, NAS Delay, dan Security Delay yang dianggap sebagai faktor penyebab keterlambatan

    pesawat yang diukur dengan variabel ArrDelay. Diharapkan setelah dilakukannya analisis

    regresi ini, dapat diketahui faktor apa saja yang ikut andil dalam keterlambatan dan faktor mana

    yang mempunyai kontribusi paling besar sehingga kedepannya keterlambatan dapat terus

    dihindari dan diminimalisir. Oleh karena itu, kami mengambil judul kasus penelitian ini yaitu

    Analisis Regresi Linear pada Data Keterlambatan Penerbangan Tahun 2008 dengan

    Menggunakan Package Biglm pada Software R.

  • BAB II

    ANALISIS BIG DATA

    2.1 Data yang Digunakan

    Delayed Flight (Penundaan Penerbangan)

    Sumber : kaggle.com

    Deskripsi :

    Biro Statistik Transportasi (BTS) Departemen Perhubungan melacak kinerja penerbangan

    domestik yang dioperasikan oleh maskapai penerbangan besar. Ringkasan informasi

    tentang jumlah penerbangan tepat waktu, tertunda, dibatalkan, dan dialihkan muncul dalam

    Laporan Konsumen Perjalanan Udara bulanan DOT yang diterbitkan sekitar 30 hari setelah

    akhir bulan, dan juga tabel ringkasan. BTS mulai mengumpulkan rincian penyebab

    penundaan penerbangan pada bulan Juni 2003. Ringkasan statistik dan data mentah tersedia

    untuk umum pada saat Laporan Konsumen Perjalanan Udara dilepaskan.

    Versi dataset ini disusun dari Statistical Computing Statistical Graphics 2009 Data Expo.

    Deskripsi variabel yang ada dari dataset :

    - Name: Description

    - Year: 1987-2008

    - Month: 1-12

    - DayofMonth: 1-31

    - DayOfWeek: 1 (Monday) - 7

    (Sunday)

    - DepTime: actual departure time

    (local, hhmm)

    - CRSDepTime: scheduled departure

    time (local, hhmm)

    - ArrTime: actual arrival time (local,

    hhmm)

    - CRSArrTime: scheduled arrival

    time (local, hhmm)

    - UniqueCarrier: unique carrier code

    - FlightNum: flight number

    - TailNum: plane tail number

    - ActualElapsedTime: in minutes

    - CRSElapsedTime: in minutes

    - AirTime: in minutes

    - ArrDelay: arrival delay, in minutes

    - DepDelay: departure delay, in

    minutes

    - Origin: origin IATA airport code

    - Dest: destination IATA airport code

    - Distance: in miles

    - TaxiIn: taxi in time, in minutes

    - TaxiOut: taxi out time in minutes

    - Cancelled: was the flight cancelled?

    - CancellationCode: reason for

    cancellation (A = carrier, B =

    weather, C = NAS, D = security)

    - Diverted: 1 = yes, 0 = no

    - CarrierDelay: in minutes

    - WeatherDelay: in minutes

    - NASDelay: in minutes

    - SecurityDelay: in minutes

    - LateAircraftDelay: in minutes

    2.2 Tujuan Analisis Data

    Tujuan analisis big data kali ini adalah untuk proses meneliti data agar dapat

    mengetahui pola tersembunyi, korelasi yang belum diketahui, dan informasi berguna

    lainnya.

    Untuk data Delayed Flight kali ini dilakukan analisis data dengan metode regresi berganda.

  • Ada beberapa tujuan penggunaan analisis regresi, antara lain:

    1. Membuat estimasi rata-rata dan nilai variabel terikat dengan didasari pada nilai

    variabel bebas.

    2. Menguji hipotesis karakteristik dependensi.

    3. Untuk meramalkan nilai rata-rata variabel bebas dengan didasarkan pada nilai

    variabel bebas diluar jangkauan sample.

    2.3 Metode yang Digunakan

    Analisis regresi adalah persamaan matematik yang menyatakan hubungan satu arah

    yang fungsional antara variabel-variabel. Analisis regresi merupakan salah satu analisis

    yang digunakan untuk mengukur besar pengaruhnya variabel bebas terhadap variabel

    terikat dan memprediksi variabel terikat dengan menggunakan variabel bebas. Analisis

    regresi berganda sebenarnya sama dengan analisis regresi linear sederhana, hanya variabel

    bebasnya lebih dari satu buah. Persamaan umumnya adalah:

    = + 11 + 22 ++

    Dengan Y adalah variabel bebas, dan X adalah variabel-variabel bebas, a adalah

    konstanta (intersept) dan b adalah koefisien regresi pada masing-masing variabel bebas.

    Sehingga dapat didefinisikan variabel terikat yang digunakan pada kasus data Delayed

    Flight kali ini adalah variabel Arrival Delay dengan variabel bebasnya adalah variabel Air

    Time, Departure Delay, Carrier Delay, Weather Delay, NAS Delay, dan Security Delay.

    Asumsi yang dibutuhkan dalam analisis regresi:

    Penggunaan regresi linear didasarkan pada beberapa asumsi diantaranya yaitu:

    Model regresi harus linier dalam parameter

    Variabel bebas tidak berkorelasi dengan disturbance term (Error)

    Nilai disturbance term sebesar 0 atau dengan simbol sebagai berikut:

    (E(U/X))= 0

    Varian untuk masing-masing error term (kesalahan) konstan

    Tidak terjadi otokorelasi

    Model regresi dispesifikasi secara benar. Tidak terdapat bias spesifikasi dalam

    model yang digunakan dalam analisis empiris

    Jika variabel bebas lebih dari satu, maka antara variabel bebas (explanatory)

    tidak ada hubungan linier yang nyata

    Syarat-Syarat

    Model kelayakan regresi linear didasarkan pada hal-hal sebagai berikut:

    a. Model regresi dikatakan layak jika angka signifikansi pada ANOVA sebesar <

    0.05

    b. Predictor yang digunakan sebagai variabel bebas harus layak. Kelayakan ini

    diketahui jika angka Standard Error of Estimate < Standard Deviation

    c. Koefesien regresi harus signifikan. Pengujian dilakukan dengan uji t. Koefesien

    regresi signifikan jika t hitung > t table (nilai kritis). Dapat diganti pula dengan

    menggunakan nilai signifikansi (sig) dengan ketentuan sebagai berikut:

  • Jika sig < 0,05; koefesien regresi signifikan

    Jika sig > 0,05; koefesien regresi tidak signifikan

    d. Tidak boleh terjadi multikolinieritas, artinya tidak boleh terjadi korelasi antar

    variabel bebas yang sangat tinggi atau terlalu rendah. Syarat ini hanya berlaku

    untuk regresi linier berganda dengan variabel bebas lebih dari satu. Terjadi

    multikolinieritas jika koefesien korelasi antara variable bebas > 0,7 atau < - 7

    e. Tidak terjadi autokorelasi jika: - 2 DW 2

    f. Keselerasan model regresi dapat diterangkan dengan menggunakan nilai r2 semakin

    besar nilai tersebut maka model semakin baik. Jika nilai mendekati 1 maka model

    regresi semakin baik. Nilai r2 mempunyai karakteristik diantaranya: 1) selalu

    positif, 2) Nilai r2 maksimal sebesar 1. Jika Nilai r2

    sebesar 1 akan mempunyai arti

    kesesuaian yang sempurna. Maksudnya seluruh variasi dalam variabel tergantung

    (variabel Y) dapat diterangkan oleh model regresi. Sebaliknya jika r2 sama dengan

    0, maka tidak ada hubungan linier antara variabel bebas (variabel X) dan variabel

    tergantung (variabel Y).

    g. Terdapat hubungan linier antara variabel bebas (X) dan variabel tergantung (Y)

    h. Data harus berdistribusi normal

    i. Data berskala interval atau rasio

    j. Terdapat hubungan dependensi, artinya satu variabel merupakan variabel

    tergantung yang tergantung pada variabel (variabel) lainnya.

    Uji Hipotesis

    Pengujian hipotesis dapat didasarkan dengan menggunakan dua hal, yaitu: tingkat

    signifikansi atau probabilitas () dan tingkat kepercayaan atau confidence level. Didasarkan

    tingkat signifikansi pada umumnya orang menggunakan 0,05. Kisaran tingkat signifikansi

    mulai dari 0,01 sampai dengan 0,1. Yang dimaksud dengan tingkat signifikansi adalah

    probabilitas melakukan kesalahan tipe I, yaitu kesalahan menolak hipotesis ketika hipotesis

    tersebut benar. Tingkat kepercayaan pada umumnya ialah sebesar 95%, yang dimaksud

    dengan tingkat kepercayaan ialah tingkat dimana sebesar 95% nilai sample akan mewakili

    nilai populasi dimana sampel berasal. Untuk melakukan uji hipotesis diperlukan hipotesis

    riset. Hipotesis riset merupakan dugaan mengenai sifat fakta-fakta yang

    memungkinkan. Hipotesis ini dianggap sebagai titik awal penyelidikan. Sebagai contoh,

    peneliti berpendapat bahwa promosi secara besar-besar-an berpengaruh terhadap

    penjualan. Sedang dalam statistik, terdapat dua hipotesis, yaitu hipotesis nol (H0) dan

    hipotesis alternatif (H1). Hipotesis nol dalam statsitik merupakan hipotesis yang sebenarnya

    kita uji. Hipotesis ini merupakan pernyataan peneliti yang mengatakan bahwa variabel

    bebas tidak mempunyai pengaruh terhadap variabel tergantung (dalam regresi) dan tidak

    ada hubungan antara dua variabel (dalam korelasi). Dalam hipotesis nol kita berasumsi

    bahwa sampel sampel berasal dari populasi yang sama. Sedang hipotesis alternatif

    merupakan hipotesis yang memberikan alternatif berbeda dengan hipotesis nol-

    nya. Dengan demikian dalam kaitannya dengan hipotesis nol di

    atas maka peneliti mengatakan bahwa variabel bebas mempunyai pengaruh terhadap

    variabel tergantung (dalam regresi) dan ada hubungan antara dua variabel (dalam korelasi).

  • Karakteristik Model yang Baik

    Model dikatakan baik menurut Gujarati (2009), jika memenuhi beberapa kriteria seperti

    di bawah ini:

    Parsimoni: Suatu model tidak akan pernah dapat secara sempurna menangkap realitas;

    akibatnya kita akan melakukan sedikit abstraksi ataupun penyederhanaan dalam

    pembuatan model.

    Mempunyai Identifikasi Tinggi: Artinya dengan data yang ada, parameter-parameter

    yang diestimasi harus mempunyai nilai-nilai yang unik atau dengan kata lain,

    hanya akan ada satu parameter saja.

    Keselarasan (Goodness of Fit): Tujuan analisis regresi ialah menerangkan sebanyak

    mungkin variasi dalam variabel tergantung dengan menggunakan variabel bebas

    dalam model. Oleh karena itu, suatu model dikatakan baik jika eksplanasi diukur

    dengan menggunakan nilai adjusted r2 yang setinggi mungkin (mendekati 1).

    Konsitensi Dalam Teori: Model sebaiknya segaris dengan teori. Pengukuran tanpa

    teori akan dapat menyesatkan hasilnya.

    Kekuatan Prediksi: Validitas suatu model berbanding lurus dengan kemampuan

    prediksi model tersebut. Oleh karena itu, pilihlah suatu model yang prediksi teoritisnya

    berasal dari pengalaman empiris.

    2.4 Hasil

    1. Menginput Data

    Jumlah data :

    3.333 + 1.933.425 = 1.936.758

    Menunjukkan hasil yang sama, yaitu jumlah data ada sebanyak 1.936.758

    2. Prepocessing Data Menghapus Missing Value

  • Didefinisikan :

    Data : data awal

    Data1 : data setelah dihapus missing value

    Jumlah missing value 1.936.758 - 1.247.488 = 689.270

    Uji Asumsi

    Linearitas

    Dengan syntax diatas, diperoleh output berikut:

    Interpretasi:

    Dari grafik di atas kita bisa mengetahui hubungan antara variabel dependen

    dengan masing-masing variabel independen:

  • - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen AirTime, karena grafik condong ke kanan dan naik. Variabel

    independen AirTime berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai AirTime, maka nilai ArrDelay semakin

    besar.

    - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen DepDelay, karena grafik condong ke kanan dan naik. Variabel

    independen DepDelay berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai DepDelay, maka nilai ArrDelay

    semakin besar.

    - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen CarrierDelay, karena grafik condong ke kanan dan naik. Variabel

    independen CarrierDelay berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai Carrier Delay, maka nilai ArrDelay

    semakin besar.

    - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen WeatherDelay, karena grafik condong ke kanan dan naik. Variabel

    independen WeatherDelay berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai WeatherDelay, maka nilai ArrDelay

    semakin besar.

    - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen NASDelay, karena grafik condong ke kanan dan naik. Variabel

    independen NASDelay berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai NASDelay, maka nilai ArrDelay

    semakin besar.

    - Variabel dependen ArrDelay memiliki hubungan linear positif dengan variabel

    independen SecurityDelay, karena grafik condong ke kanan dan naik. Variabel

    independen SecurityDelay berpengaruh secara searah terhadap variabel dependen

    ArrDelay yang artinya, semakin besar nilai Security Delay, maka nilai ArrDelay

    semakin besar.

    3. Melakukan Analisis Regresi

    Deskripsi Variabel Dependen

    Arrival Delay

    Arrival delay atau keterlambatan kedatangan.

    Deskripsi Variabel Independen

    Carrier Delay

    Carrier delay atau keterlambatan operator merupakan keterlambatan yang

    berada dalam kendali pengangkut udara. Contoh kejadian yang dapat

    menentukan penundaan operator adalah: pembersihan pesawat terbang,

    kerusakan pesawat, menunggu kedatangan penumpang atau kru, bagasi,

    penyerangan burung, pemuatan kargo, katering, komputer, peralatan

    pengangkut barang, legalitas awak kapal (petugas pilot atau petugas),

    kerusakan akibat barang berbahaya, inspeksi teknik, pengisian bahan bakar,

  • penanganan penumpang cacat, kru terlambat, perawatan toilet, perawatan

    mesin, pengawasan, perawatan air minum, pengusiran penumpang yang tidak

    dapat diatur, penyimpanan barang bawaan, serta penundaan karena berat dan

    keseimbangan.

    Late Arrival Delay

    Late arrival delay atau penundaan keterlambatan kedatangan di bandara karena

    terlambatnya kedatangan pesawat yang sama di bandara sebelumnya. Efek

    penundaan di bandara sebelumnya disebut sebagai delay propagation.

    NAS Delay

    NAS delay atau keterlambatan NAS merupakan keterlambatan yang berada

    dalam kendali National Airspace System (NAS). NAS delay meliputi: kondisi

    cuaca yang tidak ekstrem, operasi bandara, volume lalu lintas yang padat,

    kontrol lalu lintas udara, dan lain-lain. Penundaan yang terjadi setelah Actual

    Gate Out biasanya disebabkan oleh NAS dan juga dilaporkan melalui

    OPSNET.

    Security Delay

    Security delay keterlambatan keamanan disebabkan oleh evakuasi terminal,

    naik pesawat karena pelanggaran keamanan, peralatan screening yang tidak

    beroperasi, atau jalur panjang lebih dari 29 menit di area penyaringan.

    Weather Delay

    Weather delay atau keterlambatan cuaca disebabkan oleh kondisi cuaca yang

    ekstrem atau berbahaya yang diperkirakan pada titik keberangkatan, sedang

    dalam perjalanan, atau pada titik kedatangan.

    Departure Delay

    Departure delay atau keterlambatan keberangkatan.

    Air Time

    Air time adalah durasi waktu penerbangan pesawat.

    Uji Overall

    Hipotesis :

    0 : model tidak layak digunakan

    1 : model layak digunakan

    Tingkat Signifikansi :

    = 0,1

    Statistik Uji :

    Package yang digunakan untuk melakukan uji overall disini yaitu menggunakan

    bantuan lm. Hal tersebut menandakan dengan jumlah data 1 juta hingga 7 juta baris,

    lm (bukan package big data) masih dapat melakukan proses analisis. Alasan

    mengapa dalam melakukan uji overall ini tidak menggunakan biglm yaitu karena

    dalam output biglm hanya menampilkan dari uji parsial namun tidak menampilkan

    pula statistik uji overall.

  • Daerah Kritik :

    0 ditolak jika p-value <

    Diperoleh:

    P-value <

    < 2,26e-16 < 0,1

    Kesimpulan :

    Karena P-value < 2,26e-16 < = 0,1 maka H0 ditolak. Sehingga dapat

    disimpulkan bahwa model layak digunakan.

    Interpretasi:

    Uji overall digunakan untuk menguji apakah model analisis regresi yang ada

    layak digunakan atau tidak. Pertama-tama kita mengidentifikasikan H0 dan H1 terlebih

    dahulu. H0 sebagai model regresi tidak layak digunakan dan H1 sebagai model regresi

    layak digunakan. Dalam melakukan uji overall ini kita mempunyai tingkat kesalahan

    sebesar 10% atau 0,1 dikarenakan pada output diatas digunakan tingkat signifikansi

    dengan tanda . sehingga yang digunakan adalah 0,1. Dengan sebesar 0,1, diperoleh

    P-value sebesar kurang dari 2,26e-16.

    P-value yang telah didapat tersebut nantinya digunakan untuk menentukan

    apakah akan menggunakan H0 atau H1 sebagai kesimpulan. Jika P-value yang kita

    peroleh kurang dari (0,1) maka H0 ditolak, sehingga kita akan menggunakan H1, begitu

    pula sebaliknya.

    Karena P-value < 2,26e-16 kurang dari = 0,1, maka H0 ditolak. Sehingga untuk

    kesimpulannya kita akan menggunakan H1. Jadi, dapat disimpulkan bahwa model

    regresi layak digunakan.

    Uji Parsial

    Hipotesis :

    - Konstanta

  • H0 : 0 = 0

    (konstanta tidak signifikan terhadap model)

    H1 : 0 0

    (konstanta signifikan terhadap model) - Variabel Independen

    H0 : i = 0

    i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,

    SecurityDelay

    (variabel independen tidak signifikan terhadap model)

    H1 : i 0

    i=AirTime, DepDelay, CarrierDelay, WeatherDelay, NASDelay,

    SecurityDelay

    (variabel independen signifikan terhadap model)

    Tingkat Signifikansi :

    = 0,05

    Daerah Kritik :

    0 ditolak jika P-value <

    Statistik Uji :

    Variabel P-value Keterangan Kesimpulan

    Konstan 0,000 0 ditolak Konstan signifikan

    AirTime 0,000 0 ditolak AirTime signifikan

    DepDelay 0,000 0 ditolak DepDelay signifikan

    CarrierDelay 0,000 0 ditolak CarrierDelay signifikan

    WeatherDelay 0,000 0 ditolak WeatherDelay signifikan

    NASDelay 0,000 0 ditolak NASDelay signifikan

    SecurityDelay 0,000 0 ditolak SecurityDelay signifikan

    Interpretasi:

    Uji parsial adalah uji yang dilakukan untuk mengetahui apakah konstan maupun

    variabel independen signifikan terhadap model atau tidak. Dengan tingkat signifikansi

    = 0,05 diperoleh hasil sebagai berikut :

    Untuk Konstan

    Ingin diketahui apakah konstan layak masuk model atau tidak. Pada tabel sig. dapat

    dilihat nilai P-value = 0,000. Karena P-value=0,000 < =0,05 maka H0 ditolak.

    Sehingga konstan signifikan terhadap model.

  • Untuk Koefisien Variabel

    Ingin diketahui apakah variabel independen yang ada signifikan terhadap model

    atau tidak. Kemudian dilakukan uji parsial untuk menarik kesimpulan. Dapat dilihat

    dari kesimpulan pada tabel di atas bahwa seluruh variabel independen layak masuk

    model. Sehingga tidak ada variabel yang harus dikeluarkan.

    Dapat dibandingkan antara melakukan regresi dengan package biglm (ditujukan untuk

    kasus big data) dengan lm (ditujukan bukan untuk kasus big data).

    1. Dengan package biglm

    2. Dengan package lm

    Hasil Perbandingan :

    Biglm Lm

    Tidak dapat menampilkan statistik uji

    overall

    Statistik uji overall dapat tampil bersama uji

    parsial

    Menghasilkan nilai estimate (koefisien

    parameter) yang nyaris sama dengan lm

    Menghasilkan nilai estimate yang nyaris

    sama dengan biglm

    Terlihat jumlah ukuran data yang dianalisis Tidak memperlihat jumlah ukuran data yang

    dianalisis

    Tidak menampilkan karakteristik residual

    dari model yang dihasilkan

    Menampilkan karakteristik residual dari

    model yang dihasilkan

  • Tidak menampilkan R2 dan Adjusted R2 Menampilkan R2 dan Adjusted R2

    Model :

    ArrDelay = 2.5485 + 0.0125AirTime + 0.8552DepDelay + 0.1185CarrierDelay +

    0.1844WeatherDelay + 0.3590NASDelay + 0.1139SecurityDelay

    Interpretasi :

    - Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay

    sebesar 0,0125 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival

    Delay sebesar 0,8552 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay

    sebesar 0,1185 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay

    sebesar 0,1844 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay

    sebesar 0,3590 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay

    sebesar 0,1139 dengan menganggap variabel lain konstan.

  • BAB III

    KESIMPULAN

    Setelah dilakukan analisis regresi linear untuk data Keterlambatan Penerbangan tahun

    2008 dengan menggunakan package Biglm pada software R, diperoleh model terbaik berikut:

    ArrDelay = 2,5485 + 0,0125AirTime + 0,8552DepDelay + 0,1185CarrierDelay +

    0,1844WeatherDelay + 0,3590NASDelay + 0,1139SecurityDelay

    Interpretasi :

    - Setiap kenaikan satu satuan Air Time mengakibatkan kenaikan Arrival Delay sebesar

    0,0125 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Departure Delay mengakibatkan kenaikan Arrival Delay

    sebesar 0,8552 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Carrier Delay mengakibatkan kenaikan Arrival Delay sebesar

    0,1185 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Weather Delay mengakibatkan kenaikan Arrival Delay sebesar

    0,1844 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan NAS Delay mengakibatkan kenaikan Arrival Delay sebesar

    0,3590 dengan menganggap variabel lain konstan.

    - Setiap kenaikan satu satuan Security Delay mengakibatkan kenaikan Arrival Delay sebesar

    0,1139 dengan menganggap variabel lain konstan.

    Pada package Biglm, tidak terdapat output untuk uji overall sehingga untuk melakukan uji

    overall harus menggunakan package lain.

    Selain itu, untuk pengetahuan sejauh ini biglm tidak dapat menampilkan hasil uji normalitas

    sehingga untuk uji normalitas residual tidak ditampilkan pada analisis.

  • DAFTAR PUSTAKA

    biglm: bounded memory linear and generalized linear models, [diakses 18 April 2017]

    Giovanni Gonzalez, Airline on-time statistics and delay causes, 2 Januari 2017,

    [diakses 28 April 2017]

    United States Departement of Transportation, Bureau of Transportation Statistics,Februari

    2017, [diakses 30 April 2017]

    https://cran.r-project.org/web/packages/biglm/index.htmlhttps://cran.r-project.org/web/packages/biglm/index.htmlhttps://cran.r-project.org/web/packages/biglm/index.htmlhttps://www.kaggle.com/giovamata/airlinedelaycauseshttps://www.transtats.bts.gov/Fields.asp?Table_ID=236