Tugas Penelitian Pembelajaran Biologi Data Outlier

download Tugas Penelitian Pembelajaran Biologi Data Outlier

of 7

Transcript of Tugas Penelitian Pembelajaran Biologi Data Outlier

TUGAS PENELITIAN PEMBELAJARAN BIOLOGIOUTLIER DATA

Disusun Oleh :AFIF RISTI RACHMAHK4310002A

PENDIDIKAN BIOLOGIFAKULTAS KEGURUAN DAN ILMU PENDIDIKANUNIVERSITAS SEBELAS MARET2012OUTLIER DATAA. PengertianDibawah ini beberapa definisi outlier menurut beberapa pakar :1. Ferguson ( 1961)Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain.2. Barnett (1981)Outlier adalah pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data.3. R.K. Sembiring (1950)Outlier adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi.4. Weissberg (1985) Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat diagnosis yang dapat mengidentifikasi masalah outlier , salah satunya dengan menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa outlier. Sehingga dimaksud dengan data outlier adalah suatu data yang jauh berbeda dibandingkan terhadap keseluruhan data.B. Penyebab OutlierTerdapat beberapa hal yang mempengaruhi munculnya data outlier antara lain: Kesalahan dalam pemasukan data Kesalahan dalam pengambilan sample Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya. Keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal.

C. Dampak Outlier Dalam kaitannya dengan analisis regresi, outlier dapat menyebabkan hal-hal berikut :1. Residual yang besar dari model yang terbentuk 2. Varians pada data tersebut menjadi lebih besar Apabila dalam pengamatan terdapat outlier, dengan sendirinya akan menurunkan nilai koefisien regresi atau korelasinya. Hal ini diakibatkan karena ragam yang mengukur bervariasinya data akan membesar atau kisaran data menjadi lebih lebar. Dengan rendahnya nilai koefisien regresi dan korelasi dengan sendirinya dapat menurunkan kualitas dari garis regresi yang dihasilkan, sehingga perlu dicari model lain yang lebih cocok dengan kondisi yang diamati atau melakukan transpormasi terhadap data tersebut.3. Taksiran interval memiliki rentang yang lebar

D. Mendeteksi Outlier DataLangkah-langkah untuk menguji data apakah terdapat data outlier atau tidak, yakni dengan melakukan pengujian sebagai berikut:1) Buka data yang akan diuji apakah terdapat data outlier atau tidak2) Klik Analyze > Descriptive Statistics.. > Descriptive3) Pindahkan semua variabel yang terdapat di kotak sebelah kiri ke kotak sebelah kanan dengan mengklik tanda panah yang terdapat diantara kedua kotak tersebut.4) Beri tanda centang pada kotak Save standardized values as variable5) Klik OK.6) Secara otomatis akan muncul Zscore pada setiap variable di samping kolom variable terakhir pada data view.7) Dari table Z tersebut dapat diketahui mana yang data outlier dan mana yang data normal.Kehadiran data pencilan dapat membuat kualtas garis regresi menjadi rendah. Oleh karena itu kehadirannya perlu dideteksi . Data outlier dapat dideteksi dengan metode grafis, boxplot, atau leverege value, DfFITS, Cooks Distance, dan DfBETA(s). Data outlier dapat ditanggulangi dengan membuang data pengamatan yang dianggap sebagai data outlier. Adapun alternatif yang lain adalah dengan menggunakan metode Least Trimmed Square dalam penaksiran regresi, yang biasanya menggunakan OLSCara deteksi outlier data diantaranya dengan cara sebagai berikut.1. Metode GrafisUntuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan memplot antara data dengan observasi ke-i ( i = 1, 2, 3, ..., n ) seperti gambar berikut :Gambar 1. Contoh scatter-plot dari data dengan observasi ke-i

Dari contoh di atas terdapat salah satu data, yakni observasi ke-28 yangmengindikasikan merupakan pencilan.

Selain melalui scatter-plot di atas, jika sudah didapatkan model regresi maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan. Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan pencilan sangat bergantng pada judgement peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot tersebut.

2. BoxplotMetode ini merupakan yang paling umum yakni dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 Q1. Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.

Cara lain untuk mendeteksi adanya gejala pencilan dapat dilakukan dengan satu metode yang lebih sederhana, yaitu dengan menggunakan sebaran tengah dQ (deviasi kuartil) sebagai berikut :a. Tentukan nilai kuartil atas (QA) kuartil bawah (QB) dan hitung besarnya dQ = QA-QBb. Tentukan batas bawah pencilan BBP = QB-(1,5)dQ. Tentukan batas atas pencilan BAP = QA+(1,5)dQ.c. Untuk mendeteksi pencilan dilakukan dengan membandingkan nilai data : (jika data pengamatan lebih kecil dari BBP atau lebih besar dari BAP maka pengamatan tersebut adalah pencilan)d. Jadi BAP-BBP = 4dQ. e. Mengapa diambil 4 dQ? Hal ini dapat dijelaskan melalui bentuk sebaran ideal, yakni normal. Dalam keadaan ideal ini, pengambilan 4 dQ berarti bahwa tingkat keyakinan (probability) terjadinya outliers adalah sebesar 0,007 atau 0,7% atau kira-kira 1%.f. Jika cara kedua data pengamatan diganti dengan residual maka setelah mendapatkan residual dari semua pengamatan selanjutnya tentukan nilai kuartil atas QA dan kuartil bawah QB dari nilai mutlak residual atau |ei| serta tentukan penyimpangannya dQ = QA-QB.

3. Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s)Sebelum menjelaskan ketentuan untuk metode di atas, terlebih dahulu didefinisikan arti dari masing-masing metode : Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan. Cooks Distance; menampilkan nilai jarak Cook DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas.Gambar 3. Kriteria pengambilan keputusan adanya pencilan atau tidak

Ket. : n = Jumlah observasi (sampel); p = Jumlah parameterE. Upaya Mengatasi Outlier Dengan Transpormasi DataSeringkali data dari suatu pengamatan baik dari hasil suatu survei maupun penelitian berupa percobaan di laboratorium tidak menyebar menurut kaidah yang diinginkan. Kebanyakan variabel tidak memenuhi uji statistik parametrik karena tidak terdistribusi normal, keragamannya tidak homogen, atau keduanya. Mengatasi data outlier dilakukan dengan :a. Melakukan transformasi dataJika pencilan (outlier) ternyata ada dalam hasil pengamatan dan pencilan itu akan digunakan dalam analisis data maka perlu dicari cara untuk mengatasinya agar pencilan itu tidak mengganggu dan kita mendapat hasil yang lebih baik. Salah satu cara untuk mengatasi pencilan ditempuh dengan melalui tranformasi terhadap data hasil pengamatan sebagai berikut. Dalam hal demikan, peubah tak bebas Y dan atau peubah bebas X mungkin perlu ditransformasikan. Caranya adalah dengan :1. Mengamati stem-leaf (dahan-daun) sari numeric, dan box plot dari data X dan data Y2. Pilihlah transformasi yang sesuai untuk Y dan atau untuk X. Misalkan hasil transformasi dari Y dan dari X berturut-turut adalah Z dan W3. Tentukan regresi linear dari Z terhadap W4. Bila regresi dari Z terhadap W memberikan harga R2 yang sudah memuaskan, maka proses pemodelan selesai. Bila belum, maka ulangi langkah 2 dan 3.Seperti yang telah diuraikan di atas bentuk transformasi yang dapat dilakukan diantaranya adalah : bentuk logaritma natural, akar kuadrat, inverse, atau bentuk yang lain tergantung dari bentuk kurva normalnya.

b. Membuang data yang outlierBila ternyata hasil identifikasi menunjukkan adanya pencilan, maka yang dapat dilakukan adalah membuang/menghilangakan data pengamatan tersebut, jika tidak memberikan akan pengaruh setelah dilakukan pengujian. Karena bagaimanapun juga keberadaan data pencilan mengganggu proses analisis. Untuk menanggulanginya adanya data outlier maka yang kita lakukan adalah membuang data outlier tersebut dan melakukan pengujian ulang. Sedangkan dalam upaya mengantisipasi kemungkinan data pencilan yang disebabkan kekeliruan teknis, maka tahap persiapan data merupakan hal sangat perlu diperhatikan.

c. Jika distribusi benar-benar tidak normal maka menggunakan statistik non parametrik.