Analisis Data Meet 3

20
Ringkasan Numerik Analisis Data Eksploratif Novi Hidayat Pusponegoro

description

Statistik

Transcript of Analisis Data Meet 3

  • Ringkasan Numerik

    Analisis Data Eksploratif

    Novi Hidayat Pusponegoro

  • Data Kepegawaian

    Deskripsi nilai data:

    Usia, Gaji: Kuantitatif

    JK, Jenis Pekerjaan: Kategorik

    Nama Usia JK Gaji (Juta Rp) Tipe Pekerjaan

    Nasya 39 P 6,210 Managemen

    Ilham 27 L 4,735 Tekhnik

    Malika 20 P 3,825 Tekhnik

    Dedi 48 L 7,760 Managemen

  • Analisis Data Eksploratif Metode statistik yang dapat digunakan untuk memeriksa data sehingga

    peneliti akan mengetahui kondisi data

    Strategi dasar

    Gambar:

    Histogram Stemplots Plot data berdasar waktu, dll

    Ringkasan numerik :

    Mean Median Kuartil Range Standard deviation, dll

    Beda histogram

    dan Stem-Leaf

    diagram?

    Histogram untuk data berukuran besar,

    Stem-Leaf untuk data berukuran kecil

  • Ringkasan Numerik untuk Data

    Kuantitatif Untuk mengetahui kondisi pemusatan dan persebaran nilai data

    Pemusatan Mean

    Median

    Modus

    Persebaran Range

    Inter-quartile range

    Standard deviation

    5 ringkasan nilai yang biasanya digunakan adalah: Nilai minimum, Kuartil I (Q1), Median, Kuartil III (Q3), dan nilai maksimum

  • Mean

    Merupakan nilai rata-rata hitung dari keseluruhan nilai data yang

    dimiliki

    Notasi:

    Mean populasi :

    Mean sampel:

    Contoh:

    Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik

    untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai rata-rata hitungnya?

  • Median

    Merupakan nilai yang berada tepat di tengah suatu distribusi nilai data

    Sehingga separo dari nilai data berada di bawah nilai median dan

    sisanya berada dia atas nilai median

    Merupakan persentil kelimapuluh (P50) atau kuartil II (Q2)

    Untuk menghitung median

    Urutkan pengamatan

    Jika jumlah observasi ganjil, maka nilai median adalah nilai yang

    berada tepat di tengah

    Jika jumlah observasi genap, maka nilai median adalah rata-rata

    nilai dua pengamatan yang berada di tengah

  • Contoh Median

    Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai mediannya?

  • Mean vs Median Nilai mean dan median sama, jika distribusi nilai data berupa kurva yang

    setangkup/simetris

    Mean dan median berbeda, jika distribusi nilai data menceng

    Menceng kanan : mean lebih besar dari median

    Menceng kiri: mean lebih kecil dari median

  • Pendapatan per tahun 6 orang di suatu kota kecil adalah:

    $25,000 $27,000 $29,000

    $35,000 $37,000 $38,000

    Rata-ratanya adalah $31,830 dan mediannya $32,000

    Mean vs Median (2)

    Bill Gates pindah, dengan pendapatan per tahunnya $40,000,000

    Rata-ratanya menjadi $5,741,571 dan mediannya tetap $35,000

    Mean ditarik oleh nilai ekstrim, namun tidak dengan

    median. Median lebih baik digunakan sebagai ukuran

    pusat data jika nilai datanya bervariasi

  • Mean vs Median (3)

    Data Median Mean

    3, 7, 9, 11, 22 9 10.4

    Data Median Mean

    3, 7, 9, 11, 22 9 10.4

    2, 6, 7, 12, 13, 16, 17, 20 12.5 11.625

    Data Median Mean

    3, 7, 9, 11, 22 9 10.4

    2, 6, 7, 12, 13, 16, 17, 20 12.5 11.625

    2, 6, 7, 12, 13, 16, 17, 200 12.5 34.125

  • Is a central measure enough?

    Penggunaan ukuran pemusatan saja dapat menyesatkan.

    Penjelasan numerik berguna untuk menjelaskan distribusi baik dari ukuran pemusatan dan ukuran penyebaran.

  • Ukuran Penyebaran Data

    Jarak /range (R) :

    R= Max-Min

    Jarak antar kuartil/Inter-quartile range:

    IQR=Q3-Q1

    Standard Deviation (SD):

    rata-rata jarak nilai data terhadap mean

    Manakah yang harus digunakan?

  • Standard Deviation

    1

    N

    x i

    2

    i1

    n

    Manakah data set yang memiliki SD yang lebih kecil?

    a) 50, 40, 60, 30, 70, 25, 75

    b) 50, 40, 60, 30, 70, 25, 75, 50, 50, 50

  • Properties dari SD

    SD 0. (Kapankah SD = 0)?

    Memiliki unit pengukuran yang sama dengan data observasi

    Dipengaruhi oleh nilai ekstrim

  • Mean dan SD

    Jika ditambahkan nilai 5 pada masing-masing nilai data diatas

    Bagaimanakah niali mean dan SD nya?

    1

    N

    x i

    2

    i1

    n

    1

    Nx i

    i1

    N

  • Kuartil (Q)

    Kuartil membagi data (n) yang berurutan atas 4 bagian yang sama banyak.

    ------|------|-------|-------

    Q1 Q2 Q3

    Q1 = kuartil bawah (1/4n )

    Q2 = kuartil tengah/median (1/2n)

    Q3 = kuartil atas (1/4n )

    Untuk data yang tidak dikelompokkan terlebih dahulu dicari mediannya,

    kemudian kuartil bawah dan kuartil atas.

    Untuk data yang dikelompokkan rumusan kuartil identik dengan rumusan

    mencari median.

    Jarak antar kuartil atau IQR (Inter Quartile Range) merupak selisih antara Q3

    dan Q1.

  • Hinges

    Arti; Engsel

    Jenis:

    Lower-Hinges (H1), merupakan median dari nilai minimum data s.d nilai median (identik

    dengan Q1)

    Upper-Hinges (H2), merupakan median dari nilai median s.d nilai maksimum data ((identik

    dengan Q3)

    *Note: Kecuali untuk data berjumlah genap, dimana median akan berada diantara 2 nilai

    Contoh:

    Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai hinges-nya?

  • Nilai Ekstrim

    Outliers adalah titik data merepotkan, dan penting untuk dapat

    mengidentifikasi mereka.

    Kandidatnya adalah nilai minimum dan maksimum

    IQR digunakan sebagai bagian dari aturan praktis untuk

    mengidentifikasi outlier.

    Nilai data dianggap outlier rendah: setiap nilai Q3 + 1,5IQR

  • Ilustrasi 5 number summaries

    Banyak data Nilai Median

    Notasi Median pada

    nilai ke7

    Notasi Hinges pada

    nilai ke4

    Notasi nilai ekstrim

    Nilai Hinges

  • Resume

    Memilih Ringkasan nilai yang tepat

    Mean dan Standar Deviasi, hanya untuk distribusi cukup

    simetris yang tidak memiliki outlier

    Median dan IQR biasanya lebih baik daripada mean dan standar

    deviasi untuk menggambarkan distribusi miring atau distribusi

    dengan outlier.

    CATATAN: ringkasan numerik tidak sepenuhnya

    menggambarkan bentuk distribusi.

    ALWAYS PLOT YOUR DATA FIRST TO GET A FEEL OF

    YOUR DATA!