STATISTIK DESKRIPTIF

Post on 19-Jul-2015

183 views 6 download

Transcript of STATISTIK DESKRIPTIF

Dr. Auditya Purwandini Sutarto

TujuanMeringkas Data

Tipe Data

StatistikDeskriptif

Penyajian Data Secara Grafis

41 39 88 81 60 8 22 35 95 2 49 72 10 84 7 76 51 80 8 15 5 33 29 75 1 38

6 49 60 63 64 43 93 42 71 32 33 91 2 43 51 90 69 75 6 23 14 2 78 81 39

39 13 67 42 51 36 63 29 41 82 33 96 57 83 94 16 77 76 60 74 13 82 16 37

52 43 81 27 93 81 28 39 53 45 86 15 23 32 43 46 29 97 98 24 47 27 40 41

35 27 47 36 95 37 87 8 88 79 79 14 47 97 56 78 13 47 2 0 94 53 31 4 57

84 16 6 24 76 23 52 60 57 24 25 59 20 65 66 36 88 63 48 16 91 24 15 33

99 79 95 31 75 17 60 68 20 28 21 74 73 42 35 62 56 61 67 80 18 73 12 51

32 35 80 65 16 20 78 46 43 96 81 25 31 3 9 5 24 2 67 20 76 36 3 88 74

51 8 18 2 99 68 88 80 55 45 18 59 99 50 13 18 63 39 22 98 48 45 55 85

59 58 6 33 4 11 33 82 27 89 80 76 7 40 45 68 19 54 91 4 25 70 96 58 11

77 38 26 62 66 33 26 90 5 80 97 2 81 91 32 41 74 76 99 46 65 64 84 47 6

11 97 33 11 92 43 83 49 5 33 8 40 30 76 60 80 51 65 18 79 26 68 29 35

23 36 15 31 77 74 31 64 30 53 90 65 58 45 13 61 34 80 32 40 6 56 60 12

51 46 94 6 78 81 4 70 59 61 80 70 94 90 8 27 96 48 27 87 53 92 52 18 85

44 31 28 48 1 24 33 38 57 62 50 26 26 22 50 65 80 73 86 3 100 45 90 50

Meringkas data

Menerapkan konsep yang dapat dipahami(menunjukkan ada suatu pola dasar tertentu)

Mengkomunikasikan pola yang pokok/yang mendasari

Menggeneralisir hasil dari sampel pada populasi

Meringkas Data Harga rata-rata PC merek Gateway $2,489

Range harga $999 hingga $4,678

Modus $2,200

Menunjukkan pola dasar dalam data 30% pembelian pada harga ≤ $1,500

50% pembelian terjadi pada harga $1,500 - $2,500

20% pembelian pada harga > $2,500

Mengintepretasikan pola tersebut Mayoritas pembeli Gateway membeli dengan

harga kurang ≤ $2,500

Menggeneralisir pola tersebut padapopulasi 95% dari seluruh pembeli Gateway membayar

membeli PC dengan harga antara $2,000 - $3,000

VARIABEL: suatu sifat atau karakteristik daribeberapa obyek, kejadian, atau orang yang nilainya dapat bervariasi dan dapat dihitungatau diukur

Jenis kelamin

Tinggi badan

DATA : Unit dalam variabel

Variabel

Numerik / Kuantitatif

Kontinu Diskrit

Kategori / Kualitatif

Kategori Biasa Ordinal

DATA

Numerik / Kuantitatif

Kontinu Diskrit

Kategori / Kualitatif

Biner

2 kategori

Nominal

> 2 kategori

Ordinal

Urutanpenting

Data Kontinu

Data kontinu yaitu data yang diperoleh dari hasil pengukuran. Data kontinu dapat dikelompokkan menjadi: Data interval yaitu data yang jaraknya sama tetapi tidak

mempunyai nilai nol absolut (mutlak). Misal nol derajat Celcius.

Data rasio yaitu data yang jaraknya sama dan mempunyai nilai nol absolut. Misal hasil pengukuran panjang (m), berat (kg), dsbnya

Data Diskrit

Data diskrit yaitu data yang diperoleh dari hasil menghitung atau membilang. Misal jumlah meja ada 20 buah , jumlah orang ada 12 dsbnya

Data biner (dichotomous data) Ya vs Tidak

Data Nominal Data yang hanya meghasilkan satu dan hanya

satu-satunya kategori. Contoh pendidikan, jeniskelamin

Data ordinal Data yang memiliki tingkatan data, urutan data

• Data kualitatif adalah data yang tidak memiliki interpretasi secara kuantitatif, yaitu data hanya dapat diklasifikasikan ke dalam kategori-kategori.

• Dalam aplikasi sehari-hari data kualitatif berbentuk kalimat, kata, atau gambar, jika diinginkan pengolahan secara kuantitatif, data ini dapat diangkakan (skoring).

Statistik Deksriptif

Ukuran Kecenderungan Pusat

Mean

Median

Modus

Ukuran Penyebaran(Variabilitas

Range

Inter Quartile Range

Standar Deviasi

Variansi

Mean = Rataan

Median = Nilai Tengah

Modus

Suatu ukuran atau informasi yang menggambarkan sebagian besar jawaban atassuatu pertanyaan

Median = nilai tengah distribusi (persentil 50)

Modus = nilai pengamatan yang paling sering keluar

Rataan merupakan ukuran terbaik untukdistribusi simetris tanpa outlier

Median lebih bagus digunakan untukdistribusi data yang mencong (skew) atau data dengan outlier

Mean = 3

Median = 3

Mean = 4

Median = 3

Left Skew (Mencong Kiri) Right Skew (Mencong Kanan)

Digunakan untuk menjelaskan perbedaan khasantara nilai-nilai dalah suatu himpunan nilai

Variansi Sampel

Deviasi Standar: simpangan seluruh data di sekitar rataan

Range = Max - Min

Mengapa dalam mencari variansidikuadratkan?

Agar negatif dan positif tidak salingmembatalkan satu sama lain

Penyimpangan yang lebih besarakan mendapatkan bobot lebihbesar

Manakah diantara himpunan mobil berikutyang memiliki variabilitas jarak tempuh lebihbesar?

Quartil pertama, Q1 adalah nilai dimana 25% pengamatan lebih kecil dan 75% lebih besar

Quartil kedua atau Q2 sama dengan median, 50% lebih kecil dan 50% lebih besar

Quartil 3 , Q3, hanya 25% pengamatan lebihbesar

Secara umum persentil ke-n adalah nilaisedemikian rupa n% dari pengamatan terletakdibawah nilai tersebut

Contoh Penggunaan: Untuk merancang tinggi pintu maka kita

menggunakan persentil 95 dari populasi

Untuk merancang tinggi letak stop kontak, kitamenggunakan persentil 5 atau 10 panjang jangkauantangan ke atas

μσ2

σs2

s

POPULASI

SAMPEL

x

Pie Chart

Untuk menggambarkan proporsi variabel kualitatif(kategori).

Membagi lingkaran ke dalam bagian-bagian (slices) yang masing-masing berhubungan dengan setiapkategori. Sudut tengah bagian tersebut proporsionalterhadap frekuensi relatif kategori.

Bar Chart (Grafik Batang)

Untuk menggambarkan variabel kualitatif

Grafik batang memberikan frekuensi (atau frekuensirelatif) yang berkaitan dengan setiap kategori, dengan tinggi menyatakan proporsional batangterhadap frekuensi kategori (frekuensi relatif)

Kategori Frekuensi Frekuensi Relatif

NegaraBanyaknya Reaktor

NuklirProporsi

Belgia 4 0.0408

Perancis 22 0.2245

Finlandia 2 0.0204

Jerman 7 0.0714

Belanda 1 0.0102

Jepang 11 0.1123

Swedia 3 0.0306

Swiss 1 0.0102

Amerika Serikat 47 0.4796

TOTAL 98 1.000

4

22

2

7

1

11

31

47

0

5

10

15

20

25

30

35

40

45

50

4%

23%

2%

7%

1%11%3%

1%

48%

Belgia

Perancis

Finlandia

Jerman

Belanda

Jepang

Swedia

Swiss

Amerika Serikat

Dot Plot

Termasuk grafik paling sederhana, cocok untuk data kecil. Nilai numerik dari pengamatan diletakkanpada skala horisontal dengan menempatkan suatutitik pada nilai yang bersesuaian. Jika nilai tersebutberulang, maka titik-titik ditempatkan diatasnya, membentuk semacam tumpukan

Box Plot

Untuk menunjukkan frekuensi atau proporsi suatuvariabel kategori dalam setiap kategori

Digunakan untuk menekankan adanya outlier, median, dan IQR

Stem-Leaf Plot (Diagram Tangkai-Daun)

Membantu memvisualisasikan bentuk distribusidata

Histogram

Memberikan gambaran kepadatan (density) data

Digunakan untuk menggambarkan suatu distribusi(bentuk, pusat, range, variasi) dari variabel kontinu

Ukuran Bin penting

Scatterplot

Untuk menunjukkan hubungan antara dua variabelkontinu

Line Graphs

Untuk menggambarkan variabel kuantitatif menurutruntun waktu

Kemencongan / Skewness

Modalitas

Tinjau kembali data Life Expectancy vs Income Per person

Sampel DataUsia Aki (dalam tahun), n = 40

2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6

3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7

2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1

3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4

4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5

Bagilah setiap pengamatan dalam sekumpulan data ke dalam dua bagian, yaitu stem (tangkai) dan leaf (daun). Kita akan menandakan digit pertama usia aki mobil sebagai stem (digit yang berada disebelah kiri titik desimal) dan menamakan dua digit terakhir sebagai leaf. Sebagai contoh, untuk data usia aki mobil misalkan 3.7 maka bagian stem adalah 3 dan leaf untuk 7.

Daftarlah seluruh stem dalam urutan sebuah kolom, diawali dengan stem terkecil dan berakhir dengan yang terbesar

Lakukan untuk seluruh set data, tempatkan daun untuk setiap pengamatan dalam barisan stem yang tepat menurut urutan naik. Display stem-leaf yang lengkap ditunjukkan dalam tabel berikut

Stem Leaf Frekuensi

1 69 2

2 25669 5

3 0011112223334445567778899 25

4 11234577 8

Kasus diatas hanya terdiri dari empat stem sehingga belum dapat memberikan gambaran seperti apa bentuk distribusinya. Untuk mengatasi hal ini, kita dapat menambahkan banyaknya tangkai (stem) dalam plot tersebut. Cara sederhana untuk ini adalah menuliskan nilai tangkai sebanyak dua kali dan mencatat daun 0, 1, 2, 3, dan 4 berseberangan dengan nilai stem yang tepat dimana nilai itu muncul pertama kali, dan daun 5, 6, 7, 8, dan 9 berseberangan dengan nilai tangkai dimana nilai itu muncul untuk kedua kali. Modifikasi plot double-stem-and-leaf digambarkan dalam tabel berikut, dimana stem yang berkaitan dengan daun 0 sampai 4 dikodekan dengan simbol * dan stem yang berkaitan dengan daun 5 sampai dengan 9 disimbolkan dengan -

Stem Leaf Frekuensi

1 69 2

2* 2 1

2- 5669 4

3* 001111222333444 15

3- 5567778899 10

4* 11234 5

4- 577 3

Hitung jarak (range) data

Range = Pengamatan terbesar – Pengamatan terkecil

Range untuk data tabel usia aki mobil

Range = 4.7 – 1.6 = 3.1

Bagilah range tersebut ke dalam 5 – 20 kelas yang sama.

Banyaknya kelas sembarang, tetapi gambaran yang lebih bagus akan diperoleh jika menggunakan sedikitkelas untuk banyak data yang kecil dan sejumlahbesar kelas untuk sekumpulan data yang lebih besar.

Banyaknya kelas juga dapat ditentukan menggunakanrumus

Untuk data tabel usia aki mobil digunakan 7 kelas (jikamenggunakan rumus diperoleh 6.28 yang dapatdibulatkan ke atas) sehingga pendekatan untuk lebarkelas adalah

Banyaknya Pengamatan dalamSekumpulan Data

Banyaknya Kelas

Kurang dari 25 5 atau 6

25 – 50 7 – 14

Lebih dari 50 15 - 20

Batas kelas terkecil (pertama) sebaiknya diletakkandibawah pengukuran terkecil, dan lebar kelas dipilihsedemikian rupa sehingga tidak ada pengamatanyang tepat berada pada batas kelas.

Hasil ini dibulatkan keatas, selanjutnya digunakan suatukelas dengan lebar 0.44. Hasil interval kelas ditunjukkandalam tabel berikut

44.07

1.3

7

rangekelaslebar pendekatan

Kelas Interval

Kelas

Titik tengah

Kelas

Frekuensi

Kelas

Frekuensi

Kelas Relatif

1 1.5 – 1.9 1.7 2 0.05

2 2.0 – 2.4 2.2 1 0,025

3 2.5 – 2.9 2.7 4 0.100

4 3.0 – 3.4 3.2 15 0.375

5 3.5 – 3.9 3.7 10 0.250

6 4.0 – 4.4 4.2 5 0.125

7 4.5 – 4.9 4.7 3 0.075

n =40 1.00

Untuk setiap kelas, hitung banyaknya pengamatan untuk yang masuk dalam kelas tersebut. Hasil perhitungan ini disebut frekuensi kelas yaitu

Frekuensi kelas dan frekuensi relatif data dari tabel ditunjukkan masing-masing dalam kolom 4 dan 5 di tabel di atas

Histogram pada prinsipnya merupakan suatu grafik batang yang menggambarkan kategori kelas-kelas. Dalam suatu histogram frekuensi, tinggi batang ditentukan oleh frekuensi kelas. Serupa dengan hal tersebut, dalam suatuhistogram frekuensi relatif, tinggi batang ditentukan olehfrekuensi kelas relatif . Histogram frekuensi relatif untukdata usia aki mobil ditunjukkan dalam gambar berikut

pengukuran banyaknya Total

kelas frekuensi Totalkelas relatif frekuensi

Grafik yang Baik Menyajikandata secara akurat dan jelas

Grafik yang Buruk

Menggambarkan informasi yang sedikit

Mengaburkan apa yang hendakdisampaikan (dengan chart “sampah’)

Menggunakan pie chart (terutamadalam warna dan 3 dimensi)

Menggunakan skala yang tidak tepat

Hitunglah rataan, median, Q1 (persentil 25), Q3 (persentil 75), range, danvariansi untuk data penurunan berat badandalam tabel

Berikut ini adalah data yang diurutkan dari kecil kebesar 25, 26, 26, 30, y, y, y, 33, 150

a. Apakah rataannya lebih besar dari mediannya?b. Apakah 26 merupakan nilai modusnya?c. Manakah yang merupakan outlier (pencilan) data?