Session 2 - Haris Handy

3
Data Sampling & Confidence Interval TOPR 102 – Statistic for Business Haris Handy 0151152049/MMR-53A Concept of Sampling Data Data sampling adalah proses yang berkaitan dengan pemilihan sampel dari sebuah populasi untuk mengestimasi atau memperkirakan karakteristik populasi tersebut. Sampel adalah subset dari elemen populasi. Sementara pupulasi adalah kesatuan dari seluruh elemen yang akan dianalisis dan ditarik kesimpulannya. Concept of random sampling Random sampling adalah teknik pengambilan sampel yang dilakukan sedemikian rupa dimana masing- masing elemen dari populasi memiliki peluang yang sama untuk dipilih. Sebagai contoh: Untuk mengumpulkan data pengeluaran per-bulan mahasiswa MMR Prasetiya Mulya kelas 53A, 10 siswa/i akan dipilih dari 29 siswa/i (populasi) sebagai sampel. Pemilihan sampel dilakukan dengan pengundian 29 nama dengan secarik kertas yang diambil dari sebuah botol secara acak. Kelebihan dari random sampling adalah tidak ada intervensi lain sehingga mengurangi bias dalam pengambilan sampel. Sementara kekurangan dari random sampling adalah sampel yang diambil belum tentu merepresentasikan keseluruhan populasi secara tepat dan untuk melakukan sampling dibutuhkan sampling frame (list dari seluruh populasi). Concept of Central Limit Theorem Central Limit Theorem adalah teori yang menyatakan bahwa jika jumlah sampel n cukup besar, maka distribusi rata-rata sampel mendekati distribusi normal, meskipun populasi sampel tidak berdistribusi normal (dengan mean = dan = /√ ). Jumlah sampel n dianggap cukup besar jika ≥ 30. Compute a Confidence Interval Confidence Interval (selang kepercayaan) untuk rata-rata pupulasi () adalah rentang antara dua nilai dimana rata-rata sampel () tepat berada ditengahnya, dimana kita yakin bahwa nilai rata-rata pupulasi () berada pada rentang dua nilai tersebut. Confidence Interval dapat dinyatakan dengan probability (kemungkinan) yang disebut dengan istilah convidence level. Ada dua jenis confidence interval: 1. z-Based Confidence Intervals, untuk rata-rata populasi: standar deviasi populasi () diketahui. Untuk , confidence interval 100 (1 − )% [ ± /2 ] = [ − /2 ,+ /2 ] Dimana nilai /2 batasan area kurva normal yang didapat dari tabel kurva normal standar.

description

summary

Transcript of Session 2 - Haris Handy

Page 1: Session 2 - Haris Handy

Data Sampling & Confidence Interval

TOPR 102 – Statistic for Business

Haris Handy

0151152049/MMR-53A

Concept of Sampling Data

Data sampling adalah proses yang berkaitan dengan pemilihan sampel dari sebuah populasi untuk

mengestimasi atau memperkirakan karakteristik populasi tersebut. Sampel adalah subset dari elemen

populasi. Sementara pupulasi adalah kesatuan dari seluruh elemen yang akan dianalisis dan ditarik

kesimpulannya.

Concept of random sampling

Random sampling adalah teknik pengambilan sampel yang dilakukan sedemikian rupa dimana masing-

masing elemen dari populasi memiliki peluang yang sama untuk dipilih. Sebagai contoh:

Untuk mengumpulkan data pengeluaran per-bulan mahasiswa MMR Prasetiya Mulya kelas 53A, 10

siswa/i akan dipilih dari 29 siswa/i (populasi) sebagai sampel. Pemilihan sampel dilakukan dengan

pengundian 29 nama dengan secarik kertas yang diambil dari sebuah botol secara acak.

Kelebihan dari random sampling adalah tidak ada intervensi lain sehingga mengurangi bias dalam

pengambilan sampel. Sementara kekurangan dari random sampling adalah sampel yang diambil belum

tentu merepresentasikan keseluruhan populasi secara tepat dan untuk melakukan sampling dibutuhkan

sampling frame (list dari seluruh populasi).

Concept of Central Limit Theorem

Central Limit Theorem adalah teori yang menyatakan bahwa jika jumlah sampel n cukup besar, maka

distribusi rata-rata sampel mendekati distribusi normal, meskipun populasi sampel tidak berdistribusi

normal (dengan mean 𝜇𝑥 = 𝜇 dan 𝜎𝑥 = 𝜎/√𝑛 ). Jumlah sampel n dianggap cukup besar jika 𝑛 ≥ 30.

Compute a Confidence Interval

Confidence Interval (selang kepercayaan) untuk rata-rata pupulasi (𝜇) adalah rentang antara dua nilai

dimana rata-rata sampel (𝑥) tepat berada ditengahnya, dimana kita yakin bahwa nilai rata-rata pupulasi

(𝜇) berada pada rentang dua nilai tersebut. Confidence Interval dapat dinyatakan dengan probability

(kemungkinan) yang disebut dengan istilah convidence level.

Ada dua jenis confidence interval:

1. z-Based Confidence Intervals, untuk rata-rata populasi: standar deviasi populasi (𝜎) diketahui.

Untuk 𝜇, confidence interval 100 (1 − 𝛼)%

[𝑥 ± 𝑧𝛼/2

𝜎

√𝑛] = [𝑥 − 𝑧𝛼/2

𝜎

√𝑛 , 𝑥 + 𝑧𝛼/2

𝜎

√𝑛]

Dimana nilai 𝑧𝛼/2 batasan area kurva normal yang didapat dari tabel kurva normal standar.

Page 2: Session 2 - Haris Handy

Contoh:

40 mobil avanza velos diambil sebagai sampel (n). Rata-rata jarak tempuh 40 mobil avanza tersebut

adalah 12.1 km/liter. Standar deviasi populasi 0.7 km (𝜎). Perusahaan ingin membuktikan bahwa mobil

avanza velos mampu menempuh jarak lebih dari 11.5 km/liter.

Untuk convidence interval 95%, 𝑧𝛼/2 = 1.96 (dari tabel)

[𝑥 ± 𝑧𝛼/2

𝜎

√𝑛] = [12.1 ± 1.96

0.7

√40] = [12.1 ± 0.217] = [11.883 , 12.317]

Dari hasil tersebut, perusahaan 95% yakin bahwa rata-rata populasi mobil avanza velos menempuh

jarak dengan rentang antara 11.883 dan 12.317 (nilai rentang tersebut lebih besar dari 11.5 km/liter).

2. t-Based Confidence Intervals, untuk rata-rata populasi: standar deviasi populasi (𝜎) tidak diketahui.

Untuk 𝜇, confidence interval 100 (1 − 𝛼)%

[𝑥 ± 𝑡𝛼/2

𝑠

√𝑛] = [𝑥 − 𝑡𝛼/2

𝑠

√𝑛 , 𝑥 + 𝑡𝛼/2

𝑠

√𝑛]

Dimana nilai 𝑡𝛼/2 batasan area kurva distribusi t dengan derajat kebebasan (𝑑𝑓) = 𝑛 − 1, dan 𝑠 =

standar deviasi sampel.

Contoh:

40 mobil avanza velos diambil sebagai sampel (n). Rata-rata jarak tempuh 40 mobil avanza tersebut

adalah 12.1 km/liter. Standar deviasi sampel 0.689 km (𝑠). Perusahaan ingin membuktikan bahwa

mobil avanza velos mampu menempuh jarak lebih dari 11.5 km/liter.

Untuk convidence interval 95%, 𝑡𝛼/2 = 2.021 (dari tabel)

[𝑥 ± 𝑡𝛼/2

𝑠

√𝑛] = [12.1 ± 2.021

0.689

√40] = [12.1 ± 0.22] = [11.880 , 12.320]

Dari hasil tersebut, perusahaan 95% yakin bahwa rata-rata populasi mobil avanza velos menempuh

jarak dengan rentang antara 11.880 dan 12.320 (nilai rentang tersebut lebih besar dari 11.5 km/liter)

Calculate The Required Sample Size

Penentuan jumlah sampel merupakan hal yang penting dalam sampling. Jika sampel terlalu kecil, maka

data yang dikumpulkan tidak memiliki kekuatan statistik. Jika data terlalu besar, hasil analisis menjadi

lebuh akurat tetapi tentunya akan memakan biaya yang lebih besar dan waktu yang lebih lama dalam

proses pengumpulannya. Untuk menentukan jumlah sampel, confidence interval, dan margin of error (E)

harus ditetapkan. Dalam dunia real, tidak ada data yang sempurna sehingga margin of error harus

ditetapkan. Jumlah sampel dapat ditetapkan dengan persamaan berikut:

1. Untuk standar deviasi populasi (𝜎) diketahui

𝑛 = (𝑧𝛼/2𝜎

𝐸)

2

Page 3: Session 2 - Haris Handy

2. Untuk standar deviasi populasi (𝜎) tidak diketahui, standar deviasi sampel diketahui

𝑛 = (𝑡𝛼/2𝑠

𝐸)

2

Confidence Interval for Finite Population

Untuk menentukan convidence interval dimana jumlah populasi terbatas, untuk confidence interval

100 (1 − 𝛼)%, maka

[𝑥 ± 𝑧𝛼/2

𝑠

√𝑛√

𝑁 − 𝑛

𝑁]

Dimana

𝑥 adalah rata-rata sampel, 𝑧𝛼/2 adalah nilai batas area kurva normal standar, 𝑠 adalah standar deviasi

sampel, dan 𝑁 adalah jumlah populasi.

Contoh:

Retailer Gaming Laptop mengakumulasi 2,430 sales invoice sepanjang tahun lalu. Total penjualan yang di

claim perusahaan sebesar $4,854,675. Untuk mengestimasi total penjualan sebenarnya tahun lalu, auditor

memilih 300 invoice secara random. Rata-rata 300 sampel, 𝑥 = $1,840.75 , dengan standar deviasi sampel

𝑠 = $420.73.

Untuk convidence interval 95%, 𝑧𝛼/2 = 1.96 (dari tabel)

[𝑥 ± 𝑧𝛼/2

𝑠

√𝑛√

𝑁 − 𝑛

𝑛] = [1740.75 ± 1.96

420.73

√300√

2,430 − 300

2,430 ] = [1,796.18 , 1,885.32]

Untuk convidence interval 95%, total penjualan sebenarnya

[1,696.18(2,430) , 1,785.32(2,430)] = [4,364,717 , 4,581,328]

Karena batas atas interval lebih kecil $300,000 dari claim total penjualan, maka secara statistic didapatkan

bukti kuat bahwa claim total penjualan tidak valid (overstated).

Referensi

http://id.wikipedia.org/wiki/Sampel_(statistika)

https://www.youtube.com/watch?v=be9e-Q-jC-0

https://www.youtube.com/watch?v=Q_-Bts76TfI

http://en.wikipedia.org/wiki/Sampling_(statistics)#Simple_random_sampling

http://en.wikipedia.org/wiki/Central_limit_theorem

http://purppyme.blogspot.com/2012/11/celemek-tua-central-limit-theorem_18.html

http://en.wikipedia.org/wiki/Confidence_interval

https://tonyteaching.wordpress.com/2010/09/24/convidence-interval/

http://en.wikipedia.org/wiki/Sample_size_determination

https://onlinecourses.science.psu.edu/stat414/node/3