An Alisa Data Pen Gu Kuran

58
Pengumpulan Data dan Analisis Pengukuran Hendrawan [email protected]

description

meterologi

Transcript of An Alisa Data Pen Gu Kuran

Page 1: An Alisa Data Pen Gu Kuran

Pengumpulan Data dan Analisis Pengukuran

[email protected]

Page 2: An Alisa Data Pen Gu Kuran

Pengukuran

• Teknik dasar utk analisis performansi– Jalankan eksperimen/observasi data pada suatu jaringan atau

prototype– Nilai/ukur (benchmark) performansi

• Kelebihan– Scaleability, keakuratan, mencakup detail

• Kekurangan– Harus memp. peralatan (hardware/software)– Sukar utk mempertimbangkan semua kasus/ harga parameter– Jumlah data yang besar– Analisa statistik dari data– Menghabiskan waktu

Page 3: An Alisa Data Pen Gu Kuran

Tipe Studi Pengukuran

Empat tipe dasar dari studi pengukuran

1. Karakteristikasi statistik dari metrik– Menentukan: bloking panggilan pd sentral telepon, utilisasi

link pd jaringan, bit error rate pd link, dll.

2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter– Bandingkan/evaluasi router dari berbagai vendors,

membandingkan waktu rotasi token yg berbeda pd ring FDDI, dll.

Page 4: An Alisa Data Pen Gu Kuran

Tipe Studi Pengukuran

3. Prediksi Performansi Sistem– Peningkatan throughput dan delay jika ditambahkan 5

workstations ke switch Ethernet– End-to-end delay dari virtual private network link pd

jaringan backbone ISP

4. Parameterisasi analitis atau model simulasi– Menentukan waktu pendudukan panggilan rata-rata dari

panggilan telepon – utk digunakan pd model antrian– Mengumpulkan data utk digunakan sbg sumber trafik pada

komputer

Page 5: An Alisa Data Pen Gu Kuran

Mengumpulkan Pengukuran

• Monitors– Aktif – masukan (inject) trafik ke jaringan dan lihat

‘kelakuannnya’

– Pasif – set dan observasi trafik jaringan

• Hardware vs. Software

Page 6: An Alisa Data Pen Gu Kuran

Screen Shot dari Sniffer

Page 7: An Alisa Data Pen Gu Kuran

Data Sniffer

Page 8: An Alisa Data Pen Gu Kuran

Histogram dari Data Ping

Page 9: An Alisa Data Pen Gu Kuran

TCP Dump Data

Page 10: An Alisa Data Pen Gu Kuran

Analisa Pengukuran

• Karakterisasi statistik dari metrik – Menentukan: bloking panggilan pd sentral telepon,

utilisasi link jaringan, bit error rate pd link, dll.

• Mengumpulkan sampel data - n data points

x1, x2 , … , … xn

• Umumnya statistical inference mengasumsikan data adalah independent– Langkah pertama adalah memeriksa independensi dg

scatter plot atau correlation plot

Page 11: An Alisa Data Pen Gu Kuran

Analisa Korelasi• Statistical tool digunakan utk menggambarkan seberapa

jauh satu variabel secara linier berelasi thd yg lainnya– Kekuatan relasi– Arah relasi (positif atau negatif)– Juga digunakan utk test independence dari set data

• Prosedur yg digunakan utk menggambarkan korelasi– Koefisien korelasi (r) utk set dari n data points

– dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n) sample standard deviation j

Page 12: An Alisa Data Pen Gu Kuran

Analisa Korelasi

• Harga j berada diantara -1 dan 1– Harga + dari j indikasi relasi positif– Harga - dari j indikasi relasi negatif

• Korelasi sempurna j = 1 atau j = -1 terjadi hanya jika asosiasi linier sempurna

• Hanya ukuran kekuatan dari relasi linier

• Sangat kuat dipengaruhi oleh bbrp outliers

• Dlm praktek estimasi j utk beberpa harga dari j dan pengakuan independent jika | j | < e dimana e = .2 or .3

Page 13: An Alisa Data Pen Gu Kuran

Contoh Harga r

Page 14: An Alisa Data Pen Gu Kuran

Contoh Harga r

Page 15: An Alisa Data Pen Gu Kuran

Contoh Plot Correlation j vs j

• Kadang membuat plot harga korelasi vs. j

• Contoh data ping antara dua titik

• Apakah data secara linier berkorelasi?

Page 16: An Alisa Data Pen Gu Kuran

Scatter Plots

• Representasi grafis dari relasi antara dua variabel kuantitatif

• Explanatory variable diplot pd sumbu x respons pd sumbu y (plot setiap point data)

• Melihat pada form, direction, strength, outliers– Positif atau Negatif, atau tidak ada relasi– Linear, Curvilinear, relasi lain

• Dapat digunakan untuk memeriksa independence dari keterpisahan data j dg ploting xi vs xi+j

Page 17: An Alisa Data Pen Gu Kuran

Relasi yg Mungkin antara X dan Y pada Scatter Diagrams

Page 18: An Alisa Data Pen Gu Kuran

Scatter Plot

• Kapan menggunakan Scatter Plots utk memeriksa independence dari data

• Plot satu seri dari scatter plots– Data 1 keterpisahan (xi , xi+1 ) korespondensi dg r1

– Data 2 keterpisahan (xi , xi+2 ) korespondensi dg r2

– …

– Data n keterpisahan (xi , xi+j ) korespondensi dg rj

– Jika data berkorelasi akan memp relasi visual yg kuat

Page 19: An Alisa Data Pen Gu Kuran

Contoh Scatter Plot

• Contoh kumpulan data ping antara dua lokasi

• Test independence – scatter plot dari

data

• Memperlihatkan relasi linier yg positif

Page 20: An Alisa Data Pen Gu Kuran

Contoh Scatter Plot

Page 21: An Alisa Data Pen Gu Kuran

Contoh Scatter Plot

Page 22: An Alisa Data Pen Gu Kuran

Correlated Data

• Jika data berkorelasi –– Bekerja hanya dg ukuran central tendency– Jika rancangan eksperimen menghasilkan korelasi

rancang ulang eksperimen utk melemahkan korelasi– Metoda replikasi

• Lakukan eksperimen bbrp kali – tiap eksperimen menghasilkan satu summary data point

– Batch means• Pecah data kedalam non-overlapping batches dg

ukuran yg kira-kira sama – ganti tiap batch dg harga rata-ratanya – gunakan harga ini sbg set sample data

Page 23: An Alisa Data Pen Gu Kuran

Data Numerik – Properties & Measures

Page 24: An Alisa Data Pen Gu Kuran

Deskripsi Numerik dari Data Kuantitatif

• Mengukur Central Tendency

– Mean – rata-rata aritmatik dari semua observasi, sensitif thd pengaruh dari observasi yg ekstrem

– Median – titik tengah dari distribusi • Tahan thd outliers

– Mode – nilai yg paling sering muncul dari sampel

Page 25: An Alisa Data Pen Gu Kuran

Mean, Mode atau Median?

• Tidak ada satu numerical summary yang sesuai utk semua set data

• Jika data adalah categorical gunakan Mode• Jika data adalah numerikal + skewed => Median• Lainnya gunakan Mean• Pemilihan ukuran sebaran

– Mode atau Mean - gunakan standar deviasi

– Median - gunakan quartiles atau IQR

Page 26: An Alisa Data Pen Gu Kuran

Mengukur Sebaran (Spread)

• Range

• Variance

• Coefficient of Variation

• Tertiles, Quartiles, Quintiles

• Interquartile Range (IQR = Q3 - Q1)

Page 27: An Alisa Data Pen Gu Kuran

Range

• Mengukur dispersi• Perbedaan antara observasi terbesar dan terkecil

• Mengabaikan bagaimana data terdistribusi

Page 28: An Alisa Data Pen Gu Kuran

Variance & Standard Deviation

• Mengukur dispersi• Ukuran yg paling umum• Mempertimbangkan bagaimana data terdistribusi• Memperlihatkan variasi disekitar mean (X atau )

Page 29: An Alisa Data Pen Gu Kuran

Contoh Sample Variance

• Contoh data penghasilan dari sejumlah populasi (dlm $1000):

15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9

Page 30: An Alisa Data Pen Gu Kuran

Quartiles

• Mengukur sebaran pada data • Pecah deretan data kedalam 4 bagian

• Posisi dari quartile ke-i

Page 31: An Alisa Data Pen Gu Kuran

Interquartile Range

• Mengukur dispersi• Juga disebut midspread• Sebaran ditengah 50%• Tidak dipengaruhi oleh harga ekstrem• Formula:

Page 32: An Alisa Data Pen Gu Kuran

Contoh Interquartile Range

• Menggunakan contoh deretan data sebelumnya:

Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1

Page 33: An Alisa Data Pen Gu Kuran

Outliers

• Outlier – titik data bukan representasi dari kelakuan

• Test untuk Outlier

Xi > Q3 + 1.5 * IQR atau

Xi < Q1 - 1.5 * IQR

• Test utk outliers biasanya test yg pertama dilakukan pada set data

Page 34: An Alisa Data Pen Gu Kuran

Data Numerik – Properties & Measures

Page 35: An Alisa Data Pen Gu Kuran

Shape

• Menggambarkan bagaimana data terdistribusi• Mengukur bentuk (shape)

– Skewness: Symmetry

Page 36: An Alisa Data Pen Gu Kuran

5-Number Summary

• Menjelaskan distribusi tanpa melakukan kompilasi yang kompleks– Minimum

– Q1

– Median

– Q3

– Maximum

Page 37: An Alisa Data Pen Gu Kuran

Box-and-Whisker Plot

• Display grafis dari data menggunakan 5-number summary

Page 38: An Alisa Data Pen Gu Kuran

Box-and-Whisker Plot

• Display grafis dari data menggunakan 5-number summary

• Contoh dari data internet video delay jitter

Page 39: An Alisa Data Pen Gu Kuran

Probability Distribution Function dari Data

• Line Plot – diskrit atau categorical data

• Mis. sample space dari X adalah

S = { h1, h2, …, hk }

• Frekuensi relatif dari tiap nilai data adalah

pj = nj/n

dimana nj = {jumlah nilai xi = hi }.

• Line plot adalah grafik pj thd hi

• Histogram – data kontinyu

Page 40: An Alisa Data Pen Gu Kuran

Histogram

• Range dari X dibagi kedalam k interval dg ukuran sama disebut cells

• Lebar dari cell adalah

• Frekuensi dari tiap cell adalah fj = nj/n

dimana nj = jumlah xi dimana cj xi < cj+1

• Sturges rule menyarankan

Page 41: An Alisa Data Pen Gu Kuran

Contoh Histogram

Page 42: An Alisa Data Pen Gu Kuran

Contoh Histogram

Page 43: An Alisa Data Pen Gu Kuran

Quantile vs Quantile Plot

1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Cari parameter-parameter dari distribusi teoritis3. Plot nilai set data vs quantiles dari distribusi teoritis

F(x) dg parameter-parameter diestimasi dari data. Quantiles dari distribusi teoritis didp dari inverse distribusi

4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas

Page 44: An Alisa Data Pen Gu Kuran

Quantile vs Quantile Plot

Page 45: An Alisa Data Pen Gu Kuran

Probabilitas vs Plot Probabilitas

1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Plot nilai probabilitas dari tiap titik data vs

probabilitas ditentukan dari distribusi teoritis dg parameter diestimasi dari data

3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas

Page 46: An Alisa Data Pen Gu Kuran

Normal Probability Plot

Page 47: An Alisa Data Pen Gu Kuran

Fitting Distribution ke Data

1) Kumpulkan observasi (secara random)

2) Periksa independensi dan hilangkan outliers

3) Hipotesa satu set kandidat utk distribusi teoritis– Gunakan pengetahuan teoritis, yaitu hasil dari studi yang

sama dari literatur

– Perhatikan summary statistics dari data

– Secara visual nilai dari Histogram (kontinyu) atau Line Plot (diskrit)

Page 48: An Alisa Data Pen Gu Kuran

Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function– Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior

– Bandingkan frequency behavior

– Plot f(x) versus histogram dari data

– Q-Q plot

– P-P plot

– Statistical goodness of fit test (Chi -squared test)

Page 49: An Alisa Data Pen Gu Kuran

Useful Summary Statistics

Page 50: An Alisa Data Pen Gu Kuran

Maximum Likelihood Estimators (MLE)

• MLE adalah estimator parameter yg memaksimumkan probabilitas dari kemunculan sampel data random yg dioberservasi

• Mis. sampel random X = { x1, x2, …, xn }

• Mis. Densitas probabilitas yg diusulkan untuk X adalah f(x, ) dimana adalah parameter dari densitas

• The likelihood function L( ) utk f(x, ) adalahL() = f(x1,) , f(x2, ) , …, f(xn, )

• Cari yg memaksimumkan L()

Page 51: An Alisa Data Pen Gu Kuran

MLE untuk Distribusi Normal

• Normal density function

mempunyai 2 parameter: dan • The likelihood function L(,) adalah

Page 52: An Alisa Data Pen Gu Kuran

MLE untuk Distribusi Normal

• MLE ditentukan dengan mengambil partial derivatives dari L(,) thd (, ) dan setting sama dengan 0

• Lalu

Page 53: An Alisa Data Pen Gu Kuran

Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function– Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior– Bandingkan frequency behavior– Plot f(x) versus histogram dari data– Q-Q plot– P-P plot– Statistical goodness of fit test (Chi -squared test)

Page 54: An Alisa Data Pen Gu Kuran

Overlay pdf pd histogram

Page 55: An Alisa Data Pen Gu Kuran

Contoh Histogram

Page 56: An Alisa Data Pen Gu Kuran

Chi-squared Test

• Test perbedaan histogram dari data dan densitas teoritis• Bagi rentang (range) data kedalam k intervals

(a0, a1) , (a1, a2) , (a2, a3) , … , (ak-1, an)• Dari data sampel, tentukan jumlah observasi pada tiap

interval

n1 , n2 , n3 , … , nk

• Dari density function teoritis, tentukan probabilitas yang dimuat dalam tiap interval

p1 , p2 , p3 , … , pk

• dimana

pj = P { aj-1 X aj } = F(aj ) - F(aj-1 )

Page 57: An Alisa Data Pen Gu Kuran

Chi-squared Test

• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

• E adalah Chi-squared distributed• E akan kecil jika ‘fit is good’

Page 58: An Alisa Data Pen Gu Kuran

Chi-squared Test

• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

• E adalah Chi-squared distributed• Tolak f(x) matches dg data jika

dimana k = number of intervals,s = number of parameters diestimasi dari

data