An Alisa Data Pen Gu Kuran

Pengumpulan Data dan Analisis Pengukuran

[email protected]

Pengukuran

• Teknik dasar utk analisis performansi– Jalankan eksperimen/observasi data pada suatu jaringan atau

prototype– Nilai/ukur (benchmark) performansi

• Kelebihan– Scaleability, keakuratan, mencakup detail

• Kekurangan– Harus memp. peralatan (hardware/software)– Sukar utk mempertimbangkan semua kasus/ harga parameter– Jumlah data yang besar– Analisa statistik dari data– Menghabiskan waktu

Tipe Studi Pengukuran

Empat tipe dasar dari studi pengukuran

1. Karakteristikasi statistik dari metrik– Menentukan: bloking panggilan pd sentral telepon, utilisasi

link pd jaringan, bit error rate pd link, dll.

2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter– Bandingkan/evaluasi router dari berbagai vendors,

membandingkan waktu rotasi token yg berbeda pd ring FDDI, dll.

Tipe Studi Pengukuran

3. Prediksi Performansi Sistem– Peningkatan throughput dan delay jika ditambahkan 5

workstations ke switch Ethernet– End-to-end delay dari virtual private network link pd

jaringan backbone ISP

4. Parameterisasi analitis atau model simulasi– Menentukan waktu pendudukan panggilan rata-rata dari

panggilan telepon – utk digunakan pd model antrian– Mengumpulkan data utk digunakan sbg sumber trafik pada

komputer

Mengumpulkan Pengukuran

• Monitors– Aktif – masukan (inject) trafik ke jaringan dan lihat

‘kelakuannnya’

– Pasif – set dan observasi trafik jaringan

• Hardware vs. Software

Screen Shot dari Sniffer

Data Sniffer

Histogram dari Data Ping

TCP Dump Data

Analisa Pengukuran

• Karakterisasi statistik dari metrik – Menentukan: bloking panggilan pd sentral telepon,

utilisasi link jaringan, bit error rate pd link, dll.

• Mengumpulkan sampel data - n data points

x1, x2 , … , … xn

• Umumnya statistical inference mengasumsikan data adalah independent– Langkah pertama adalah memeriksa independensi dg

scatter plot atau correlation plot

Analisa Korelasi• Statistical tool digunakan utk menggambarkan seberapa

jauh satu variabel secara linier berelasi thd yg lainnya– Kekuatan relasi– Arah relasi (positif atau negatif)– Juga digunakan utk test independence dari set data

• Prosedur yg digunakan utk menggambarkan korelasi– Koefisien korelasi (r) utk set dari n data points

– dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n) sample standard deviation j

Analisa Korelasi

• Harga j berada diantara -1 dan 1– Harga + dari j indikasi relasi positif– Harga - dari j indikasi relasi negatif

• Korelasi sempurna j = 1 atau j = -1 terjadi hanya jika asosiasi linier sempurna

• Hanya ukuran kekuatan dari relasi linier

• Sangat kuat dipengaruhi oleh bbrp outliers

• Dlm praktek estimasi j utk beberpa harga dari j dan pengakuan independent jika | j | < e dimana e = .2 or .3

Contoh Harga r

Contoh Plot Correlation j vs j

• Kadang membuat plot harga korelasi vs. j

• Contoh data ping antara dua titik

• Apakah data secara linier berkorelasi?

Scatter Plots

• Representasi grafis dari relasi antara dua variabel kuantitatif

• Explanatory variable diplot pd sumbu x respons pd sumbu y (plot setiap point data)

• Melihat pada form, direction, strength, outliers– Positif atau Negatif, atau tidak ada relasi– Linear, Curvilinear, relasi lain

• Dapat digunakan untuk memeriksa independence dari keterpisahan data j dg ploting xi vs xi+j

Relasi yg Mungkin antara X dan Y pada Scatter Diagrams

Scatter Plot

• Kapan menggunakan Scatter Plots utk memeriksa independence dari data

• Plot satu seri dari scatter plots– Data 1 keterpisahan (xi , xi+1 ) korespondensi dg r1

– Data 2 keterpisahan (xi , xi+2 ) korespondensi dg r2

– …

– Data n keterpisahan (xi , xi+j ) korespondensi dg rj

– Jika data berkorelasi akan memp relasi visual yg kuat

Contoh Scatter Plot

• Contoh kumpulan data ping antara dua lokasi

• Test independence – scatter plot dari

data

• Memperlihatkan relasi linier yg positif

Contoh Scatter Plot

Correlated Data

• Jika data berkorelasi –– Bekerja hanya dg ukuran central tendency– Jika rancangan eksperimen menghasilkan korelasi

rancang ulang eksperimen utk melemahkan korelasi– Metoda replikasi

• Lakukan eksperimen bbrp kali – tiap eksperimen menghasilkan satu summary data point

– Batch means• Pecah data kedalam non-overlapping batches dg

ukuran yg kira-kira sama – ganti tiap batch dg harga rata-ratanya – gunakan harga ini sbg set sample data

Data Numerik – Properties & Measures

Deskripsi Numerik dari Data Kuantitatif

• Mengukur Central Tendency

– Mean – rata-rata aritmatik dari semua observasi, sensitif thd pengaruh dari observasi yg ekstrem

– Median – titik tengah dari distribusi • Tahan thd outliers

– Mode – nilai yg paling sering muncul dari sampel

Mean, Mode atau Median?

• Tidak ada satu numerical summary yang sesuai utk semua set data

• Jika data adalah categorical gunakan Mode• Jika data adalah numerikal + skewed => Median• Lainnya gunakan Mean• Pemilihan ukuran sebaran

– Mode atau Mean - gunakan standar deviasi

– Median - gunakan quartiles atau IQR

Mengukur Sebaran (Spread)

• Range

• Variance

• Coefficient of Variation

• Tertiles, Quartiles, Quintiles

• Interquartile Range (IQR = Q3 - Q1)

Range

• Mengukur dispersi• Perbedaan antara observasi terbesar dan terkecil

• Mengabaikan bagaimana data terdistribusi

Variance & Standard Deviation

• Mengukur dispersi• Ukuran yg paling umum• Mempertimbangkan bagaimana data terdistribusi• Memperlihatkan variasi disekitar mean (X atau )

Contoh Sample Variance

• Contoh data penghasilan dari sejumlah populasi (dlm $1000):

15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9

Quartiles

• Mengukur sebaran pada data • Pecah deretan data kedalam 4 bagian

• Posisi dari quartile ke-i

Interquartile Range

• Mengukur dispersi• Juga disebut midspread• Sebaran ditengah 50%• Tidak dipengaruhi oleh harga ekstrem• Formula:

Contoh Interquartile Range

• Menggunakan contoh deretan data sebelumnya:

Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1

Outliers

• Outlier – titik data bukan representasi dari kelakuan

• Test untuk Outlier

Xi > Q3 + 1.5 * IQR atau

Xi < Q1 - 1.5 * IQR

• Test utk outliers biasanya test yg pertama dilakukan pada set data

Data Numerik – Properties & Measures

Shape

• Menggambarkan bagaimana data terdistribusi• Mengukur bentuk (shape)

– Skewness: Symmetry

5-Number Summary

• Menjelaskan distribusi tanpa melakukan kompilasi yang kompleks– Minimum

– Q1

– Median

– Q3

– Maximum

Box-and-Whisker Plot

• Display grafis dari data menggunakan 5-number summary

Box-and-Whisker Plot

• Display grafis dari data menggunakan 5-number summary

• Contoh dari data internet video delay jitter

Probability Distribution Function dari Data

• Line Plot – diskrit atau categorical data

• Mis. sample space dari X adalah

S = { h1, h2, …, hk }

• Frekuensi relatif dari tiap nilai data adalah

pj = nj/n

dimana nj = {jumlah nilai xi = hi }.

• Line plot adalah grafik pj thd hi

• Histogram – data kontinyu

Histogram

• Range dari X dibagi kedalam k interval dg ukuran sama disebut cells

• Lebar dari cell adalah

• Frekuensi dari tiap cell adalah fj = nj/n

dimana nj = jumlah xi dimana cj xi < cj+1

• Sturges rule menyarankan

Contoh Histogram

Quantile vs Quantile Plot

1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Cari parameter-parameter dari distribusi teoritis3. Plot nilai set data vs quantiles dari distribusi teoritis

F(x) dg parameter-parameter diestimasi dari data. Quantiles dari distribusi teoritis didp dari inverse distribusi

4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas

Quantile vs Quantile Plot

Probabilitas vs Plot Probabilitas

1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Plot nilai probabilitas dari tiap titik data vs

probabilitas ditentukan dari distribusi teoritis dg parameter diestimasi dari data

3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas

Normal Probability Plot

Fitting Distribution ke Data

1) Kumpulkan observasi (secara random)

2) Periksa independensi dan hilangkan outliers

3) Hipotesa satu set kandidat utk distribusi teoritis– Gunakan pengetahuan teoritis, yaitu hasil dari studi yang

sama dari literatur

– Perhatikan summary statistics dari data

– Secara visual nilai dari Histogram (kontinyu) atau Line Plot (diskrit)

Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function– Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior

– Bandingkan frequency behavior

– Plot f(x) versus histogram dari data

– Q-Q plot

– P-P plot

– Statistical goodness of fit test (Chi -squared test)

Useful Summary Statistics

Maximum Likelihood Estimators (MLE)

• MLE adalah estimator parameter yg memaksimumkan probabilitas dari kemunculan sampel data random yg dioberservasi

• Mis. sampel random X = { x1, x2, …, xn }

• Mis. Densitas probabilitas yg diusulkan untuk X adalah f(x, ) dimana adalah parameter dari densitas

• The likelihood function L( ) utk f(x, ) adalahL() = f(x1,) , f(x2, ) , …, f(xn, )

• Cari yg memaksimumkan L()

MLE untuk Distribusi Normal

• Normal density function

mempunyai 2 parameter: dan • The likelihood function L(,) adalah

MLE untuk Distribusi Normal

• MLE ditentukan dengan mengambil partial derivatives dari L(,) thd (, ) dan setting sama dengan 0

• Lalu

Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function– Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior– Bandingkan frequency behavior– Plot f(x) versus histogram dari data– Q-Q plot– P-P plot– Statistical goodness of fit test (Chi -squared test)

Overlay pdf pd histogram

Contoh Histogram

Chi-squared Test

• Test perbedaan histogram dari data dan densitas teoritis• Bagi rentang (range) data kedalam k intervals

(a0, a1) , (a1, a2) , (a2, a3) , … , (ak-1, an)• Dari data sampel, tentukan jumlah observasi pada tiap

interval

n1 , n2 , n3 , … , nk

• Dari density function teoritis, tentukan probabilitas yang dimuat dalam tiap interval

p1 , p2 , p3 , … , pk

• dimana

pj = P { aj-1 X aj } = F(aj ) - F(aj-1 )

Chi-squared Test

• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

• E adalah Chi-squared distributed• E akan kecil jika ‘fit is good’

Chi-squared Test

• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

• E adalah Chi-squared distributed• Tolak f(x) matches dg data jika

dimana k = number of intervals,s = number of parameters diestimasi dari

data

An Alisa Data Pen Gu Kuran

Documents

Transcript of An Alisa Data Pen Gu Kuran