An Alisa Data Pen Gu Kuran
-
Upload
bagus-v-setiawan -
Category
Documents
-
view
31 -
download
7
description
Transcript of An Alisa Data Pen Gu Kuran
Pengumpulan Data dan Analisis Pengukuran
Pengukuran
• Teknik dasar utk analisis performansi– Jalankan eksperimen/observasi data pada suatu jaringan atau
prototype– Nilai/ukur (benchmark) performansi
• Kelebihan– Scaleability, keakuratan, mencakup detail
• Kekurangan– Harus memp. peralatan (hardware/software)– Sukar utk mempertimbangkan semua kasus/ harga parameter– Jumlah data yang besar– Analisa statistik dari data– Menghabiskan waktu
Tipe Studi Pengukuran
Empat tipe dasar dari studi pengukuran
1. Karakteristikasi statistik dari metrik– Menentukan: bloking panggilan pd sentral telepon, utilisasi
link pd jaringan, bit error rate pd link, dll.
2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter– Bandingkan/evaluasi router dari berbagai vendors,
membandingkan waktu rotasi token yg berbeda pd ring FDDI, dll.
Tipe Studi Pengukuran
3. Prediksi Performansi Sistem– Peningkatan throughput dan delay jika ditambahkan 5
workstations ke switch Ethernet– End-to-end delay dari virtual private network link pd
jaringan backbone ISP
4. Parameterisasi analitis atau model simulasi– Menentukan waktu pendudukan panggilan rata-rata dari
panggilan telepon – utk digunakan pd model antrian– Mengumpulkan data utk digunakan sbg sumber trafik pada
komputer
Mengumpulkan Pengukuran
• Monitors– Aktif – masukan (inject) trafik ke jaringan dan lihat
‘kelakuannnya’
– Pasif – set dan observasi trafik jaringan
• Hardware vs. Software
Screen Shot dari Sniffer
Data Sniffer
Histogram dari Data Ping
TCP Dump Data
Analisa Pengukuran
• Karakterisasi statistik dari metrik – Menentukan: bloking panggilan pd sentral telepon,
utilisasi link jaringan, bit error rate pd link, dll.
• Mengumpulkan sampel data - n data points
x1, x2 , … , … xn
• Umumnya statistical inference mengasumsikan data adalah independent– Langkah pertama adalah memeriksa independensi dg
scatter plot atau correlation plot
Analisa Korelasi• Statistical tool digunakan utk menggambarkan seberapa
jauh satu variabel secara linier berelasi thd yg lainnya– Kekuatan relasi– Arah relasi (positif atau negatif)– Juga digunakan utk test independence dari set data
• Prosedur yg digunakan utk menggambarkan korelasi– Koefisien korelasi (r) utk set dari n data points
– dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n) sample standard deviation j
Analisa Korelasi
• Harga j berada diantara -1 dan 1– Harga + dari j indikasi relasi positif– Harga - dari j indikasi relasi negatif
• Korelasi sempurna j = 1 atau j = -1 terjadi hanya jika asosiasi linier sempurna
• Hanya ukuran kekuatan dari relasi linier
• Sangat kuat dipengaruhi oleh bbrp outliers
• Dlm praktek estimasi j utk beberpa harga dari j dan pengakuan independent jika | j | < e dimana e = .2 or .3
Contoh Harga r
Contoh Harga r
Contoh Plot Correlation j vs j
• Kadang membuat plot harga korelasi vs. j
• Contoh data ping antara dua titik
• Apakah data secara linier berkorelasi?
Scatter Plots
• Representasi grafis dari relasi antara dua variabel kuantitatif
• Explanatory variable diplot pd sumbu x respons pd sumbu y (plot setiap point data)
• Melihat pada form, direction, strength, outliers– Positif atau Negatif, atau tidak ada relasi– Linear, Curvilinear, relasi lain
• Dapat digunakan untuk memeriksa independence dari keterpisahan data j dg ploting xi vs xi+j
Relasi yg Mungkin antara X dan Y pada Scatter Diagrams
Scatter Plot
• Kapan menggunakan Scatter Plots utk memeriksa independence dari data
• Plot satu seri dari scatter plots– Data 1 keterpisahan (xi , xi+1 ) korespondensi dg r1
– Data 2 keterpisahan (xi , xi+2 ) korespondensi dg r2
– …
– Data n keterpisahan (xi , xi+j ) korespondensi dg rj
– Jika data berkorelasi akan memp relasi visual yg kuat
Contoh Scatter Plot
• Contoh kumpulan data ping antara dua lokasi
• Test independence – scatter plot dari
data
• Memperlihatkan relasi linier yg positif
Contoh Scatter Plot
Contoh Scatter Plot
Correlated Data
• Jika data berkorelasi –– Bekerja hanya dg ukuran central tendency– Jika rancangan eksperimen menghasilkan korelasi
rancang ulang eksperimen utk melemahkan korelasi– Metoda replikasi
• Lakukan eksperimen bbrp kali – tiap eksperimen menghasilkan satu summary data point
– Batch means• Pecah data kedalam non-overlapping batches dg
ukuran yg kira-kira sama – ganti tiap batch dg harga rata-ratanya – gunakan harga ini sbg set sample data
Data Numerik – Properties & Measures
Deskripsi Numerik dari Data Kuantitatif
• Mengukur Central Tendency
– Mean – rata-rata aritmatik dari semua observasi, sensitif thd pengaruh dari observasi yg ekstrem
– Median – titik tengah dari distribusi • Tahan thd outliers
– Mode – nilai yg paling sering muncul dari sampel
Mean, Mode atau Median?
• Tidak ada satu numerical summary yang sesuai utk semua set data
• Jika data adalah categorical gunakan Mode• Jika data adalah numerikal + skewed => Median• Lainnya gunakan Mean• Pemilihan ukuran sebaran
– Mode atau Mean - gunakan standar deviasi
– Median - gunakan quartiles atau IQR
Mengukur Sebaran (Spread)
• Range
• Variance
• Coefficient of Variation
• Tertiles, Quartiles, Quintiles
• Interquartile Range (IQR = Q3 - Q1)
Range
• Mengukur dispersi• Perbedaan antara observasi terbesar dan terkecil
• Mengabaikan bagaimana data terdistribusi
Variance & Standard Deviation
• Mengukur dispersi• Ukuran yg paling umum• Mempertimbangkan bagaimana data terdistribusi• Memperlihatkan variasi disekitar mean (X atau )
Contoh Sample Variance
• Contoh data penghasilan dari sejumlah populasi (dlm $1000):
15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9
Quartiles
• Mengukur sebaran pada data • Pecah deretan data kedalam 4 bagian
• Posisi dari quartile ke-i
Interquartile Range
• Mengukur dispersi• Juga disebut midspread• Sebaran ditengah 50%• Tidak dipengaruhi oleh harga ekstrem• Formula:
Contoh Interquartile Range
• Menggunakan contoh deretan data sebelumnya:
Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1
Outliers
• Outlier – titik data bukan representasi dari kelakuan
• Test untuk Outlier
Xi > Q3 + 1.5 * IQR atau
Xi < Q1 - 1.5 * IQR
• Test utk outliers biasanya test yg pertama dilakukan pada set data
Data Numerik – Properties & Measures
Shape
• Menggambarkan bagaimana data terdistribusi• Mengukur bentuk (shape)
– Skewness: Symmetry
5-Number Summary
• Menjelaskan distribusi tanpa melakukan kompilasi yang kompleks– Minimum
– Q1
– Median
– Q3
– Maximum
Box-and-Whisker Plot
• Display grafis dari data menggunakan 5-number summary
Box-and-Whisker Plot
• Display grafis dari data menggunakan 5-number summary
• Contoh dari data internet video delay jitter
Probability Distribution Function dari Data
• Line Plot – diskrit atau categorical data
• Mis. sample space dari X adalah
S = { h1, h2, …, hk }
• Frekuensi relatif dari tiap nilai data adalah
pj = nj/n
dimana nj = {jumlah nilai xi = hi }.
• Line plot adalah grafik pj thd hi
• Histogram – data kontinyu
Histogram
• Range dari X dibagi kedalam k interval dg ukuran sama disebut cells
• Lebar dari cell adalah
• Frekuensi dari tiap cell adalah fj = nj/n
dimana nj = jumlah xi dimana cj xi < cj+1
• Sturges rule menyarankan
Contoh Histogram
Contoh Histogram
Quantile vs Quantile Plot
1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Cari parameter-parameter dari distribusi teoritis3. Plot nilai set data vs quantiles dari distribusi teoritis
F(x) dg parameter-parameter diestimasi dari data. Quantiles dari distribusi teoritis didp dari inverse distribusi
4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas
Quantile vs Quantile Plot
Probabilitas vs Plot Probabilitas
1. Urut (sort) data (n titik data) dari terkecil ke terbesar2. Plot nilai probabilitas dari tiap titik data vs
probabilitas ditentukan dari distribusi teoritis dg parameter diestimasi dari data
3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas
Normal Probability Plot
Fitting Distribution ke Data
1) Kumpulkan observasi (secara random)
2) Periksa independensi dan hilangkan outliers
3) Hipotesa satu set kandidat utk distribusi teoritis– Gunakan pengetahuan teoritis, yaitu hasil dari studi yang
sama dari literatur
– Perhatikan summary statistics dari data
– Secara visual nilai dari Histogram (kontinyu) atau Line Plot (diskrit)
Fitting Distribution ke Data Pengukuran
4) Parameteriasi density function– Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior
– Bandingkan frequency behavior
– Plot f(x) versus histogram dari data
– Q-Q plot
– P-P plot
– Statistical goodness of fit test (Chi -squared test)
Useful Summary Statistics
Maximum Likelihood Estimators (MLE)
• MLE adalah estimator parameter yg memaksimumkan probabilitas dari kemunculan sampel data random yg dioberservasi
• Mis. sampel random X = { x1, x2, …, xn }
• Mis. Densitas probabilitas yg diusulkan untuk X adalah f(x, ) dimana adalah parameter dari densitas
• The likelihood function L( ) utk f(x, ) adalahL() = f(x1,) , f(x2, ) , …, f(xn, )
• Cari yg memaksimumkan L()
MLE untuk Distribusi Normal
• Normal density function
mempunyai 2 parameter: dan • The likelihood function L(,) adalah
MLE untuk Distribusi Normal
• MLE ditentukan dengan mengambil partial derivatives dari L(,) thd (, ) dan setting sama dengan 0
• Lalu
Fitting Distribution ke Data Pengukuran
4) Parameteriasi density function– Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari data– Bandingkan summary behavior– Bandingkan frequency behavior– Plot f(x) versus histogram dari data– Q-Q plot– P-P plot– Statistical goodness of fit test (Chi -squared test)
Overlay pdf pd histogram
Contoh Histogram
Chi-squared Test
• Test perbedaan histogram dari data dan densitas teoritis• Bagi rentang (range) data kedalam k intervals
(a0, a1) , (a1, a2) , (a2, a3) , … , (ak-1, an)• Dari data sampel, tentukan jumlah observasi pada tiap
interval
n1 , n2 , n3 , … , nk
• Dari density function teoritis, tentukan probabilitas yang dimuat dalam tiap interval
p1 , p2 , p3 , … , pk
• dimana
pj = P { aj-1 X aj } = F(aj ) - F(aj-1 )
Chi-squared Test
• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg
• E adalah Chi-squared distributed• E akan kecil jika ‘fit is good’
Chi-squared Test
• Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg
• E adalah Chi-squared distributed• Tolak f(x) matches dg data jika
dimana k = number of intervals,s = number of parameters diestimasi dari
data