Ukuran Kinerja Clustering - spada.uns.ac.id
Transcript of Ukuran Kinerja Clustering - spada.uns.ac.id
Ukuran Kinerja
ModelKULIAH : 11-11-2021
1
Ukuran Evaluasi
Evaluasi terhadap suatu classifier umumnya dilakukan
menggunakan sebuah data uji, yang tidak digunakan
dalam pelatihan classifier tersebut.
Ada sejumlah ukuran yang dapat digunakan untuk
menilai atau mengevaluasi model klasifikasi, diantaranya
:
Erraor rate
Recall
Sensitivity
Specificity
dll
2
Tabel ukuran evaluasi model
klasifikasiNO UKURAN RUMUS
1 Akurasi atau tingkat pengenalan 𝑇𝑃 + 𝑇𝑁
𝑃 + 𝑁
2 Error rate atau tingkat kesalahan atau keliruan klasifikasi 𝐹𝑃 + 𝐹𝑁
𝑃 + 𝑁
3 Recall atau sensitivitas atau true positive rate 𝑇𝑃
𝑇𝑃 + 𝐹𝑁
4 Spesificity atau True Negative rate 𝑇𝑁
𝑁
5 Precission 𝑇𝑃
𝑇𝑃 + 𝐹𝑃
6 F atau F1 atau F-score atau rata-rata harmonic dari precisson
dan recall
2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
7 Fp dimana 𝛽 adalah sebuah bilangan riil nonnegatif 1 + 𝛽2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝛽2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
𝛽 ukuran seberapa penting precission
3
Ukuran Evaluasi Klasifikasi
Ya Tidak Jumlah
Ya TP FN P
Tidak FP TN N
Jumlah P’ N’ P+N
Kelas hasil prediksi
Kela
s aktu
al
▪ TP, True Positif -> jumlah tupel positif
yang dilabeli dengan benar oleh model
klasifikasi
▪ TN, True Negatif -> jumlah tupel
negative yang dilabeli dengan benar
oleh model klasifikasi.
▪ FP, False Positif -> jumlah tupel
negative yang salah dilabeli oleh model
klasifikasi
▪ FN, False Negatif -> jumlah tuple positif
yang salah dilabeli oleh model
klasifikasi.
Ket: tupel = ҧ𝑥 ∈ 𝑅𝑛
4
Pengukuran terhadap kinerja suatu sistem klasifikasi
merupakan hal yang penting.
Kinerja sistem klasifikasi menggambarkan seberapa baik
sistem dalam mengklasifikasikan data.
Confusion matrix merupakan salah satu metode yang
dapat digunakan untuk mengukur kinerja suatu metode
klasifikasi.
Pada dasarnya confusion matrix mengandung informasi
yang membandingkan hasil klasifikasi yang dilakukan
oleh sistem dengan hasil klasifikasi yang seharusnya
5
Berdasarkan jumlah keluaran kelasnya, sistem klasifikasi
dapat dibagi menjadi 4 (empat) jenis yaitu klasifikasi
binary, multi-class, multi-label dan hierarchical. Pada
klasifikasi binary, data masukan dikelompokkan ke dalam
salah satu dari dua kelas.
Jenis klasifikasi ini merupakan bentuk klasifikasi yang
paling sederhana dan banyak digunakan.
Contoh penggunaannya antara lain dalam sistem yang
melakukan deteksi orang atau bukan, sistem deteksi
kendaraan atau bukan, dan sistem deteksi pergerakan
atau bukan
6
Sementara itu, pada bentuk klasifikasi multi-class, data masukan diklasifikasikan menjadi beberapa kelas.
Sebagai contoh sistem yang dapat mengklasifikasikan jeniskendaraan seperti sepeda, sepeda motor, mobil, bus, truk, dan sebagainya.
Bentuk klasifikasi multi-label pada dasarnya sama denganmulti-class dimana data dikelompokkan menjadi beberapakelas, namun pada klasifikasi multi-label, data dapatdimasukkan dalam beberapa kelas sekaligus.
Bentuk klasifikasi yang terakhir adalah hierarchical. Data masukan dikelompokkan menjadi beberapa kelas, namunkelas tersebut dapat dikelompokkan kembali menjadikelas-kelas yang lebih sederhana secara hirarkis.
Contohnya dalam penelitian ini, arah pergerakandikelompokkan menjadi 12 arah pergerakan yang tentunyadapat disederhanakan menjadi 4 arah.
7
Pada pengukuran kinerja menggunakan confusion
matrix, terdapat 4 (empat) istilah sebagai representasi
hasil proses klasifikasi.
Keempat istilah tersebut adalah True Positive (TP), True
Negative (TN), False Positive (FP) dan False Negative
(FN).
Nilai True Negative (TN) merupakan jumlah data negatif
yang terdeteksi dengan benar, sedangkan False Positive
(FP) merupakan data negatif namun terdeteksi sebagai
data positif.
Sementara itu, True Positive (TP) merupakan data positif
yang terdeteksi benar. False Negative (FN) merupakan
kebalikan dari True Positive, sehingga data posifit,
namun terdeteksi sebagai data negatif.
8
Confusion matrik
9
Berdasarkan nilai True Negative (TN), False Positive (FP), False Negative (FN), dan True Positive (TP) dapat diperolehnilai akurasi, presisi dan recall.
Nilai akurasi menggambarkan seberapa akurat sistem dapatmengklasifikasikan data secara benar. Dengan kata lain, nilai akurasi merupakan perbandingan antara data yang terklasifikasi benar dengan keseluruhan data.
Nilai akurasi dapat diperoleh dengan Persamaan 1. Nilai presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara benar dibagi dengan total data yang diklasifikasi positif.
Presisi dapat diperoleh dengan Persamaan 2. Sementaraitu, recall menunjukkan berapa persen data kategori positifyang terklasifikasikan dengan benar oleh sistem.
Nilai recall diperoleh dengan Persamaan 3.
10
11
Sementara itu, pada klasifikasi dengan jumlah keluaran
kelas yang lebih dari dua (multi-class), cara menghitung
akurasi, presisi dan recall dapat dilakukan dengan
menghitung rata-rata dari nilai akurasi, presisi dan recall
pada setiap kelas.
Persamaan 4, 5, dan 6 merupakan formula untuk
menghitung nilai akurasi, presisi dan recall dari sistem
klasifikasi multi-class .
12
Contoh
TP = 970 TN= 40 FP = 960 FN = 30 P =1000 N =1000
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃+𝑇𝑁
𝑃+𝑁=
970+40
1000+1000= 50,5%
𝑒𝑟𝑟𝑜𝑟 = 1 − 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 100% − 50,5% = 49,5
Precission =𝑇𝑃
𝑇𝑃+𝐹𝑃=
970
970+960= 50,26%
𝑟𝑒𝑐𝑎𝑙𝑙 =𝑇𝑃
𝑇𝑃+𝐹𝑁=
970
970+30= 97%
𝐹 − 𝑜𝑛𝑒 =2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙=
2×𝑇𝑃
2×𝑇𝑃+𝐹𝑃+𝐹𝑁=
2×970
2×970 +960+30= 66,21%
Kelas = ‘Ya’ Kelas = ‘Tidak’ Jumlah
Kelas = ‘ya’ 970 30 1000
Kelas = ‘tidak’ 960 40 1000
Jumlah 1930 70 2000
13
14
TPi adalah True Positive, yaitu jumlah data positif yang
terklasifikasi dengan benar oleh sistem untuk kelas ke-i.
TNi adalah True Negative, yaitu jumlah data negatif yang
terklasifikasi dengan benar oleh sistem untuk kelas ke-i.
FNi adalah False Negative, yaitu jumlah data negatif
namun terklasifikasi salah oleh sistem untuk kelas ke-i.
FPi adalah False Positive, yaitu jumlah data positif
namun terklasifikasi salah oleh sistem untuk kelas ke-i
l adalah jumlah kelas.
15
Ukuran lain
Kecepatab proses→anda dapat mengukur berdasarkan
kompleksitas komputasi secara matematis atau menguji
classifier secara empiris berdasarkan eksperimen
menggunakan sejumlah data uji
Ketahanan terhadap dearau, pencilan atau daya dengan
attribute bernilai kosong→anda dapat mengukur secara
empiris berdasarkan eksperimen terhadap sejumlah data
uji yang berupa sekumpulan data sintetis yang
merepresentasikan peningkatan derajat derau dan
missing values.
Skalabilitas terhadap ukuran data→anda dapat
mengukur secara matematis maupun empiris apakah
classifier anda dapat digunakan secara efisien untuk
sejumlah data yang berukuran semakin besar.
16
Resubtitution
Keuntungan: Sederhana
Kelemahan: Paling lemah
Kapan digunakan: Jika dirasa data latih cukup
mewakili populasi.
Langkah-langkahnya:
1. Melatih model dengan menggunakan data latih
2. Mengukur tingkat kesalahan berdasarkan keluaran
dan nilai aktual dari seluruh objek data tersebut.
17
Hold-out (2 sub himpunan)
Asumsi: data latih dan data uji dibangun dengan
distribusi yang sama untuk setiap kelas. Agar
proporsi setiap kelas sama.
Langkah-langkah:
1. Membagi data set menjadi 2, biasanya 2/3 data
latih dan 1/3 data uji(60/40, 70/30, 80/20 atau
dengan pertimbangan tertentu)
2. Membangun model menggunakan data latih
3. Menguji model menggunakan data uji
18
Hold-out (3 sub himpunan)
Asumsi: data latih dan data uji dibangun dengan
distribusi yang sama untuk setiap kelas. Agar
proporsi setiap kelas sama.
Langkah-langkah:
1. Membagi data set menjadi 3, data latih, data
validasi, dan data uji.
2. Membangun model menggunakan data latih
3. Memvalidasi model menggunakan data validasi
4. Menguji model yang telah tervalidasi menggunakan
data uji.
19
K-fold Cross Validation
Langkah-langkah:
1. Membagi dataset menjadi k sub himpunan (fold), sehingga setiap fold berisi 1/k, 𝐷 = 𝑑1, 𝑑2, … , 𝑑𝑘
2. Menggunakan (k-1) fold untuk data latih Latih = 𝑑𝑖, i = 1, 2, k-1
3. Menguji model menggunakan dj, 𝑗 ≠𝑖
4. Menghitung akurasi: jumlahkeseluruhan klasifikasi benar dalam k iterasi dibagi dengan jumlah tuple dalam himpunan data.
Sumber:
https://medium.com/@sebastiannorena/som
e-model-tuning-methods-bfef3e6544f0
20
K-fold Cross Validation (2)
Langkah-langkah:
1. Membagi dataset menjadi k sub himpunan(fold), sehingga setiap fold berisi 1/k, 𝐷 =𝑑1, 𝑑2, … , 𝑑𝑘
2. Menggunakan (k-2) fold untuk data latihLatih = 𝑑𝑖, i = 1, 2, k-2
3. Memvalidasi model menggunakan dj, 𝑗 ≠ 𝑖(menaksir hyperparameter)
4. Menguji model hasil validasi menggunakandk, 𝑘 ≠ 𝑖 ≠ 𝑗
5. Menghitung akurasi: jumlah keseluruhanklasifikasi benar dalam k iterasi dibagidengan jumlah tuple dalam himpunandata.
Sumber:
https://miro.medium.com/max/948/1*4G__S
V580CxFj78o9yUXuQ.png
21
Leave-One-Out Cross Validation
Sama dengan K-fold hanya saja yang
digunakan per data bukan per fold, sehingga
setiap data pernah menjadi data latih dan data
uji.
22
Random Subsampling
Modifikasi Teknik hold-out.
Menjalankan metode hold out beberapa kali,
misal sejumlah k iterasi
Mengevaluasi berdasarkan model klasifikasi
berdasarkan rata-rata daris etiap iterasi tersebut.
Random: pemilihan mana data latih dan data uji
secara acak.
23
Bootstraping
Pemilihan data latih dilakukan dengan
penyamplingan secara acak dengan
distribusi seragam, sampel yang telah
terambil boleh dimasukkan kembali ke
sumber data
Sumber: https://vitalflux.com/wp-
content/uploads/2018/02/bootstraping-
validation-technique.png
24
Model 25
26
Ukuran Evaluasi Model
Klastering
1. Penilaian tendensi klasterisasi
2. Penentuan jumlah klaster
3. Pengukuran kualitas klasterisasi
27
Statistik Hopkins
Statistik spasial sederhana yang menguji
keacakan spasial dari suatu variabel
Hasil klasterisasi dikatakan cenderung memiliki
struktur yang teratur jika tidak terdistribusi secara
seragam
Jika suatu himpunan data D memiliki sample
variable acak o, maka metode ini mengukur
seberapa jauh o cenderung terdistribusi seragam.
28
Statistik Hopkins Cara menghitung :
1. Lakukan sampling sebanyak n titik 𝑝𝑖 …𝑝𝑛 secara seragam dari D. Untuk setiap titik
𝑝𝑖 dicari tetangga terdekat 𝑝𝑖 1 ≤ 𝑖 ≤ 𝑛 dalam D dan 𝑥𝑖 adalah jarak antara pi dan
tetangga terdekatnya. X didefinisikan 𝑥𝑖 = min 𝑑𝑖𝑠𝑡 𝑝𝑖 , 𝑣
2. Lakukan sampling sebanyak n titik 𝑞𝑖 …𝑞𝑛 secara seragam dari D. Untuk setiap titik 𝑞𝑖dicari tetangga terdekat dalam D −{𝑞𝑖} dan 𝑦𝑖 adalah jarak antara 𝑞𝑖 dan tetangga
terdekatnya. y didefinisikan 𝑦𝑖 = min{ 𝑑𝑖𝑠𝑡(𝑦𝑖 , 𝑣)}
3. Hitung statistic Hopkins dengan rumus 𝐻 =σ𝑖=1𝑛 𝑦𝑖
σ𝑖=1𝑛 𝑥𝑖+σ𝑖=1
𝑛 𝑦𝑖
Jika data D terdistribusi seragam, maka σ𝑖=1𝑛 𝑦𝑖 akan mendekati σ𝑖=1
𝑛 𝑥𝑖 sehingga
membuat nilai H disekitar 0,5.
Jika data D tidak seragam maka σ𝑖=1𝑛 𝑦𝑖 akan jauh lebih kecil dari σ𝑖=1
𝑛 𝑥𝑖 sehingga nilai
H mendekati 0
Jadi jika H > 0,5 maka D tidak memiliki kluster yang signifikan secara statistic.
Sedangkan jika H mendekati 0 berarti D memiliki klaster yang signifikan.
29
Penentuan jumlah kluster
Apa yang mempengaruhi jumlah kluster?
Berapakah jumlah objek data?
Bentuk dan skala distribusinya
Resolusi ringkasan yang diharapkan user?
30
Penentuan Jumlah Klaster
Cara ke – 1
Beberapa hal dapat mempengaruhi jumlah kluster
diantaranya jumlah data, bentuk dan skala distribusinya,
ringkasan yang diharapkan user.
Rumus estimasi𝑛
2, n adalah jumlah data.
Ekspektasi jumlah data dalam satu kluster adalah𝑛
𝑛
2
= 2𝑛
31
Penentuan Jumlah Klaster
Cara ke – 2
METODE ELBOW
Meningkatkan umlah klaster akan menurunkan jumlah variansi
dalam kluster dari semua klaster yang ada.
1. Buat k klaster menggunakan metode clustering.
2. Hitung SSE (sum of square Error) =σ𝑖=1𝑘 σ𝑥∈𝑐𝑖 𝑥 − 𝑐𝑖
2
3. Lakukan untuk k yang lebih besar
4. Buat kurva terhadap k, titik balik pertama spt siku, itulah yang
menyatakan jumlah klaster
32
Pengukuran Kualitas Klasterisasi
1. Metode Ekstrinsik
hanya jika ada acuan ideal (pakar)
Membandingkan klaster hasil metode dengan klaster ideal
untuk score Q ሶ𝐶, ሶ𝐶𝑔
Nilai Q hanya efektif jika memenuhi homogenitas klaster,
kelengkapan klaster, rag bag, mempertahankan klaster kecil
BCubed Precision dan BCubed Recall mengevaluasi precision
dan recall untuk tiap objek dalam klasterisasi terhadap
himpinan data berdasarkan klaster ideal
Contoh : 𝐷 = {𝑜1, … , 𝑜𝑛} adalah himpunan objek dan ሶ𝐶 adalah
klasterisasi di D. 𝐿(𝑜1), dimanan 1 ≤ 𝑖 ≤ 𝑛 kategori dalam
𝑜1dalam klasterisasi ideal dan 𝐶(𝑜1) adalah klaster ID dari
objek 𝑜𝑖 dalam klaster ሶ𝐶.
33
Metode Ekstrinsik (lanjutan)
Untuk objek 𝑜𝑖 dan 𝑜𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 1 ≤ 𝑖, 𝑗 ≤ 𝑛, 𝑖 ≠ 𝑗. Sehingga tingkat
kebenaran atau correctness dari relasi antara 𝑜𝑖 dan 𝑜𝑗
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑛𝑒𝑠𝑠 = ቊ1 𝑗𝑖𝑘𝑎 𝐿(𝑜𝑖) = 𝐿(𝑜𝑗),⇔ 𝐶(𝑜𝑖) = 𝐶(𝑜𝑗),
0 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
BCubed precision didefinisikan sebagai :
BCube precisson =
σ𝑖=1𝑛
σ𝑜𝑗;𝑖≠𝑗,𝐶 𝑂𝑖 =𝐶(𝑂𝑗)
𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑛𝑒𝑠𝑠(𝑜𝑖,𝑜𝑗)
𝑜𝑗 𝑖 ≠ 𝑗, 𝐶 𝑜𝑖 = 𝐶(𝑜𝑗)
𝑛
BCubed recall didefinisikan sebagai :
BCube recall =
σ𝑖=1𝑛
σ𝑜𝑗;𝑖≠𝑗,𝐿 𝑂𝑖 =𝐿(𝑂𝑗)𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑛𝑒𝑠𝑠(𝑜𝑖 , 𝑜𝑗)
𝑜𝑗 𝑖 ≠ 𝑗, 𝐿 𝑜𝑖 = 𝐿(𝑜𝑗)
𝑛
34
Metode Intrinsik▪ Jika tidak memiliki klasterisasi ideal
▪ Menguji seberapa jauh klaster-klaster terpisah dan kepadatanklaster tersebut
▪ Salah satu metode : Silhouette coefficient
▪ Contoh: jika himpunan D berisi n objek dan dipartisi kedalam k klaster, 𝐶1, … , 𝐶𝑘. Untuk setiap 𝑜𝜖𝐷 hitung a(o) sebagai rata-rata jarak antara objek o dengan semua objek lain dalam klastertersebut dan b(o) sebagai rata-rata jarak minimum dari objek o kesemua klaster lain (yang bukan klasternya o). Jika 𝑜 ∈ 𝐶𝑖(1 ≤ 𝑖 ≤𝑘), maka
▪ 𝑎 𝑜 =σ𝑜′∈𝐶𝑖,𝑜≠𝑜′
𝑑𝑖𝑠𝑡(𝑜,𝑜′)
𝐶𝑖 −1dan
▪ 𝑏 𝑜 = 𝑚𝑖𝑛𝐶𝑗;1≤𝑗≤𝑘,𝑗≠𝑖σ𝑜′∈𝐶𝑗
𝑑𝑖𝑠𝑡(𝑜,𝑜′)
𝑐𝑗
35
Silhouette Coefficient
Silhouette Coefficient merupakan metode yang
digunakan untuk melihat kualitas dan kekuatan dari
cluster.
Metode Silhouette Coefficient merupakan gabungan
dari dua metode yaitu metode kohesi yang
berfungsi untuk mengukur seberapa dekat relasi
antara objek dalam sebuah cluster, dan metode
separasi yang berfungsi untuk mengukur seberapa
jauh sebuah cluster terpisah dengan cluster lain.
36
Perhitungan SC
Hitung rata-rata jarak dari suatu objek, misalkan i
dengan semua objek lain yang berada dalam satu
cluster dengan menggunakan rumus dibawah ini :
𝑎𝑖 =1
𝐴 − 1
𝑗∈𝐴,𝑖≠𝑗
𝑑(𝑖, 𝑗)
Keterangan :
|A| = banyaknya data dalam cluster A
i, j = indeks dari dokumen
d (i, j) = jarak antara dokumen ke i dengan dokumen ke-
j
37
Hitung rata-rata jarak dari dokumen i tersebut
dengan semua dokumen di cluster lain
menggunakan rumus berikut :
𝑑 𝑖, 𝐶 =1
𝐴
𝑗∈𝐶
𝑑(𝑖, 𝑗)
Keterangan :
d(I,C) adalah jarak rata-rata objek I dengan pusat
cluster lain.
38
Hitung nilai Silhouette Coefficient-nya dengan rumus berikut
:
𝑆 𝑖 =𝑏 𝑖 − 𝑎(𝑖)
max(𝑎 𝑖 , 𝑏 𝑖 )
Keterangan
b(i)= rata-rata jarak data ke-i terhadap semua data yang tidak
dalam satu cluster dengan data ke-i
39
40
No Rentang nilai Silhouette Coefficient Keterangan
1 0,7 < SC <= 1 Strong Structure
2 0.5 < SC <= 0.7 Mediem Structure
3 0.25 < SC <= 0.5 Weak Structure
4 SC <= 0.25 No Structure
Davies Bouldin Index
Davies Bouldin Index (DBI) merupakan salah satu metode untuk
mengecek hasil Clustering. Pendekatan pengujian nilai DBI
berupa nilai separasi dan kohesi.
Kohesi berupa jumlah dari kemiripan data terhadap pusat cluster
dari cluster tersebut sedangkan separasi adalah jarak antara
pusat cluster dari cluster tersebut. Dalam metode ini cluster
yang optimal adalah cluster yang memiliki nilai DBI rendah atau
memiliki separasi yang tinggi dan nilai kohesi yang rendah .
Berikut adalah tahapan dalam evaluasi cluster dengan
menggunakan metode Davies Bouldin Index :
41
Langkah-langkah
Sum of square within cluster (SSW) adalah
Persamaan untuk mengetahui matrik kohesi dalam
sebuah cluster ke-I
𝑆𝑆𝑊𝑖 =1
𝑚𝑖
𝑗=𝑖
𝑚𝑖
𝑑(𝑥𝑗 − 𝑐𝑖)
Keterangan :
mi = jumlah data dalam cluster ke-i
ci = centroid cluster ke-i
d (xj, ci) = jarak euclidean setiap data ke centroid
42
Sum of square between cluster (SSB) adalah persamaan untuk
mengetahui nilai separasi antara cluster.
𝑆𝑆𝐵𝑖, 𝑗 = 𝑑 𝑐𝑖, 𝑐𝑗
Keterangan :
d (ci, cj) = jarak antar centroid
Setelah nilai separasi dan kohesi diperoleh, lalu dilakukan
pengukuran rasio (Rij) untuk mengetahui nilai perbandingan
antara cluster ke-i dan cluster ke-j
𝑅𝑖, 𝑗 =𝑆𝑆𝑊𝑖+𝑆𝑆𝑊𝑗
𝑆𝑆𝐵𝑖,
43
Persamaan untuk menghitung nilai Davies Bouldin Index (DBI).
𝐷𝐵𝐼 =1
𝐾σ𝑖=1𝐾 max 𝑖 ≠ 𝑗(𝑅, 𝑗)
Keterangan
k= jumlah cluster yang digunakan
44