Klastering dengan K-Means
description
Transcript of Klastering dengan K-Means
![Page 1: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/1.jpg)
KLASTERING DENGAN K-MEANS
![Page 2: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/2.jpg)
TUJUAN
Mahasiswa mampu mendeskripsikan konsep dasar klastering K-means dalam hal algoritma, kelemahan dan penerapannya
![Page 3: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/3.jpg)
PENDAHULUAN
K-mean merupakan teknik klastering yang paling umum dan sederhana.
Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok.
Nilai k harus ditentukan terlebih dahulu (berbeda dengan hierarchical clustering).
Ukuran ketidakmiripan masih tetap digunakan untuk mengelompokkan obyek yang ada.
![Page 4: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/4.jpg)
ALGORITMA K-MEANS
Secara ringkas algoritma K-means adalah sebagai berikut:
1. Pilih jumlah klaster k2. Inisialisasi k pusat klaster3. Tempatkan setiap data/obyek ke klaster terdekat4. Perhitungan kembali pusat klaster5. Ulangi langkah 3 dengan memakai pusat klaster yang
baru. Jika pusat klaster tidak berubah lagi maka proses pengklasteran dihentikan.
![Page 5: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/5.jpg)
PENENTUAN JUMLAH DAN PUSAT KLASTER
Inisialisasi atau penentuan nilai awal pusat klaster dapat dilakukan dengan berbagai macam cara, antara lain: Pemberian nilai secara random Pengambilan sampel awal dari data Penentuan nilai awal hasil dari klaster hirarki dengan jumlah
klaster yang sesuai dengan penentuan awal. Dalam hal ini biasanya user memiliki pertimbangan
intuitif karena dia memiliki informasi awal tentang obyek yang sedang dipelajari, termasuk jumlah klaster yang paling tepat.
![Page 6: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/6.jpg)
PENEMPATAN OBYEK KE DALAM KLASTER
Penempatan obyek ke dalam klaster didasarkan pada kedekatannya dengan pusat klaster
Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster yang telah ditentukan.
Jarak paling dekat antara suatu data dengan pusat klaster tertentu merupakan hal penentu data tersebut akan masuk klaster yang mana.
![Page 7: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/7.jpg)
PERHITUNGAN KEMBALI PUSAT KLASTER Pusat klaster ditentukan kembali dengan cara dihitung
nilai rata-rata data/obyek dalam klaster tertentu. Jika dikehendaki dapat pula digunakan perhitungan
median dari anggota klaster yang dimaksud Mean bukan satu-satunya ukurang yang bisa dipakai Pada kasus tertentu pemakaian median memberikan hasil
yang lebih baik. Karena median tidak sensitif terhadap data outlier (data yang terletak jauh dari yang lain, meskipun dalam satu klaster - pencilan)
Contoh: Mean dari 1, 3, 5, 7, 9 adalah 5 Mean dari 1, 3, 5, 7, 1009 adalah 205 Median dari 1, 3, 5, 7, 1009 adalah 5
![Page 8: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/8.jpg)
KETERBATASAN K-MEANS
K-means sangat bergantung pada penentuan nilai pusat klaster awal
Penentuan nilai awal yang berbeda dapat memberikan hasil akhir yang berbeda.
![Page 9: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/9.jpg)
KOMENTAR PADA METODA K-MEANS Strength
Relatively efficient: O(tkn), dimana n adalah # objects, k adalah # clusters, dan t merupakan # iterations. Umumnya, k, t << n.
Biasanya berhenti pada nilai optimum lokal (local optimum). Nilai global optimum dapat ditentukan dengan menggunakan teknik seperti deterministic annealing dan genetic algorithms
Weakness Dapat diterapkan hanya saat nilai mean telah ditentukan,
bagaimana untuk data-data bersifat kategori? Perlu ditentukan k, jumlah klaster Tidak dapat menangani noisy data dan outliers Tidak tepat untuk membentuk klaster dengan data non-
convex shapes
![Page 10: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/10.jpg)
THE K-MEANS CLUSTERING METHOD
Example
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
![Page 11: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/11.jpg)
TUGAS
Carilah bahan bacaan (dapat dari jurnal, artikel, ataupun buku-buku referensi) untuk diskusi kelompok mengenai hal-hal berikut: Adakah kemungkinannya jika k-means dipakai untuk
mengklasifikasikan data yang tidak bersifat numeris, misalnya dokumen
Bagaimanakah caranya? Adakah penelitian yang membuktikan bahwa outlier dapat
ditangani dalam k-means, jelaskan? Bagaimanakah nilai optimum k klaster dapat dicapai dalam
metoda k-means?
![Page 12: Klastering dengan K-Means](https://reader036.fdokumen.com/reader036/viewer/2022082711/568138d0550346895da08bba/html5/thumbnails/12.jpg)
TERIMAKASIH