Data Mining

21
DATA CLUSTERING MENGGUNAKAN METODE CRISP DM UNTUK MENGETAHUI KEBUTUHAN TENAGA PENDIDIK JENJANG SMA DI KABUPATEN BANJAR Oleh : Muhammad Zaien J1F111016 KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN UNIVERSITAS LAMBUNG MANGKURAT

description

Laporan Data mining dengan metodologi Crisp DM dan algoritma K-Means untuk clustering data sekolah,guru dan murid

Transcript of Data Mining

Page 1: Data Mining

DATA CLUSTERING MENGGUNAKAN

METODE CRISP DM UNTUK MENGETAHUI KEBUTUHAN

TENAGA PENDIDIK JENJANG SMA DI KABUPATEN BANJAR

Oleh :

Muhammad Zaien

J1F111016

KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN

UNIVERSITAS LAMBUNG MANGKURAT

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

PROGRAM STUDI S1 ILMU KOMPUTER

BANJARBARU

2014

Page 2: Data Mining

Bab 1 : PENDAHULUAN

1.1 Latar Belakang

Dalam proses pendidikan, guru tidak hanya menjalankan fungsi alih ilmu

pngetahuan (transfer of knowledge) tapi juga berfungsi untuk menanamkan nilai

(value) serta membangun karakter (Character Building) peserta didik secara

berkelanjutan dan berkesinambungan. (Sri Sunarti, 2012).

Oleh karena itu pembagian jumlah tenaga pendidik di tiap kecamatan dapat

membantu dalam program pendidikan di tiap kecamatan. Untuk mengetahui

bagaimana kebutuhan tenaga pendidik di kabupaten banjar saya menggunakan teknik

clustering untuk mengelompokkan kebutuhan tenaga pendidik di tiap kecamatan

kabupaten banjar.

Clustering merupakan teknik data mining yang berfungsi untuk

mengelompokan data berdasarkan kemiripan data pada suatu kelompok dan

meminimalkan kemiripan pada kelompok lain (Irwan Budiman, 2012). Sehingga

didapat kelompok kecamatan yang masih membutuhkan tenaga pendidik.

Sebelumnya disini saya ingin menerangkan kenapa dibagi per kecamatan,

karena data yang saya dapat di internet untuk statistik siswa kabupaten banjar sudah

dikelompokkan per kecamatan.

1.2 Perumusan Masalah

Berdasarkan latar belakang yang diuraikan diatas maka untuk perumusan

masalah adalah bagaimana kebutuhan tenaga pendidik di kabupaten banjar per

kecamatan untuk jenjang SMA dan sederajat.

1.3 Batasan Masalah

Batasan masalah dalam laporan ini adalah :

1. Database yang diolah adalah database sekolah yang berisi data guru dan

sekolah untuk jenjang SMA/SMK/MA yang bersumber dari Sistem

Informasi Administrasi Pendidikan Kabupaten Banjar (SIAP) . Serta data

1

Page 3: Data Mining

statistik siswa yang bersumber dari Buku tahunan “Kabupaten banjar dalam

angka 2013” yang diterbitkan oleh Badan Pusat Statistik Kabupaten Banjar.

2. Metodologi yang digunakan adalah CRISP-DM

3. Algoritma Clustering yang digunakan adalah K-Means dengan

menggunakan Aplikasi Matlab.

4. DBMS yang digunakan adalah Microsoft Access.

1.4 Tujuan

Tujuan dari pembuatan laporan ini adalah :

1. Untuk memenuhi tugas pengganti UTS

2. Pembelajaran dalam melakukan Data Mining dengan metode CRISP-DM.

2

Page 4: Data Mining

Bab 2 : Isi Laporan

2.1 Alat dan Bahan

Bahan dalam laporan ini adalah :

1. Database sekolah dan statistik siswa.

Alat yang digunakan :

1. Microsoft Access 2010

2. Matlab

3. Metodologi CRISP-DM.

4. Teknik Data Mining : Clustering

5. Algoritma K-Means

2.2 Hasil

Berikut alur proses data mining mengikuti standar proses metodologi Cross

Industry Standard Process for Data Mining (CRISP-DM).

Gambar 1. Proses Data

2.2.1 Business Understanding

Pemahaman bisnis mengacu pada mengetahui kebutuhan tenaga pendidik di

kabupaten banjar per kecamatan.

1. Determine Business Objectives

Tujuan bisnis pada laporan ini adalah sebagai referensi dalam evaluasi

pemerataan pendidikan di kabupaten banjar untuk tiap kecamatan, dengan

pengetahuan terhadap kebutuhan tenaga pendidik di tiap kecamatan.

2. Assess The Situation

3

Page 5: Data Mining

a. Perubahan Jumlah Siswa selalu terjadi tiap tahun sehingga statistik

siswa berubah sehingga kebutuhan tenaga pendidikpun berubah.

b. Perubahan Jumlah siswa dan penduduk dapat memicu pembangunan

sekolah baru sehingga dengan adanya sekolah baru maka kebutuhan

tenaga pendidik pun bertambah.

c. Data pada program SIAP, kurang lengkap sehingga datanya rinciannya

sedikit.

3. Determine The Data Mining Goals

Tujuan data mining ini adalah mengelompokkan kebutuhan tenaga pendidik per

kecamatan di kabupaten banjar.

2.2.2 Data Understanding

Pemahaman data mengacu pada database sekolah dan guru, serta data statistik

siswa yang diambil dari SIAP kabupaten banjar dan buku tahunan “Kabupaten Banjar

dalam Angka 2013” yang diterbitkan badan pusat statistik kabupaten banjar.

1. Collect Initial Data

Tahap mengumpulkan data dari website SIAP kabupaten banjar Buku tahunan

“Kabupaten banjar dalam angka 2013” yang diterbitkan oleh Badan Pusat Statistik

Kabupaten Banjar. Data tersebut didapat dalam bentuk tabular dan laporan. Oleh

karena itu disini saya coba rancang database dengan inputan data dari kedua sumber

tersebut.

2. Describe the Data

Seperti yang dijelaskan pada bagian Collect initial data, data yang saya

dapatkan berbentuk tabular dan laporan, untuk data yang saya dapatkan pun terdapat

isian-isian yang masih kosong, sehingga pada rancangan database isian tersebut tidak

dibuat. Berikut gambar bentuk data yang saya dapatkan.

4

Page 6: Data Mining

Gambar 3. Data Sekolah (SIAP)

Gambar diatas table data sekolah yang terdaftar dalam program SIAP.

Gambar 4. Detail Sekolah

5

Page 7: Data Mining

Diatas adalah gambar detail info dari sekolah, disana terlihat beberapa isian

yang kosong, sehingga isian-isian tersebut tidak dimasukkan dalam rancangan

database.

Gambar 5. Data Guru satu sekolah

Diatas merupakan data guru untuk satu sekolah, disana ada beberapa guru yang

isian No Pegawai dan Nomor Unik Pendidik dan Tenaga Kependidikan (NUPTK)

yang kosong.

Untuk data Siswa pada SIAP ini masih belum tersedia sehingga data statistik

siswa didapat dari Buku tahunan “Kabupaten Banjar dalam Angka 2013” sebagai

berikut :

6

Page 8: Data Mining

Gambar 6. Statistik Siswa

Gambar diatas adalah statistik siswa dari buku tahunan. Dalam buku tersebut

data statistik siswa digolongkan berdasar, jenjang sekolah (SD,SMP,SMA,SMK,MA)

dan status nya swasta atau negeri.

3. Explore the Data

Dari data-data tersebut agar memudahkan dalam pencarian knowledge maka

dirancang database nya dengan hasilnya sebagai berikut

Gambar 7. Relasi Database

7

Page 9: Data Mining

Dari ke enam tabel tersebut 5 diisi data dari data SIAP, dan 1 tabel statistik

siswa disi dari data yang diambil dari buku tahunan statistik kabupaten banjar.

Sehingga hasil pengisian datanya sebagai berikut :

Gambar 8. Tabel Sekolah

Gambar 9. Tabel Kecamatan, Status Sekolah, dan Tipe

8

Page 10: Data Mining

Gambar 10. Tabel Guru

Gambar 11. Tabel StatistikSiswa

4. Verify Data Quality

Dalam data terdapat beberap kekurangan :

a. Terdapat sekolah yang nama dan alamatnya sama, tapi no NPSN nya

berbeda, sehingga akan membingungkan yang mana no NPSN yang

valid.

b. Pada tabel guru, terdapat No pegawai dan No NUPTK yang kosong.

9

Page 11: Data Mining

2.2.3 Data Preparation

1. Data Set Description

Untuk data set desciption, disini menyesuaikan Business understanding yaitu

kebutuhan guru di kabupaten banjar per kecamatan. Untuk mengetahui kebutuhan

guru didapat dari data jumlah guru, jumlah murid dan jumlah sekolah. Dari tiga data

tersebut akan dibuat ratio guru-murid, dan ratio guru-sekolah, dengan rumusan :

Ratio Guru-Murid = Jumlah guru

Jumlah Murid

Ratio Guru-Sekolah = Jumlah guru

Jumlah Sekolah

Sehingga bentuk akhir dari format tabelnya adalah sebagai berikut :

Nama Field Tipe Data KeteranganKodeKec Number Kode Kecamatan Kab. BanjarKecamatan Text Kecamatan Kab. BanjarRatioGuru Number Nilai Ratio Guru-MuridRatioSekolah Number Nilai Ratio Guru-Sekolah

2. Select Data

Data yang dipilih untuk menghitung jumlah guru,dan sekolah perkacamatan ada

pada tabel : Sekolah, Kecamatan, dan Guru, sedangkan untuk jumlah siswa

menggunakan tabel : StatistikSiswa dan kecamatan.

3. Construct Data

Untuk tabel jumlah guru yang diambil dari 3 tabel tersebut menggunakan query

berikut :

SELECT Sekolah.Kecamatan, Kecamatan.NamaKec, Count(Guru.NIP) AS

JumlahGuru FROM (Kecamatan INNER JOIN Sekolah ON Kecamatan.KodeKec =

Sekolah.Kecamatan) INNER JOIN Guru ON Sekolah.NPSN = Guru.NPSNSekolah

GROUP BY Sekolah.Kecamatan, Kecamatan.NamaKec;

10

Page 12: Data Mining

Gambar 12. Design SQL Tabel Jumlah Guru

Untuk tabel Jumlah Sekolah per kecamatan sebagai berikut :

SELECT Kecamatan.KodeKec, Kecamatan.NamaKec, Count(Sekolah.Kecamatan)

AS JumlahSekolah INTO JumlahSekolah FROM Kecamatan INNER JOIN Sekolah ON

Kecamatan.KodeKec = Sekolah.Kecamatan GROUP BY Kecamatan.KodeKec,

Kecamatan.NamaKec, Sekolah.Kecamatan;

Gambar 13. Design SQL Tabel Jumlah Sekolah

Untuk tabel jumlah Siswa per kecamatan sebagai berikut :

11

Page 13: Data Mining

SELECT StatistikSiswa.KodeKec, Kecamatan.NamaKec,

Sum(StatistikSiswa.JumlahSiswa) AS JumlahSiswa FROM Kecamatan INNER JOIN

StatistikSiswa ON Kecamatan.KodeKec = StatistikSiswa.KodeKec GROUP BY

StatistikSiswa.KodeKec, Kecamatan.NamaKec;

Gambar 14. Design SQL Tabel Jumlah Siswa

4. Integrate Data & Format Data

Disini digabungkan tabel jumlah guru,jumlah sekolah dan jumlah siswa yang

telah dibuat diatas dan dilakukan format data untuk mencari nilai ratio guru murid

dan ratio guru sekolah dengan rumus yang telah dijelaskan diatas. Berikut Query SQL

dan design nya :

SELECT Kecamatan.KodeKec, Kecamatan.NamaKec, Format(([JumlahGuru].

[JumlahGuru]/[JumlahSiswa].[JumlahSiswa]),"0.0000") AS RatioGuru,

Format( ( [JumlahGuru].[JumlahGuru] / [JumlahSekolah].

[JumlahSekolah] ) ,"0.0000") AS RatioSekolah FROM (JumlahGuru INNER JOIN

(JumlahSiswa INNER JOIN Kecamatan ON JumlahSiswa.KodeKec =

Kecamatan.KodeKec) ON JumlahGuru.Kecamatan = Kecamatan.KodeKec) INNER

JOIN JumlahSekolah ON Kecamatan.KodeKec = JumlahSekolah.KodeKec;

12

Page 14: Data Mining

Gambar 15. Design SQL Ratio

2.2.4 Modelling

1. Select Modelling Technique

Teknik data mining yang dipilih adalah clustering dengan menggunakan

algoritma K-means. Clustering dan algortima K-means digunakan untuk

mengelompokkan kebutuhan tenaga pendidik di kabupaten banjar per kecamatan.

2. Build Model

Algoritma yang digunakan untuk clustering adalah K-Means dengan Data set

yang diambil adalah data set terakhit pada Data Prepartion yaitu tabel ratio. Jumlah

kluster yang digunakan pada proses ini adalah 2, diharapkan dari 2 kluster tersebut

adalah satu untuk mewakili “Ratio Rendah”, dan satu lagi untuk mewakili “Ratio

Tinggi”.

3. Assess Model

Untuk proses clustering dengan K-Means disini saya menggunakan matlab

sehingga untuk inisiasi pusat kluster otomatis dilakukan oleh program tersebut.

13

Page 15: Data Mining

2.2.5 Evaluation

1. Evaluation Result

Sebelum membahas hasil, kita kembali ke rumus ratio Guru-Murid, dan Guru-

Sekolah. Dari ratio tersebut dapat kita ambil kesimpulan bahwa jika rationya rendah

(baik ratio Guru-Murid dan Guru-Sekolah) maka ada kemungkinan membutuhkan

tambahan tenaga pendidik, dan sebaliknya.

Berikut hasil clustering dengan algoritma K-Means menggunakan aplikasi

matlab, (dalam bentuk grafik) :

Gambar 16. Hasil Clustering

Dari hasil diatas, terlihat Cluster 1 memiliki 3 anggota, dan cluster 2 memiliki

11 anggota. Berdasarkan kesimpulan dari rumus ratio diatas berarti dapat diartikan

bahwa Cluster 1 (ratio rendah) yang memiliki 3 anggota memerlukan tambahan

tenaga pendidik, sedangkan Cluster 2 (ratio tinggi) yang memiliki 11 anggota dapat

diartikan Cukup atau belum memerlukan tenaga pendidik tambahan, atau ada

kemungkinan bisa diartikan kelebihan tenaga pendidik.

14

Page 16: Data Mining

2. Review Process

Untuk review process disini saya menyadari banyak kekurangannya, khususnya

dibagian kelengkapan data, banyak data yang masih kurang, khususnya data sekolah,

dan jumlah guru. Sehingga hasil ini masih belum bisa dijadikan masukan untuk

pemerataan pendidikan.

Dan untuk dibagian lain mungkin pada Data Preparation, disini dihasilkan data

ratio untuk data set clustering. Mungkin ada kritik saran untuk penggunaan data set

tersebut untuk melakukan clustering dengan tujuan Bisnis Understanding seperti

tercantum di atas.

3. Determine Next Steps

Untuk menghasilkan pengetahuan yang dapat digunakan tentu perlu dilakukan

perbaikan pada bagian-bagian yang telah disebutkan pada Review Process. Jadi,

untuk langkah selanjutnya baiknya kembali ke tahap awal, dengan persiapan data

yang lebih lengkap.

15