PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER … · 5. Bapak Alb. Agung Hadhiatma, M.T. selaku...

PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK

IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL,

INDEKS INTEGRITAS, DAN AKREDITASI SMA

DI DAERAH ISTIMEWA YOGYAKARTA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

I. Kristanto Riyadi

NIM : 135314062

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2017

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK

IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL,

INDEKS INTEGRITAS, DAN AKREDITASI SMA

DI DAERAH ISTIMEWA YOGYAKARTA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

I. Kristanto Riyadi

NIM : 135314062

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2017


iii

IMPLEMENTATION OF MIXCBLOF ALGORITHM BASED CLUSTER

FOR OUTLIER IDENTIFICATION IN NATIONAL DATA SCORES,

INTEGRITY INDEX, AND ACCREDITATION OF SENIOR HIGH

SCHOOL IN YOGYAKARTA

FINAL PROJECT

Present as Partial Fullfillment of the Requirements

to Obtain the Sarjana Komputer Degree

in Informatics Engineering Study Program

By :

I. Kristanto Riyadi

NIM : 135314062

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2017


iv


v


vi

HALAMAN PERSEMBAHAN

“Mintalah, maka akan diberikan kepadamu; carilah, maka kamu

akan mendapat; ketoklah, maka pintu

akan dibukakan bagimu”

(Mat 7:7)

Karya ini kupersembahkan kepada :

Orangtuaku, P. Sutarmijan dan M.Sumaryati

Saudara-saudaraku

Sahabat


vii


viii

ABSTRAK

Dalam makalah ini dijabarkan mengenai algoritma MixCBLOF untuk

mendeteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian

Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta. Penulis

menggunakan Knowledge Discovery in Database (KDD) yang terdiri dari

pembersihan data, integrasi data, seleksi data, transformasi data, dan

penambangan data. Pada tahap pembersihan data dan integrasi data dilakukan

secara manual. Selanjutnya penulis merancang perangkat lunak sebagai alat untuk

melakukan tahap evaluasi pola dari hasil penambangan data yang diperoleh dari

perangkat lunak. Perangkat lunak diujikan dengan menggunakan dua dataset yang

merupakan data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan

Akreditasi SMA tahun ajaran 2014/2015 di Daerah Istimewa Yogyakarta jurusan

IPA dan jurusan IPS. Berdasarkan penelitian yang telah dilakukan, dapat

diketahui bahwa algoritma MixCBLOF dapat digunakan untuk mendeteksi outlier

pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi

SMA. Pendeteksian outlier dipengaruhi oleh nilai b dan nilai Akreditasi SMA.

Kata Kunci – Algoritma MixCBLOF, Deteksi Outlier, Ujian Nasional, Indeks

Integritas Ujian Nasional, Akreditasi, Penambangan Data


ix

ABSTRACT

This paper describes the MixCBLOF algorithm to detect outliers on

National Examination data, Integrity Index of National Examination, and SMA

Accreditation in Yogyakarta. The writer uses Knowledge Discovery in Database

(KDD) which consists of data cleaning, data integration, data selection, data

transformation, and data mining. At the data cleaning stage and data integration

conducted them manually. Furthermore the writer designed the software as a tool

to perform the pattern evaluation stage of the data mining obtained from the

software. The software is tested using two datasets which are National Exam

result data, Integrity Index of National Examination, and SMA Accreditation in

the academic year of 2014/2015 in Yogyakarta majoring in science and social

studies majors. Based on the research that has been done, it can be seen that

MixCBLOF can be used to detect outliers on National Examination, Integrity

Index of National Examination, and SMA Accreditation. Outlier detection is

influenced by b value and value of SMA Accreditation.

Keywords – MixCBLOF Algorithm, Outlier Detection, National Exam, Integrity

Index of National Examination, Accreditation, Data Mining


x


xi

KATA PENGANTAR

Puji syukur kepada Tuhan Yesus Kristus yang selalu menyertai dan

membimbing saya dalam menyelesaikan skripsi yang berjudul “Penerapan

Algoritma MixCBLOF Berbasis Klaster untuk Identifikasi Outlier Pada Data

Hasil Ujian Nasional, Indeks Integritas, dan Akreditasi SMA di Daerah Istimewa

Yogyakarta”.

Skripsi ini tidak dapat saya selesaikan tanpa bantuan dan dukungan dari

pihak lain. Untuk itu, dalam kesempatan ini penulis ingin mengucapkan terima

kasih kepada:

1. Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan

anugerah, rahmat, kekuatan, dan keberuntungan sehingga penulis

dapat menyelesaikan tugas akhir ini.

2. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan

Fakultas Sains dan Teknologi.

3. Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik

Informatika dan juga selaku Dosen Metodologi Penelitian yang telah

memberikan waktu, bimbingan, dan nasihat kepada penulis.

4. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen

Pembimbing Skripsi yang telah memberikan waktu, bimbingan,

nasihat, dan motivasi kepada penulis.

5. Bapak Alb. Agung Hadhiatma, M.T. selaku Dosen Pembimbing

Akademik penulis.

6. Seluruh Dosen, sekretariat, laboran, staff, dan perpustakaan yang telah

membimbing dan membantu selama proses perkuliahan di Universitas

Sanata Dharma.

7. Orangtuaku, Petrus Sutarmijan dan Maria Sumaryati serta saudara-

saudaraku terkasih, terima kasih atas doa, kesabaran, perhatian,

dukungan dan kesempatan yang diberikan sehingga skripsi ini dapat

selesai.


xii


xiii

DAFTAR ISI

HALAMAN JUDUL .......................................................................................................... ii

TITLE PAGE ...................................................................................................................... iii

HALAMAN PERSETUJUAN ..............................................Error! Bookmark not defined.

HALAMAN PENGESAHAN...............................................Error! Bookmark not defined.

PERNYATAAN KEASLIAN KARYA ...............................Error! Bookmark not defined.

ABSTRAK ........................................................................................................................ viii

ABSTRACT ........................................................................................................................ ix

PERSETUJUAN PUBLIKASI KARYA ILMIAH ...............Error! Bookmark not defined.

KATA PENGANTAR ........................................................................................................ xi

DAFTAR ISI ..................................................................................................................... xiii

DAFTAR TABEL ............................................................................................................ xvii

DAFTAR GAMBAR ........................................................................................................ xix

BAB I PENDAHULUAN ................................................................................................... 1

1.1 LATAR BELAKANG ........................................................................................ 1

1.2 RUMUSAN MASALAH .................................................................................... 4

1.3 TUJUAN ............................................................................................................. 4

1.4 BATASAN MASALAH ..................................................................................... 4

1.5 MANFAAT PENELITIAN................................................................................. 5

1.6 METODOLOGI PENELITIAN .......................................................................... 5

1.7 SISTEMATIKA PENULISAN ........................................................................... 6

BAB II LANDASAN TEORI ............................................................................................. 8

2.1 PENAMBANGAN DATA ................................................................................. 8

2.1.1 Pengertian Penambangan Data .................................................................... 8

2.1.2 Asal-usul Penambangan Data ..................................................................... 8

2.1.3 Tugas-tugas Penambangan Data ................................................................. 9

2.1.4 Knowledge Discovery in Databases (KDD) ............................................. 10

2.2 OUTLIER .......................................................................................................... 12

2.2.1 Pengertian Outlier ..................................................................................... 12

2.2.2 Pendekatan Deteksi Outlier ...................................................................... 13


xiv

2.3 MixCBLOF (Mix Cluster Based Local Outlier Factor) .................................... 14

2.3.1 CBLOF (Cluster Based Local Outlier Factor) ......................................... 14

2.3.2 NCBLOF (Numerical Cluster Based Local Outlier Factor) .................... 16

2.3.3 Algoritma MixCBLOF .............................................................................. 17

2.4 STRUKTUR DATA ......................................................................................... 18

BAB III METODOLOGI PENELITIAN.......................................................................... 21

3.1 BAHAN RISET/ DATA ................................................................................... 21

3.2 PERALATAN PENELITIAN ........................................................................... 27

3.3 TAHAP-TAHAP PENELITIAN ...................................................................... 27

BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK

PENAMBANGAN DATA ............................................................................................... 31

4.1 PEMROSESAN AWAL ................................................................................... 31

4.1.1 Pembersihan Data ..................................................................................... 31

4.1.2 Integrasi Data ................................................................................................... 31

4.1.3 Seleksi Data .............................................................................................. 32

4.1.4 Transformasi Data ..................................................................................... 35

4.2 PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA ........ 35

4.2.1 Perancangan Umum .................................................................................. 35

4.2.1.1 Input Sistem .......................................................................................... 35

4.2.1.2 Proses Sistem ........................................................................................ 36

4.2.1.3 Output Sistem ........................................................................................ 37

4.2.2 Diagram Use Case .................................................................................... 37

4.2.3 Diagram Aktivitas ..................................................................................... 39

4.2.4 Diagram Kelas Analisis ............................................................................ 39

4.2.5 Diagram Sekuen ........................................................................................ 39

4.2.6 Perancangan Struktur Data ........................................................................ 39

4.2.7 Diagram Kelas Disain ............................................................................... 41

4.2.8 Algoritma per Method ............................................................................... 41

4.2.9 Perancangan Antarmuka ........................................................................... 41

4.2.9.1 Perancangan Halaman Awal ................................................................. 42

4.2.9.2 Perancangan Halaman Proses ............................................................... 43

4.2.9.3 Perancangan Halaman Bantuan............................................................. 46


xv

4.2.9.4 Perancangan Halaman Tentang ............................................................. 47

BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL ........ 48

5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK .......................... 48

5.1.1 Implementasi Kelas Model ........................................................................ 48

5.1.2 Implementasi Kelas View .......................................................................... 48

5.1.3 Implementasi Kelas Control ..................................................................... 57

5.2 EVALUASI HASIL .......................................................................................... 58

5.2.1 Pengujian Perangkat Lunak (Black Box) ................................................... 58

5.2.1.1. Rencana Pengujian Black Box ........................................................... 58

5.2.1.2. Prosedur Pengujian Black Box dan Kasus Uji ................................... 58

5.2.1.3. Evaluasi Pengujian Black Box ........................................................... 58

5.2.2 Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan

Hasil Pencarian Outlier menggunakan Perangkat Lunak ......................................... 59

5.2.2.1. Pencarian Outlier Secara Manual...................................................... 59

5.2.2.2. Pencarian Outlier menggunakan Perangkat Lunak ........................... 59

5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil

Perangkat Lunak ................................................................................................... 61

BAB VI ANALISIS HASIL DAN PEMBAHASAN ....................................................... 62

6.1. DATASET .......................................................................................................... 62

6.2. HASIL IDENTIFIKASI OUTLIER .................................................................. 62

6.2.1. Hasil Identifikasi Outlier Dataset Jurusan IPA ......................................... 62

6.2.2. Hasil Identifikasi Outlier Dataset Jurusan IPS ......................................... 72

6.3. ANALISIS HASIL IDENTIFIKASI OUTLIER ............................................... 82

6.3.1. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPA .......................... 82

6.3.2. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPS ........................... 84

6.4. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK ..................... 85

6.4.1. Kelebihan Perangkat Lunak ...................................................................... 85

6.4.2. Kekurangan Perangkat Lunak ................................................................... 85

BAB VII PENUTUP ......................................................................................................... 86

7.1. KESIMPULAN ................................................................................................. 86

7.2. SARAN ............................................................................................................. 88

DAFTAR PUSTAKA ....................................................................................................... 90


xvi

LAMPIRAN 1 : NARASI USE CASE ............................................................................. 91

LAMPIRAN 2 : DIAGRAM AKTIVITAS ...................................................................... 95

LAMPIRAN 3 : DIAGRAM KELAS ANALISIS............................................................ 98

LAMPIRAN 4 : DIAGRAM SEQUENCE ....................................................................... 99

LAMPIRAN 5 : DIAGRAM KELAS DISAIN .............................................................. 102

LAMPIRAN 6 : ALGORITMA PER METHOD ........................................................... 103

LAMPIRAN 7 : PROSEDUR PENGUJIAN DAN KASUS UJI ................................... 110

LAMPIRAN 8 : HITUNG MANUAL PENAMBANGAN DATA ................................ 113


xvii

DAFTAR TABEL

Tabel 3. 1 Nilai UN Jurusan IPA ...................................................................................... 21

Tabel 3. 2 Nilai UN Jurusan IPS ....................................................................................... 22

Tabel 3. 3 Nilai IIUN Jurusan IPA ................................................................................... 22

Tabel 3. 4 Nilai IIUN Jurusan IPS .................................................................................... 22

Tabel 3. 5 Nilai Akreditasi SMA ...................................................................................... 23

Tabel 3. 6 Atribut Data Nilai UN Jurusan IPA ................................................................. 23

Tabel 3. 7 Atribut Data Nilai UN Jurusan IPS .................................................................. 24

Tabel 3. 8 Atribut Data NIlai IIUN Jurusan IPA .............................................................. 25

Tabel 3. 9 Atribut Data Nilai IIUN Jurusan IPS ............................................................... 26

Tabel 3. 10 Atribut Data Nilai Akreditasi SMA ............................................................... 26

Tabel 4. 1 Hasil Integrasi Jurusan IPA ............................................................................. 32

Tabel 4. 2 Hasil Integrasi Jurusan IPS .............................................................................. 32

Tabel 4. 3 Hasil Seleksi Atribut Jurusan IPA ................................................................... 33

Tabel 4. 4 Hasil Seleksi Atribut Jurusan IPS .................................................................... 34

Tabel 5. 1 Implementasi Kelas Model .............................................................................. 48

Tabel 5. 2 Implementasi Kelas View ................................................................................. 48

Tabel 5. 3 Spesifikasi detail kelas Hal_Utama.java .......................................................... 49

Tabel 5. 4 Spesifikasi detail kelas Hal_Proses.java .......................................................... 50

Tabel 5. 5 Spesifikasi detail frame frameDeteksi ............................................................. 53

Tabel 5. 6 Spesifikasi detail kelas Hal_Bantuan.java ....................................................... 54

Tabel 5. 7 Spesifikasi detail kelas Hal_Tentang.java ....................................................... 56

Tabel 5. 8 Implementasi kelas Controller ......................................................................... 57

Tabel 5. 9 Rencana pengujian Black Box .......................................................................... 58

Tabel 6. 1 Hasil pengujian pertama jurusan IPA .............................................................. 63


xviii

Tabel 6. 2 Hasil pengujian kedua jurusan IPA .................................................................. 64

Tabel 6. 3 Hasil pengujian ketiga jurusan IPA ................................................................. 65

Tabel 6. 4 Hasil pengujian keempat jurusan IPA .............................................................. 65

Tabel 6. 5 Hasil pengujian kelima jurusan IPA ................................................................ 66

Tabel 6. 6 Hasil pengujian keenam jurusan IPA ............................................................... 67

Tabel 6. 7 Hasil pengujian ketujuh jurusan IPA ............................................................... 68

Tabel 6. 8 Hasil pengujian kedelapan jurusan IPA ........................................................... 69

Tabel 6. 9 Hasil pengujian kesembilan jurusan IPA ......................................................... 70

Tabel 6. 10 Hasil pengujian kesepuluh jurusan IPA ......................................................... 71

Tabel 6. 11 Hasil pengujian pertama jurusan IPS ............................................................. 72

Tabel 6. 12 Hasil pengujian kedua jurusan IPS ................................................................ 73

Tabel 6. 13 Hasil pengujian ketiga jurusan IPS ................................................................ 74

Tabel 6. 14 Hasil pengujian keempat jurusan IPS ............................................................ 75

Tabel 6. 15 Hasil pengujian kelima jurusan IPS ............................................................... 76

Tabel 6. 16 Hasil pengujian keenam jurusan IPS ............................................................. 77

Tabel 6. 17 Hasil pengujian ketujuh jurusan IPS .............................................................. 78

Tabel 6. 18 Hasil pengujian kedelapan jurusan IPS .......................................................... 79

Tabel 6. 19 Hasil pengujian kesembilan jurusan IPS ........................................................ 80

Tabel 6. 20 Hasil pengujian kesepuluh jurusan IPS .......................................................... 81

Tabel 6. 21 Hasil Identifikasi Outlier jurusan IPA ........................................................... 83

Tabel 6. 22 Hasil Identifikasi Outlier jurusan IPS ............................................................ 84


xix

DAFTAR GAMBAR

Gambar 2. 1 Asal-usul Penambangan Data ........................................................................ 9

Gambar 2. 2 Proses KDD .................................................................................................. 11

Gambar 2. 3 Ilustrasi ArrayList ........................................................................................ 19

Gambar 2. 4 Ilustrasi Matriks ........................................................................................... 19

Gambar 4. 1 Diagram Flowchart ...................................................................................... 36

Gambar 4. 2 Diagram Flowchart Deteksi Outlier ............................................................ 37

Gambar 4. 3 Diagram Use Case........................................................................................ 38

Gambar 4. 4 Perancangan Arraylist .................................................................................. 40

Gambar 4. 5 Perancangan Matriks .................................................................................... 40

Gambar 4. 6 Rancangan Antarmuka Halaman Utama ...................................................... 42

Gambar 4. 7 Rancangan Antarmuka Halaman Proses ...................................................... 43

Gambar 4. 8 Rancangan Antarmuka Frame Hasil ............................................................ 44

Gambar 4. 9 Rancangan Dialog Pilih Penyimpanan ......................................................... 45

Gambar 4. 10 Rancangan Halaman Bantuan .................................................................... 46

Gambar 4. 11 Rancangan Halaman Tentang .................................................................... 47

Gambar 5. 1 Implementasi Antarmuka Hal_Utama .......................................................... 50

Gambar 5. 2 Implementasi Antarmuka kelas Hal_Proses ................................................. 52

Gambar 5. 3 Implementasi Antarmuka frameDeteksi ....................................................... 54

Gambar 5. 4 Implementasi Antarmuka Hal_Bantuan ....................................................... 55

Gambar 5. 5 Implementasi Antarmuka Hal_Tentang ....................................................... 57

Gambar 5. 6 Hasil Penambangan Data menggunakan Perangkat Lunak .......................... 60

Gambar 5. 7 Hasil Penambangan Data menggunakan Perangkat Lunak .......................... 60


BAB I

PENDAHULUAN

1.1 Latar Belakang

Dewasa ini, teknologi berkembang dengan begitu pesat. Perkembangan

teknologi mengakibatkan data juga ikut semakin berkembang, sehingga

jumlah data semakin banyak. Data dengan ukuran yang sangat banyak muncul

dari berbagai bidang, mulai dari bidang kesehatan/ forensik, bidang

pendidikan, dan bidang-bidang lainnya. Namun, seringkali data yang

mempunyai ukuran yang sangat besar biasanya jarang atau bahkan tidak

menghasilkan suatu informasi. Semakin bertambah banyaknya data,

kemungkinan besar ada beberapa/banyak data yang tidak terpakai dalam suatu

analisis tertentu. Untuk itu diperlukan sebuah alat untuk menambang data

yang sangat banyak yang tidak memiliki suatu informasi menjadi sebuah

informasi yang berguna. Maka dari itu, data mining atau yang biasa disebut

penambangan data mempunyai peran yang sangat tinggi untuk melakukan

proses menambang data yang sangat banyak, sehingga dapat disimpulkan

bahwa penambangan data merupakan proses dari menemukan pengetahuan

atau pola yang menarik dari jumlah data yang besar/banyak (Han & Kamber,

2012).

Penambangan data memiliki beberapa langkah untuk menemukan sebuah

pengetahuan dari sebuah data, yang biasa disebut dengan Knowledge

Discovery in Databases (KDD). Langkah-langkah tersebut yaitu data

cleaning, data integration, data selection, data transformation, data mining,

pattern evaluation, dan knowledge presentation. Langkah 1 sampai dengan

langkah 4 merupakan proses untuk mengolah data agar data siap untuk

ditambang. Kemudian, langkah data mining merupakan proses yang

digunakan untuk mengekstrak pola data (Han & Kamber, 2012).


Penambangan data memiliki banyak teknik atau metode, salah satu teknik

dalam penambangan data yang dikenal adalah mencari data yang tidak sesuai

dengan harapan, yang biasa disebut outlier detection (Han & Kamber, 2012).

Outlier merupakan sebuah pengamatan yang menyimpang begitu banyak dari

pengamatan lainnya untuk membangkitkan kecurigaan bahwa hal tersebut

dihasilkan oleh berbagai mekanisme (Hawkins, 1980).

Pendeteksian outlier mempunyai 5 pendekatan, yaitu statistical approach,

proximity-based approach, clustering-based approach, classification-based

approach, dan high-dimensional data (Han & Kamber, 2012). Pada setiap

pendekatan mempunyai beberapa algoritma yang bisa diterapkan untuk

mengidentifikasi atau pendeteksian outlier. Salah satu contoh yaitu algoritma

MixCBLOF (Mix Cluster Based Local Outlier Factor) yang merupakan salah

satu algoritma dengan pendekatan clustering-based. Algoritma MixCBLOF

ini merupakan pengembangan dari algoritma CBLOF (Cluster Based Local

Outlier Factor) yang hanya dapat menangani outlier dengan set data yang

seragam yaitu set data numerik (Maryono & Djunaidy, 2010). Namun,

Maryono & Djunaidy pada tahun 2010 mengembangkan algoritma CBLOF

menjadi algoritma MixCBLOF yang dapat menangani outlier dengan set data

campuran atau bisa dikatakan dapat menggunakan set data numerik dan set

data kategorikal.

Teknik pendeteksian outlier dengan menggunakan algoritma MixCBLOF

ini kemungkinan dapat diterapkan pada bidang pendidikan di Sekolah

Menengah Atas (SMA). Pendidikan pada jenjang SMA memiliki data Ujian

Nasional (UN) berupa nama sekolah, nilai UN, nilai Indeks Integritas Ujian

Nasional (IIUN), dan Akreditasi sekolah. Nilai Ujian Nasional (UN)

merupakan nilai yang dihasilkan dari Ujian Nasional yang diselenggarakan

secara nasional pada sekolah-sekolah (sekolah menengah pertama, dan

sekolah menengah atas), atribut nilai UN merupakan atribut numerik. Nilai

Indeks Integritas Ujian Nasional (IIUN) merupakan penilaian kejujuran dalam

pelaksanaan Ujian Nasional, atribut nilai IIUN merupakan atribut numerik.

Nilai Akreditasi merupakan pengakuan oleh badan yang berwenang terhadap


3

sekolah-sekolah yang memenuhi syarat kebakuan dan kriteria tertentu, atribut

nilai akreditasi sekolah merupakan atribut kategorikal.

Maria Renia Octaviani (2015) sudah pernah melakukan penelitian

mengenai outlier yang digunakan sebagai topik skripsi yaitu pendeteksian

outlier pada nilai Ujian Nasional Sekolah Menengah Atas di Provinsi Daerah

Istimewa Yogyakarta pada tahun ajaran 2011-2014 dengan menggunakan

algoritma INFLO (Influenced Outliernes). Penelitian ini merupakan

pengembangan penelitian di atas, karena pendeteksian outlier pada penelitian

ini dilakukan pada nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional,

dan nilai Akreditasi seluruh SMA yang ada di DIY pada tahun 2015 dengan

menggunakan algoritma MixCBLOF. Pemilihan data UN SMA tahun 2015

karena pada tahun tersebut IIUN baru digunakan.

Penelitian ini diharapkan dapat menghasilkan informasi atau suatu

pengetahuan mengenai kejadian langka yang ada pada kasus outlier di SMA.

Data UN SMA sangat menarik untuk diidentifikasi outlier karena bisa saja

pada data UN tersebut memiliki karakter yang unik/ berbeda dengan yang

lainnya. Misalnya seperti nilai UN yang tinggi namun memiliki nilai IIUN/

akreditasi yang rendah begitu pula sebaliknya. Hasil yang didapatkan dari

penelitian ini yaitu menampilkan suatu SMA dengan data UN yang unik

dengan SMA yang lainnya. Hasil dari penelitian ini dapat dianalisa lebih

lanjut oleh pihak yang berwenang untuk kepentingan pendampingan dan

pengembangan terhadap sekolah tersebut.


4

1.2 Rumusan Masalah

Rumusan masalah pada penelitian ini adalah sebagai berikut:

1. Apakah algoritma MixCBLOF dapat mendeteksi outlier data pada nilai

ujian nasional, nilai indeks integritas, dan nilai akreditasi Sekolah

Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta

(DIY)?

2. Bagaimana karakteristik data-data atau sekolah yang diidentifikasi sebagai

outlier?

1.3 Tujuan

Tujuan dari penelitian ini adalah sebagai berikut:

1. Menganalisa algoritma MixCBLOF dalam mendeteksi outlier data pada

nilai ujian nasional, nilai indeks integritas, dan nilai akreditasi Sekolah

Menegah Atas (SMA) Provinsi Daerah Istimewa Yogyakarta (DIY).

2. Menganalisa karakteristik data-data atau sekolah yang diidentifikasi

sebagai outlier.

1.4 Batasan Masalah

Batasan masalah pada penelitian ini sebagai berikut:

1. Algoritma yang digunakan yaitu algoritma MixCBLOF (Mix Cluster

Based Local Outlier Factor).

2. Data yang digunakan yaitu nilai Ujian Nasional, nilai Indeks Integritas,

dan nilai Akreditasi selutuh Sekolah Menengah Atas (SMA) di Provinsi

Daerah Istimewa Yogyakarta (DIY) pada tahun ajaran 2014/2015 yang

didapatkan dari website resmi Kemendikbud.


5

1.5 Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut :

1. Memberikan pengetahuan baru mengenai cara mendeteksi outlier dengan

menggunakan algoritma Mix Cluster Based Local Outlier Factor

(MixCBLOF).

2. Memberikan informasi mengenai data yang unik dalam nilai hasil Ujian

Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi Sekolah

Menengah Atas (SMA).

1.6 Metodologi Penelitian

Metodologi Penelitian yang digunakan dalam menyelesaikan tugas akhir ini

adalah sebagai berikut :

1. Studi Pustaka

Metodologi pertama yang digunakan adalah studi pustaka. Tahap

ini merupakan proses pengumpulan informasi berupa metode atau

algoritma yang digunakan untuk mendeteksi outlier dari berbagai referensi

seperti buku, paper/ jurnal, skripsi, atau artikel-artikel lainnya yang ada di

internet. Selanjutnya yaitu mempelajari dan menganalisa dari informasi

yang didapat sehingga menentukan untuk memilih algoritma MixCBLOF

(Mix Cluster Based Local Outlier Factor) untuk melakukan penelitian

deteksi outlier pada data Ujian Nasional Sekolah Menengah Atas (SMA).

2. Teknik Knowledge Discovery in Databases (KDD).

Metodologi kedua adalah teknik penambangan data yang dituliskan

oleh Han et.al. (2012). Teknik KDD memiliki beberapa langkah, yaitu :

a. Data Cleaning

Langkah ini merupakan langkah untuk menghilangkan noise/

pengganggu dan data yang tidak konsisten.

b. Data Integration

Langkah ini merupakan suatu proses dimana beberapa sumber data

digabungkan menjadi satu kesatuan.


6

c. Data Selection

Langkah ini merupakan proses untuk melakukan analisis, dimana data

yang relevan diambil dari database.

d. Data Transformation

Langkah ini merupakan proses dimana data diubah (transformasi)

menjadi data yang tepat untuk ditambang sehingga dapat dilakukan

proses operasi seperti penjumlahan atau penggabungan.

e. Data Mining

Langkah ini merupakan proses penting di mana metode cerdas yang

diterapkan untuk mengekstrak pola data.

f. Pattern Evaluation

Langkah ini merupakan proses untuk mengidentifikasi pola-pola

menarik yang menampilkan basis pengetahuan dalam suatu ukuran

ketertarikan.

g. Knowledge Presentation

Langkah ini merupakan proses dimana teknik untuk menampilkan

suatu gambaran dan representasi pengetahuan hasil tambang kepada

pengguna.

1.7 Sistematika Penulisan

Sistematika penulisan proposal tugas akhir sebagai berikut:

a. Bab I : Pendahuluan

Bab pertama ini berisi mengenai latar belakang, rumusan masalah, tujuan,

batasan masalah, metodologi penelitian dan sistematika penulisan proposal

tugas akhir.

b. Bab II : Landasan Teori

Bab kedua ini berisi mengenai penjelasan teori penambangan data yang

digunakan dalam penelitian proposal tugas akhir.


7

c. Bab III : Metode Penelitian

Bab ketiga ini berisi mengenai rencana langkah-langkah yang dilakukan

dalam penelitian, termasuk bagaimana cara mendapatkan data, cara

mengolah data, cara membuat alat uji, cara analisis data, cara pengujian.

d. Bab IV : Pemrosesan Awal dan Perancangan Perangkat Lunak

Penambangan Data

Bab keempat ini berisi mengenai pemrosesan awal dalam proses

Knowledge Discovery in Database (KDD). Selain itu, bab ini juga berisi

mengenai perancangan perngkat lunak yang akan digunakan dalam tahap

penambangan data. Perancangan perangkat lunak tersebut terditi dari

perancangan umum, diagram use case, diagram aktivitas, diagram kelas,

algoritma per method dan perancangan antarmuka.

e. Bab V : Implementasi Penambangan Data dan Evaluasi Hasil

Bab kelima ini berisi mengenai implementasi rancangan perangkat lunak

penambangan data dan evaluasi hasil yang terdiri dari pengujian perangkat

lunak (black box), pengujian perbandingan hitung manual dengan hasil

sistem.

f. Bab VI : Analisis Hasil dan Pembahasan

Bab keenam ini berisi mengenai percobaan-percobaan yang dilakukan

dengan variasi nilai-nilai yang dibutuhkan. Selain itu, bab ini juga berisi

mengenai analisis dari percobaan yang sudah dilakukan.

g. Bab VII : Penutup

Bab terakhir ini menjelaskan mengenai kesimpulan yang diperoleh dari

pembuatan sistem serta saran untuk pengembangan sistem dan penelitian

berikutnya.


8

BAB II

LANDASAN TEORI

2.1 Penambangan Data

2.1.1 Pengertian Penambangan Data

Menurut Tan et.al. (2006), penambangan data adalah proses

menemukan suatu informasi yang berguna dari data yang besar.

Teknik data mining dikerahkan untuk menjelajahi pada database yang

berukuran besar untuk menemukan pola yang mungkin tetap tidak

diketahui. Penambangan data juga menyediakan kemampuan untuk

memprediksi hasil dari pengamatan masa depan, seperti memprediksi

seorang pelanggan akan menghabiskan uang lebih dari $100 atau tidak

di sebuah department store.

Namun, tidak semua tugas menemukan informasi dapat dicari

menggunakan penambangan data. Meskipun tugas-tugas memiliki sifat

yang penting dan mungkin melibatkan penggunaan algoritma yang

canggih dan struktur data, tetapi tetap mengandalkan teknik ilmu

komputer tradisional dan fitur yang jelas dari data untuk membuat

struktur indeks secara efisien dalam mengatur dan mengambil

informasi. Meskipun demikian, teknik data mining telah digunakan

untuk meningkatkan sistem pencarian informasi.

2.1.2 Asal-usul Penambangan Data

Menurut Tan et.al. (2006), penambangan data mengacu pada ide-

ide seperti pengambilan sampel, estimasi, dan pengujian hipotesis dari

statistik dan algoritma pencarian, teknik pemodelan, dan teori-teori

Artificial Intelligence (AI), pengenalan pola, dan machine learning.

Penambangan data juga mempunyai peran pada bidnag lain, termasuk

optimasi, evolutionary computing, information theory, pemrosesan

sinyal, visualisasi, dan pemerolehan informasi (information retrieval).


9

Relasi data mining dengan bidang/ area lainnya dapat digambarkan

sebagai berikut :

Gambar 2. 1 Asal-usul Penambangan Data

(Sumber : Han et.al, 2012)

2.1.3 Tugas-tugas Penambangan Data

Menurut Tan et.al. (2006), penambangan data memiliki beberapa

tugas yang menerapkan dua kategori besar yaitu metode prediktif dan

metode deskriptif. Metode prediktif mempunyai tugas untuk

memprediksi nilai atribut tertentu berdasarkan pada nilai-nilai atribut

lainnya. Metode deskriptif mempunyai tugas untuk mendapatkan pola

dari korelasi, klaster, lintasan, dan anomali yang didapatkan dari data

target.

Tugas penambangan data mempunyai empat tugas, yaitu :

a. Analisis Prediktif

Salah satu tugas penambangan data ini mengacu pada tugas yang

membangun model pada variabel target sebagai fungsi dari variabel

penjelas. Analisis prediktif dibagi menjadi dua tipe yaitu klasifikasi

dan regresi. Klasifikasi merupakan tipe prediktif yang digunakan

untuk variabel sasaran diskrit. Regresi merupakan tipe prediktif

yang digunakan untuk variabel target yang bersifat terus-menerus

(kontinyu). Contoh klasifikasi yaitu memprediksi apakah pengguna

Web akan melakukan pembelian di suatu toko online. Hal tersebut


10

termasuk klasifikasi karena variabel target bernilai biner, ya atau

tidak. Contoh regresi yaitu prediksi harga masa depan suatu saham.

Hal tersebut termasuk contoh regresi karena harga merupakan

atribut bernilai kontinyu. Namun, pencapaian kedua tipe prediktif

tersebut adalah untuk mempelajari model yang meminimalkan

kesalahan anatara prediksi dengan nilai kebernarannya dari variabel

target.

b. Analisis Asosiasi

Pada tugas penambangan data ini digunakan untuk menemukan

hubungan yang terkait dari suatu transaksi yang terjadi pada item

berdasarkan item lainnya.

c. Analisis Klaster

Pada tugas penambangan data ini digunakan untuk menemukan

suatu kelompok obyek yang terkait erat satu sama lain sehingga

termasuk ke dalam klaster yang sama.

d. Deteksi Anomali

Deteksi anomali merupakan tugas penambangan data yang

digunakan untuk mengidentifikasi pengamatan yang

karakteristiknya sangat berbeda dari sisa data. Pengamatan tersebut

dikenal sebagai anomali atau outlier. Tujuan algoritma deteksi

anomali/ outlier adalah untuk menemukan anomali yang nyata dan

menghindari obyek yang normal tetapi diidentifikasi sebagai

anomali. Oleh karena itu, deteksi anomali yang baik harus memiliki

tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah.

Aplikasi deteksi anomali seperti deteksi penipuan, gangguan

jaringan, gangguan ekosistem, dll.

2.1.4 Knowledge Discovery in Databases (KDD)

Menurut Han et.al. (2012), istilah KDD (Knowledge Discovery in

Databases) seringkali dianggap sinonim dengan penambangan data.

KDD merupakan sebuah proses mengubah data mentah menjadi suatu


11

informasi/ pengetahuan yang berguna. KDD memiliki beberapa

langkah yaitu data cleaning, data integration, data selection, data

transformation, data mining, pattern evaluation, dan knowledge

presentation.

Gambar 2. 2 Proses KDD

(Sumber : Han et.al, 2012)


12

1. Data Cleaning

Langkah ini merupakan langkah untuk menghilangkan noise/

pengganggu dan data yang tidak konsisten.

2. Data Integration

Langkah ini merupakan suatu proses dimana beberapa sumber

data digabungkan menjadi satu kesatuan.

3. Data Selection

Langkah ini merupakan proses untuk melakukan analisis,

dimana data yang relevan diambil dari database.

4. Data Transformation

Langkah ini merupakan proses dimana data diubah

(transformasi) menjadi data yang tepat untuk ditambang

sehingga dapat dilakukan proses operasi seperti penjumlahan

atau penggabungan.

5. Data Mining

Langkah ini merupakan proses penting di mana metode cerdas

yang diterapkan untuk mengekstrak pola data.

6. Pattern Evaluation

Langkah ini merupakan proses untuk mengidentifikasi pola-

pola menarik yang menampilkan basis pengetahuan dalam

suatu ukuran ketertarikan.

7. Knowledge Presentation

Langkah ini merupakan proses dimana teknik untuk

menampilkan suatu gambaran dan representasi pengetahuan

hasil tambang kepada pengguna.

2.2 Outlier

2.2.1 Pengertian Outlier

Ada beberapa pengertian outlier dari beberapa sumber. Menurut

Han et.al. (2012), outlier adalah objek data yang menyimpang secara

signifikan dari sisa data, seolah-olah itu dihasilkan oleh mekanisme


13

yang berbeda. Menurut Hawkins (1980), outlier merupakan

pengamatan yang berbeda dari pengamatan lainnya sehingga

menimbulkan kecurigaan bahwa hal itu dihasilkan oleh berbagai

mekanisme.

2.2.2 Pendekatan Deteksi Outlier

Menurut Han et.al. (2012), pendeteksian outlier terdapat beberapa

pendekatan, antara lain statistical methods, proximity-based approach,

clustering-based approach, classficication-based approach, dan high-

dimensional data.

Pendekatan statistical methods atau biasa dikenal sebagai metode

berbasis model membuat asumsi mengenai normalitas data.

Pendekatan ini dianggap bahwa obyek data normal dihasilkan oleh

model statistik, sedangkan data yang tidak mengikuti model dianggap

sebagai outlier. Efektivitas statistical methods sangat bergantung pada

asumsi apakah model statistik yang dibuat selalu berlaku untuk data

yang diberikan.

Pendekatan proximity-based mengasumsikan bahwa sebuah obyek

dikatakan sebagai outlier jika memiliki perbedaan yang signifikan

dengan tetangga terdekatnya pada set data yang sama. Efektivitas

metode berbasis proximity sangat bergantung pada jarak atau ukuran

yang digunakan. Metode berbasis proximity ini sering mengalami

kesulitan dalam mendeteksi outlier jika sebuah obyek yang dikatakan

sebagai outlier memiliki kedekatan satu sama lain. Pendekatan

proximity-based ini memiliki dua jenis utama deteksi outlier, yaitu

distance-based, dan density-based.

Pendekatan clustering-based mengasumsikan bahwa obyek yang

bersifat normal tergabung dalam kelompok besar (large cluster),

sedangkan obyek yang dikatakan sebagai outlier tidak tergabung

dalam kelompok.


14

Pendekatan classification-based mengasumsikan bahwa

pendeteksian outlier menggunakan pendekatan ini dapat digunakan

jika set data training dan label kelas tersedia. Ide umum dari metode

deteksi outlier berbasis classification adalah menentukan model

klasifikasi yang dapat membedakan data normal dan outlier. Metode

outlier basis classification ini sering menggunakan satu kelas sebagai

label untuk menggambarkan data berupa normal atau outlier.

Pendekatan high-dimensional data, memiliki beberapa contoh

algoritma yaitu Angle-Based Outlier Degree/ ABOD (Kriegel et.al.

2008), Grid-Based Subspace Outlier Detection (Aggarwal & Yu,

2000), dan Subspace Outlier Degree/ SOD (Kriegel et.al., 2009).

2.3 MixCBLOF (Mix Cluster Based Local Outlier Factor)

Deteksi outlier memiliki ketertarikan tersendiri daripada deteksi pada

umumnya, karena pendeteksian outlier ini memiliki informasi yang

mendasari sebuah perilaku tidak biasanya atau berbeda daripada yang

lainnya. Pada penelitian ini mendeteksi outlier menggunakan algoritma Mix

Cluster Based Local Outlier Factor (MixCBLOF) yang dikemukakan oleh

Maryono & Djunaidy pada tahun 2010. Algoritma ini tergolong pada

pendekatan clustering-based karena algoritma ini perlu menggunakan proses

cluster untuk penentuan outlier.

Algoritma ini merupakan perpaduan dari dua algoritma yaitu Cluster

Based Local Outlier Factor (CBLOF) dengan Numerical Cluster Based Local

Outlier Factor (NCBLOF). Algoritma ini mengusulkan deteksi outlier

menggunakan data campuran berupa data kategorikal dan data numerik. Data

kategorikal diolah menggunakan algoritma CBLOF, sedangkan untuk data

numerik diolah menggunakan algoritma NCBLOF.

2.3.1 CBLOF (Cluster Based Local Outlier Factor)

Menurut He et.al (2003), untuk mengidentifikasi signifikansi data dari

definisi outlier perlu mendefinisikan setiap obyek dengan sebuah


15

derajat yang disebut dengan CBLOF (Cluster Based Local Outlier

Factor) yang diukur dengan ukuran klaster di mana ia berada dan

jaraknya terhadap klaster terdekat.

Definisi 1 : Misalkan A1, A2, ..., Am adalah himpunan atribut dengan

domain D1, D2, ..., Dm. Set data D terdiri dari record/ obyeknya,

sedangkan transaksi t : t ϵ D. Hasil klasterisasi pada D dinotasikan

sebagai C= {C1, C2, ..., Ck} dimana Ci ∩ Cj = Ø dan C1 ∪ C2 ∪... ∪ Ck

= D, dengan k adalah jumlah klaster.

Definisi 2 : Misalkan C= {C1, C2, ..., Ck} adalah himpunan klaster

pada set data dengan urutan ukuran klaster adalah |C1| ≥ |C2| ≥ ... ≥ |Ck|.

Ditetapkan tiga parameter numerik α, β, dan b. Didefinisikan b sebagai

batas antara klaster besar dan kecil jika memenuhi salah satu formula

berikut:

(| | | | | |) | |

| |

| |

Didefinisikan himpunan klaster besar (large cluster) sebagai LC = {Ci,

i ≤ b} dan klaster kecil (small cluster) didefinisikan dengan SC = {Ci, i

> b}.

Definisi 2 memberikan ukuran kuantitatif untuk membedakan klaster

besar dan klaster kecil. Rumus (2.1) menunjukkan bahwa sebagian

besar data bukan outlier. Oleh karena itu klaster besar mempunyai

porsi yang jauh sangat besar. Contohnya jika α diberikan 90% maka

artinya klaster besar memuat kurang lebih 90% dari total obyek data

pada set data. Rumus (2.2) menunjukkan fakta bahwa klaster besar dan

klaster kecil harus memiliki perbedaan yang signifikan. Jika diberikan

........................... (2.2)

........................... (2.1)


16

β sebesar 5, maka artinya setiap klaster besar minimal 5 kali lebih

besar dari klaster kecil.

Definisi 3 : Misalkan C= {C1, C2, ..., Ck} adalah himpunan klaster

dengan ukuran |C1| ≥ |C2| ≥ ...≥ |Ck|. Didefinisikan LC dan SC

sebagimana pada Definisi 2. Untuk sebarang record t, didefinisikan

sebagaimana persamaan (2.3).

( ) {| | ( ( ))

| | ( ( ))

2.3.2 NCBLOF (Numerical Cluster Based Local Outlier Factor)

Menurut Maryono dan Djunaidy (2010), ada beberapa cara untuk

mengukur jarak sebuah obyek ke sebuah klaster. Caranya adalah

mengukur jarak sebuah obyek terhadap centroid terdekat atau dapat

juga dengan mengukur jarak relatif obyek dengan centroid terdekat.

Jarak relatif (relative distance) adalah rasio jarak obyek terhadap

centroid dibagi dengan jarak rata-rata semua titik terhadap centroid

klaster di mana ia berada. Komponen pada CBLOF mengenai

kemiripan terhadap klaster terdekat juga untuk mendefinisikan

NCBLOF sebagai berikut:

( )

{

| |

( )

( ( ))

| |

( )

Rumus NCBLOF pada persamaan (2.4), didefinisikan dengan

menyesuaikan interpretasi derajat outlier pada CBLOF pada

persamaan (2.3).

........ (2.3)

......... (2.4)


17

2.3.3 Algoritma MixCBLOF

Langkah untuk mencari outlier menggunakan algoritma MixCBLOF

adalah sebagai berikut :

1. Bagi set data campuran menjadi dua bagian, set data numerik, D1,

dan set data kategorikal, D2.

2. Klasterisasi pada subset data numerik D1 sehingga diperoleh

sejumlah klaster C11, C12, ..., C1p dengan ukuran berturut-turut

|C11| ≥ |C12| ≥ ... ≥ |C1p|

Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan

Definisi 2 pada halaman 15.

3. Terapkan deteksi outlier berbasis klaster menggunakan atribut

numerik terhadap obyek-obyek dalam klaster pada langkah 2

menggunakan teknik deteksi outlier berbasis klaster seperti

persamaan (2.4).

( )

{

| |

( )

( ( ))

| |

( )

4. Terapkan deteksi outlier berbasis klaster menggunakan atribut

kategorikal terhadap obyek-obyek dalam klaster pada langkah 2

menggunakan CBLOF sebagaimana persamaan (2.3).

( ) {| | ( ( ))

| | ( ( ))

5. Susun derajat outlier pada langkah 3 dan 4 dalam matrik keputusan

A=[anm].

[

]

Didefinisikan n sebagai jumlah data dan m sebagai jumlah atribut.


18

Kemudian, matriks keputusan tersebut dinormalisasi menjadi

sebagai berikut :

[

]

Didefinisikan n sebagai jumlah data dan m sebagai jumlah atribut.

6. Lakukan pembobotan secara default (bobot sama) atau dengan

metode Entropy.

a. Hitung nilai Entropy ej dan derajat divergensi fj.

b. Hitung bobot tiap kolom/ atribut

7. Gabungkan bobot outlier tiap obyek t1, t2, .., tn pada langkah 6

dengan fungsi agregat untuk mendapatkan derajat outlier akhir OF

dari sebuah obyek ti OF(ti ) = . (x1i, x2i, x3i, x4i).

(

)

2.4 Struktur Data

2.4.1 ArrayList

Dalam pengembangan sebuah sistem atau aplikasi diperlukan adanya

perancangan sebuah struktur data, perancangan struktur data ini memiliki

fungsi sebagai gambaran sebuah data diolah dan disimpan di dalam program/

sistem. Pada penelitian ini menggunakan konsep Arraylist sebagai tempat

penyimpanan data yang dinamis, karena sistem deteksi outlier ini tidak

........................................ (2.5)

.......................................................... (2.6)

.................................................... (2.6)

............. (2.7)


19

membutuhkan suatu tempat penyimpanan yang terlalu banyak dan tidak

menghabiskan waktu yang terlalu lama pula saat dijalankan.

Arraylist merupakan sebuah kelas yang dapat melakukan penyimpanan

data berupa list objek berbentuk array dengan ukurannya dapat berubah

secara dinamis sesuai dengan jumlah data yang dimasukkan. Ilustrasi konsep

Arraylist dapat dilihat pada gambar 2.3.

2.4.2 Matriks

Matriks merupakan struktur data yang digunakan sebagai tempat

penyimpanan pada memori internal dengan memakai dua buah indeks array

yang sering biasa disebut dengan baris dan kolom. Konsep umum untuk array

yang dapat berlaku untuk matriks yaitu kumpulan elemen memiliki tipe yang

sama, dapat berupa tipe dasar integer, string, char, boolean, dll. Ilustrasi

konsep matriks dapat dilihat pada gambar 2.4 berikut.

Gambar 2. 3 Ilustrasi ArrayList

Gambar 2. 4 Ilustrasi Matriks


20

Dari ilustrasi di atas adalah konsep matriks dengan ukuran 4x3,

artinya memiliki 4 baris dan 3 kolom. Dalam konsep array dapat dituliskan

seperti matrix = new int[4][3] dengan keterangan sebagai berikut :

matrix[0][0] = v1 matrix[2][0] = v7



matrix[1][0] = v4 matrix[3][0] = v10

matrix[1][1] = v5 matrix[3][1] = v11

matrix[1][2] = v6 matrix[3][2] = v12


21

BAB III

METODOLOGI PENELITIAN

3.1 Bahan Riset/ Data

Data yang digunakan untuk melakukan penelitian berupa file berekstensi

.pdf dan .xls yang diperoleh dari 3 sumber. Sumber yang pertama dari website

milik Kementerian Pendidikan dan Kebudayaan

http://litbang.kemdikbud.go.id/index.php/un. Sumber yang kedua dari website

milik Kementerian Pendidikan dan Kebudayaan

http://puspendik.kemdikbud.go.id/hasil-un/. Sumber yang ketiga dari webiste

Badan Akreditasi Nasional Sekolah/ Madrasah

http://bansm.or.id/sekolah/sudah_akreditasi/4.

Data yang didapatkan dari 3 sumber tersebut merupakan data nilai Ujian

Nasional (UN) per mata pelajaran dan rerata nilai UN, nilai Indeks Integritas

Ujian Nasional (IIUN) SMA, dan nilai Akreditasi sekolah pada tahun 2015

dengan jumlah data 160 SMA di DIY. Pada penelitian ini hanya untuk SMA

jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu Pengetahuan Sosial (IPS).

Tabel 3. 1 Nilai UN Jurusan IPA


http://litbang.kemdikbud.go.id/index.php/un

http://puspendik.kemdikbud.go.id/hasil-un/

http://bansm.or.id/sekolah/sudah_akreditasi/4

22

Gambar 3.3 Nilai IIUN IPA DIY

Gambar 3.5 Nilai Akreditasi Sekolah di DIY

Tabel 3. 2 Nilai UN Jurusan IPS

Tabel 3. 3 Nilai IIUN Jurusan IPA

Tabel 3. 4 Nilai IIUN Jurusan IPS


23

Tabel 3. 6 Atribut Data Nilai UN Jurusan IPA

Nama Atribut Keterangan

KODE_SEKOLAH Kode Sekolah

NAMA_SEKOLAH Nama Sekolah

STS_SEK Status Sekolah (Negeri/ Swasta)

JUMLAH_PESERTA Jumlah siswa mengikuti UN

BHS_INDO Nilai rata-rata UN mata pelajaran

Bahasa Indonesia

BHS_INGGRIS Nilai rata-rata UN mata pelajaran

Bahasa Inggris

MTK Nilai rata-rata UN mata pelajaran

Matematika

FISIKA Nilai rata-rata UN mata pelajaran

Fisika

Tabel 3. 5 Nilai Akreditasi SMA


24

KIMIA Nilai rata-rata UN mata pelajaran

Kimia

BIOLOGI Nilai rata-rata UN mata pelajaran

Biologi

TOTAL Jumlah nilai rata-rata UN

RANK Nilai ranking sekolah

Tabel 3. 7 Atribut Data Nilai UN Jurusan IPS






BHS_INDO

Nilai rata-rata UN mata pelajaran

Bahasa Indonesia

BHS_INGGRIS


Bahasa Inggris

MTK


Matematika

EKONOMI


Ekonomi

SOSIO Nilai rata-rata UN mata pelajaran


25

Sosiologi

GEO


Geografi

TOTAL Jumlah nilai rata-rata UN

RANK Nilai ranking sekolah

Tabel 3. 8 Atribut Data NIlai IIUN Jurusan IPA



NPSN Nomor Pokok Sekolah Nasional


STS_SEK Status sekolah (Negeri/ Swasta)


RERATA_IPA Nilai rata-rata UN jurusan IPA

IIUN_IPA Nilai IIUN jurusan IPA


26

Tabel 3. 9 Atribut Data Nilai IIUN Jurusan IPS





STS_SEK Status sekolah (Negeri/ Swasta)


RERATA_IPS Nilai rata-rata UN jurusan IPS

IIUN_IPS Nilai IIUN jurusan IPS

Tabel 3. 10 Atribut Data Nilai Akreditasi SMA




TIPE_SEKOLAH Tipe Sekolah (Sekolah/ Madrasah)


PROVINSI Provinsi Sekolah

KABUPATEN Kabupaten Sekolah

NILAI Nilai Akreditasi dalam bentuk nominal/

angka


27

PERINGKAT Nilai Akreditasi dalam bentuk huruf

3.2 Peralatan Penelitian

Penelitian dilakukan menggunakan spesifikasi perangkat sebagai berikut :

1. Spesifikasi software

a. Netbeans versi 8.0

b. OS Windows 7 64 bit

2. Spesifikasi hardware (Notebook/ Laptop)

a. Processor AMD A6-4400M APU 2,7 GHz

b. Ram 4 GB

c. VGA AMD Radeon HD 7520G

d. Layar 14 inch

e. Harddisk 500 GB

3.3 Tahap-tahap Penelitian

1. Studi Kasus

Nilai Ujian Nasional merupakan nilai yang dihasilkan dari Ujian Nasional

untuk mengukur standar pendidikan yang ada di Indonesia. Nilai Indeks

Integritas Ujian Nasional merupakan penilaian kejujuran dalam

pelaksanaan Ujian Nasional. Nilai Akreditasi merupakan pengakuan oleh

badan berwenang terhadap sekolah-sekolah yang memiliki syarat

kebakuan dan kriteria tertentu. Demi menyelenggarakan pendampingan

dan pengembangan suatu sekolah berdasarkan kriteria nilai Ujian

Nasional, nilai Indeks Integritas, dan nilai Akreditasi, diperlukan suatu

informasi mengenai sekolah-sekolah yang memiliki karakteristik berbeda

dibandingkan dengan sekolah lainnya. Untuk mendapatkan informasi

tersebut, maka digunakanlah pendeteksian outlier dari kumpulan sekolah

dengan data yang sudah disediakan, berdasarkan ketiga nilai di atas.


28

Penelitian ini diharapkan dapat menemukan/ menghasilkan informasi

mengenai sekolah yang memiliki karakter berbeda dengan yang lainnya,

sehingga dapat menyelenggarakan pendampingan dan pengembangan

terhadap sekolah tersebut.

2. Penelitian Pustaka

Pada tahap ini, dilakukan penelitian pustaka digunakan untuk memperoleh

informasi dan menggali teori mengenai teknik penambangan data. Dalam

penelitian ini penulis mempelajari referensi-referensi yang berkaitan

dengan teknik penambangan data deteksi outlier khususnya algoritma

MixCBLOF dan referensi lainnya yang berguna bagi sistem yang akan

dibangun.

3. Knowledge Discovery in Database (KDD)

Pada tahap penelitian ini dilakukan jika tahap-tahap sebelumnya sudah

dilakukan. Oleh karena itu, tahap ini sangat diperlukan karena penelitian

ini berada pada bidang penambangan data sehingga harus menggunakan

teknik KDD (Knowledge Discovery in Database). Proses KDD terdiri dari

data cleaning, data integration, data transformation, data mining, pattern

evaluation, dan knowledge presentation. Pada tahap awal dilakukan data

cleaning dan data integration pada data SMA se-DIY sehingga data

tersebut siap untuk ditambang. Proses awal ini dilakukan secara manual

menggunakan alat bantu Microsoft Excel. Kemudian untuk proses

selanjutnya yaitu data selection, data transformation, dan data mining

dilakukan di dalam perangkat lunak yang dibuat. Kemudian proses pattern

evaluation dan knowledge presentation dilakukan setelah perangkat lunak

selesai dibangun karena kedua proses ini membutuhkan hasil dari alat uji

tersebut.


29

4. Pengembangan Perangkat Lunak

a. Metode Pengembangan Sistem

Metode yang digunakan penulis untuk melakukan pengembangan

sistem menggunakan metode waterfall. Metode waterfall merupakan

salah satu metode yang populer karena tidak asing untuk didengar oleh

oleh kalangan pengembang sistem. Menurut Kristanto (2004), metode

waterfall ini diperkenalkan oleh Winston Royce pada tahun 1970. Inti

dari metode ini yaitu model klasik yang sederhana dengan aliran

sistem yang linier. Langkah-langkah metode waterfall sebagai berikut :

1. Requirement dan Spesification

Pada tahapan ini merupakan analisa kebutuhan sistem yang

diperlukan dalam pengembangan sistem dengan cara

mengumpulkan data. Selanjutnya, jika analisa kebutuhan sistem

sudah terpenuhi, kemudian merencanakan jadwal pengembangan

software.

2. Design

Tahap desain sistem membagi kebutuhan-kebutuhan menjasi

sistem perangkat lunak atau perangkat keras. Proses tersebut

menghasilkan sebuah arsitektur sistem keseluruhan. Desain

perangkat lunak termasuk menghasilkan fungsi sistem perangkat

lunak dalam bentuk yang mungkin ditransformasi ke dalam satu

atau lebih program yang dapat dijalankan. Tahapan ini merupakan

tahap untuk menentukan alur software sampai pada tahap algoritma

yang detil.

3. Implementation

Tahap ini desain perangkat lunak disadari sebagai sebuah program

lengkap atau unit program. Desain perangkat lunak yang sudah

dibuat kemudian diubah ke dalam bentuk kode-kode program.

Diakhir tahap ini, tiap modul ditesting tanpa diintegrasikan.

4. Integration


30

Unit program diintegrasikan dan diuji menjadi sistem yang lengkap

untuk meyakinkan bahwa persyaratan perangkat lunak telah

dipenuhi.

5. Operation mode & retirement

Tahap ini adalah tahap yang terpanjang. Sistem dipasang dan

digunakan. Pemeliharaan termasuk pembetulan kesalahan yang

tidak ditemukan pada langkah sebelumnya. Perbaikan

implemenetasi unit sistem dan peningkatan jasa sistem sebagai

kebutuhan baru ditemukan.

b. Pengujian

Pengujian dilakukan dengan alat uji yang sudah dibuat pada tahap

sebelumnya. Metode untuk pengujian sistem ini adalah metode

pengujian black box. Pengujian black box berisi pengujian dengan

pengisian data secara benar. Hasil yang diperoleh dari alat uji

kemudian dibandingkan dengan hasil penghitungan manual untuk

memperoleh validasi dari alat pengujian tersebut.

5. Analisis dan Pembuatan Laporan

Analisis yang dilakukan adalah analisis hasil dari perangkat lunak yang

dibuat berdasarkan penerapan algoritma MixCBLOF. Analisis yang

dimaksud adalah melakukan analisis dari pola yang terbentuk, artinya

mendapatkan nilai masukan k (jumlah kluster), nilai α dan β untuk

mendapatkan hasil outlier yang optimal dan sesuai dengan data dari dinas

pendidikan provinsi Yogyakarta. Hasil dari semua pengujian tersebut

disusun ke dalam sebuah laporan tugas akhir.


31

BAB IV

PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK

PENAMBANGAN DATA

4.1 PEMROSESAN AWAL

4.1.1 Pembersihan Data

Pada proses pembersihan data ini adalah membersihkan data

berupa noise (gangguan) seperti nilai yang kosong pada tabel data. Data

yang ada noise pada beberapa sekolah berupa nilai IIUN yang tidak

teridentifikasi atau sudah melakukan UNBK (Ujian Nasional Basis

Komputer), sekolah dengan tipe madrasah aliyah, dan beberapa sekolah

yang tidak terakreditasi. Maka dari itu, 54 sekolah dari jurusan IPA dan

78 sekolah dari jurusan IPS dihapus dari tabel data.

4.1.2 Integrasi Data

Proses integrasi data merupakan proses untuk melakukan

penggabungan data dari berbagai sumber data yang didapatkan. Data

yang didapatkan berupa 3 file untuk setiap jurusan (IPA/IPS) berupa

data nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan

nilai Akreditasi SMA tahun 2014/2015. Pada tahap ini dilakukan

penggabungan dari 3 file tersebut menjadi 1 file berupa tabel data untuk

setiap jurusan, sehingga didapatkan 2 file yang terdiri dari 1 file jurusan

IPA (lihat Tabel 4.1) dan 1 file jurusan IPS (lihat Tabel 4.2).


32

4.1.3 Seleksi Data

Proses seleksi data merupakan seleksi atribut yang akan digunakan

dalam proses penambangan data. Proses ini dilakukan dengan memilih

atribut yang relevan untuk digunakan dalam penelitian, dan menghapus

atribut yang tidak relevan. Atribut yang dihapus dari data nilai Ujian

Nasional SMA jurusan IPA tahun 2014/2015 adalah atribut STS_SEK,

JUMLAH_PESERTA, dan RANK, sehingga atribut yang digunakan

Tabel 4. 1 Hasil Integrasi Jurusan IPA

Tabel 4. 2 Hasil Integrasi Jurusan IPS


33

yaitu KODE_SEKOLAH, NAMA_SEKOLAH, BHS_INDO,

BHS_INGGRIS, MTK, FISIKA, KIMIA, BIOLOGI, dan TOTAL.

Atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional

SMA jurusan IPA tahun 2014/2015 adalah NPSN, STS_SEK, dan

JUMLAH_PESERTA, sehingga atribut yang digunakan

KODE_SEKOLAH, NAMA_SEKOLAH, RERATA_IPA, dan

IIUN_IPA. Pada atribut yang dihapus dari data nilai Ujian Nasional

SMA jurusan IPS tahun 2014/2015 sama dengan atribut yang dihapus

dari data nilai Ujian Nasional SMA jurusan IPA tahun 2014/2015,

sehingga atribut yang digunakan yaitu KODE_SEKOLAH,

NAMA_SEKOLAH, BHS_INDO, BHS_INGGRIS, MTK, EKONOMI,

SOSIO, GEO, dan TOTAL. Pada atribut yang dihapus dari data nilai

Indeks Integritas Ujian Nasional SMA jurusan IPS tahun 2014/2015

sama dengan atribut yang dihapus dari data nilai Indeks Integritas Ujian

Nasional SMA jurusan IPA tahun 2014/2015, sehingga atribut yang

digunakan yaitu KODE_SEKOLAH, NAMA_SEKOLAH,

RERATA_IPS, dan IIUN_IPS. Atribut yang dihapus dari data nilai

Akreditasi SMA tahun 2014/2015 adalah NPSN, TIPE_SEKOLAH,

STS_SEK, PROVINSI, KABUPATEN, dan NILAI sehingga atribut

yang digunakan yaitu NAMA_SEKOLAH dan PERINGKAT. Atribut

yang digunakan kemudian digabungkan menjadi 1 file, sehingga atribut

yang digunakan untuk SMA jurusan IPA dan IPS dapat dilihat pada

tabel 4.3 dan tabel 4.4.

Tabel 4. 3 Hasil Seleksi Atribut Jurusan IPA






34

Bahasa Indonesia


Bahasa Inggris


Matematika

FISIKA Nilai rata-rata UN mata pelajaran Fisika

KIMIA Nilai rata-rata UN mata pelajaran

Kimia

BIOLOGI Nilai rata-rata UN mata pelajaran

Biologi

TOTAL Jumlah nilai UN jurusan IPA

RERATA_IPA Nilai rata-rata UN jurusan IPA

IIUN_IPA Nilai IIUN jurusan IPA

AKREDITASI Nilai Akreditasi SMA dalam bentuk

huruf

Tabel 4. 4 Hasil Seleksi Atribut Jurusan IPS





Bahasa Indonesia


Bahasa Inggris


Matematika

EKONOMI Nilai rata-rata UN mata pelajaran

Ekonomi

SOSIOLOGI Nilai rata-rata UN mata pelajaran

Sosiologi


35

GEOGRAFI Nilai rata-rata UN mata pelajaran

Geografi

TOTAL Jumlah nilai UN jurusan IPS

RERATA_IPS Nilai rata-rata UN jurusan IPS

IIUN_IPS Nilai IIUN jurusan IPS

AKREDITASI Nilai Akreditasi SMA dalam bentuk

huruf

4.1.4 Transformasi Data

Pada transformasi data ini terdapat tahapan pengubahan pada data

akreditasi dari karakter menjadi numerik tetapi tidak menghilangkan

sifat aslinya sebagai atribut nominal. Atribut akreditasi memiliki data

berjenis karakter yaitu A, B, dan C yang diubah menjadi data numerik

A=1, B=2, C=3. Proses pengubahan dapat dilakukan secara bebas,

namun pada penelitian ini menggunakan ketentuan A=1, B=2, dan C=3.

4.2 PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA

4.2.1 Perancangan Umum

4.2.1.1 Input Sistem

Data input dari sistem yang dibangun berasal dari file berekstensi

.xls yang dapat dipilih langsung oleh pengguna (user). Sebelum

melakukan proses deteksi outlier, pengguna diharuskan mengisi nilai b,

alfa, dan beta terlebih dahulu pada textfield yang sudah disediakan.


36

4.2.1.2 Proses Sistem

Proses sistem yang akan dibangun terdiri dari beberapa tahapan

untuk dapat menemukan aturan yang berfungsi untuk menemukan data

yang dianggap sebagai outlier dari suatu sekolah. Proses tersebut yaitu :

1. Menentukan nilai b, alfa, dan beta yang berfungsi dalam

menentukan klaster besar (LC) dan klaster kecil (SC)

2. Proses clustering untuk menemukan anggota dan jumlah

anggota dari setiap cluster

3. Proses deteksi outlier untuk menemukan data yang unik dengan

derajat outlier per objek.

Proses umum yang terjadi pada sistem dapat digambarkan dalam

diagram flowchart yang digambarkan pada Gambar 4.1.

Gambar 4. 1 Diagram Flowchart


37

Proses dari Deteksi Outlier dapat digambarkan dalam bentuk diagram

flowchart yang digambarkan pada Gambar 4.2 berikut.

4.2.1.3 Output Sistem

Sistem akan memberikan keluaran atau output berupa nama

sekolah yang diidentifikasi sebagai outlier beserta nilai derajat outlier per

objek yang sesuai dengan nilai b, alfa, dan beta. Selain itu sistem juga

akan menampilkan daftar-daftar sekolah yang teridentifikasi sebagai

outlier sebanyak nilai threshold yang dimasukkan oleh pengguna.

4.2.2 Diagram Use Case

Diagram use case merupakan sebuah gambaran sistem yang dilihat

dari sudut pandang pengguna (user). Sebuah sistem yang akan terbentuk

selalu memiliki interaksi antara pengguna dengan sistem yang

Gambar 4. 2 Diagram Flowchart Deteksi Outlier


38

digambarkan melalui diagram use case. Diagram use case dapat dilihat

pada Gambar 4.2 berikut.

Pilih file input

Deteksi menggunakan

Algoritma MixCBLOF

Simpan data hasil

User

Gambar 4. 3 Diagram Use Case


39

Pengguna dalam sistem yang akan dibangun ini hanya terdapat satu

pengguna diinisialisasikan dengan “User”. Pengguna dalam sistem ini

memiliki 3 interaksi terhadap sistem yaitu memilih file data .xls, deteksi

menggunakan algoritma mixcblof, dan menyimpan hasil data. Ketiga

interaksi/ aktifitas yang dilakukan pengguna merupakan interaksi saling

berkaitan sehingga perlu dilakukan secara berurutan. Diagram use case

memiliki narasi dari setiap use case. Narasi tersebut terlampir pada

lampiran 1.

4.2.3 Diagram Aktivitas

Diagram aktivitas merupakan aktivitas dari use case memilih file

data .xls, deteksi menggunakan algoritma mixcblof, dan menyimpan hasil

deteksi outlier. Diagram aktivitas memiliki tiga diagram. Diagram

aktivitas tersebut terlampir pada lampiran 2.

4.2.4 Diagram Kelas Analisis

Diagram kelas analisis terlampir pada lampiran 3.

4.2.5 Diagram Sekuen

Pada diagram sekuen ini memiliki tiga diagram sequence yaitu

memilih file data bertipe .xls, deteksi menggunakan algoritma

MixCBLOF, dan menyimpan hasil deteksi outlier. Diagram sequence

terlampir pada lampiran 4.

4.2.6 Perancangan Struktur Data

Pada penelitian ini menggunakan struktur data berupa ArrayList

(lihat Gambar 2.3) dan Matriks (lihat Gambar 2.4). Pada ArrayList,

jumlah sekolah sebagai element data. Setiap data sekolah akan berada

dalam index yang sama. Sebagai contoh, akan digambarkan pada

Gambar 4.3 berikut.


40

Pada Matriks, terdapat baris dan kolom, baris disesuaikan dengan

jumlah data sekolah, dan kolom disesuaikan dengan jumlah atributnya.

Pada matriks ini digunakan untuk menampung nilai derajat outlier.

Sebagai contoh, akan digambarkan pada Gambar 4.4 berikut.

Ilustrasi pada Gambar 4.4 di atas merupakan contoh ilustrasi

matriks dengan ukuran 4x3, artinya memiliki 4 baris sebagai jumlah

sekolah dan 3 kolom sebagai atributnya yaitu derajat dari atribut Ujian

Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi. Ilustrasi

tersebut menggambarkan penyimpanan derajat outlier per atribut.

Gambar 4. 4 Perancangan Arraylist

Gambar 4. 5 Perancangan Matriks


41

4.2.7 Diagram Kelas Disain

Diagram kelas disain terlampir pada lampiran 5.

4.2.8 Algoritma per Method

Rincian algoritma per method terlampir pada lampiran 6.

4.2.9 Perancangan Antarmuka

Sistem deteksi outlier yang akan dibangun memiliki empat antarmuka

(interface) yang terdiri dari halaman awal (beranda), halaman proses, halaman

bantuan, dan halaman tentang.


42

4.2.9.1 Perancangan Halaman Awal

Halaman awal merupakan halaman pertama yang akan

dilihat oleh user saat sistem dijalankan. Halaman awal dapat dilihat

pada gambar 4.5 berikut ini.

Pada halaman awal ini terdapat beberapa tombol yaitu

“BERANDA”, “BANTUAN”, “TENTANG”, dan “Masuk Sistem”.

Tombol “BERANDA” merupakan tombol untuk menuju ke halaman

awal. Tombol “BANTUAN” merupakan tombol untuk menuju ke

halaman bantuan yang berisi mengenai panduan menggunakan sistem.

Tombol “TENTANG” merupakan tombol untuk menuju ke halaman

tentang yang berisi mengenai informasi pembuat sistem. Tombol

Gambar 4. 4 Rancangan Antarmuka Halaman Utama Gambar 4. 6 Rancangan Antarmuka Halaman Utama


43

“Masuk Sistem” merupakan tombol untuk menuju ke halaman proses

sebagai awal untuk memulai proses deteksi outlier.

.

4.2.9.2 Perancangan Halaman Proses

Perancangan antarmuka halaman proses dapat dilihat pada

gambar 4.6 berikut.

Halaman ini merupakan halaman untuk memproses data.

Pada halaman ini terdapat tiga tombol menu yaitu tombol

“BERANDA”, “BANTUAN”, dan “TENTANG”. Tombol

“BERANDA” merupakan tombol untuk menuju ke halaman awal.

Tombol “BANTUAN” merupakan tombol untuk menuju ke halaman

bantuan yang berisi mengenai panduan menggunakan sistem. Tombol

“TENTANG” merupakan tombol untuk menuju ke halaman tentang

yang berisi mengenai informasi pembuat sistem.

Gambar 4. 5 Rancangan Antarmuka Halaman Proses Gambar 4. 7 Rancangan Antarmuka Halaman Proses


44

Preprocessing data dimulai dengan import data dari file

berupa Microsoft Excel dengan ekstensi .xls. Tombol “Pilih Data”

merupakan tombol yang digunakan untuk import file data diambil dari

direktori komputer user. Setelah memilih file data, maka data tersebut

akan tertampil di tabel yang sudah disediakan.

Tahap selanjutnya yaitu mengisikan nilai dari variabel b,

Alfa, dan Beta untuk melancarkan preprocessing data, karena jika tidak

diisi maka akan muncul pemberitahuan error. Setelah mengisikan ketiga

variabel tersebut kemudian menekan tombol “Proses”. Tombol

“Proses” merupakan tombol untuk melakukan preprocessing data. Jika

proses sudah selesai maka kalimat “Belum Proses” akan diubah

menjadi kalimat “Selesai” untuk memberitahukan kepada user bahwa

preprocessing sudah selesai.

Tahap preprocessing terakhir yaitu melihat hasil deteksi

outlier yang sudah selesai dalam hal pemrosesan data. Tombol “Lihat

Hasil” merupakan tombol untuk menuju ke frame hasil deteksi yang

berisikan hasil penghitungan berupa derajat outlier semua sekolah.

Perancangan antarmuka frame hasil dapat dilihat pada

gambar 4.7 berikut.

Gambar 4. 8 Rancangan Antarmuka Frame Hasil


45

Frame ini merupakan frame untuk menampilkan hasil dari

preprocessing data. Frame ini merupakan salah satu bagian dari Hal-

proses. Pada frame ini dibagi menjadi dua bagian yaitu menampilkan

hasil derajat outlier semua sekolah, dan menampilkan hasil outlier

sesuai dengan nilai Threshold yang diisi. Jika preprocessing selesai

maka tabel atas (tabel pertama) akan terisi dengan data sekolah dan

hasil derajat outlier per sekolah. Setelah itu user mengisikan variabel

Threshold untuk menampilkan beberapa sekolah saja yang mempunyai

nilai derajat outlier terkecil, sehingga jumlah sekolah yang terdeteksi

sebagai outlier akan ditentukan oleh user. Tombol “Submit” merupakan

tombol untuk menampilkan sekolah berdasar variabel Threshold yang

diisi oleh user. Tombol “Simpan” merupakan tombol untuk melakukan

penyimpanan hasil deteksi outlier. User akan dihadapkan pada dua

pilihan (lihat gambar 4.8) yaitu menyimpan hasil semua deteksi outlier

atau hanya menyimpan hasil deteksi outlier yang sudah dithreshold.

Jika user memilih tombol “Semua” maka akan menyimpan

hasil deteksi outlier semua sekolah (tabel pertama), jika user memilih

tombol “Threshold” maka akan menyimpan hasil deteksi outlier

beberapa sekolah (tabel kedua).

Gambar 4. 9 Rancangan Dialog Pilih Penyimpanan


46

4.2.9.3 Perancangan Halaman Bantuan

Perancangan antarmuka halaman bantuan dapat dilihat pada

gambar 4.9.

Halaman ini merupakan halaman antarmuka bantuan.

Halaman ini berisi mengenai panduan penggunaan sistem. Pada

halaman ini terdapat tiga tombol yaitu tombol “BERANDA”, tombol

“BANTUAN”, dan tombol “TENTANG”. Tombol “BERANDA”

merupakan tombol untuk menuju ke halaman awal. Tombol

“BANTUAN” merupakan tombol untuk menuju ke halaman bantuan

yang berisi mengenai panduan menggunakan sistem. Tombol



Gambar 4. 10 Rancangan Halaman Bantuan


47

4.2.9.4 Perancangan Halaman Tentang

Perancangan antarmuka halaman tentang dapat dilihat pada

gambar 4.10.

Halaman ini merupakan halaman antarmuka tentang.

Halaman ini berisi mengenai informasi pembuat. Pada halaman ini

terdapat tiga tombol yaitu tombol “BERANDA”, tombol

“BANTUAN”, dan tombol “TENTANG”. Tombol “BERANDA”

merupakan tombol untuk menuju ke halaman awal. Tombol

“BANTUAN” merupakan tombol untuk menuju ke halaman bantuan

yang berisi mengenai panduan menggunakan sistem. Tombol



Gambar 4. 11 Rancangan Halaman Tentang


48

BAB V

IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL

5.1 Implementasi Rancangan Perangkat Lunak

Perangkat Lunak deteksi outlier ini memiliki 8 buah kelas yang terdiri dari

tigas kelas model, satu kelas controller, dan empat kelas view.

5.1.1 Implementasi Kelas Model

Implementasi kelas model dapat dilihat pada tabel 5.1 berikut.

Tabel 5. 1 Implementasi Kelas Model

No. Nama Kelas Nama File Fisik Nama File

Excecutable

1. DataSekolah DataSekolah.java DataSekolah.class

2. HasilCluster HasilCluster.java HasilCluster.class

3. OutlierFinal OutlierFinal.java OutlierFinal.class

5.1.2 Implementasi Kelas View

Implementasi kelas view dapat dilihat pada tabel 5.2 berikut.

Tabel 5. 2 Implementasi Kelas View

No. Use Case Antarmuka Nama Kelas

Boundary

1. Memilih file data

.xls

Hal_Proses.class

2. Deteksi

menggunakan

Algoritma

MixCBLOF

Hal_Proses.class

3. Menyimpan data

hasil

Hal_Proses.class


49

Selanjutnya akan dijelaskan mengenai spesifikasi detail dari setiap

antarmuka yang ada pada perangkat lunak deteksi outlier ini. Spesifikasi

detail dari kelas Hal_Utama dapat dilihat pada tabel 5.3 berikut.

Tabel 5. 3 Spesifikasi detail kelas Hal_Utama.java

Id Objek Jenis Teks Keterangan

btnBeranda Button BERANDA Jika di klik maka akan

menuju ke halaman

Hal_Utama.java

btnBantuan Button BANTUAN Jika di klik maka akan

menuju ke halaman

Hal_Bantuan.java

btnTentang Button TENTANG Jika di klik maka akan

menuju ke halaman

Hal_Tentang.java

jLabel1 Label SISTEM

PENDETEKSI

OUTLIER

Judul perangkat lunak

yang dibangun

jLabel2 Label Logo Sadhar.png Gambar logo Universitas

Sanata Dharma berwarna

btnMasuk Button Masuk Sistem Jika di klik maka akan

menuju ke halaman

Hal_Proses.java

jLabel3 Label I. Kristanto Riyadi Identitas nama pembuat

perangkat lunak

jLabel4 Label 135314062 Identitas nomor induk

mahasiswa pembuat

perangkat lunak

jLabel5 Label UNIVERSITAS

SANATA

DHARMA

Identitas universitas

pembuat perangkat lunak

jLabel6 Label YOGYAKARTA Identitas provinsi

universitas

jLabel7 Label -COPYRIGHT

2017-

Identitas hak cipta

pembuat perangkat lunak

dan tahun pembuatan

perangkat lunak


50

Implementasi antarmuka dari kelas Hal_Utama (halaman awal) dapat

dilihat pada gambar 5.1 berikut.

Spesifikasi detail dari kelas Hal_Proses.java dapat dilihat pada tabel

5.4 berikut.

Tabel 5. 4 Spesifikasi detail kelas Hal_Proses.java



menuju ke halaman

Hal_Utama.java


menuju ke halaman

Hal_Bantuan.java


menuju ke halaman

Gambar 5. 1 Implementasi Antarmuka Hal_Utama


51

Hal_Tentang.java

1. jLabel1

2. jLabel2

Label

Label

SISTEM DETEKSI

OUTLIER

MENGGUNAKAN

ALGORITMA

MIXCBLOF


yang dibangun

txtPilihData TextField Isi path direktori dari

data file yang

dimasukkan ke dalam

tabelData

btnPilihData Button Pilih Data Jika di klik akan

memunculkan dialog

file chooser untuk

memilih file data dari

direktori komputer

tabelData Table Menampilkan data dari

file yang dimasukkan

jLabel6 Label Jumlah Data Mendeskripsikan

jumlah data dari data

yang dimasukkan

txtJumlahData TextField Isi jumlah data dari data

yang dimasukkan

jLabel20 Label B Mendeskripsikan

variabel b sebagai

proses deteksi

txtB TextField Isi variabel b sebagai

proses deteksi

jLabel23 Label (* 1-3 Mendeskripsikan

keterangan

menginputkan variabel

b

jLabel21 Label Alfa Mendeskripsikan

variabel Alfa sebagai

proses deteksi

txtAlfa TextField Isi variabel Alfa

sebagai proses deteksi

jLabel24 Label % Mendeskripsikan

presentasi dari variabel


52

Alfa yang diinputkan

jLabel22 Label Beta Mendeskripsikan

variabel Beta sebagai

proses deteksi

txtBeta TextField Isi variabel Beta

sebagai proses deteksi

labelNotif Label .... BELUM

PROSES ....

Mendeskripsikan

pemberitahuan proses

btnProses Button Proses Jika di klik maka akan

memulai proses deteksi

outlier, jika sudah

selesai akan mengubah

labelNotif menjadi

“Selesai”

btnLihat Button Lihat Hasil Jika di klik maka akan

menuju ke

frameDeteksi

Implementasi antarmuka dari kelas Hal_Proses.java dapat dilihat

pada gambar 5.2 berikut.

Gambar 5. 2 Implementasi Antarmuka kelas Hal_Proses


53

Spesifikasi detail dari frame frameDeteksi (bagian dari halaman

Hal_Proses) dapat dilihat pada tabel 5.5 berikut.

Tabel 5. 5 Spesifikasi detail frame frameDeteksi


1. jLabel8

2. jLabel9

Label

Label

SISTEM DETEKSI

OUTLIER

MENGGUNAKAN

ALGORITMA

MIXCBLOF


yang dibangun

jTable2 Table Menampilkan data

dengan derajat outlier

per sekolah

jLabel18 Label Jumlah Data Mendeskripsikan

jumlah data dari data

yang dimasukkan

txtJumlahData2 TextField Isi jumlah data dari

data yang dimasukkan

jLabel3 Label Threshold Mendeskripsikan

threshold/ mengatur

garis batasan keputusan

txtThreshold TextField Isi threshold

btnSubmit Button Submit Jika di klik maka akan

menampilkan jumlah

sekolah dengan derajat

outlier terendah

sebanyak nilai

threshold yang

diinputkan

btnSimpan Button Simpan Jika di klik maka akan

menuju ke

dialogSimpan untuk

menyimpan data hasil

deteksi outlier

jTable1 Table Menampilkan data

hasil deteksi outlier

sebanyak nilai

threshold diinputkan


54

Implementasi antarmuka frame frameDeteksi dapat dilihat pada

gambar 5.3 berikut.

Spesifikasi detail dari kelas Hal_Bantuan dapat dilihat pada tabel 5.6

berikut.

Tabel 5. 6 Spesifikasi detail kelas Hal_Bantuan.java



menuju ke halaman

Hal_Utama.java


menuju ke halaman

Hal_Bantuan.java


menuju ke halaman

Hal_Tentang.java

1. jLabel1

Label

SISTEM DETEKSI

OUTLIER

MENGGUNAKAN


yang dibangun

Gambar 5. 3 Implementasi Antarmuka frameDeteksi


55

2. jLabel2

Label ALGORITMA

MIXCBLOF

jLabel3 Label PANDUAN

PENGGUNAAN

SISTEM

Mendeskripsikan

panduan penggunaan

perangkat lunak

jTextArea1 TextArea Berisi langkah-langkah

penggunaan sistem, dan

penjelasan tombol-

tombol penting yang

ada di sistem

Implementasi antarmuka kelas Hal_Bantuan dapat dilihat pada

gambar 5.4 berikut.

Spesifikasi detail dari kelas Hal_Tentang dapat dilihat pada tabel 5.7

berikut.

Gambar 5. 4 Implementasi Antarmuka Hal_Bantuan


56

Tabel 5. 7 Spesifikasi detail kelas Hal_Tentang.java



menuju ke halaman

Hal_Utama.java


menuju ke halaman

Hal_Bantuan.java


menuju ke halaman

Hal_Tentang.java

3. jLabel1

4. jLabel2

Label

Label

SISTEM DETEKSI

OUTLIER

MENGGUNAKAN

ALGORITMA

MIXCBLOF


yang dibangun

jLabel3 Label INFORMASI

SISTEM

Mendeskripsikan

informasi pembuat

perangkat lunak

jTextArea1 TextArea Berisi mengenai

informasi tentang

pembuat perangkat

lunak dan judul tugas

akhir yang dikerjakan


57

Implementasi antarmuka kelas Hal_Tentang dapat dilihat pada

gambar 5.5 berikut

5.1.3 Implementasi Kelas Control

Implementasi kelas controller dapat dilihat pada tabel 5.8 berikut.

Tabel 5. 8 Implementasi kelas Controller

No. Use Case Nama File Fisik Nama File

Excecutable

1. Pilih file input Hal_Utama.java Hal_Utama.class

2. Deteksi

menggunakan

Algoritma

MixCBLOF

OutlierControl.java OutlierControl.class

3. Simpan data hasil OutlierControl.java OutlierControl.class

Gambar 5. 5 Implementasi Antarmuka Hal_Tentang


58

5.2 Evaluasi Hasil

5.2.1 Pengujian Perangkat Lunak (Black Box)

5.2.1.1. Rencana Pengujian Black Box

Rencana pengujian dengan menggunakan black box pada

perangkat lunak ini akan dijelaskan pada tabel 5.9 berikut.

Tabel 5. 9 Rencana pengujian Black Box

No. Use Case Butir Uji Kasus Uji

1. Pilih file input Pengujian memilih data dari

direktori berupa file bertipe .xls

UC1-01

Pengujian memilih data dari

direktori berupa file selain

bertipe .xls

UC1-02

2. Deteksi

menggunakan

Algoritma

MixCBLOF

Pengujian memasukkan nilai

yang sesuai sehingga proses

deteksi dapat berjalan

UC2-01

Pengujian terjadi kesalahan

dalam memasukkan nilai

UC2-02

3. Simpan data hasil Pengujian menyimpan hasil

deteksi ke dalam file bertipe .xls

UC3-01

5.2.1.2. Prosedur Pengujian Black Box dan Kasus Uji

Setelah menyusun rencana pengujian black box dan kasus

uji kemudian melakukan pengujian yang terlampir pada lampiran 7.

5.2.1.3. Evaluasi Pengujian Black Box

Seluruh hasil pengujian black box pada lampiran 7 sudah

menunjukkan bahwa hasil semua pengujian sudah sesuai dengan

perancangan sehingga perangkat lunak dapat berjalan dengan baik.

Perangkat lunak ini juga mampu memberikan pemberitahuan jika

terjadi kesalahan atau error, baik dari pengguna maupun sistemnya,

sehingga memudahkan pengguna/ user menggunakan perangkat lunak

ini.


59

5.2.2 Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual

dengan Hasil Pencarian Outlier menggunakan Perangkat Lunak

5.2.2.1. Pencarian Outlier Secara Manual

Pengujian penghitungan manual menggunakan lima belas

data sampel nilai Ujian Nasional (UN), Indeks Integritas Ujian Nasional

(IIUN), dan Akreditasi SMA jurusan IPA Daerah Istimewa Yogyakarta

tahun ajaran 2014/2015.

Proses penghitungan manual dilakukan menggunakan

aplikasi Microsoft Excel 2010. Dalam melakukan proses deteksi outlier

secara manual menggunakan nilai variabel b sebesar 2, Alfa sebesar

70%, dan Beta sebesar 3. Proses penghitungan manual terlampir pada

lampiran 8.

5.2.2.2. Pencarian Outlier menggunakan Perangkat Lunak

Pengujian penghitungan perangkat lunak menggunakan data

yang sama dengan data yang digunakan untuk melakukan penghitungan

manual yaitu lima belas data sampel nilai Ujian Nasional (UN), nilai

Indeks Integritas Ujian Nasional (IIUN), dan nilai Akreditasi SMA

jurusan IPA Daerah Istimewa Yogyakarta tahun ajaran 2014/2015.

Pencarian derajat outlier pada perangkat lunak

menggunakan nilai b sebesar 2, Alfa sebesar 70%, dan Beta sebesar 3.

Hasil penghitungan perangkat lunak dapat dilihat pada gambar 5.6 dan

5.7 berikut.


60

Gambar 5. 6 Hasil Penambangan Data menggunakan Perangkat Lunak

Gambar 5. 7 Hasil Penambangan Data menggunakan Perangkat Lunak


61

5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual

dengan Hasil Perangkat Lunak

Hasil pencarian derajat outlier menggunakan penghitungan

manual dan penghitungan perangkat lunak memiliki hasil yang sama,

maka dapat disimpulkan bahwa perangkat lunak dapat berjalan dengan

baik dan sesuai dengan yang diharapkan.


62

BAB VI

ANALISIS HASIL DAN PEMBAHASAN

6.1. Dataset

Pada penelitian ini memerlukan dataset yang digunakan untuk

mengidentifikasi outlier. Dataset yang digunakan yaitu sebagai berikut.

1. Data nilai hasil Ujian Nasional, nilai Indeks Integritas Ujian

Nasional, dan nilai Akreditasi SMA jurusan IPA di Daerah

Istimewa Yogyakarta tahun ajaran 2014/2015.

2. Data nilai hasil Ujian Nasional, nilai Indeks Integritas Ujian

Nasional, dan nilai Akreditasi SMA jurusan IPS di Daerah Istimewa

Yogyakarta tahun ajaran 2014/2015.

Proses deteksi outlier yang dilakukan dengan menggunakan variasi

pada nilai b, Alfa, Beta, dan Threshold.

6.2. Hasil Identifikasi Outlier

6.2.1. Hasil Identifikasi Outlier Dataset Jurusan IPA

Hasil identifikasi outlier pada jurusan IPA dilakukan dengan

berbagai variasi mengenai nilai b, Alfa, Beta, dan Threshold. Hasil

identifikasi outlier dengan nilai Threshold sebesar 7. Nilai variabel b,

Alfa, dan Beta digunakan sebagai pembagian klaster besar dan kecil

menggunakan persamaan rumus 2.1 dan rumus 2.2.

1. Nilai b = 1, Alfa = 20%, dan Beta bervariasi

Percobaan pertama pada dataset jurusan IPA menggunakan nilai b

sebesar 1, Alfa sebesar 20%, dan nilai Beta divariasi dengan

beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.1 berikut.


63

Tabel 6. 1 Hasil pengujian pertama jurusan IPA

b Alfa Beta Hasil Deteksi

1 20% 1

1. SMA MUHAMMADIYAH KALASAN

2. SMA „17‟ YOGYAKARTA

3. SMA MUHAMMADIYAH PAKEM

4. SMA GAJAH MADA YOGYAKARTA

5. SMA MUHAMMADIYAH 1 SLEMAN

6. SMA MUHAMMADIYAH MLATI

7. SMA MUHAMMADIYAH PIYUNGAN

1 20% 2








1 20% 3








Pada hasil pengujian tabel 6.1 di atas, variasi Beta tidak

berpengaruh dalam hasil deteksi outlier karena pada penentuan

nilai b menggunakan nilai Alfa. Alfa dan Beta merupakan variabel

yang digunakan untuk melakukan penentuan nilai b dapat

digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus

2.2. Hasil pengujian tersebut, pada semua atribut memenuhi syarat

rumus 2.1.

2. Nilai b = 1, Alfa = 30%, dan Beta bervariari

Percobaan kedua pada dataset jurusan IPA menggunakan nilai b




64

Tabel 6. 2 Hasil pengujian kedua jurusan IPA


1 30% 1








1 30% 2








1 30% 3










nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta

merupakan variabel yang digunakan untuk melakukan penentuan

nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1

atau rumus 2.2. Hasil pengujian tersebut pada semua atribut

memenuhi syarat rumus 2.1.


Percobaan ketiga pada dataset jurusan IPA menggunakan nilai b




65

Tabel 6. 3 Hasil pengujian ketiga jurusan IPA


1 40% 1








1 40% 2 -

1 40% 3 -

Pada hasil pengujian tabel 6.3 di atas, variasi Beta berpengaruh

dalam hasil deteksi outlier karena pada penentuan nilai b

menggunakan nilai Beta pada atribut UN dan IIUN. Alfa dan Beta



atau rumus 2.2. Hasil pengujian tersebut pada atribut UN dan IIUN

memenuhi syarat pada rumus 2.2, sedangkan atribut Akreditasi



Percobaan keempat pada dataset jurusan IPA menggunakan nilai b



Tabel 6. 4 Hasil pengujian keempat jurusan IPA


2 20% 1









66

2 20% 2








2 20% 3
















Percobaan kelima pada dataset jurusan IPA menggunakan nilai b



Tabel 6. 5 Hasil pengujian kelima jurusan IPA


2 50% 1








67


2 50% 2








2 50% 3
















Percobaan keenam pada dataset jurusan IPA menggunakan nilai b



Tabel 6. 6 Hasil pengujian keenam jurusan IPA


2 70% 1









68

2 70% 2








2 70% 3
















Percobaan ketujuh pada dataset jurusan IPA menggunakan nilai b



Tabel 6. 7 Hasil pengujian ketujuh jurusan IPA


2 80% 1








2 80% 2 -


69

2 80% 3 -

Pada hasil pengujian tabel 6.7 di atas, variasi Beta berpengaruh

dalam hasil deteksi outlier karena pada penentuan nilai b

menggunakan nilai Beta pada atribut UN. Alfa dan Beta



atau rumus 2.2. Hasil pengujian tersebut pada atribut UN

memenuhi syarat pada rumus 2.2, sedangkan atribut IIUN dan

Akreditasi memenuhi syarat rumus 2.1.


Percobaan kedelapan pada dataset jurusan IPA menggunakan nilai

b sebesar 3, Alfa sebesar 50%, dan nilai Beta divariasi dengan


Tabel 6. 8 Hasil pengujian kedelapan jurusan IPA


3 50% 1








3 50% 2








3 50% 3







70











Percobaan kesembilan pada dataset jurusan IPA menggunakan nilai



Tabel 6. 9 Hasil pengujian kesembilan jurusan IPA


3 80% 1








3 80% 2








3 80% 3








71










Percobaan kesepuluh pada dataset jurusan IPA menggunakan nilai


beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.10

berikut.

Tabel 6. 10 Hasil pengujian kesepuluh jurusan IPA


3 100% 1








3 100% 2








3 100% 3








72









6.2.2. Hasil Identifikasi Outlier Dataset Jurusan IPS

Hasil identifikasi outlier pada jurusan IPS dilakukan dengan

berbagai variasi mengenai nilai b, Alfa, Beta, dan Threshold. Hasil

identifikasi outlier dengan nilai Threshold sebesar 7.


Percobaan pertama pada dataset jurusan IPS menggunakan nilai



berikut.

Tabel 6. 11 Hasil pengujian pertama jurusan IPS


1 30% 1

1. SMA MA‟ARIF YOGYAKARTA

2. SMA MA‟ARIF WATES

3. SMA IKIP VETERAN

4. SMA SANTO THOMAS YOGYAKARTA



7. SMA SANJAYA XIV NANGGULAN

1 30% 2



3. SMA IKIP VETERAN






73

1 30% 3



3. SMA IKIP VETERAN







nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan

Beta merupakan variabel yang digunakan untuk melakukan

penentuan nilai b dapat digunakan atau tidak jika memenuhi

syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada

semua atribut memenuhi syarat rumus 2.1.





berikut.

Tabel 6. 12 Hasil pengujian kedua jurusan IPS


1 50% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




1 50% 2



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA



74



1 50% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 13 Hasil pengujian ketiga jurusan IPS


1 60% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




1 60% 2 -


75

1 60% 3 -

Pada hasil pengujian tabel 6.13 di atas, variasi Beta


nilai b menggunakan nilai Beta pada atribut UN. Alfa dan Beta

merupakan variabel yang digunakan untuk melakukan



atribut UN memenuhi syarat pada rumus 2.2, sedangkan atribut

IIUN dan Akreditasi memenuhi syarat rumus 2.1.





berikut.

Tabel 6. 14 Hasil pengujian keempat jurusan IPS


2 40% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




2 40% 2



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




2 40% 3 1. SMA MA‟ARIF YOGYAKARTA


76


3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 15 Hasil pengujian kelima jurusan IPS


2 60% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




2 60% 2



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA



77



2 60% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 16 Hasil pengujian keenam jurusan IPS


2 80% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




2 80% 2



3. SMA IKIP VETERAN


78

4. SMA SANTO THOMAS

YOGYAKARTA




2 80% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 17 Hasil pengujian ketujuh jurusan IPS


2 90% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




79


2 90% 2 -

2 90% 3 -

Pada hasil pengujian tabel 6.17 di atas, variasi Beta


nilai b menggunakan nilai Beta pada atribut UN. Alfa dan Beta

merupakan variabel yang digunakan untuk melakukan



atribut UN memenuhi syarat pada rumus 2.2, sedangkan atribut

IIUN dan Akreditasi memenuhi syarat rumus 2.1.





berikut.

Tabel 6. 18 Hasil pengujian kedelapan jurusan IPS


3 50% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




3 50% 2



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA


80




3 50% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 19 Hasil pengujian kesembilan jurusan IPS


3 80% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




3 80% 2 1. SMA MA‟ARIF YOGYAKARTA


81


3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




3 80% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA















berikut.

Tabel 6. 20 Hasil pengujian kesepuluh jurusan IPS


3 100% 1



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA


82




3 100% 2



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA




3 100% 3



3. SMA IKIP VETERAN

4. SMA SANTO THOMAS

YOGYAKARTA











6.3. Analisis Hasil Identifikasi Outlier

6.3.1. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPA

Dari sepuluh percobaan pada dataset jurusan IPA di Daerah

Istimewa Yogyakarta tahun ajaran 2014/2015 yang memiliki 115 sekolah,

dapat diketahui bahwa dengan menggunakan contoh threshold tujuh

didapatkan hasil tujuh sekolah yang sama dari percobaan-percobaan yang

sudah dilakukan dengan perbedaan nilai b, Alfa, dan Beta. Tujuh sekolah

tersebut yaitu sebagai berikut.


83

Tabel 6. 21 Hasil Identifikasi Outlier jurusan IPA

Nama Sekolah Nilai UN Nilai IIUN Akreditasi

SMA „17‟ YOGYAKARTA 221.19 75.6 B

SMA MUHAMMADIYAH

KALASAN

228.74 72.4 B

SMA MUHAMMADIYAH PAKEM 243.76 74.0 B

SMA MUHAMMADIYAH 1

SLEMAN

311.9 84.4 B

SMA MUHAMMADIYAH

PIYUNGAN

274.36 78.62 B

SMA MUHAMMADIYAH MLATI 306.86 71.8 B

SMA GAJAH MADA

YOGYAKARTA

374.32 53.28 B

Pada ketujuh sekolah tersebut teridentifikasi sebagai outlier karena

dipengaruhi oleh nilai Akreditasi yang bernilai B. Beberapa sekolah juga

yang teridentifikasi sebagai outlier karena memiliki nilai UN dan IIUN

dibawah rata-rata. SMA Muhammadiyah 1 Sleman memiliki nilai IIUN

diatas rata-rata namun memiliki nilai UN dibawah rata-rata dan memiliki

nilai akreditasi B, sehingga dapat dikategorikan sebagai outlier. Sama

halnya dengan SMA Gajah Mada Yogyakarta yang memiliki nilai UN

diatas rata-rata namun memiliki nilai IIUN dibawah rata-rata dan nilai

akreditasi bernilai B, sehingga dikategorikan sebagai outlier.


84

6.3.2. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPS

Dari sepuluh percobaan pada dataset jurusan IPS di Daerah

Istimewa Yogyakarta tahun ajaran 2014/2015 yang memiliki 120 sekolah,

dapat diketahui bahwa dengan menggunakan threshold tujuh didapatkan

hasil tujuh sekolah yang sama dari percobaan-percobaan yang sudah

dilakukan dengan perbedaan nilai b, Alfa, dan Beta. Tujuh sekolah tersebut

yaitu sebagai berikut.

Tabel 6. 22 Hasil Identifikasi Outlier jurusan IPS

Nama Sekolah Nilai UN Nilai IIUN Akreditasi

SMA MA‟ARIF YOGYAKARTA 226.45 82.55 B

SMA MA‟ARIF WATES 229.89 67.2 B

SMA IKIP VETERAN 233.93 67.49 B

SMA SANTO THOMAS

YOGYAKARTA

245.08 85.03 B

SMA MUHAMMADIYAH PIYUNGAN 254.13 82.2 B

SMA MUHAMMADIYAH MLATI 256.42 71.8 B

SMA SANJAYA XIV NANGGULAN 302.35 81.2 B

Pada ketujuh sekolah tersebut teridentifikasi sebagai outlier karena

dipengaruhi oleh nilai Akreditasi yang bernilai B. Beberapa sekolah juga

yang teridentifikasi sebagai outlier karena memiliki nilai UN dan IIUN

dibawah rata-rata. SMA Ma‟arif Yogyakarta, SMA Santo Thomas

Yogyakarta, SMA Muhammadiyah Yogyakarta, dan SMA Sanjaya XIV

Nanggulan memiliki nilai IIUN diatas rata-rata namun tergolong ke dalam

kategori outlier karena dipengaruhi nilai Akreditasi yang bernilai B. Nilai

UN pada ketujuh sekolah tersebut berada dibawah rata-rata.


85

6.4. Kelebihan dan Kekurangan Perangkat Lunak

6.4.1. Kelebihan Perangkat Lunak

Kelebihan perangkat lunak pendeteksi outlier menggunakan

algoritma MixCBLOF ini adalah :

1. Sistem dapat menerima masukan file bertipe .xls.

2. Sistem dapat menerima masukan dengan jumlah kolom yang

dinamis.

3. Sistem menyediakan isian nilai b, Alfa, dan Beta yang

digunakan sebagai pembagian klaster besar dan klaster kecil.

4. Sistem menyediakan isian nilai Threshold untuk menampilkan

jumlah sekolah yang diinginkan.

5. Sistem dapat menampilkan hasil derajat outlier yang mudah

dipahami oleh user.

6. Sistem dapat menyimpan hasil deteksi outlier berupa file

bertipe .xls.

6.4.2. Kekurangan Perangkat Lunak

Kekurangan perangkat lunak pendeteksi outlier menggunakan

algoritma MixCBLOF ini adalah :

1. Data masukan yang dapat diterima masih terbatas yaitu hanya

berupa file bertipe .xls.

2. Sistem tidak dapat melakukan otomatisasi penyeleksian

atribut, sehingga seleksi atribut dan filter data dilakukan secara

manual.

3. Sistem tidak dapat melakukan pengubahan jumlah klaster pada

proses clustering.

4. Sistem hanya dapat menyimpan hasil deteksi outlier berupa

file bertipe .xls.


86

BAB VII

PENUTUP

7.1. KESIMPULAN

Hasil penelitian penerapan algoritma MixCBLOF untuk melakukan

deteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian

Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta tahun

2014/2015 ini menghasilkan kesimpulan sebagai berikut :

1. Algoritma MixCBLOF dapat diterapkan untuk deteksi outlier

pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional,

dan Akreditasi SMA di Daerah Istimewa Yogyakarta.

2. Nilai b, Alfa, dan Beta yang digunakan memiliki pengaruh

terhadap hasil derajat outlier yang dihasilkan. Jika menggunakan

nilai b kurang dari jumlah klaster, semakin banyak jumlah data

yang digunakan maka semakin tinggi juga nilai maksimal untuk

nilai Alfa yang diinginkan. Sedangkan jika menggunakan nilai b

sesuai dengan jumlah klaster maka dapat menggunakan nilai

maksimal Alfa sebesar 100%.

3. Nilai efektif untuk b disesuaikan dengan jumlah klasternya,

sedangkan nilai Alfa menggunakan nilai maksimal yang dapat

digunakan. Penetapan nilai efektif untuk b disesuaikan dengan

jumlah klasternya karena bergantung pada jumlah data yang

digunakan, sehingga dalam mengatasi pada jumlah data yang

berubah-ubah maka akan efektif jika menggunakan nilai b yang

disesuaikan dengan jumlah klasternya. Nilai maksimal Alfa akan

bergantung pada nilai b yang diisikan.

4. Pengujian dataset hasil Ujian Nasional, Indeks Integritas Ujian

Nasional, dan Akreditasi SMA jurusan IPA di Daerah Istimewa

Yogyakarta tahun ajaran 2014/2015 menghasilkan aturan dalam

pengisian nilai b, Alfa, dan Beta sebagai berikut.


87

a. Pada pengisian nilai b = 1 maka nilai maksimal Alfa yang

dapat digunakan sebesar 30%, sedangkan jika nilai Alfa

melebihi nilai maksimal maka menggunakan nilai Beta = 1.

b. Pada pengisian nilai b = 2 maka nilai maksimal Alfa yang



c. Pada pengisian nilai b = 3 maka nilai maksimal Alfa yang

dapat digunakan sebesar 100%, sedangkan nilai Beta tidak

digunakan.

5. Pengujian dataset hasil Ujian Nasional, Indeks Integritas Ujian

Nasional, dan Akreditasi SMA jurusan IPS di Daerah Istimewa

Yogyakarta tahun ajaran 2014/2015 menghasilkan aturan dalam

pengisian nilai b, Alfa, dan Beta sebagai berikut.

a. Pada pengisian nilai b = 1 maka nilai maksimal Alfa yang



b. Pada pengisian nilai b = 2 maka nilai maksimal Alfa yang



c. Pada pengisian nilai b = 3 maka nilai maksimal Alfa yang

dapat digunakan sebesar 100%, sedangkan nilai Beta tidak

digunakan.

6. Hasil deteksi outlier pada data hasil Ujian Nasional, Indeks

Integritas Ujian Nasional, dan Akreditasi SMA di Daerah

Istimewa Yogyakarta dapat dilihat dari derajat outlier per

sekolah, semakin rendah derajat outlier yang dimiliki maka

semakin tinggi perbedaan dengan data yang lainnya. Karakteristik

sekolah-sekolah yang teridentifikasi sebagai outlier adalah

sekolah yang memiliki nilai UN, dan nilai IIUN dibawah rata-

rata dan memiliki nilai Akreditasi bernilai B. Sekolah yang

mempunyai nilai UN dan nilai IIUN tinggi juga teridentifikasi


88

sebagai outlier, selain itu juga sekolah yang mempunyai nilai UN

tinggi namun nilai IIUN rendah juga teridentifikasi sebagai

outlier.

7.2. SARAN

Penelitian penerapan algoritma MixCBLOF untuk identifikasi outlier pada

data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi

SMA di Daerah Istimewa Yogyakarta ini memberikan saran untuk

pengembangan selanjutnya, yaitu :

1. Perangkat lunak bagian tipe ekstensi file :

a. Perangkat lunak dapat menerima masukan data dari file selain

bertipe .xls.

b. Perangkat lunak dapat menyimpan hasil deteksi outlier ke

dalam file selain bertipe .xls.

c. Perangkat lunak dapat menerima file bertipe .xls dengan isian

data yang berbeda.

2. Pada bagian preprocessing data :

a. Perangkat lunak dapat melakukan seleksi atribut sehingga

dapat melakukan penggabungan data di dalam perangkat

lunak.

b. Perangkat lunak dapat melakukan seleksi baris yang akan

digunakan.

3. Perangkat lunak dapat menampilkan hasil deteksi outlier ke

dalam bentuk yang lebih menarik. Misalnya, perangkat lunak

diberikan grafik dengan warna khas dari hasil derajat outlier

akhir, sehingga dapat dilihat dengan jelas kelompok yang

menyimpang dari data lainnya.

4. Penelitian menggunakan dataset yang berbeda. Misalnya dataset

di provinsi berbeda.

5. Penelitian menggunakan metode clustering yang berbeda.


89

6. Penelitian selanjutnya dapat melakukan pendeteksian outlier

secara terpisah setiap akreditasi yang ada. Misalnya pendeteksian

outlier secara terpisah pada SMA yang berkakreditasi A dengan

SMA yang berakreditasi lain, begitu pun hal yang sama dilakukan

pada SMA yang berakreditasi B dan C.

7. Pengembangan penelitian untuk memilah arti outlier yang bagus

dan jelek.

8. Pengembangan lebih lanjut mengenai penelitian algoritma

MixCBLOF.


90

DAFTAR PUSTAKA

Han, J., Kamber, M., Pei, J. 2012. Data Mining Concepts and Techniques Third

Edition. Elsevier : USA.

He, Z., Xu, X., Deng, S. 2003. Discovering Cluster-based Local Outliers. Elsevier

: China.

Kriegel, H., Kröger, P., Zimek, A. 2010. Outlier Detection Techniques. Ludwig-

Maximilians-Universität München Munich : Germany.

Kristanto, Andri. 2004. Rekayasa Perangkat Lunak (Konsep Dasar). Gava Media

: Yogyakarta.

Maryono, Dwi & Arif Djunaidy. 2010. Deteksi Outlier Berbasis Klaster pada Set

Data dengan Atribut Campuran Numerik dan Kategorikal. Institut

Teknologi Sepuluh : Surabaya.

Octaviani, Maria Renia. 2015. Deteksi Outlier untuk Nilai Ujian Sekolah

Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness

(INFLO). Perpustakaan Universitas Sanata Dharma : Yogyakarta.

Tan, Pan Ning, Michael Steinbach dan Vipin Kumar. 2006. Introduction to Data

Mining. Pearson Education, Inc : Boston San Fransisco New York.


91

LAMPIRAN 1 : NARASI USE CASE

1. Narasi Use Case Pilih file input

Pilih file input

Nama Use Case Pilih file input

ID Use Case 1

Aktor User

Deskripsi Use case ini merupakan proses memilih file data dari

direktori komputer berupa Microsoft Excel dengan

ekstensi .xls ke dalam sistem.

Kondisi Awal User sudah masuk ke dalam sistem dan berada pada

halaman proses.

Kondisi Akhir Data dari file .xls ditampilkan dalam tabel data pada

halaman proses.

Typical Course

Aksi Aktor Reaksi Sistem

1. Menekan tombol

“Pilih Data” untuk

memasukkan file

berkstensi .xls.

2. Menampilkan dialog

untuk memilih file

yang berada di

direktori komputer.

3. Memilih file yang

akan diproses.

4. Menekan tombol

“Open”

5. Menampilkan data

dari file yang sudah

dipilih ke dalam tabel

data yang terdapat

pada halaman proses.

Alternative Course - -


92

2. Narasi Use Case Deteksi Menggunakan Algoritma MixCBLOF

Deteksi Menggunakan Algoritma MixCBLOF

Nama Use Case Deteksi menggunakan algoritma MixCBLOF

ID Use Case 2

Aktor User

Deskripsi Use case ini merupakan proses deteksi outlier dari

data yang sudah terpilih.

Kondisi Awal Sistem sudah berada pada halaman proses.

Kondisi Akhir User dapat melihat hasil deteksi outlier

Typical Course


1. Memasukkan nilai b

2. Memasukkan nilai

alfa

3. Memasukkan nilai

beta

4. Menekan tombol

“Proses”

5. Mengubah label dari

“Belum Proses... ”

menjadi “Selesai”

6. Menekan tombol

“Lihat Hasil”

7. Menampilkan derajat

outlier per sekolah.

Alternate Course 1. Memasukkan nilai

threshold

2. Menekan tombol

“Submit”

3. Menampilkan hasil

deteksi outlier

sebanyak nilai

threshold yang diisi.


93

3. Narasi Use Case Simpan data hasil

Simpan data hasil

Nama Use Case Simpan data hasil

ID Use Case 3

Aktor User

Deskripsi

Use case ini merupakan proses penyimpanan hasil

deteksi outlier ke direktori komputer dalam bentuk file

dengan tipe ekstensi .xls.

Kondisi Awal Hasil deteksi outlier sudah tampil dalam bentuk tabel

di halaman frameDeteksi.

Kondisi Akhir Hasil deteksi outlier sudah tersimpan dalam salah satu

direktori di komputer.

Typical Course


1. Menekan tombol

“Simpan”

2. Menampilkan kotak

dialogSimpan untuk

pemilihan

penyimpanan hasil

semua deteksi atau

hasil threshold

deteksi

3. Menekan tombol

“Semua”


dialog pemilihan

direktori

penyimpanan

5. Memilih direktori

penyimpanan hasil

semua deteksi outlier

6. Mengisikan nama

file yang akan

disimpan

7. Menekan tombol

“OK”

8. Menyimpan hasil

deteksi ke dalam file


94

dalam direktori yang

telah dipilih.

Alternative Course

1. Menekan tombol

“Simpan”


dialogSimpan untuk

pemilihan

penyimpanan hasil

semua deteksi atau

hasil threshold

deteksi

3. Menekan tombol

“Threshold”


dialog pemilihan

direktori

penyimpanan


penyimpanan hasil

threshold deteksi

outlier

6. Mengisikan nama

file yang akan

disimpan

7. Menekan tombol

“OK”

8. Menyimpan hasil

deteksi ke dalam file

dalam direktori yang

telah dipilih.


95

LAMPIRAN 2 : DIAGRAM AKTIVITAS

1. Diagram Aktivitas Pilih file input

User Sistem

Menekan tombol

"Pilih Data"

Menampilkan kotak

dialog file chooser

Memilih file data betipe

.xls

Menekan tombol "Open"

Menampilkan data ke

tabel data di halaman

proses


96

2. Diagram aktivitas Deteksi menggunakan Algoritma MixCBLOF

User Sistem

Memasukkan nilai b

Memasukkan nilai alfa

Memasukkan niali beta

Menekan tombol "Proses"

Mengubah label menjadi

"Selesai"

Menekan tombol "Lihat

Hasil"

Menampilkan hasil

derajat outlier semua

sekolah

Memasukkan nilai

thresholdYa

Menekan tombol

"Submit"

Menampilkan hasil

deteksi outlier sebanyak

nilai threshold

Tidak


97

3. Diagram aktivitas Simpan data hasil

User Sistem

Menekan tombol

"Simpan"

Menampilkan kotak

dialog untuk pilihan data

yang akan disimpan

Menekan tombol

"Semua"

Ya

Menekan tombol

"Threshold"

Tidak

Menampilkan kotak

dialog pemilihan

penyimpanan

Memilih direktori

Mengisi nama file

Menekan tombol "OK"

Menyimpan hasil deteksi

ke dalam direktori yang

telah dipilih


98

LAMPIRAN 3 : DIAGRAM KELAS ANALISIS


99

LAMPIRAN 4 : DIAGRAM SEQUENCE

1. Diagram Sequence Pilih File Input

User

<<view>>

Hal_Proses

<<view>>

Hal_Utama

Menekan tombol

"Masuk"

Menampilkan

halaman Hal_Proses

Menekan tombol "Pilih Data"

Menampilkan kotak dialog file chooser

Memilih file bertipe .xls

btnPilihDataActionPerformed

(java.awt.event.ActionEvent evt)

Menampilkan data dari file ke tabelData


100

2. Diagram Sequence Deteksi menggunakan Algoritma MixCBLOF

User

<<view>>

Hal_Proses

Mengisi nilai b

Mengisi nilai alfa

Mengisi nilai beta

Menekan tombol "Proses"

<<controller>>

OutlierControl

<<model>>

DataSekolah

Menyimpan data sekolah

dari tabelData

Data Sekolah tersimpan

Cluster atribut UN

Cluster atribut IIUN

Cluster atribut Akreditasi

<<model>>

HasilCluster

Simpan hasil cluster atribut UN

Data cluster UN tersimpan

Simpan hasil cluster atribut IIUN

Data cluster IIUN tersimpan

Simpan hasil cluster atribut Akreditasi

Data cluster Akreditasi tersimpan

Cetak hasil cluster atribut UN

Cetak hasil cluster atribut IIUN

Cetak hasil cluster atribut Akreditasi

Penentuan klaster besar

dan klaster kecil atribut UN


dan klaster kecil atribut IIUN


dan klaster kecil atribut Akreditasi

Hitung NCBLOF atribut UN

Hitung NCBLOF atribut IIUN

Hitung CBLOF atribut Akreditasi

Normalisasi

Data sudah dinormalisasi

Hitung derajat outlier

final

<<model>>

OutlierFinal

Simpan data hasil outlier final

Cetak hasil outlier final

Menekan tombol

"Lihat Hasil"

Mengubah label menjadi

"Selesai"

btnProsesActionPerformed

(java.awt.event.ActionEvent evt)

Memasukkan hasil derajat outlier

kejtable2

Menampilkan derajat outlier

semua sekolah


101

3. Diagram Sequence Simpan data hasil

User

<<view>>

Hal_Proses

Menekan tombol

"Simpan"

Menampilkan kotak

dialog

Menekan tombol

"Semua"

Tampil dialog pemilihan

direktori penyimpanan

Memilih direkotri penyimpanan

Mengisi nama file

Menekan tombol "OK"

Hasil deteksi tersimpan

sesuai direktori


LAMPIRAN 5 : DIAGRAM KELAS DISAIN

<<model>>DataSekolah

- nilaiUN : double- nilaiIIUN : double- nilaiAkreDouble : double- nilaiAkre : String- namaSekolah : String- kodeSekolah : String

+ DataSekolah() : <<constructor>>+ DataSekolah(String kodeSekolah, String namaSekolah, double nilaiUN, double nilaiIIUN, String nilaiAkre) : <<constructor>>+ getNilaiAkreDouble() : double+ setNilaiAkreDouble(double nilaiAkreDouble) : void+ getKodeSekolah() : String+ setKodeSekolah(String kodeSekolah) : void+ getNamaSekolah() : String+ setNamaSekolah(String namaSekolah) : void+ getNilaiUN() : double+ setNilaiUN(double nilaiUN) : void+ getNilaiIIUN() : double+ setNilaiIIUN(double nilaiIIUN) : void+ getNilaiAkre() : String+ setNilaiAkre(String nilaiAkre) : void

<<model>>HasilCluster

- kodeSekolah : String- nilai : double

+ HasilCluster() : <<constructor>>+ HasilCluster(String kodeSekolah, double nilai) : <<constructor>>+ getKodeSekolah() : String+ setKodeSekolah(String kodeSkeolah) : void+ getNilai() : double+ setNilai(double nilai) : void

<<model>>OutlierFinal

- namaSekolah : String- kodeSekolah : String- nilaiUN : double- nilaiIIUN : double- nilaiAkre : double- OF : double- nilaiAkreString : String

+ OutlierFinal() : <<constructor>>+ getOF() : double+ setOF(double OF) : void+ getNamaSekolah() : String+ setNamaSekolah(String namaSekolah) : void+ getKodeSekolah() : String+ setKodeSekolah(String kodeSekolah) : void+ getNilaiUN() : double+ setNilaiUN(double nilaiUN) : void+ getNilaiIIUN() : double+ setNilaiIIUN(double nilaiIIUN) : void+ getNilaiAkre() : double+ setNilaiAkre(double nilaiAkre) : void+ getNIlaiAkreString() : String+ setNilaiAkreString(String nilaiAkreString) : void

<<control>>OutlierControl

- count[] : int- k[][] : HasilCluster- test[][] : HasilCluster- diff[] : double- mLamaUN[] : double- mBaruUN[] : double- mLamaIIUN[] : double- mBaruIIUN[] : double- mBaruAkre[] : double- jmAnggotaUN1[] : int- jmlAnggotaUN2[] : int- jmAnggotaIIUN1[] : int- jmlAnggotaIIUN2[] : int- jmAnggotaAkre1[] : int- jmlAnggotaAkre2[] : int

+ cal_diff(double a, int p, double m[]) : int+ cal_mean(int p, int n, double m[]) : double[]+ check1(int p, int n, HasilCluster[][] tempk) : int+ ClusterUN(ArrayList<DataSekolah> listNilai, int p) : HasilCLuster[][]+ ClusterIIUN(ArrayList<DataSekolah> listNilai, int p) : HasilCLuster[][]+ ClusterAkreditasi(ArrayList<DataSekolah> listNilai, int p) : HasilCLuster[][]+ search(int[] data, int key) : int+ bagiCluster(int b, double alfa, int beta, int[] jml, int n) : boolean+ RelativeDistance(HasilCluster[][] listData, int idx, double centro, int jmlAnggota, String kodeSekolah) : double+ distance(HasilCluster data, double centro) : double+ bubbleSort(int[] numero, Comparator comp) : void+ findIndexCluster(String kodeSekolah, HasilCluster[][] hasil, int p) : int+ NCBLOF(double relative, int jml) : double+ MinCj(int newB, String kodeSekolah, HasilCluster[][] hasil, double[] centro, int idx) : int+ Similar(HasilCluster[][] data, double centro, int idx, String kodeSekolah) : double+ CBLOFBesar(int jmlAnggota, double hasil) : double+ CBLOFKecil(int jmlAnggota, int newB, String kodeSekolah, HasilCluster[][] hasil, double[] centro, int idx) : double+ Normalisasi(double[][] data, int n, int jmlAtribut) : double[][]+ max(double[][] data, int j, int n) : double+ min(double[][] data, int j, int n) : double+ BobotEntropy(double[][] data, int jmlAtribut, int k, int n) : double[][]+ hasilOF(double[][] normData, double[] w, int n, int jmlAtribut) : double[]+ bubbleSortObject(OutlierFinal[] hasil) : OutlierFinal[]+ simpanOF(JTable jtable) : void

<<view>>Hal_Utama

- btnBantuan : JButton- btnBeranda : JButton- btnMasuk : JButton- btnTentang : JButton- jLabel1 : JLabel- jLabel2 : JLabel- jLabel3 : JLabel- jLabel4 : JLabel- jLabel5 : JLabel- jLabel6 : JLabel- jLabel7 : JLabel- jPanel1 : JPanel- jPanel2 : JPanel

- btnMasukActionPerformed(ActionEvent) : void

<<view>>Hal_Tentang

- jButton1 : JButton- jButton2 : JButton- jButton3 : JButton- jLabel1 : JLabel- jLabel2 : JLabel- jLabel3 : JLabel- jPanel1 : JPanel- jPanel2 : JPanel- jScrollPane1 : JScrollPane- jTextArea1 : JTextArea

-

<<view>>Hal_Proses

- btnLihat : JButton- btnPilihData : JButton- btnProses : JButton- btnBeranda : JButton- btnBantuan : JButton- btnTentang : JButton- jLabel1 : JLabel- jLabel2 : JLabel- jLabel6 : JLabel- jLabel20 : JLabel- jLabel21 : JLabel- jLabel22 : JLabel- jLabel23 : JLabel- jLabel24 : JLabel- labelNotif : JLabel- jPanel1 : JPanel- jPanel2 : JPanel- jPanel3 : JPanel- jPanel4 : JPanel- tabelData : JTable- txtAlfa : JTextField- txtB : JTextField- txtBeta : JTextField- txtJumlaghData : JTextField- txtPilihData : JTextField- hasilSort[] : OutlierFinal[]- jScrollPane1 : JScrollPane- btnSemua : JButton- btnSimpan : JButton- btnSumbit : JButton- btnThreshold : JButton- jLabel3 : JLabel- jLabel8 : JLabel- jLabel9 : JLabel- jLabel18 : JLabel- jPanel5 : JPanel- jPanel8 : JPanel- jPanel9 : JPanel- jScrollPane2 : JScrollPane- jScrollPane3 : JScrollPane- jTable1 : JTable- jTable2 : JTable- txtJumlahData2 : JTextField- txtThreshold : JTextField

- btnProsesActionPerformed(ActionEvent) : void- btnPilihDataActionPerformed(ActionEvent) : void- btnLihatActionPerformed(ActionEvent) : void- pilihFile() : void- btnSubmitActinPerformed(ActionEvent) : void- btnSimpanActinPerformed(ActionEvent) : void- btnSemuaActinPerformed(ActionEvent) : void- btnThresholdActinPerformed(ActionEvent) : void

<<view>>Hal_Bantuan

- jButton1 : JButton- jButton2 : JButton- jButton3 : JButton- jLabel1 : JLabel- jLabel2 : JLabel- jLabel3 : JLabel- jPanel1 : JPanel- jPanel2 : JPanel- jScrollPane1 : JScrollPane- jTextArea1 : JTextArea

-

<<view>>JFrame


103

LAMPIRAN 6 : ALGORITMA PER METHOD

Nama Method Fungsi Method Algoritma Method

cal_diff(double a, int p,

double m[])

Menghitung jarak

terdekat

1. Selama indeks ke-i kurang dari p, maka lakukan :

a. Jika nilai a lebih besar m[i], maka nilai diff[i] = a – m[i].

b. Jika nilai a kurang dari m[i], maka nilai diff[i] = m[i] – a.

2. Membuat variabel val = 0, dan temp = diff[0].


a. Jika niali diff[i] kurang dari temp, maka temp = diff[i], dan val = i.

4. Mengembalikan nilai val.

cal_mean(int p, int n,

double m[])

Menghitung

centroid


a. m[i] = 0.

2. Membuat variabel cnt = 0 dan tempM[] sepanjang nilai p.

3. Menghitung nilai centroid tiap klaster.

4. Mengembalikan nilai variabel tempM.

check1(int p, int n,

HasilCluster[][] tempk)

Mengecek

keanggotaan tiap

cluster terjadi

perubahan atau

tidak.

1. Perulangan untuk 2 dimensi :

a. Jika kode sekolah dari tempk tidak sama dengan kode sekolah dari k, maka

mengembalikan nilai 0.

b. Jika kode sekolah dari tempk dan k memiliki kesamaan maka

mengembalikan nilai 1.

ClusterUN(ArrayList<Data

Sekolah> listNilai, int p)

Proses clustering

atribut nilai Ujian

Nasional (UN)

1. Membuat variabel n dengan nilai listNilai.size().

2. Inisialisasi obyek k, dan test dari HasilCluster[][] sepanjang p dan n.

3. Membuat obyek dari HasilCluster[][] dengan nama tempk sepanjang p dan n.

4. Inisialisasi atribut mLamaUN, mBaruUN, dan diff sepanjang p.

5. Inisialisasi atribut count sepanjang n.


104

6. Inisialisasi nilai awal centroid (mLamaUN) dari nilai UN.

7. Membuat variabel temp dan flag, masing-masing bernilai 0.

8. Selama flag bernilai 0, maka lakukan :

a. Set nilai awal k dan test dengan nilai -1

b. Cari obyek dengan jarak terdekat menggunakan method cal_diff

c. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index.

9. Hitung centroid baru dengan menggunakan method cal_mean, ditampung

pada variabel mLamaUN

10. Cek keanggotaan klaster dengan menggunakan method check1, ditampung

pada variabel flag

11. Jika flag tidak bernilai 1 maka :

a. Set kode sekolah dan nilai dari obyek tempk dengan nilai dari obyek k

12. Sorting hasil cluster dari obyek k.

ClusterIIUN(ArrayList<Dat

aSekolah> listNilai, int p)

Proses clustering

atribut nilai

Indeks Integritas

Ujian Nasional

(IIUN)




4. Inisialisasi atribut mLamaIIUN, mBaruIIUN, dan diff sepanjang p.


6. Inisialisasi nilai awal centroid (mLamaIIUN) dari nilai IIUN.

7. Membuat variabel temp dan flag, masing-masing bernilai 0.

8. Selama flag bernilai 0, maka lakukan :

a. Set nilai awal k dan test dengan nilai -1

b. Cari obyek dengan jarak terdekat menggunakan method cal_diff

c. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index.

9. Hitung centroid baru dengan menggunakan method cal_mean, ditampung

pada variabel mLamaIIUN

10. Cek keanggotaan klaster dengan menggunakan method check1, ditampung

pada variabel flag


105

11. Jika flag tidak bernilai 1 maka :

a. Set kode sekolah dan nilai dari obyek tempk dengan nilai dari obyek k


ClusterAkreditasi(ArrayList

<DataSekolah>, int p)

Proses clustering

atribut nilai

Akreditasi




4. Membuat variabel idx dengan nilai awal 0.

5. Inisialisasi atribut mBaruAkre, dan diff sepanjang p.


7. Inisialisasi nilai awal centroid (mBaruAkre) dari dengan nilai awal 1, 2, dan 3.

8. Set nilai awal k dan test dengan nilai -1

9. Cari obyek dengan jarak terdekat menggunakan method cal_diff

10. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index.


search(int[] data, int key) Pencarian indeks. 1. Selama indeks ke-i kurang dari data.length, maka lakukan :

a. Jika data dengan indeks ke-i sama dengan key maka mengembalikan nilai

indeks ke-i.

b. Jika tidak sama/ tidak ditemukan maka mengembalikan nilai -1.

bagiCluster(int b, double

alfa, int beta, int[] jml, int

n)

Menentukan

klaster besar dan

klaster kecil

1. Membuat variabel hasil dan hasil3 dengan nilai awal yaitu 0.

2. Menjumlahkan semua jumlah anggota yang kurang dari b.

3. Membuat variabel hasil2 dengan perhitungan alfa dikalikan n (jumlah data).

4. Jika nilai hasil lebih besar sama dengan hasil2 maka mengembalikan nilai true,

jika tidak, maka lakukan :

a. Inisialisasi variabel hasil3 dengan perhitungan jml berindeks b dibagi

dengan jml berindeks b+1.

b. Jika hasil3 lebih besar sama dengan beta maka mengembalikan nilai true.

5. Jika tidak memenuhi syarat di atas maka mengembalikan nilai false.

RelativeDistance(HasilClus Proses 1. Membuat variabel Mean, total, jarak, dan RD dengan masing-masing variabel


106

ter[][] listData, int idx,

double centro, int

jmlAnggota, String

kodeSekolah)

menghitung

relative distance

bernilai awal yaitu 0.

2. Jumlahkan semua jarak dari setiap obyek dalam satu klaster ke centroid,

ditampung pada variabel total

3. Inisialisasi variabel Mean dengan perhitungan total dibagi jmlAnggota

4. Inisialisasi variabel jarak yang menampung hasil dari perhitungan mencari

jarak dari obyek yang ditentukan ke centroid dengan menggunakan method

distance

5. Inisialisasi variabel RD dengan perhitungan jarak dibagi Mean

6. Mengembalikan nilai RD.

distance(HasilCluster data,

double centro)

Menghitung jarak

satu obyek ke

centroid.

1. Membuat variabel diff dengan nilai awal yaitu 0.

2. Jika nilai lebih besar dari centro maka variabel diff menampung besaran dari

perhitungan nilai dikurangi centro.

3. Jika nilai lebih kecil dari centro maka variabel diff meanmpung besaran dari

perhitungan centro dikurangi nilai.

4. Mengembalikan variabel diff.

findIndexCluster(String

kodeSekolah,

HasilCluster[][] hasil, int p)

Mencari

keberadaan suatu

obyek pada

beberapa cluster.

1. Perulangan pada ketiga cluster yang mempunyai kodeSekolah yang sama, jika

ditemukan maka mengembalikan nilai klasternya.

2. Jika tidak ditemukan maka mengembalikan nilai -1.

NCBLOF(double relative,

int jml)

Menghitung

derajat outlier

pada numerical

data.

1. Membuat variabel hasil dengan inisialisasi perhitungan jml dikalikan dengan 1

dibagi relative.

2. Mengembalikan nilai hasil.

MinCj(int newB, String

kodeSekolah,

HasilCluster[][] hasil,

Mencari klaster

terdekat dari

obyek yang

1. Membuat variabel idex dengan nilai awal yaitu 0.

2. Jika jarak dari satu obyek ke centroid pertama lebih kecil dari jarak satu obyek

ke centroid kedua maka variabel idex menampung indeks centroid pertama, jika

tidak maka variabel idex menampung indeks centroid kedua.


107

double[] centro, int idx) ditentukan. 3. Mengembalikan nilai idex.

Similar(HasilCluster[][]

data, double centro, int idx,

String kodeSekolah)

Mencari nilai

kemiripan dari

satu data ke

centroid.

1. Membuat variabel hasil dan jarak, masing-masing bernilai awal yaitu 0.

2. Inisialisasi variabel jarak dengan menampung hasil pencarian besaran jarak

dari sebuah data ke centroid yang menggunakan method distance.

3. Inisialisasi variabel hasil dengan perhitungan 1 dikurangi jarak.

4. Mengembalikan nilai hasil.

CBLOFBesar(int

jmlAnggota, double hasil)

Menghitung nilai

derajat outlier

kategorikal data

yang tergolong

klaster besar.

1. Mengembalikan nilai perhitungan jmlAnggota dikalikan hasil.

CBLOFKecil(int

jmlAnggota, int newB,

String kodeSekolah,

HasilCluster[][] hasil,

double[] centro, int idx)

Menghitung nilai

derajat outlier

kategorikal data

yang tergolong

klaster kecil.

1. Membuat variabel newDis dan CBLOF dengan nilai awal yaitu 0.

2. Jika kodeSekolah dari obyek hasil memiliki kesamaan dengan kodeSekolah

maka lakukan :

a. Jika jarak dari satu obyek ke centroid pertama lebih kecil dari jarak satu

obyek ke centroid kedua maka variabel newDis menampung jarak ke

centroid pertama, jika tidak maka variabel newDis menampung jarak ke

centroid kedua.

3. Mengembalikan nilai CBLOF dengan perhitungan jmlAnggota dikalikan

newDis.

Normalisasi(double[][]

data, int n, int jmlAtribut)

Menghitung

normalisasi dari

derajat outlier per

atribut yang

sudah ditemukan.

1. Membuat variabel newdata untuk menampung semua data yang sudah

dinormalisasi.

2. Membuat variabel newmax dengan nilai awal yaitu 5, dan newmin dengan nilai

awal yaitu 1.

3. Cari nilai max (tertinggi) dari sebuah data per atribut dengan menggunakan

method max.

4. Cari nilai min (terendah) dari sebuah data per atribut dengan menggunakan


108

method min.

5. Inisialisasi variabel newdata dengan menampung hasil perhitungan (((data –

min)/ (max-min)) * (newmax-newmin)) + newmin.

6. Mengembalikan variabel newdata.

max(double[][] data, int j,

int n)

Mencari nilai

maximal

(tertinggi) per

atribut.

1. Membuat variabel max dengan nilai awal yaitu 0.

2. Terjadi perulangan sebanyak jumlah data, selama indeks ke-i kurang dari

jumlah data (n) maka lakukan :

a. Jika data lebih besar dari max maka inisialisasi variabel max dengan

menampung nilai data tersebut.

3. Mengembalikan variabel max.

min(double[][] data, int j,

int n)

Mencari nilai

minimal

(terendah) per

atribut.

1. Membuat variabel min dengan nilai awal yaitu data dengan indeks ke 0 dan j.

2. Terjadi perulangan sebanyak jumlah data, selama indeks ke-i kurang dari

jumlah data (n) maka lakukan :

a. Jika min lebih besar dari data maka inisialisasi variabel min dengan

menampung nilai data tersebut.

3. Mengembalikan variabel min.

BobotEntropy(double[][]

data, int jmlAtribut, int k,

int n)

Menghitung

bobot default per

atribut

menggunakan

metode Entropy.

1. Membuat variabel w[] dan f[] sepanjang nilai jmlAtribut.

2. Membuat variabel ftotal dengan nilai awal yaitu 0.

3. Selama indeks ke-i kurang dari jmlAtribut maka lakukan:

a. Membuat variabel ln dan entro, masing-masing bernilai awal yaitu 0.

b. Selama indeks ke-j kurang dari jumlah data (n), maka melakukan

penjumlahan dengan data * ln data yang ditampung pada variabel ln.

c. Inisialisasi variabel entro dengan perhitungan –k * ln.

d. Inisialisasi variabel f dengan perhitungan 1 – entro.

e. Penjumlahan semua nilai f yang ditampung pada variabel ftotal.

4. Proses pembagian sesuai dengan atributnya dengan perhitungan nilai f dibagi

ftotal yang ditampung pada variabel w.

5. Mengembalikan variabel w.


109

hasilOF(double[][]

normData, double[] w, int

n, int jmlAtribut)

Menghitung

derajat outlier

final per obyek.

1. Membuat variabel hasilOF[] sepanjang nilai n.

2. Selama indeks ke-i kurang dari jumlah data (n) maka lakukan :

a. Membuat variabel of dengan nilai awal yaitu 1.

b. Selama indeks ke-j kurang dari jmlAtribut maka melakukan proses

perkalian of dengan normData yang dipangkatkan oleh w, kemudian

ditampung pada variabel of.

c. Inisialisasi variabel hasilOF dengan nilai of.

3. Mengembalikan variabel hasilOF.

simpanOF(Jtable jtable) Menyimpan hasil

deteksi outlier ke

file berbentuk

Microsoft Excel

dengan ekstensi

.xls

1. Membuat obyek frame dari Jframe.

2. Membuat obyek fileChooser dari JfileChooser dengan menggunakan parameter

File.

3. SetFileFilter menggunakan obyek fileChooser.

4. Menampilkan kotak dialog pemilihan direktori menggunakan showSaveDialog.

5. Simpan sesuai jumlah kolom dan baris pada tabel.


110

LAMPIRAN 7 : PROSEDUR PENGUJIAN DAN KASUS UJI

Identifikasi

Use Case Deskripsi Prosedur Pengujian Masukkan

Keluaran yang

diharapkan

Hasil yang

didapatkan

Catatan Proses

Pengembangan

UC1-01 Pengujian

memilih data

dari direktori

berupa file

bertipe .xls

1. Jalankan sistem

2. Pada halaman

awal, tekan

tombol “Masuk

Sistem”

3. Pada halaman

preprocessing,

tekan tombol

“Pilih Data”

4. Pilih file yang

akan dimasukkan

5. Tekan tombol

“OK”

Tester.xls Data pada file

Tester.xls

ditampilkan pada


preprocessing

Data pada file

Tester.xls

tertampilkan pada


preprocessing

Tidak diperbaiki

UC1-02 Pengujian

memilih data

dari direktori

berupa file

selain bertipe

.xls

Tester.docx,

Tester.doc

Muncul

pemberitahuan

bahwa tipe file yang

dimasukkan tidak

sesuai

Muncul

pemberitahuan

bahwa tipe file yang

dimasukkan tidak

sesuai

Tidak diperbaiki

UC2-01 Pengujian

memasukkan

nilai yang

sesuai

sehingga

proses deteksi

dapat berjalan

1. Data sudah

tertampil pada

tabel data di

halaman

preprocessing

2. Memasukkan

nilai variabel b,

Alfa, dan Beta

b : 2

Alfa : 70

Beta : 3

Proses deteksi dapat

berjalan. Derajat

outlier tertampil

pada tabel di

frameDeteksi, dan

mengubah notifikasi

menjadi “Selesai”.

Proses deteksi dapat

berjalan. Derajat

outlier tertampil

pada tabel di

frameDeteksi, dan

mengubah notifikasi

menjadi “Selesai”.

Tidak diperbaiki


111

UC2-02 Pengujian

terjadi

kesalahan

dalam

memasukkan

nilai

3. Tekan tombol

Proses

1. b : 4

Alfa : 70

Beta : 3

2. b : 2

Alfa : 80

Beta : 3

Proses deteksi tidak

dapat berjalan,

karena jumlah nilai

variabel b yang

dimasukkan

melebihi jumlah

yang ditetapkan.

Muncul

pemberitahuan

“Pengisian b tidak

memenuhi syarat”.


dapat berjalan,

karena nilai variabel

Alfa dan Beta tidak

memenuhi syarat

persamaan untuk

pembagian klaster.

Muncul

pemberitahuan

“Ulangi pengisian b,

Alfa, dan Beta”.


dapat berjalan,

karena jumlah nilai

variabel b yang

dimasukkan

melebihi jumlah

yang ditetapkan.

Muncul

pemberitahuan

“Pengisian b tidak

memenuhi syarat”


dapat berjalan,

karena nilai variabel

Alfa dan Beta tidak

memenuhi syarat

persamaan untuk

pembagian klaster.

Muncul

pemberitahuan

“Ulangi pengisian b,

Alfa, dan Beta”.

Tidak diperbaiki

Tidak diperbaiki

UC3-01 Pengujian

menyimpan

hasil deteksi

1. Proses deteksi

sudah berhasil

dilakukan

Nama File :

CobaSemua

File tersimpan pada

direktori

File tersimpan pada

direktori

Tidak diperbaiki


112

semua sekolah

ke dalam file

bertipe .xls

2. Tekan tombol

“Simpan”

3. Tekan tombol

“Semua”


penyimpanan di

D:

Tipe file :

.xls

D:/CobaSemua.xls D:/CobaSemua.xls

UC3-02 Pengujian

menyimpan

hasil deteksi

beberapa

sekolah ke

dalam file

bertipe .xls

1. Proses deteksi

sudah berhasil

dilakukan

2. Memasukkan

nilai Threshold

3. Tekan tombol

“Submit”

4. Tekan tombol

“Simpan”

5. Tekan tombol

“Threshold”


penyimpanan di

D:

Nama File :

CobaThresh

old

Tipe file :

.xls

File tersimpan pada

direktori

D:/CobaThreshold.xl

s

File tersimpan pada

direktori

D:/CobaThreshold.xl

s

Tidak diperbaiki


113

LAMPIRAN 8 : HITUNG MANUAL PENAMBANGAN DATA

Proses penambangan data memiliki beberapa tahapan. Dalam melakukan

proses penghitungan manual ini menggunakan aplikasi Microsoft Excel sebagai

alat bantu penghitungan. Metodologi dalam penggunaan algortima MixCBLOF

dibagi menjadi 2 tahapan, yaitu :

1. Clustering data-data sekolah per atribut

Metode clustering yang digunakan untuk menangani data-data sekolah

menggunakan metode K-Means, dengan langkah sebagai berikut :

a. Tentukan nilai jumlah cluster, dan posisi centroid

b. Alokasikan semua data ke centroid terdekat dengan menghitung metrik

jarak

c. Hitung kembali centroid/ pembaruan nilai centroid dari masing-masing

cluster

d. Ulangi langkah b dan c jika masih terjadi perubahan posisi anggota

cluster berpindah ke cluster yang lain.

Pada proses clustering ini digunakan nilai jumlah cluster sebesar tiga

cluster sesuai dengan jumlah nilai dari atribut Akreditasi. Nilai centroid

awal diisi dengan nilai tiga data awal per atribut kecuali pada atribut

akreditasi diisi dengan nilai centroid pertama sebesar satu, nilai centroid

kedua sebesar dua, dan nilai centroid ketiga sebesar tiga.

Hasil dari clustering pada lima belas data sampel dapat dilihat pada

tabel berikut.

1. Atribut nilai UN

Cluster Nama Sekolah Nilai Centroid Jumlah

Anggota

C1 1. SMA PEMBANGUNAN

2 KARANGMOJO

2. SMA

291.87 288.4744 9


114

MUHAMMADIYAH

WONOSARI

3. SMAN 1 PLAYEN

4. SMAN 1 PANGGANG

5. SMA 1 TANJUNGSARI

6. SMA 1 SEMANU

7. SMA DOMINIKUS

WONOSARI

8. MAN WONOSARI

9. SMA

MUHAMMADIYAH

PAKEM

289.46

311.9

316.17

303.49

295.04

244.57

300.01

243.76

C2

1. SMAN 2 PLAYEN

2. SMAN 1 RONGKOP

3. SMAN 1 PATUK

4. SMA 1 SEMIN

5. SMAN 1

KARANGMOJO

363.74

359.62

338.68

352.31

322.97

347.464 5

C3 1. SMAN 2 WONOSARI 422.32 422.32 1

2. Atribut Nilai IIUN

C1

1. SMAN 2 WONOSARI

2. SMAN 2 PLAYEN

3. SMAN 1

KARANGMOJO

4. SMAN 1 PATUK

5. SMA

MUHAMMADIYAH

WONOSARI

6. SMA 1 SEMIN


8. SMA PEMBANGUNAN

2 KARANGMOJO

80.77

80.61

79.33

80.2

78.6

79.40375 8


115

79.82

78.57

77.33

C2

1. SMAN 1 PLAYEN

2. SMAN 1 PANGGANG

3. SMA 1 SEMANU

4. MAN WONOSARI

84.31

82.69

83.92

82.64

83.39 4

C3

1. SMAN 1 RONGKOP

2. SMA DOMINIKUS

WONOSARI

3. SMA

MUHAMMADIYAH

PAKEM

75.43

72.4

74

73.94333 3

3. Atribut Nilai Akreditasi

C1

1. SMAN 2 WONOSARI

2. SMAN 2 PLAYEN

3. SMAN 1

KARANGMOJO

4. SMA PEMBANGUNAN

2 KARANGMOJO

5. SMAN 1 RONGKOP

6. SMAN 1 PATUK

7. SMA

MUHAMMADIYAH

WONOSARI

8. SMAN 1 PLAYEN

9. SMAN 1 PANGGANG

10. SMA 1 SEMIN


12. SMA 1 SEMANU

13. SMA DOMINIKUS

WONOSARI

14. MAN WONOSARI

A

A

A

A

A

A

A

A

A

A

A

1 14


116

A

A

A

C2 1. SMA

MUHAMMADIYAH

PAKEM

B 2 1

C3 - - 3 -

2. Pendeteksian menggunakan algoritma MixCBLOF

Setelah cluster dari setiap atribut sudah ditemukan, maka ada

beberapa langkah yang harus dilakukan dalam pendeteksian outlier

sebagai berikut :

a. Penentuan Klaster Besar (LC) dan Klaster Kecil (SC)

Nilai parameter b, Alfa, dan Beta yang diberikan oleh user akan

diproses pada bagian ini. Dalam penghitungan manual ini diberikan

nilai b sebesar dua, Alfa sebesar 70%, dan Beta sebesar 3. Ketiga

parameter tersebut dapat digunakan karena memenuhi salah satu

rumus yang dapat dilihat rumus 2.1 dan rumus 2.2.

Klaster besar terdiri dari klaster pertama dan klaster kedua,

sedangkan klaster kecil terdiri dari klaster ketiga.

b. Pencarian derajat outlier per Atribut

Pada pencarian derajat outlier per atribut ini menggunakan metode

NCBLOF untuk data berupa numerical, sedangkan metode CBLOF

untuk data berupa kategorikal. Untuk rumus dari NCBLOF dapat

dilihat pada rumus 2.3, sedangkan untuk rumus dari CBLOF dapat

dilihat pada rumus 2.4.

Hasil dari penghitungan pencarian derajat outlier per atribut dapat

dilihat pada tabel berikut :


117

Nama Sekolah UN IIUN Akre

SMAN 2 WONOSARI 5 5.540714 14

SMAN 2 PLAYEN 4.089211 6.275648 14

SMAN 1 KARANGMOJO 2.717237 102.6441 14

SMA PEMBANGUNAN 2

KARNGMOJO

52.19637 3.650392 14

SMAN 1 RONGKOP 2.475156 10.99297 14

SMAN 1 PATUK 7.576958 9.507064 14

SMA MUHAMMADIYAH

WONOSARI

179.8275 9.418351 14

SMAN 1 PLAYEN 7.565996 3.152174 14

SMAN 1 PANGGANG 6.3995 4.142857 14

SMA 1 SEMIN 13.73421 18.18619 14

SMA 1 TANJUNGSARI 11.80359 9.07946 14

SMA 1 SEMANU 26.99494 5.471698 14

SMA DOMINIKUS

WONOSARI

4.036907 6.237135 14

MAN WONOSARI 15.36444 3.866667 14

SMA MUHAMMADIYAH

PAKEM

3.963779 8.083892 1

c. Normalisasi

Tahap normalisasi ini menggunakan metode Min-max. Rumus dari

metode min-max. Hasil normalisasi dari derajat outlier per atribut

dapat dilihat pada tabel berikut.

Nama Sekolah UN IIUN Akre

SMAN 2 WONOSARI 1.025777873 1.04801476 3

SMAN 2 PLAYEN 1.015492881 1.06278851 3


118

SMAN 1 KARANGMOJO 1 3 3

SMA PEMBANGUNAN 2

KARNGMOJO

1.55873815 1.01001525 3

SMAN 1 RONGKOP 1.031143527 1.15761688

SMAN 1 PATUK 1.054877913 1.1277469 3

SMA MUHAMMADIYAH

WONOSARI

3 1.12596358 3

SMAN 1 PLAYEN 1.054754126 1 3

SMAN 1 PANGGANG 1.041581589 1.01991485 3

SMA 1 SEMIN 1.124408103 1.30221582 3

SMA 1 TANJUNGSARI 1.102606738 1.11915114 3

SMA 1 SEMANU 1.274153556 1.0466274 3

SMA DOMINIKUS

WONOSARI

1.014902247 1.06201432 3

MAN WONOSARI 1.142817235 1.01436283 3

SMA MUHAMMADIYAH

PAKEM

1.014076452 1.0991381 1

d. Penentuan bobot Entropy

Penentuan bobot menggunakan metode Entropy dengan rumus

yang dapat dilihat pada rumus 2.6. Hasil bobot dengan menggunakan

metode Entropy dapat dilihat pada tabel berikut.

W1 0.09316712

W2 0.08667666

W3 0.82015622


119

e. Pencarian derajat Outlier Final

Proses penghitungan derajat outlier final menggunakan rumus yang

dapat dilihat pada rumus 2.7. Hasil akhir derajat outlier final dapat

dilihat pada tabel berikut.

Nama Sekolah Derajat OF

SMAN 2 WONOSARI 2.4780

SMAN 2 PLAYEN 2.4787

SMAN 1 KARANGMOJO 2.7081

SMA PEMBANGUNAN 2

KARNGMOJO

2.5683

SMAN 1 RONGKOP 2.5007

SMAN 1 PATUK 2.5004

SMA MUHAMMADIYAH

WONOSARI

2.7557

SMAN 1 PLAYEN 2.4744

SMAN 1 PANGGANG 2.4757

SMA 1 SEMIN 2.5468

SMA 1 TANJUNGSARI 2.5090

SMA 1 SEMANU 2.5283

SMA DOMINIKUS

WONOSARI

2.4784

MAN WONOSARI 2.4960

SMA MUHAMMADIYAH

PAKEM

1.0095

Berdasarkan hasil perhitungan di atas, dapat dilihat setiap sekolah

sudah mempunyai derajat outlier masing-masing, sehingga untuk

penentuan jumlah sekolah yang teridentifikasi sebagai outlier memiliki

jumlah sesuai keinginan user berdasar nilai derajat outlier terendah.


PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER … · 5. Bapak Alb. Agung Hadhiatma, M.T. selaku...

Documents

Transcript of PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER … · 5. Bapak Alb. Agung Hadhiatma, M.T. selaku...