Proposal Ka

64
UNIVERSITAS INDONESIA PEMANFAATAN TEKNIK DATA MINING CLASSIFICATION UNTUK POLA PENGISIAN JABATAN STRUKTURAL: STUDI KASUS PEMERINTAH KOTA BOGOR PROPOSAL KARYA AKHIR TOSAN WIAR RAMDHANI 1206194985 PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS INDONESIA 2014

description

Proposal Ka UI

Transcript of Proposal Ka

Page 1: Proposal Ka

UNIVERSITAS INDONESIA

PEMANFAATAN TEKNIK DATA MINING CLASSIFICATION

UNTUK POLA PENGISIAN JABATAN STRUKTURAL:

STUDI KASUS PEMERINTAH KOTA BOGOR

PROPOSAL

KARYA AKHIR

TOSAN WIAR RAMDHANI

1206194985

PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER

UNIVERSITAS INDONESIA

2014

Page 2: Proposal Ka

i

Universitas Indonesia

ABSTRAK

Pemerintah Kota Bogor merupakan salah satu bagian dari Pemerintah

Provinsi Jawa Barat yang memiliki jumlah pegawai 9111 orang. Pengelolaan

kepegawaian dilakukan oleh Badan Kepegawaian Pendidikan dan Pelatihan Kota

Bogor (BKPP). BKPP membentuk tim Badan pertimbangan Jabatan dan

Kepangkatan (Baperjakat) dalam tugas pengangkatan, pemindahan dan

pemberhentian PNS dalam dan dari jabatan srtuktural eselon II ke bawah.

Masalah yang dihadapi saat ini adalah Baperjakat mengalamai kesulitan dalam

menyusun calon pejabat struktural yang selama ini dilakukan secara manual

meskipun sudah memiliki aplikasi SIMPEG sebagai aplikasi pengelolaan

kepegawaian.

Penelitian ini berusaha mengidentifikasi pola pengisian jabatan struktural

di lingkungan Pemerintah Kota Bogor dari data jabatan struktural tahun 2009

hingga 2013 dengan sumber basis data SIMPEG. Metode yang digunakan untuk

mengidentifikasi pola jabatan struktural adalah classification yang hasilnya akan

dimanfaatkan untuk memberikan usulan pengisian jabatan struktural secara

otomatis.

Hasil yang diharapakan dari penelitian ini adalah mampu mengidentifikasi

pola pengisian jabatan struktural di lingkungan Pemerintah kota Bogor

berdasarkan atribut-atribut kepegawaian yang bersumber dari basis data SIMPEG.

Pola yang dihasilkan akan menjadi dasar dalam menyusun kemapuan kecerdasan

buatan dalam SIMPEG, sehingga nantinya mampu menjadi sistem pendukung

keputusan dalam bentuk memberikan usulan pengisian jabatan struktural secara

otomatis.

Page 3: Proposal Ka

ii

Universitas Indonesia

DAFTAR ISI

ABSTRAK ..................................................................................................................... i

DAFTAR ISI ................................................................................................................. ii

DAFTAR TABEL ..........................................................................................................iv

DAFTAR GAMBAR ...................................................................................................... v

BAB 1 ............................................................................................................................ 1

PENDAHULUAN .......................................................................................................... 1

1.1 Latar Belakang................................................................................................. 1

1.2 Perumusan Masalah ......................................................................................... 2

1.3 Tujuan Penelitian ............................................................................................. 5

1.4 Manfaat Penelitian ........................................................................................... 5

1.5 Ruang Lingkup Penelitian ................................................................................ 5

BAB 2 ............................................................................................................................ 6

LANDASAN TEORI ...................................................................................................... 6

2.1 Data mining ..................................................................................................... 6

2.1.1 Tahapan Dalam Knowledge Discovery ..................................................... 7

2.1.2 Teknik Dasar Dalam Data mining ............................................................ 7

2.2 Association Rule Mining .................................................................................. 8

2.3 Classification ................................................................................................... 9

2.4 Cluster Analysis ............................................................................................. 12

2.4.1 Struktur Data clustering ......................................................................... 14

2.4.2 Jenis Data Clustering ............................................................................. 15

2.4.3 Pendekatan Clustering ............................................................................ 15

2.5 Pengangkatan Pegawai Negeri Sipil Dalam Jabatan Struktural ....................... 16

2.6 Penelitian Terdahulu ...................................................................................... 17

2.6.1 Data Mining Classifcation Technique for Talent Management using SVM

(S.Yashoda, P.S.Prakash, 2012) ............................................................................ 17

2.6.2 The Decision Tree Classifcation And Its Application Research In

Personnel Management (Peng Ye, 2011) .............................................................. 20

2.6.3 Data mining Classification Techniques For Human Talent Forecasting

(Hamidah Jantan, Abdul Razak Hamdan,Zulaiha Ali Othman, 2011) ..................... 23

2.6.4 Penerapan Data mining Pada Pemberian Biaya Sponsorship Untuk

Menemukan Pola Yang Efektif (Achmad Junanto, 2010) ....................................... 24

2.6.5 Penerapan Data mining Di Badan Metereologi Dan Geofisika (BMG)

Untuk Memprediksi Cuaca Di Jakarta (Iqbal, 2007) ............................................... 25

Page 4: Proposal Ka

iii

Universitas Indonesia

2.6.6 Implementasi Bussiness Intelligence Untuk Pengenalan Pola Bisnis Di

Daerah Jakarta Selatan (Arthur Salomo Hamonangan Gultom, 2009). ................... 26

2.6.7 Pembandingan Tingkat Akurasi Dua Model Data mining Yang

Dihasilkan Oleh Decision Tree Dan Naïve Bayes Studi Kasus: Suatu Perusahaan

Manufaktur Dan Penjualan Sepeda (Afif Farisi, 2007) ........................................... 27

2.6.8 Analisis Model Komputasi Berbasis Artificial Neural Network Untuk

Forecasting Perekonomian Indonesia (Bagus Priambodo,2009) ............................. 30

2.6.9 Predictive Modelling Dalam Data mining Perbandingan Macroeconomic

Forecasting Menggunakan Vector Auto Regression Dan General-To-Specific

Modelling (Siswantoro ,2008) ................................................................................ 32

2.6.10 Aplikasi Data Mining Di Bidang Earth Science Studi Kasus El Nino dan

La Nina (Ramdhani Mahardika ,2011) ................................................................... 35

2.7 Theoretical Framework.................................................................................. 43

BAB 3 .......................................................................................................................... 45

METODOLOGI PENELITIAN..................................................................................... 45

3.1 Tahapan Penelitaian ....................................................................................... 45

3.2 Metode Pengumpulan Data ............................................................................ 47

3.3 Metode Analisis Data ..................................................................................... 48

BAB 4 .......................................................................................................................... 51

JADWAL PENYUSUNAN KARYA AKHIR ............................................................... 51

DAFTAR PUSTAKA ................................................................................................... 54

Lampiran 1: Lampiran Transkrip Wawancara ................................................................ 56

Page 5: Proposal Ka

iv

Universitas Indonesia

DAFTAR TABEL

Tabel 2.1 Jenjang pangkat golongan untuk setiap tingkat eselon................... 16 Tabel 2.2 Atribut dengan tipe data continous yang digunakan ...................... 18 Tabel 2.3 Atribut dan variabel yang digunakan ............................................. 23 Tabel 2.4 Akurasi dari model dengan seluruh atribut .................................... 24 Tabel 2.5 Tabel Presentase Kebenaran dari 3 Data mining Tools .................. 26 Tabel 2.6 Faktor faktor yang mempengaruhi pola bisnis di Jakara Selatan..... 27 Tabel 2.7 Atribut yang digunakan pada data pelanggan dan penjualan .......... 28 Tabel 2.8 Arsitektur ANN untuk peramalan multivariate dan univariate ....... 31 Tabel 2.9 Perbandingan model artificial neural network ............................... 32 Tabel 2.10 Hasil Ringkasan analisis predictive modeling ............................. 35 Tabel 2.11 Perbandingan teori dan penelitian sebelumnya ............................. 37 Tabel 3.1 Data yang tersedia ......................................................................... 47 Tabel 3.2 Tabel Perbandingan Data mining Tools ......................................... 49 Tabel 4.1 Jadwal Penyusunan Karya Akhir ................................................... 51

Page 6: Proposal Ka

v

Universitas Indonesia

DAFTAR GAMBAR

Gambar 1.1 Diagram tulang ikan permasalahan mutasi jabatan struktural ..... 3 Gambar 2.1 Representasi model classification dengan beberapa metode ...... 10 Gambar 2.2 Metode data mining untuk pengelolaan sumber daya manusia ... 19 Gambar 2.3 Metode penelitian untuk data mining staf pengajar .................... 20 Gambar 2.4 Perbandingan akurasi decision tree dengan naïve bayes ............. 29 Gambar 2.5 Pergerakan data atribut yang akan digunakan ............................. 34 Gambar 2.6 Theoretical framework penelitian. .............................................. 44 Gambar 3.1 Kerangka Kerja Penelitian ......................................................... 35 Gambar 3.2 Hasil survey kdnuggets.com tahun 2007 .................................... 38

Page 7: Proposal Ka

1

Universitas Indonesia

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Pemerintah Kota Bogor merupakan salah satu bagian dari Pemerintah

Provinsi Jawa Barat yang memiliki jumlah pegawai 9111 orang. Pemerintah Kota

Bogor terdiri dari 11 Dinas, 6 Badan, 6 Kecamatan, 6 Kantor dan 62 Kelurahan.

Sesuai dengan tugas pokok dan fungsi masing-masing unit kerja, pengelolaan

kepegawaian dilakukan oleh Badan Kepegawaian Pendidikan dan Pelatihan Kota

Bogor (BKPP). Secara Struktur BKPP terdiri dari 1 Sekretariat dan 3 Bidang

yang diantaranya adalah: Bidang Formasi, Pengadaan dan Kesejahteraan Pegawai,

Bidang Pendidikan dan Pelatihan, serta Bidang Mutasi dan Pengembangan karir.

Bidang Mutasi dan Pengembangan karir terdiri dari dua sub bidang yaitu

Sub Bidang Mutasi Pegawai dan Sub Bidang Pengembangan Karir. Secara

Khusus Sub Bidang Pengembangan Karir memiliki tugas pokok dan fungsi

mengelola pengembangan karir pegawai, termasuk di dalamnya tugas belajar, izin

belajar, ujian dinas serta mutasi jabatan struktural.

Dalam hal mutasi jabatan struktural, Sub Bidang Pengembangan Karir

dibantu oleh Badan pertimbangan Jabatan dan Kepangkatan (Baperjakat). Dalam

Pasal 14, 15 dan 16 Peraturan Pemerintah Nomor 100 Tahun 2000 tentang

Pengangkatan PNS dalam Jabatan Struktural secara rinci dijelaskan tugas pokok

hingga susunan anggotanya Baperjakat. Agar pengangkatan, pemindahan dan

pemberhentian PNS dalam dan dari jabatan srtuktural eselon II ke bawah terjamin

kualitas dan objektifitasnya, dibentuklah Badan Pertimbangan Jabatan dan

Kepangkatan (Baperjakat). Baperjakat Instansi Daerah Kabupaten/Kota, yang

dibentuk dan ditetapkan oleh Pejabat Pembina Kepegawaian Daerah

Kabupaten/Kota (Bupati/Walikota).

Ketua Baperjakat Instansi Daerah Kabupaten/Kota adalah Sekretaris

Daerah Kabupaten/Kota dengan anggota para pejabat Eselon II dan Sekretaris

dijabat oleh pejabat Eselon III yang membidangi kepegawaian. Jumlah anggota

Page 8: Proposal Ka

2

Universitas Indonesia

Baperjakat untuk menjamin objektifitas dan kepastian dalam pengambilan

keputusan ditetapkan dalam jumlah ganjil. Masa keanggotaan Baperjakat paling

lama 3 tahun dan dapat diangkat kembali untuk masa kenggotaan berikutnya.

Dalam hal Ketua Baperjakat Insansi Pusat dan Daerah kosong, maka Pejabat

Pembina Kepegawaian menunjuk salah seorang anggota yang senior untuk

menjadi ketua.

Baperjakat Instansi Daerah Kabupaten.Kota bertugas memberikan

pertimbangan kepada Pejabat Pembina Kepegawaian dalam:

1. Pengangkatan, pemindahan dan pemberhentian dalam dan dari jabatan

struktural Eselon II kebawah.

2. Pemberian kenaikan pangkat bagi yang menduduki jabatan struktural,

menunjukkan prestasi kerja yang luar biasa baiknya, atau menemukan

penemuan baru yang bermanfaat bagi Negara.

3. Perpanjangan batas usia pensiun bagi PNS yang menduduki jabatan

struktural eselon I dan eselon II.

4. Pengangkatan Sekretaris Kabupaten/Kota.

Dalam mendukung pengelolaan kepegawaian di lingkungan Pemerintah

Kota Bogor, BKPP mengelola Sistem Inormasi Manjemen Kepegawaian

(SIMPEG) yang menyimpan data-data kepegawaian Pemerintah Kota Bogor.

SIMPEG mulai dikembangkan pada tahun 2009. SIMPEG merupakan aplikasi

berbasis web yang dikembangkan menggunakan bahasa pemrograman PHP dan

datanya disimpan dengan menggunakan basis data MySQL. SIMPEG secara

internal digunakan oleh BKPP untuk mengelola data-data kepegawaian,

sedangkan secara eksternal dapat digunakan oleh seluruh Pegawai Negeri Sipil

Pemerinth Kota Bogor untuk mengelola data masing-masing pegawai.

1.2 Perumusan Masalah

Berdasarkan hasil wawancara dengan Sekretaris Baperjakat yang juga

menjabat sebagai Kepala Bidang Mutasi dan Pengembangan Karir, diketahui

terdapat permasalahan dalam penyusunan usulan draft mutasi jabatan struktural

Page 9: Proposal Ka

3

Universitas Indonesia

yaitu: tim Baperjakat mengalamai kesulitan dalam menyusun calon pejabat

struktural yang selama ini dilakukan secara manual.

Sistem yang ada (SIMPEG) belum dapat memberikan usulan secara

otomatis apabila terjadi kekosongan jabatan struktural akibat pejabat pensiun

maupun rotasi jabatan. Dalam hal ini tim Baperjakat melakukan penelusuran data

melalui SIMPEG secara manual terhadap calon-calon yang diusulkan mengisi

jabatan struktural.

Masalah lain yang dihadapi adalah data yang terdapat pada aplikasi

SIMPEG sangat terbatas dimana data yang tersimpan pada basis data SIMPEG

baru dimulai dari tahun 2009, sehingga dari sisi kelengkapan data tentunya akan

mengurangi objektifitas penilaian Baperjakat terhadap calon pejabat struktural

yang diusulkan.

Di sisi lain Peraturan Pemerintah tidak secara spesifik mengatur

bagaimana teknis pengisian jabatan struktural yang baik dan benar. Adapun

beberapa peraturan yang mengatur pengisian jabatan struktural sifatnya umum

seperti pangkat minimum yang harus dipenuhi untuk mengisi suatu jabatan

struktural bukan hal hal yang lebih spesifik seperti tingkat pendidikan,

pengalaman bekerja pada suatu unit kerja, maupun pendidikan dan pelatihan yang

pernah ditempuh seorang pegawai.Secara umum permasalahan yang ada dapat

digambarkan dalam diagram tulang ikan sebagai berikut:

Gambar 1.1 Diagram tulang ikan permasalahan mutasi jabatan struktural

Page 10: Proposal Ka

4

Universitas Indonesia

Dari Gambar 1.1 di atas dilihat beberapa faktor utama yang menyebabkan

kesulitan dalam penyusunan draft mutasi jabatan struktural.

1. Berdasarkan hasil wawancara dengan sekretaris Baperjakat sebagai nara

sumber (Lampiran 1, Jawaban 2), kalimat “Selain dari pada itu, akan

sangat membantu tim Baperjakat jika SIMPEG mampu mengusulkan

nama-nama calon pejabat struktural jika terjadi mutasi jabatan struktural”

menujukkan adanya permasalahan dalam sistem dimana SIMPEG tidak

dapat memberikan usulan calon pejabat struktural karena memang saat ini

SIMPEG tidak dilengkapi dengan kecerdasan buatan untuk sistem

pendukung keputusan. Untuk memiliki kemampuan tersebut, maka pola

pengisian jabatan struktural harus diketahui terlebih dahulu.

2. Pada pernyataan lainnya dalam wawancara dengan nara sumber

(Lampiran 1, Jawaban 1), kalimat “Tim Baperjakat merasa kesulitan

dalam menulusuri data calon pejabat struktural yang diusulkan” dan

kalimat “Dan kita tetap harus menulusuri data tersebut secara manual satu

per satu dengan menggunakan aplikasi SIMPEG” menunjukkan bahwa

salah satu akar permasalahan dalam hal data adalah penulusuran data calon

pejabat struktural masih dilakukan secara manual satu per satu.

3. Pada pernyataan lainnya dalam wawancara dengan nara sumber (Lampiran

1, Jawaban 3), kalimat “Peraturan Pemerintah No 13 tahun 2002 tidak

secara spesifik mengatur mana komponen kepegawaian yang menjadi

prioritas dalam mengisi suatu jabatan struktural” menunjukkan bahwa dari

sisi regulasi tim Baperjakat merasa kesulitan dalam mencari panduan yang

spesifik yang dapat dijadikan acuan untuk menentukan pengisian jabatan

struktural.

Berdasarkan akar permasalahan sistem yang ada maka dapat ditarik suatu

pertanyaan riset untuk penelitian ini yaitu:

“Bagaimana mengidentifikasi pola pengisian jabatan struktural dengan

mengekstraksi data-data kepegawaian yang ada pada SIMPEG sehingga mampu

memberikan usulan calon pejabat struktural?"

Page 11: Proposal Ka

5

Universitas Indonesia

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mempelajari pola pengisian jabatan

struktural yang ada (2009-2013) dari basis data SIMPEG dengan menggunakan

teknik data mining classification sehingga ditemukan suatu acuan yang dapat

digunakan SIMPEG untuk memberikan usulan calon pejabat struktural.

1.4 Manfaat Penelitian

Hasil dari penelitian ini diharapkan akan memudahkan Tim Baperjakat

dalam menyusun draft mutasi jabatan struktural. Dengan diketahuinya pola

pengisian jabatan struktural maka SIMPEG dapat memberikan usulan nama calon

pejabat struktural, sehingga tim Baperjakat tidak perlu melakukan penulusuran

data secara manual satu per satu. Hal ini juga tentunya dapat melengkapi dan

memperjelas PP No 13 Tahun 2002 terkait pengisian jabatan struktural di

lingkungan pemerintah.

Penelitian ini juga dapat dijadikan salah satu sumber rujukan bagi

penelitian lainnya khususnya dalam hal penyusunan draft mutasi jabatan

struktural di lingkungan pemerintah.

1.5 Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah melakukan penambangan data (Data

mining) dari data-data kepegawaian di lingkungan Pemerintah Kota Bogor dari

basis data SIMPEG dari tahun 2009 hingga 2014.

Metode yang digunakan dalam penelitian ini untuk melakukan

penambangan data adalah teknik data mining classification untuk menemukan

pola pengisian jabatan struktural pada Pemerintah Kota Bogor.

Penelitian ini tidak akan membahas komponen lain di luar sistem seperti

keterbatasan data mutasi jabatan yang ada (2009-2014). Penelitian ini juga tidak

akan membahas solusi bagi permasalahan terkait regulasi mengingat hal tersebut

merupakan kewenangan Pemerintah Pusat.

Page 12: Proposal Ka

6

Universitas Indonesia

BAB 2

LANDASAN TEORI

2.1 Data mining

Untuk mempelajari pola pengisian jabatan struktural dari basis data

SIMPEG dapat digunakan teknik data mining. Data mining adalah suatu proses

yan menggunakan teknik statistik, matematika, kecerdasan buatan dan machine-

learning untuk mengekstraksi dan mengindentifikasi informasi yang bermanfaat

dan pengetahuan yang terkait dari berbagai basis data besar (Turban , 2005).

Dalam buku yang berjudul Decision Support System And Intelligent Systems,

Turban, Aronson, dan Liang menjelaskan beberapa karakteristik utama dan

sasaran data mining diantaranya sebagai berikut:

Data sering dikubur pada sebuah basis data yang sangat besar, yang kadang-

kadang berisi data dari beberapa tahun. Dalam banyak kasus, data dihapus

dan dikonsolidasi di dalam sebuah data warehouse.

Lingkungan data mining biasanya adalah arsitektur client/server atau

arsitektir berbasis web.

Peranti-peranti baru yang canggih, meliputi visualisasi yang canggih

membantu memindahkan informasi atau mengubur informasi dalam berkas-

berkas perusahaan atau arsip catatan publik.

Pemilik data biasanya adalah end user, diberdayakan oleh data drill dan alat

query lainnya untuk mengajukan pertanyaan khusus dan mendapatkan

jawaban secara tepat dengan sedikit atau tanpa keterampilan pemrograman.

Pemaksaan sering melibatkan penemuan hasil yang tidak diharapkan dan

mengharuskan end user untuk berpikir kreatif.

Peranti data mining sudah digabung dengan spreadsheet dan peranti

pengembangan perangkat lunak lainnya, sehingga data yang sudah di-mining

dapat dinalaisis dan diproses dengan cepat dan mudah.

Karena ada sejumlah besar data dan usaha pencarian dalam skala besar, maka

pemrosesan parallel untuk data mining kadang-kadang perlu digunakan.

Page 13: Proposal Ka

7

Universitas Indonesia

Menurut Han dan Kamber dalam bukunya yang berjudul Data mining

Conpets and Techniques, data mining didefinisikan sebagai ekstraksi dari

pengetahuan yang menarik (aturan, pola, kebiasaan, batasan) yang bersumber dari

basis data dalam skala besar. Berdasarkan dua definisi di atas dapat disimpulkan

bahwa data mining adalah suatu cara yang dapat digunakan untuk mengekstraksi

pengetahuan dengan beberapa teknik seperti statistik, matematika, kecerdasan

buatan dan machine-learning yang bersumber dari basis data yang berskala besar.

2.1.1 Tahapan Dalam Knowledge Discovery

Pada umumnya data mining sering disinonimkan dengan istilah

Knowledge Discovery from Data (KDD), meskipun demikian secara khusus data

mining hanyalah suatu langkah penting dalam urutan proses knowledge discovery.

Proses knowledge discovery terdiri atas beberapa iterasi berurut seperti yang dapat

dijelaskan sebagai berikut (Han dan Kamber, 2006):

1. Data Cleaning: bertujuan menghapus noise dan data yang tidak

konsisten.

2. Data Integration: tahap dimana beberapa sumber data dikombinasikan.

3. Data Selection: tahap pemilihan data yang relevan dari basis data yang

akan digunakan untuk proses analisis.

4. Data Transformation: Data di transformasi dan dikonsoldisai dalam

bentuk yang sesuai untuk kebutuhan data mining misalnya dengan cara

menyusun summary atau agregat.

5. Data mining: proses penting dimana metode intelijen diterapkan untuk

dapat mengekstrak pola data.

6. Pattern Evaluation: untuk mengidentifikasi pola yang

merepresentasikan basis pengetahuan yang ditemukan.

7. Knowledge Presentation: tahap dimana teknik-teknik visualisasi dan

representasi pengetahuan digunakan untuk menghasilkan pengetahuan

yang dibutuhkan oleh pengguna.

2.1.2 Teknik Dasar Dalam Data mining

Berdasarkan kegunaannya data mining memiliki beberapa teknik dasar

yang sering digunakan seperti association yang dapat digunakan untuk analisis

Page 14: Proposal Ka

8

Universitas Indonesia

market-basket , classification and prediction yang dapat digunakan untuk quality

control , serta cluster analysis yang dapat digunakan untuk mendesain segmentasi

pasar (Han dan Kamber, 2006).

2.2 Association Rule Mining

Association Rule Mining adalah suatu usaha untuk menemukan pola

berulang (frequent pattern), keterkaitan (association), korelasi atau struktur

sebab-akibat dari beberapa kumpulan data atau objek pada transaksi dalam basis

data, basis data relasional, dan sumber repositori informasi lainnya (Han dan

Kamber, 2006). Tujuan utama dari Association Rule Mining adalah menemukan

suatu keteraturan dalam data misalanya seperti produk yang sering dibeli secara

bersamaan dalam sebuah transaksi belanja, produk lain yang akan dibeli jika kita

membeli sebuah komputer, tipe DNA yang sensitif terhadap suatu obat baru, dan

otomasi klasifikasi dokumen web (Han dan Kamber, 2006). Dalam hal mutasi

jabatan, teknik ini dapat digunakan untuk menemukan keterkaitan beberapa

property dalam basis data kepegawaian seperti golongan pegawai, masa kerja,

pengalaman dalam unit kerja, tingkat pendidikan yang sekiranya mempengaruhi

penilaian Baperjakat dalam mengisi suatu jabataban struktural.

Data transaksi belanja seringkali digunakan sebagai contoh untuk

menerangkan Association Rule Mining misalanya sebagai berikut:

Diperoleh bentuk umum A→B [support,confidence].

Pembelian(x,“pembalut”) → Pembelian(x,“minuman ringan”)[0.5%,60%]

Dari dua poin di atas dapat dijelaskan bahwa nilai support dari Association

Rule sebesar 0.5% berarti 0.5% dari seluruh transaksi bahwa pembalut dan

minuman ringan dibeli secara bersamaan. Nilai confident sebesar 60%

menunjukkan bahwa 60% dari seluruh pelanggan yang membeli pembalut, juga

membeli minuman ringan. Rule yang memenuhi nilai minimum support dan

confidence threshold disebut dengan strong (Han dan Kamber, 2006). Secara

umum nilai confidence dan support dapat ditentukan dengan persamaan berikut:

Page 15: Proposal Ka

9

Universitas Indonesia

Dengan A dan B adalah sebuah itemset dari transaksi T dan sekumpulan

item I yang terdiri dari {I1,I2, …,Im}, dimana A I , B I , dan A∩B=φ. Notasi

P (A B) adalah nilai kemungkinan dari munculnya transaksi A dan B secara

bersamaan.

Beberapa istilah yang sering digunakan dalam Association Rule Mining

diantaranya adalah itemset, yaitu sekelompok item dalam sebuah transaksi dalam

basis data. Itemset yang berisi sejumlah k item disebut k-itemset, misalnya

{minuman ringan, pembalut} maka disebut 2-itemset. Jika sebuah itemset

memenuhi nilai minimum support yang ditentukan maka itemset tersebut

merupakan frequent itemset. Sekumpulan frequent k-itemsets biasanya dinotasikan

sebagai Lk (Han dan Kamber, 2006).

Secara umum Association Rule Mining memiliki dua tahapan proses yaitu:

1. Cari semua frequent itemsets: secara definisi setiap itemset setidaknya

akan muncul sebanayak yang didefinisikan oleh jumlah minimum

support atau biasa disingkat min_sup.

2. Merumuskan Association Rule dari frequent itemsets: secara definisi

aturan ini harus memenuhi minimum support dan minimum confidence.

Tahap kedua tentunya lebih mudah dibanding tahap pertama, seluruh

performa dari Association Rule Mining sangat ditentukan olejh tahap pertama

yaitu mencari semua frequent itemsets (Han dan Kamber, 2006).

2.3 Classification

Classification adalah proses menemukan model atau fungsi yang

menjelaskan konsep atau kelas data, dengan tujuan agar dapat memanfaatkan

Page 16: Proposal Ka

10

Universitas Indonesia

model yang didapat untuk memprediksi kelas dari sebuah objek yang belum

diketahui sebelumnya (Han dan Kamber, 2006).

Serupa dengan asssociation rule, classification memiliki dua tahapan

utama yang terdiri dari:

1. Mengestimasi akurasi prediktif dari model yang dibuat.

2. Jika nilai akurasi yang didapatkan dapat diterima, model dapat

digunakan untuk memprediksi kelas dari objek yang belum diketahui

sebelumnya.

Terdapat beberapa metode yang dapat digunakan untuk membangun model

classification seperti fungsi IF-THEN sederhana, decision tree atau neural

network seperti yang digambarkan pada gambar berikut:

Gambar 2.1 Representasi model classification dengan beberapa metode.

Berdasarkan Gambar 2.1 dapat dilihat bahwa model classification yang

sama berdasarkan umur dan penghasilan dapat dibentuk dengan menggunakan

beberapa metode seperti fungsi IF-THEN (a), decision tree (b), dan neural

network (c) untuk menentukan prediksi, apakah suatu objek termasuk ke dalam

kelas A,B atau C (Han dan Kamber, 2006).

Page 17: Proposal Ka

11

Universitas Indonesia

Fungsi IF-THEN dapat digunakan untuk menyusun rule-based classifier

dalam classification . Bentuk umum dari fungsi IF-THEN cukup sederhana yaitu

IF condition Then conclusion. Contoh sederhana penggunaan fungsi IF-THEN

misalnya sebagai berikut: Rule R1: IF age = youth AND student = yes THEN

buys_computer = yes. Bagian IF dari R1 di atas disebut juga sebagai rule

antecedent atau precondition. Bagian THEN-nya disebut juga rule consequent.

Dalam rule antecendet kondisi dapat berisi satu atau lebih attributet test (dalam

hal ini sebagai contoh: age = youth AND student = yes) yang secara logika

matematika terhubung dengan fungsi logika AND. Rule consequent dapat berisi

prediksi kelas (dalam hal ini kita memprediksi apakah pelanggan akan membeli

sebuah komputer). Jika suatu kondisi dalam rule antecendent bernilai TRUE

dalam suatu baris data transaksi, maka data transaksi tersbut memenuhi rule

antecendent dan Rule-nya berlaku untuk data tersebut (Han dan Kamber, 2006).

Decision tree adalah diagram pohon yang bentuknya mirip dengan dengan

diagram flow chart yang memiliki tiga bagian utama yaitu internal node berupa

uji dari sebuah atribut, branch yang merepresentasikan hasil uji (setiap baris dari

branch bernilai sama untuk atribut yang telah diuji), dan leaf node

merepresentasikan label dari kelas atau distribusi dari label kelas. Untuk

mengetahui kelas dari sampel yang tidak diketahui , nilai atribut dari sampel

tersebut diujikan terhadap decision tree yang disusun. Decision tree dapat dengan

mudah dikonversi menjadi classification rules (Han dan Kamber, 2006).

Neural network dapat dimanfaatkan untuk menyusun classification

dengan menggunakan algoritma pembelajaran back propagation. Sebuah neural

network adalah sekelompok input atau output yang saling berhubungan dimana

setiap hubungan memiliki bobot yang saling terkait. Pada fase pembelajaran,

neural network belajar dengan cara menyesuaikan bobot sehingga memiliki

kemampuan memprediksi kelas dari input baris data dengan benar. Proses

pembelajaran neural network juga sering disebut connectionist learning

dikarenakan adanya beberapa hubungan diantara beberapa unit data rules (Han

dan Kamber, 2006).

Page 18: Proposal Ka

12

Universitas Indonesia

2.4 Cluster Analysis

Proses pengelompokkan sekumpulan objek dalam beberapa kelas yang

memiliki kemiripan disebut juga clustering. Sebuah cluster adalah kumpulan

beberapa objek data yang memiliki kesamaan satu sama lain dalam cluster yang

sama dan berbeda dengan objek lain dalam cluster yang lain (Han dan Kamber,

2006).

Dengan otomasi clustering kita dapat mengidentifikasi kepadatan dan

sebaran dari sebuah area yang terdiri atas beberapa objek, sehingga kita dapat

menemukan pola sebaran dan korelasi yang menarik diantara atribut data. Cluster

analysis sudah banyak digunakan dalam beragam aplikasi seperti riset pasar,

pengenalan pola, analisis data, dan pemrosesan citra digital.

Clustering sering juga disebut sebagai segmentasi data dalam berbagai

aplikasi karena clustering dapat membagi sejumlah besar data ke dalam beberapa

kelompok berdasarkan kesamaannya. Berikut ini adalah beberapa tantangan yang

dihadapi pada penggunaan clustering dalam data mining (Han dan Kamber,

2006):

Skalabilitas: banyak algoritma clustering yang berfungsi dengan baik pada

sekelompok objek dengan jumlah data ratusan atau bahkan kurang.

Bagaimanapun juga, basis data yang besar dapat berisi jutaan objek.

Melakukan clustering terhadap data dengan jumlah yang besar dapat

menimbulkan hasil yang bias. Dalam hal ini algoritma clustering berskala

sangat diperlukan.

Kemampuan mengelola beberapa tipe atribut yang berbeda: banyak

algoritma yang didesain untuk melakukan clustering pada data interval

(numerik). Dalam kondisi lainnya proses clustering dengan tipe data yang

berbeda akan sangat diperlukan seperti tipe data biner, kategori (nominal),

ordinal, atau gabungan dari beberapa tipe data yang ada.

Penemuan beberapa cluster yang tidak beraturan: Pada umumnya

algoritma clustering menyusun cluster berdasarkan pengukuran jarak

euclidean dan manhattan. Dengan menggunakan pengukuran tersebut

cluster cenderung berbentuk bulat dengan ukuran dan jarak yang relatif

Page 19: Proposal Ka

13

Universitas Indonesia

sama. Kenyataannya sebuah cluster bisa memiliki banyak bentuk lain.

Pengembangan algoritma yang dapat mendeteksi bentuk lain dalam hal ini

sangat diperlukan.

Kebutuhan minimal pengetahuan dasar untuk mendefinisikan parameter

input: banyak algoritma clustering yang meminta pengguna memasukkan

input parameter tertentu dalam cluster analysis. Hasil dari cluster analysis

dapat menjadi sangat sensitive terhadap input parameter. Kenyataannya

parameter seringkali sulit didefinisikan, khususnya pada sekumpulan data

yang berisi objek-objek berdimensi tinggi. Hal ini tentunya bukan saja

menjadi kendala bagi pengguna tapi menyulitkan pengaturan kualitas dari

clustering.

Kemampuan untuk mengidentifikasi noisy data: sebagian besar basis data

pada dunia nyata mengandung outlier ,data yang tidak lengkap, tidak

diketahui, dan data yang error. Beberapa algoritma clustering sensitif

terhadap data-data tersebut, sehingga dapat menyebabkan kualitas cluster

yang buruk.

Incremental clustering dan sensitifnya clustering terhadap urutan dari

input data: beberapa algoritma clustering tidak dapat mengelompokkan

data yang baru saja dimasukkan ke dalam cluster yang sudah terbentuk

sebelumnya, sehingga harus menyusun kembali proses clustering dari

awal. Hal ini dapat menyebabkan hasil clustering yang berbeda dari cluster

yang terbentuk sebelumnya, tergantung dari urutan data input yang

dimasukkan. Pengembangan algoritma Incremental clustering yang tidak

sensitif terhadap urutan input data, sangat diperlukan.

High dimensionality: Sebuah basis data atau data warehouse dapat berisi

beberapa dimensi atau beberapa atribut data. Beberapa algoritma

clustering cukup baik dalam menangani data dengan jumlah dimensi yang

sedikit (2 atau 3). Adalah suatau tantangan tersendiri menemukan cluster

dari objek data yang memiliki dimensi banyak memingat data bisa sangat

beragam.

Constraint based clustering: penerapan dalam dunia nyata bisa saja

memerlukan proses clustering dengan menggunakan beragam batasan.

Page 20: Proposal Ka

14

Universitas Indonesia

Adalah suatu tantangan tersendiri untuk menemukan sekelompok data

yang memiliki perilaku clustering yang baik yang memenuhi suatu aturan

yang ditentukan.

Kegunaan dan kemampuan interpretasi: pengguna tentunya berharap

bahwa hasil clustering dapat diinterpretasikan secara komprehensif dan

berguna tentunya. Oleh karena itu clustering harus dikaitkan dengan

interpretasi semantik dalam penerapannya. Sangat diperlukan untuk

mempelajari pengaruh dari tujuan aplikasi terhadap pemilihan fitur dan

metode yang tepat dari clustering.

2.4.1 Struktur Data clustering

Secara umum algoritma clustering biasanya beroperasi pada dua tipe data

yang sering digunakan berikut diantaranya:

Matriks data yang merepresentasikan n jumlah objek misalnya

manusia dengan beberapa variabel p seperti umur, tinggi, berat, jenis

kelamin dan lain-lain seperti yang dapat dilihat pada matriks berikut:

Matriks ketidaksamaan (dissimilarity) dengan notasi d(i,j) sebagai

pengukuran perbedaan (dissimilarity) antara objek i dengan j. Secara

umum d(i,j) adalah angka bernilai positif yang mendekati 0 ketika i

dan j menjadi sangat mirip dan nilainya menjadi besar ketika i dan j

menjadi sangat berbeda satu sama lain. Dalam hal ini berlaku

persamaan d(i,j) = d(j,i) dimana d(i,i) = 0 dengan bentuk matriks

sebagai berikut:

npx...

nfx...

n1x

...............ip

x...if

x...i1

x

...............1p

x...1f

x...11

x

0...)2,()1,(

:::

)2,3()

...ndnd

0dd(3,1

0d(2,1)

0

Page 21: Proposal Ka

15

Universitas Indonesia

2.4.2 Jenis Data Clustering

Jenis data yang umumnya digunakan pada clustering diantaranya adalah

variabel skala interval, variabel biner, variabel nominal, ordinal, dan rasio, serta

gabungan dari beberapa tipe variabel.

variabel skala interval adalah pengukuran kontinu dari suatu skala linier

seperti berat, tinggi, garis lintang, garis bujur dan temperatur cuaca. Unit

pengukuran yang digunakan dapat mempengaruhi hasil analisis clustering

misalnya tinggi dari m ke cm, berat dari kg ke pon. Untuk menghindari

keterkaitan pada pilihan unit pengukuran maka datanya harus di standarkan.

Melakukan standar pengukuran dilakukan untuk mendapatkan bobot yang sama

pada setiap variabel, hal ini akan sangat membantu pada saat pengetahuan awal

mengenai data tidak diketahui di awal.

Pada dasarnya variabel biner hanya memiliki dua nilai yaitu 1 (ada) dan 0

(tidak ada). Secara umum, terdapat dua jenis variabel biner yaitu variabel biner

simetris yang digunakan jika dua buah pernyataan memiliki nilai yang setara dan

memiliki bobot yang sama dan variabel biner asimetris jika hasil dari pernyataan

dianggap tidak penting seperti nilai positif atau negatif dari suatu uji kesehatan.

Variabel nominal adalah variabel yang bisa memiliki lebih dari dua

pernyataan misalnya warna bisa merah,kuning dan sebagainya. Variabel ordinal

adalah variabel nominal berurut yang memiliki makna dalam urutannya. Jenis

variabel ini dapat diperlakukan sama dengan variabel skala interval. Variabel

skala adalah nilai pengukuran positif pada skala non linier. Biasanya berbentuk

pangkat eksponensial seperti AeBt atau Ae-Bt

dimana A dan B adalah konstanta

bernilai positif.

2.4.3 Pendekatan Clustering

Beberapa metode clustering yang sering digunakan diantaranya adalah:

Algoritma partisi: menyusun beragam partisi lalu mengevaluasi hasilnya

dengan menggunakan beberapa kriteria.

Algoritma hirarki: menciptakan dekomposisi hirarki dari sekelompok data

atau objek dengan menggunakan beberapa kriteria.

Page 22: Proposal Ka

16

Universitas Indonesia

Density-based: pendekatan clustering berdasarkan konektifitas dan fungsi

density.

Grid-based: pendekatan clustering berdasarkan beberapa tingkat struktur

granularity.

Model-based: pendekatan clustering berdasarkan hasil hipotesis sebuah

model dari setiap cluster yang terbentuk dengan tujuan untuk mencari

model terbaik yang sesuai.

2.5 Pengangkatan Pegawai Negeri Sipil Dalam Jabatan Struktural

Peraturan Pemerintah yang mengatur pengisian jabatan struktural secara

umum tertuang dalam Peraturan Pemerintah Republik Indonesia Nomor 100

Tahun 2000 tentang pengangkatan Pegawai Negeri Sipil dalam jabatan struktural

yang kemudian diperbarui dengan Peraturan Pemerintah Republik Indonesia

Nomor 13 Tahun 2002.

Beberapa poin penting yang diperbarui dalam peraturan tersebut adalah

jenjang pangkat golongan terendah dan tertinggi untuk masing-masing tingkat

eselon seperti yang dapat dilihat pada tabel berikut:

Tabel 2.1 Jenjang pangkat golongan untuk setiap tingkat eselon

No Eselon Jenjang Pangkat, Golongan / Ruang

Terrendah Tertinggi

Pangkat Gol /

Ruang

Pangkat Gol /

Ruang

1 I a Pembina Utama IV/e Pembina Utama IV/e

2 I b Pembina Utama Madya IV/d Pembina Utama IV/e

3 II a Pembina Utama Muda IV/c Pembina Utama Madya IV/d

4 II b Pembina Tingkat I IV/b Pembina Utama Muda IV/c

5 III a Pembina IV/a Pembina Tingkat I IV/b

6 III b Penata Tingkat I III/d Pembina IV/a

7 IV a Penata III/c Penata Tingkat I III/d

8 IV b Penata Tingkat I III/b Penata III/c

9 V Penata Muda III/a Penata Tingkat I III/b

Page 23: Proposal Ka

17

Universitas Indonesia

Berdasarkan Tabel 2.1 sebelumnya, Baperjakat dapat menggunakan tabel

tersebut sebagai acuan dasar untuk menentukkan kriteria yang diperlukan untuk

mengisi jabatan struktural. Dalam hal ini pangkat dan golongan adalah suatu

variabel yang nantinya akan digunakan dalam proses data mining untuk

mengetahui pola pengisian jabatan struktural pada Pemerintah Kota Bogor.

Beberapa variabel lain yang dapat digunakan untuk menemukan pola

pengisisian jabatan struktural sebetulnya tercantum pada Pasal 6 dalam Peraturan

Pemerintah Republik Indonesia Nomor 100 Tahun 2000 dimana secara eksplisit

menyebutkan bahwa faktor senioritas dalam kepangkatan, usia, pendidikan dan

pelatihan jabatan serta pengalaman yang dimiliki merupakan beberapa hal yang

bisa menjadi bahan pertimbangan Pembina Kepegawaian Daerah dalam mengisi

suatu jabatan struktural.

Sayangnya tidak ada pembobotan atau skala prioritas terhadap faktor-

faktor tersebut untuk menilai kelayakan seorang pegawai mengisi jabatan

struktural. Oleh karena itu pemanfaatan data mining dari penelitian ini berusaha

untuk mengetahui pembobotan atau skala prioritas mana yang lebih didahulukan

diantara beberapa faktor tersebut dengan menggunakan basis data SIMPEG

sebagai sumber datanya.

2.6 Penelitian Terdahulu

Beberapa penelitian terdahulu yang pernah dilakukan terkait dengan

penggunaan data mining dapat dijelaskan sebagi berikut:

2.6.1 Data Mining Classifcation Technique for Talent Management using

SVM (S.Yashoda, P.S.Prakash, 2012)

Salah satu tantangan pada pengelolaan sumber daya manusia adalah

mengelola bakat yang ada pada sumber daya manusia dalam organisasi. Masalah

dalam mengelola potensi bakat pada sumber daya manusia di dalam organisasi

dapat diselesaikan dengan menggunakan teknik data mining classification dari

beberapa teknik classification yang sering digunakan seperti: decision tree, neural

network, support vector machine, dan algoritma nearest neigbour.

Page 24: Proposal Ka

18

Universitas Indonesia

Penelitian ini menggunakan pendekatan gabungan antara class attribute

contingency coefficient (CACC) dengan support vector machine. Data yang

digunakan dalam penelitian ini adalah UCI adult data set yang merupakan data

sensus pendapatan tahun 1994 yang dapat diunduh untuk keperluan penelitian di

bidang data mining pada alamat situs berikut

http://archive.ics.uci.edu/ml/machine-learning-databases/adult/. Dari 14 atribut

yang ada (umur, bidang pekerjaan, nilai final weight, lamanya pendidikan formal

yang pernah ditempuh, status nikah, pekerjaan, hubungan keluarga, suku, jenis

kelamin, keuntungan modal, kerugian modal, jumlah jam kerja mingguan dan

kewarganegaraan) hanya 6 atribut yang digunakan dengan tipe data continous

seperti yang ditnjukkan pada tabel berikut:

Tabel 2.2 Atribut dengan tipe data continous yang digunakan

Data dari Tabel 2.2 di atas adalah hasil dari proses diskretisasi dengan

menggunakan algoritma CACC untuk memilih atribu-atribut yang digunakanan.

Selanjutnya data ini yang akan dijadikan dasar untuk melakukan classification

dengan menggunakan algoritma SVM. Berikut ini adalah metode gabungan yang

digunakan dalam penelitian ini.

Page 25: Proposal Ka

19

Universitas Indonesia

Gambar 2.2 Metode data mining untuk pengelolaan sumber daya manusia

75% data set digunakan sebegai train set dalam algoritma classification

SVM dan sisanya digunakan untuk memvalidasi model. Dari 4 kernel yanga ada

pada algoritma SVM (linier, polinomial, sigmoid, dan basis radial), kernel

berbasis radial yang dipilih dengan beberapa alasan seperti fungsi non linier yang

dimiliki basis radial dapat menghasilkan pemetaan data dengan dimensi data yang

lebih tinggi dibanding dengan basis linier, selain itu basis radial memiliki hyper

parameter yang lebih sedikit dibandingkan dengan kernel polynomial, terlebih lagi

basis radial mmemiliki tingkat kesulitan numerik yang lebih rendah.

Seperti yang dapat dilihat pada Gambar 2.2 di atas, selain menggunakan

algoritma CACC dan SVM, penelitian ini juga menggunakan algoritma Sequential

Mining Optimization (SMO), dengan tujuan menghasilkan model klasifikasi yang

lebih optimal. Data mining tool yang digunakan dalam penelitian ini adalah

Matlab versi 7.10.

Hasil dari penelitian ini berupa suatu metode gabungan baru yang dapat

digunakan untuk melakukan klasifikasi pada data sumber daya manusia.

Sayangnya proses classification pada penelitian belum selesai dilakukan dan

Page 26: Proposal Ka

20

Universitas Indonesia

masih dalam proses pengerjaan. Model klasifikasi yang terbentuk diharapkan

dapat digunakan untuk memprediksi potensi bakat yang sesuai untuk suatu posisi

dalam organisasi.

2.6.2 The Decision Tree Classifcation And Its Application Research In

Personnel Management (Peng Ye, 2011)

Penelitian ini berusaha menerapkan algoritma decision tree classification

untuk melakukan prediksi terhadap pada suatu universitas dengan

mengidentifikasi bakat yang ada pada data pengajar pada sebuah universitas.

Beberapa atribut yang digunakan dalam teknik data mining classification

pada penelitian ini adalah tingkat pendidikan, jenis kelamin, nilai calon pegawai,

nilai dari institusi sekolah formal yang pernah diikuti, umur, pekerjaan suami atau

istri, dan gelar profesional. Secara spesifik algoritma decision tree yang

digunakan adalah algoritma C.45 yang ditulis ulang dengan menggunakan bahasa

pemrograman Visual Basic 6.0 dengan memanfaatkan Microsoft ODBC Driver

sebagai sarana koneksi data yang akan diolah. Berikut ini adalah langkah-langkah

yang digunakan dalam penelitian ini:

Gambar 2.3 Metode penelitian untuk data mining staf pengajar

Seperti yang dapat dilihat di pada Gambar 2.3 di atas, tahap awal yang

dilakukan pada penelitian ini adalah mengumpulkan data (data collection) dari

beberapa sekolah dan departemen yang berbeda. Misalnya informasi dasar

mengenai data pengajar didapat dari data bagian kepegawaian, sedangkan data

hasil penelitian ilmiah didapatkan dari kantor administrasi kependidikan.

Menggabungkan dan mengelola data dari beberapa sumber dan struktur yang

Page 27: Proposal Ka

21

Universitas Indonesia

berbeda merupakan kerumitan tersendiri dalam penelitian ini. Data yang

digunakan pada penelitian ini adalah data staf pengajar pada beberapa universitas.

Tahap selanjutnya adalah pretreatment data yang dilakukan dengan

membersihkan data dari noise data dan data yang tidak berhubungan dengan

keperluan data mining. Dalam tahap ini ditemukan beberapa data yang kosong

pada atribut latar belakang pendidikan, selain itu juga ditemukan data sama yang

berulang serta melakukan transformasi pada tipe data yang digunakan. Pada tahap

ini juga ditemukan data yang berbeda tetapi memiliki makna yang sama seperti

kata “tidak ada”, “tidak memiliki reputasi”, “tidak bergelar”, “non-partisan”, atau

bahkan ditemukan pula yang hanya diisi dengan angka 0. Hal ini tentunya perlu

diseragamkan.

Pada tahap selanjutnya yaitu persiapan data (data preparation) dilakukan

pemetaan atribut dengan melakukan stratifikasi pada beberapa atribut sebagai

berikut:

Untuk atribut jenjang pendidikan diurutkan sebagai berikut: SMP (00),

SMA (11), sekolah politeknik (01), pendidikan lebih tinggi (02), bachelor

(03), double degree (33), master (04), doctor (05), postdoctoral (06).

Untuk atribut title professional atau teknis sebagai berikut: tanpa title (0),

pemula (1), menengah (2), madya (3), dan tingkat tinggi (4).

Untuk atribut jenis kelamini sebeagi berikut: wanita (0), pria (1).

Untuk nilai dari institusi sekolah formal yang pernah diikuti sebagai

berikut: 95-100 (A), 85-95 (B), 75-85 (C), 60-75(D), 60 (E).

Untuk atribut tipe institusi pendidikan sebagai berikut: Sekolah bergengsi

(A), Sekolah umum (B), Perguruan tinggi (C), sekolah diploma (D), SMA

(E), SMP (F), Sekolah luar negeri (G).

Tahap Selanjutnya adalah implementasi algortima classification decision

tree 4.5 dengan beberapa proses interaksi dasar sebagai berikut:

Decision tree dimulai dengan satu titik tunggal training samples.

Jika seluruh training samples memiliki klasifikasi yang sama, maka titik

tersebut menjadi cabang dari dan diberi tanda dengan klasifikasi tersebut.

Page 28: Proposal Ka

22

Universitas Indonesia

Jika tidak, algortima decision tree menggunakan pengumpulan informasi

sebagai pengukuran, lalu memilih salah satu atribut yang terbaik untuk

melakukan klasifikasi pada training samples.

Menyusun percabangan untuk setiap nilai atribut yang akan dijadikan

dasar untuk melakukan klasifikasi pada training samples.

Penggunaan fungsi rekursi dari seluruh pembagian decision tree sample.

Lakukan terus fungsi rekursi hingga memenuhi kondisi akhir fungsi

rekursi.

Penghentian fungsi rekursi.

Pada saat seluruh cabang dari training samples telah terklasifikasi tandai

cabang tersebut dengan klasifikasi terkait.

Pada saat tidak ada lagi atribut yang dapat membagi training samples,

hentikan proses dan tandai cabang tersebut dengan klasifikasi terkait.

Pada saat percabangan tidak lagi memiliki training samples, hentikan

proses dan tandai cabang tersebut denngan mayoritas klasifikasi dari

training samples yang digunakan.

Setelah dilakukan klasifikasi pada data staf pengajar ditemukan beberapa

pola sebagai berikut:

Jika memiliki posisi B (division level), dengan umur (41-45), maka dapat

diklasifikasikan sebagai class N (is not lost).

Jika memiliki tingkat pendidikan 05 (Ph.d), dengan pekerjaan istri C (tidak

memuaskan), dengan umur B (31-40), maka dapat diklasifikasikan sebagai

class Y (the loss of).

Kesimpulan yang dapat ditarik dari pola data di atas adalah staf

pengajar dengan tingkat pendidikan doctoral yang berumur 30 hingga 45

cenderung merasa tidak puas atau pasangannya tidak bekerja di tempat

yang sama. Selain itu pengajar yang lulus pada umur 25 hingga 35 tahun

memiliki kecenderungan tidak efektif bekerja karena ingin melanjutkan

studi.

Page 29: Proposal Ka

23

Universitas Indonesia

2.6.3 Data mining Classification Techniques For Human Talent Forecasting

(Hamidah Jantan, Abdul Razak Hamdan,Zulaiha Ali Othman, 2011)

Penelitian ini merupakan implementasi data mining untuk namajemen

bakat sumber daya manusia khususnya dengan menggunakan teknik

classification and prediction dengan mengidentifikasi pola yang berhubungan

dengan bakat sumber daya manusia.

Dikarenakan alasan kerahasiaan dan keamaanan data dari bagian

kepegawaian, penelitian ini menggunakan dua dataset yang dihasilkan dari dataset

rule generator, dataset1 menghasilkan 100 data dan dataset2 menghasilkan 1000

data berdasarkan faktor-faktor bakat dan performa kerja. Selain itu data outlier

pada dataset1 dijadikan dataset terpisah yaitu dataset3. Atribut data yang

digunakan pada penelitian ini dapat dijelaskan pada tabel berikut:

Tabel 2.3 Atribut dan variabel yang digunakan

Atribut Nama Variabel Keterangan

Latar Belakang (7) D1,D2,D3,D5,D6, D7,D8 Umur,jenis kelamin,

masa kerja, promosi

Evaluasi kinerja

sebelumnya (15)

DP1,DP2,DP3, DP4,DP5,DP6,

DP7,DP8,PP9, DP10, DP11,

DP12, DP13,DP14, DP15

Penilaian kinerja dalam

15 tahun

Pengetahuan dan

kemampuan (20)

PQA,PQC1,PQC2, PQC3,PQD1,

PQD2,PQD3,PQE1, PQE2,PQE,

PQE4,PQE5,PQF1, PQF2,PQG1,

PQG2,PQH1,PQH2,PQH3,PQH4

Kualifikasi professional

(pengajar, pengawas,

peneliti)

kemampuan

manajemen (6)

PQB,AC1,AC2,AC3,AC4,AC5 Kemampuan

admiistratif

Kualitias individu

(5)

T1,T2,SO,AA1,AA2 Pelatihan, penghargaan

Page 30: Proposal Ka

24

Universitas Indonesia

Atribut yang digunakan pada Tabel 2.3 di atas merupakan kombinasi dari

53 atribut yang didefinisikan dalam variabel dan 5 faktor performa kerja sumber

daya manusia.

Dalam penelitian ini digunakan 5 jenis algoritma clustering (C 4.5,

random forest, multi layer perceptron, radial basis function network, dan K-star)

dengan menggunakan perangkat lunak WEKA dan ROSSETA toolkit sebagai

pengolah data.

Tabel 2.4 Akurasi dari model dengan seluruh atribut

Algoritma Classification Dataset 1 Dataset 2 Dataset 3

C 4.5 95,14 99,90 90,54

Random Forest 74,91 95,43 71,8

Multi Layer Perceptron 87,16 99,84 84,55

Radial Basis Function Network 91,45 99,98 87,09

K-Star 92,06 97,83 87,79

Berdasarkan Tabel 2.4 di atas dapat dilihat bahwa dalam algoritma C.45

memiliki nilai akurasi yang lebih baik dibandingkan dengan algoritma lainnya.

Dengan begitu teknik ini dapat digunakan untuk memprediksi data bakat sumber

daya manusia selanjutnya dengan konstruksi classification rules yang terbentuk.

2.6.4 Penerapan Data mining Pada Pemberian Biaya Sponsorship Untuk

Menemukan Pola Yang Efektif (Achmad Junanto, 2010)

Penelitian ini berusaha menemukan solusi penggunaan data mining dan

menentukan algoritma yang sesuai sebagai penunjang dalam pengambilan

keputusan tentang pemberian biaya sponsorship yang optimal bagi seorang

pegawai lapangan dalam hal ini adalah medical representative agar menghasilkan

nilai penjualan yang sesuai dengan target.

Dalam penelitian ini teknik data mining yang digunakan adalah

association rule dan classification . Algoritma FP-Growth digunakan dalam

teknik association rule dan algoritma decision tree digunakan dalam teknik

classification. Data mining tool yang digunakan dalam penelitian ini adalah

Page 31: Proposal Ka

25

Universitas Indonesia

Rapidminer dengan sumber data dari aplikasi ERP (Enterprise Resource

Planning) yang sudah memiliki data warehouse.

Inti permasalahan yang akan diuji pada proses data mining menggunakan

model decision tree digunakan dari beberapa parameter seperti karakteristik

produk, kategori jenis penjualan, serta tipe dari field force sehingga mampi

menghasilkan pencapaian target yang baik diman dalam hal ini dikategorikan

sebagai EXCELLENT.

Dari hasil eksekusi dengan menggunakan model decision tree didapat

beberapa kesimpulan seperti untuk cabang Jabodetabek dan lini DXM SINERGI,

dengan tipe field force APOTIK, COMBO, dan HOSPITAL mengasilkan

pencapaian sales BAD bila sales kategorinya ASKES. Untuk penjulan pada

semua lini dengan kategori REGULAR, rata-rata hasil eksekusi menghasilkan

pencapaian penjualan lebih besar sama dengan 100%. Untuk tipe penjualan

REGULAR dengan produk focus flag SF (Super Focus) rata rata menghasilkan

penjualan yang EXCELLENT.

2.6.5 Penerapan Data mining Di Badan Metereologi Dan Geofisika (BMG)

Untuk Memprediksi Cuaca Di Jakarta (Iqbal, 2007)

Penelitian ini berusaha menggunakan teknik data mining untuk

memprediksi cuaca di wilayah Jakarta yang kemudian hasilnya dibandingkan

dengan forecaster yang biasa melakukan prakiran cuaca pada Badan Meteorologi

dan Geofisika (BMG).

Penelitian ini menggunakan tiga data mining tools yaitu WEKA (Waikato

Environment Knowledge and Analysis), CBA (Classification Based On

Associations), dan C4.5. Dengan menggunakan teknik data mining yang sama

yaitu classification untuk membuat prediksi cuaca di daerah Jakarta maka

dihasilkan perbandingan persentase kebenaran sebagai berikut:

Page 32: Proposal Ka

26

Universitas Indonesia

Tabel 2.5 Tabel Presentase Kebenaran dari 3 Data mining Tools.

Bulan Weka C4.5 CBA Januari 2006 60 72 76 Februari 2006 62 65 62

Maret 2006 46 58 58 April 2006 35 63 50 Mei 2006 50 50 46 Juni 2006 38 50 38 Juli 2006 38 24 34

Agustus 2006 42 31 38 September 2006 55 62 66

Oktober 2006 43 47 50 November 2006 48 45 31 Desember 2006 66 76 72

Januari 2007 52 48 52 Februari 2007 75 83 83

Maret 2007 58 68 71

Dari Tabel 2.5 di atas dapat dilihat bahwa persentase C4.5 hampir selalu

berada di atas kedua data mining tools lainnya kecuali pada bulan Juli dan

Agustus 2006 serta Januari 2007. WEKA mempunyai persentase kebenaran yang

relatif stabil, artinya jika ada kenaikan tidak terlalu tinggi, begitu juga jika terjadi

penurunan.

2.6.6 Implementasi Bussiness Intelligence Untuk Pengenalan Pola Bisnis Di

Daerah Jakarta Selatan (Arthur Salomo Hamonangan Gultom, 2009).

. Penelitian ini mengkaji penerapan business intelligence untuk pengenalan

pola bisnis. Aplikasi business intelligence yang digunakan adalah Eclipse BIRT.

Data yang digunakan adalah data Geographic Information System (GIS) dan data

bisnis.

Teknik data mining yang digunakan pada penelitian ini adalah

classification dengan menggunakan metode Fuzzy C Means. Klasifikasi yang

diperoleh berupa jenis usaha seperti jasa konsultasi konstruksi, dan lainnya. Hasil

klasifikasi yang dikombinasikan dengan GIS penduduk diperoleh solusi pilihan-

pilihan bisnis yang diperingkat dengan persentase tingkat elektabilitas jenis bisnis

Page 33: Proposal Ka

27

Universitas Indonesia

di daerah Jakarta Selatan. Dari hasil business intelligence yang dilakukan

dihasilkan tabel perbadingan sebagai berikut:

Tabel 2.6 Faktor faktor yang mempengaruhi pola bisnis di Jakara Selatan

Tebet Pancoran Setiabudi Cilandak Total

Tingkat Kepadatan Penduduk √ √ √ X 3

Komposisi Pria dan Wanita X √ X √ 2

Komposisi Usia Penduduk √ X X √ 2

Tingkat Pendidikan X √ √ √ 3

Modal Usaha Perusahaan √ √ √ X 3

Total 3 4 3 3

Berdasarkan Tabel 2.6 di atas dapat disimpulkan bahwa faktor yang

mempengaruhi pola bisnis di daerah Tebet adalah tingkat kepadatan penduduk,

komposisi usia penduduk dan modal perusahaan. Untuk daerah Poncaran hanya

faktor komposisi usia penduduk yang tidak mempengaruhi. Daerah Setiabudi

tidak dipengaruhi oleh faktor-faktor seperti komposisi pria dan wanita, serta

tingkat pendidikan. Untuk daerah Cilandak dipengaruhi oleh faktor-faktor seperti

komposisi pria dan wanita, penduduk, serta tingkat pendidikan.

2.6.7 Pembandingan Tingkat Akurasi Dua Model Data mining Yang

Dihasilkan Oleh Decision Tree Dan Naïve Bayes Studi Kasus: Suatu

Perusahaan Manufaktur Dan Penjualan Sepeda (Afif Farisi, 2007)

Penelitian ini bertujuan melakukan simulasi pembuatan data mining model

dengan mengambil dataset dari basis data dan data warehouse suatu perusahaan

manufaktur dan penjualan sepeda. Implementasi data mining dengan

membandingkan dua algoritma classification yang berbeda yaitu decision tree

dan naïve bayes.

Dataset yang digunakan dalam penelitian ini bersumber dari data

pelanggan dan transaksi penjualan sepeda dengan pemilihan atribut sebagai

berikut:

Page 34: Proposal Ka

28

Universitas Indonesia

Tabel 2.7 Atribut yang digunakan pada data pelanggan dan penjualan

Atribut Tipe Data Keterangan

Ckey Angka Primary key

Mstatus Karakter Status perkawinan

Gender Karakter Jenis kelamin

Kidnum Karakter Jumlah anak

Education Karakter Pendidikan terakhir

Occupation Karakter Pekerjaan

Hstatus Karakter Kepemilikan rumah

CarNum Karakter Jumlah kendaraan bermotor

IPYear Karakter Rentang gaji

Region Karakter Domisili

Age Angka Umur

BFlag Karakter Membeli atau tidak membeli sepeda

Tabel 2.7 di atas menjelaskan atribut-atribut yang dimiliki pelanggan toko

sepeda yang akan digunakan untuk melakukan model classification untuk

mengetahui pola pelanggan yang berpotensi membeli atau tidak membeli sepeda.

Dari seluruh dataset yang ada 90% dataset digunakan sebagai train set, dan 10%

digunakan sebagai test set.

Data mining tool yang digunakan dalam penelitian ini adalah SQL Server

Analysis Service yang merupakan fitur dari Microsoft SQL Server 2005.

Dengan menggunakan algoritma decision tree didapatkan 116 pola yang

terbentuk dengan temuan beberapa fakta sebagai berikut:

99,99% pelanggan yang memiliki satu kendaraan bermotor , dengan

rentang gaji 0 sampai dengan Rp 50.000.000 per tahun, dan umur 29

hingga 32 tahun, pada regional solo, tidak akan membeli sepeda. Namun

Page 35: Proposal Ka

29

Universitas Indonesia

kemungkinan munculnya seorang pelanggan dengan karakteristik tersebut

hanya 0,25%.

99,99% pelanggan yang memiliki dua kendaraan bermotor, dengan

rentang gaji Rp 100.000.000 sampai dengan Rp 150.000.000 per tahun,

dan umur 39 hingga 41 tahun, dengan jumlah anak dua, akan membeli

sepeda. Namun kemungkinan munculnya seorang pelanggan dengan

karakteristik tersebut hanya 0,11%.

Dengan menggunakan algoritma naïve bayes, didapatkan 35 grup yang

saling lepas, dengan fakta-fakta sebagai berikut:

Kemungkinan terbesar grup yang akan membeli sepeda adalah pelangan

yang tidak memiliki kendaraan bermotor, dengan persentase pembelian

sebesar 63,59%, Kemungkinan munculnya seorang pelanggan dengan

karakteristik tersebut adalah 22,94%.

Kemungkinan terkecil grup yang akan membeli sepeda adalah pelangan

umur di atas 59 tahun, dengan persentase pembelian sebesar 0,06%.

Kemungkinan munculnya seorang pelanggan dengan karakteristik

tersebut adalah 0,31%.

Implementasi dua algoritma yang digunakan untuk melakukan

classification data transaksi penjualan sepeda menghasilkan nilai akurasi yang

berbeda seperti pada gambar berikut:

Gambar 2.4 Perbandingan akurasi decision tree dengan naïve bayes

Seperti yang terlihat pada gambar 2.4 di atas, model decision tree

menghasilkan tingkat akurasi 68,85% sedangkan model naïve bayes hanya

menghasilkan tingkat akurasi 60,7%.

Page 36: Proposal Ka

30

Universitas Indonesia

2.6.8 Analisis Model Komputasi Berbasis Artificial Neural Network Untuk

Forecasting Perekonomian Indonesia (Bagus Priambodo,2009)

Penelitian ini membahas tiga model ANN (Artificial Neural Network)

sebagai alat peramalan, yaitu: GMDH (Group Method of Data Handling),

feedforward backpropagation neural network, dan elmant recurrent neural

network.

Terdapat dua jenis peramalan yang akan dibandingkan diantara ketiga

model tersebut yaitu multivariate dimana komponen yang digunakan sebagai

input adalah variabel makro ekonomi Indonesia. Peramalan lainnya adalah

univariate dimana komponen yang digunakan sebagai input adalah nilai GDP

Indonesia dari tahun 1970.

Atribut yang digunakan dalam pembuatan model artificial neural network

diantaranya adalah: P_Rice yang merupakan nilai harga beras, P_Gasol yang

merupakan nilai harga bensin premium, GDP_Japan adalah nilai produk domestik

bruto dari negara Jepang, GDP_USA adalah nilai produk domestic bruto dari

negara Amerika Serikat, ER yang merupakan nilai pertukaran mata uang, GC

yang merupakan nilai konsumsi Pemerintah Indonesia, dan XO yang merupakan

nilai ekspor dan impor Indonesia.

Setelah atribut data ditentukan, data kemudian dinormalisasi dengan

rentang nilai 0 hingga 1 untuk keperluan peramalan multivariate dan univariate.

Peramalan data multivariate dilakukan sebanyak dua kali, dengan peramalan

pertama menggunakan 11 data dari tahun 1985 hingga 1996 untuk meramal GDP

di tahun 1997 hingga tahun 2000. Peramalan kedua menggunakan 19 data dari

tahun 1985 hingga 2004 untuk meramal GDP di tahun 2005 hingga tahun 2008.

Peramalan data univariate juga dilakukan sebanyak dua kali, dengan

peramalan pertama menggunakan 26 data dari tahun 1970 hingga tahun 1996 untu

meramal GDP di tahun 1997 hingga tahun 2000. Peramalan kedua menggunajkan

34 data dari tahun 1970 hingga tahun 2004 untuk meramal GDP di tahun 2005

hingga tahun 2008.

Page 37: Proposal Ka

31

Universitas Indonesia

Pengembangan model ANN untuk GMDH dilakukan dengan menetapkan

3 buah layer yang terdiri dari layer pertama dengan7 neuron yang kemudian layer

kedua berjumlah 21 layer dengan menggunakan permutasi. Dari 21 neuron yang

dihasilkan dipilih 7 neuron terbaik. 7 neuron tersebut akan menghasilkan 21

neuron yang nantinya akan dipilih 1 neuron terbaik. Hasil yang didapatkan

selanjutnya akan di denormalisasi.

Pengembangan model ANN untuk Back Propagation dilakukan dengan

menetapkan 3 buah layer , yaitu layer input, hidden, dan output. Layer input berisi

7 neuron,dan layer outout berisi 1 neuron, sedangkan jumlah neuron pada hidden

layer adalah nilai momentum dan nilai learn rate yang diperoleh dari hasil ujicoba

peramalan dengan hasil peramalan terbaik. Hasil yang didapatkan selanjutnya

akan di denormalisasi. Jumlah neuron pada model elmant serupa dengan jumlah

neuron untuk back propagation.

Arsitektur ANN yang digunakan untuk peramalan multivariate dan

univariate dapat dilihat pada tabel berikut ini:

Tabel 2.8 Arsitektur ANN untuk peramalan multivariate dan univariate

Network Aktivasi Arsitektur Mmtum Learn rate Menit Data pelatihan

GMDH - (generate) - - 0,00155 1985-1996 BP Sigmoid 7-15-1 0,8 0,25 0,0085 1985-1996 Elman Sigmoid 7-18-1 0,8 0,25 0,61 1985-1996 GMDH Sigmoid (generate) - - 0,00181 1985-2004 BP Sigmoid 7-15-1 0,8 0,25 0,0085 1985-2004 Elman Sigmoid 7-6-1 0,8 0,25 0,5 1985-2004 GMDH - (generate) - - 0,002 1970-1996 BP Sigmoid 3-15-1 0,8 - 0,26 1970-1996 BP Sigmoid 4-15-1 0,8 - 0,33 1970-1996 BP Sigmoid 5-15-1 0,8 - 0,32 1970-1996 Elman Sigmoid 3-18-1 0,6 - 0,983 1970-2004 Elman Sigmoid 4-16-1 0,6 - 0,9 1970-2004 Elman Sigmoid 5-16-1 0,6 - 0,7 1970-2004

Ketiga model permalan yang digunakan diimplementasikan dengan bahasa

pemrograman ASP.NET dan C# untuk mengembangkan aplikasi sendiri. Sumber

data berasal dari basis data MySQL yang menyimpan data data perekonomian

Page 38: Proposal Ka

32

Universitas Indonesia

Indonesia. Dari hasil peramalan series 4 tahun dengan data pelatihan dari tahun

1970 hingga 2004 dihasilkan tabel perbandingan sebagai berikut:

Tabel 2.9 Perbandingan model artificial neural network

GMDH Back Propagation Elmant

Koefisien korelasi 0,997665498 0,955279787 0,160989907

RMSE 129286,5056 135472,3686 193018,1014

MAPE 6,448495716 6,438111324 9,442940962

Berdasarkan Tabel 2.9 di atas dapat diketahui bahwa model GMDH nilai

koefisien korelasi yang paling tinggi dibandingkan dengan model lainnya. Selain

itu model GMDE memiliki nilai error RMSE dan MAPE yang paling rendah

dibandingkan dengan dua model lainya. Sehingga dapat disimpulkan bahwa

GMDH merupakan model ANN yang paling baik diantara model lainnya yang

diuji untuk peramalan series 4 tahun dengan data pelatihan 1970 hingga 2004.

2.6.9 Predictive Modelling Dalam Data mining Perbandingan

Macroeconomic Forecasting Menggunakan Vector Auto Regression

Dan General-To-Specific Modelling (Siswantoro ,2008)

Penelitian ini bertujuan menganalisis pemodelan prediksi yang sebaiknya

diimplementasikan dalam memprediksi makroekonomi. Pemodelan prediksi yang

digunakan adalah Vector Auto Regression (VAR) dan General-to-specific (GetS)

modeling.

Pemodelan ini lalu diterapkan pada model broda dengan empat atribut

yaitu: terms of trade, nilai tukar riil, indeks harga konsumen, dan produk domestik

bruto riil. 4 model tersebut diadaptasi sedemikian rupa sehingga menjadi sistem

persamaan sebgai berikut:

Page 39: Proposal Ka

33

Universitas Indonesia

Dimana:

TOT : terms of trade

RER : nilai tukar riil (real exchange rate)

CPI : indeks harga konsumen (consumer price index)

RGDP : produk domestic bruto riil (real gross domestic product)

Ɛ : error rate

Tahap awal dari penelitian ini adalah melakukan cleaning dan pre-

processing data. Data yang digunakan pada penelitian ini adalah data kwartal

pertama tahun 1999 dengan kwartal ke-4 tahun 2007. Periode ini dipilih karena

tergolong stabil setelah terjadi krisis ekonomi 1997-1998. Data diperoleh dari

bulletin-buletin statistik terbitan Biro Pusat Statistik (BPS) dan Internacional

Finance Statisitc (IFS) terbitan International Monetary Fund (IMF).

Tahap selanjutnya adalalh melakukan transformasi data dengan

memastikan bahwa data penelitian berada dalam kondisi stasioner melalui uji

stasioneritas. Gambar berikut menggambarkan pergerakan data keempat atribut

yang akan digunakan:

Page 40: Proposal Ka

34

Universitas Indonesia

Gambar 2.5 Pergerakan data atribut yang akan digunakan

Dari Gambar 2.5 di atas dapat dilihat bahwa adanya tren meningkat pada

CPI dan RGDP, sedangkan untuk atribut TOT dan RER pergerakan datanya

cukup fluktuatif.

Berdasarkan periode yang diestimasi, prediksi akan dipecah menjadi ex

post forecast dan ex ante forecast. Pemodelan terbaik ditentukan berdasarkan tiga

kriteria, yaitu: nilai adjusted R2 , nilai Akaike Information Criterion (AIC), dan

nilai Scwarz Information Criterion (SIC).

Teknik data mining yang dilakukan untuk melakukan prediksi pada

penelitian ini menggunakan metode berbasis ilmu statistika dan ekonometrika.

Berikut ini adalah hasil prediksi pada 3 kriteria dengan menggunakan 2 model:

Page 41: Proposal Ka

35

Universitas Indonesia

Tabel 2.10 Ringkasan analisis predictive modeling.

Ex Post Forecast Ex Ante Forecast

VAR GetS VAR GetS

Adjusted R2 0,774765 0,795962 0,824471 0,869031

AIC 3,647252 3,517827 3,483982 2,839

SIC 4,463150 4,388817 4,270363 3,971405

Berdasarkan Tabel 2.6 di atas dapat disimpulkan bahwa Gets Modelling

lebih baik daripada VAR. Terlihat dari nilai adjuted R2 untuk semua bentuk

forecast yang lebih besar dan nilai AIC dan SIC yang lebih kecil.

2.6.10 Aplikasi Data Mining Di Bidang Earth Science Studi Kasus El Nino

dan La Nina (Ramdhani Mahardika ,2011)

Penelitain ini berusaha melakukan prediksi kejadian El Nino dan La Nina

dengan melakukan teknik data mining association dan classification. Data yang

digunakan sebagai dasar untuk melakukan data mining adalah data iklim.

Algoritma FP-Growth digunakan untuk teknik data mining association,

sedangkan teknik Support Vector Machine digunakan untuk teknik data mining

classification.

Data mining tools yang digunakan pada penelitian adalah Oracle Data

Miner (ODM) dan Rapidminer dimana ODM bersifat proprietary dan Rapidminer

bersifat open source. Data yang digunakan dalam penelitian ini bersal dari 71

ATLAS mooring yang berada di sepanjang samudra pasifik. Secara umum

beberapa atribut yang digunakan adalah data-data mengenai angin, temperatur

udara presipitasi, radiasi gelombang pendek, radiasi gelombang panjang, tekanan

muka laut dan suhu muka laut.

Algoritma support vector machine classification yang diimplementasikan

pada ODM menghasilkan nilai predictive confidence sebesar 42,7%. Nilai tersebut

masuk ke dalam kategori baik karena berada di atas nilai rata-rata. Sedangkan

Page 42: Proposal Ka

36

Universitas Indonesia

algoritma FP-Growth yang diimplementasikan pada Rapidminer menunjukkan

keterkaitan antara LWR di atas 109.627500000000005, PRECIPITATION di

bawah 16,92 mm, dan SST di atas 23,4225 0C, serta temperature udara di atas

23.37 0C akan memiliki keadaan atmosfer normal.

Berdasarkan landasan teori, penelitian sebelumnya, dan metodologi yang

dijelaskan sebelumnya maka dapat disusun suatu perbandingan dalam bentuk

tabel sebagai berikut:

Page 43: Proposal Ka

37

Universitas Indonesia

Perbandingan Teori Compare Contrast Criticize Synthesize Summarize Rujukan

Association Rule Mining

Suatu teknik

dalam data

mining yang

sering

digunakan untuk

proses

Knowledge

Discovery in

Data (KDD)

Digunakan untuk

memepelajari

pola keterkaitan

yang ada dengan

menggunakan

frequent itemset

yang muncul

Hanya

mempelajari

keterkaitan data

tanpa

mengelompokkan

data

Suatu tahapan dalam

menggali

pengetahuan dalam

data, baik dengan

cara memepelajari

pola keterkaitan

antar data,

membangun model

untuk memprediksi

klasifikasi data,

maupun

mengelompokkan

data berdasarkan

kesamaan atribut

pada data

Suatu usaha

untuk

mengekstraksi

dan

mengindentifikasi

informasi dari

sumber basis data

yang besar

dengan

mengidentifikasi

aturan, pola,

keteraturan, dan

kebiasaan yang

terbentuk

Jiawei Han, Michelin

Kamber, (2006). Data

mining Concepts and

Techniques. Morgan

Kaufmann Publishers.

Classification

Digunakan dalam

membangun

model untuk

prediksi kelas

suatu data atau

objek

Kelas terbentuk

akibat rule yang

ada, bukan

berdaasarkan

kesamaan atribut

pada data

Clustering Digunakan untuk

mengelompokkan

data berdasarkan

kesamaan atribut

data.

Pengelompokkan

data cenderung

berbentuk bulat

akibat pendekatan

Euclidean.

Tabel 2.11 Perbandingan teori dan penelitian sebelumnya

Page 44: Proposal Ka

38

Universitas Indonesia

Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan

Data Mining Classifcation

Technique for Talent

Management using SVM

Penggunaan

beberapa teknik

dalam data

mining yang

diterapkan pada

data sumber

daya manusia

untuk

menajemen

kepegawaian

yang lebih baik

Menggabungkan

algoritma CACC,

SVM dan SMO

untuk teknik data

mining

classification

Pennggunaan data

mining tool lain

seharusnya lebih

mudah

dibandingkan

menggunakan

Matlab

Gabungan algoritma

CACC, SVM dan

SMO untuk

menghasilkan

prediksi dengan

akurasi yang lebih

baik

Classification

digunakan untuk

menemukan

model prediksi

bakat

kepegawaian

dalam organisasi

S.Yashoda, P.S.Prakash ,

(2012). Data Mining

Classifcation Technique

for Talent Management

using SVM

The Decision Tree

Classifcation And Its

Application Research In

Personnel Management

Implementasi

algoritma

classification

C.45 pada data

kepegawaian

Membangun

model prediksi

tanpa melakukan

tes prediksi

Implementasi

algoritma C.45

dalam antar muka

Visual Basic untuk

memudahkan user

Implementasi

classification

C.45 untuk

prediksi calon

pegawai

Peng Ye. (2011). The

Decision Tree

Classifcation And Its

Application Research In

Personnel Management

Data mining

Classification Techniques

For Human Talent

Forecasting

Membandingkan

5 algoritma

classification

untuk

menentukan kelas

pegawai

Masih banyank

algoritma lain

yang dapat

digunakan

sebagai

pembanding

Algoritma C 4.5

cukup akurat dalam

melakukan

classification pada

data sumber daya

manusia.

Membandingkan

beberapa

algoritma

diperlukan untuk

mendapatkan

metode terbaik

Hamidah Jantan, Abdul

Razak Hamdan,Zulaiha

Ali Othman, (2011). Data

mining Classification

Techniques For Human

Talent Forecasting

Page 45: Proposal Ka

39

Universitas Indonesia

Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan

Penerapan Data mining

Pada Pemberian Biaya

Sponsorship Untuk

Menemukan Pola Yang

Efektif

Penerapan

teknik data

mining

classification

untuk

pengenalan pola

dan prediksi

Menggunakan

dua teknik data

mining yaitu

association dan

classification

Tidak ada alasan

khusus mengenai

penggunaan

algoritma FP-

Growth.

Gabungan

association dan

classification untuk

menemukan pola

pembiayaan

sponsorhip

Classification

dapat digunakan

untuk identifikasi

pola pembiayaan

sponsorship yang

efektif

Achmad Junanto. (2010).

Penerapan Data mining

Pada Pemberian Biaya

Sponsorship Untuk

Menemukan Pola Yang

Efektif

Penerapan Data mining Di

Badan Metereologi Dan

Geofisika (BMG) Untuk

Memprediksi Cuaca Di

Jakarta

Melakukan

prediksi cuaca

dari pola data

yang ditemukan

melalui teknik

classification

Keragaman hasil

prediksi dari 3

data mining tools

menghasilkan

kesimpulan yang

beragam

Penggunaan 3 data

mining tools untuk

menghasilkan

prediksi cuaca yang

lebih akurat

Classification

dapat digunakan

untuk

memprediksi

cuaca di daerah

Jakarta

Iqbal. (2007). Penerapan

Data mining Di Badan

Metereologi Dan

Geofisika (BMG) Untuk

Memprediksi Cuaca Di

Jakarta

Implementasi Bussiness

Intelligence Untuk

Pengenalan Pola Bisnis Di

Daerah Jakarta Selatan

Implementasi

classification

pada data lokasi

dan jenis usaha

Tidak dijelaskan

mengapa

menggunakan

Fuzzy K-Means

Hasil klasifikasi

dikombinasikan

dengan data lokasi

menghasilkan solusi

bisnis untuk tiap area

Classification

dapat digunakan

untuk identifikasi

pola bisnis

dengan data

lokasi bisnis

Arthur Salomo

Hamonangan Gultom.

(2009). Implementasi

Bussiness Intelligence

Untuk Pengenalan Pola

Bisnis Di Daerah Jakarta

Page 46: Proposal Ka

40

Universitas Indonesia

Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan

Pembandingan Tingkat

Akurasi Dua Model Data

mining Yang Dihasilkan

Oleh Decision Tree Dan

Naïve Bayes Studi Kasus:

Suatu Perusahaan

Manufaktur Dan

Penjualan Sepeda

Penerapan

teknik data

mining

classification

untuk

pengenalan pola

dan prediksi

Membandingkan

algoritma

decision tree

dengan naive

bayes untuk data

penjualan sepeda

Tingkat akurasi

yang dihasilkan

dari classification

tidak terlalu

tinggi

Penggunaan 2

algoritma

classification

bertujuan

menghasilkan

alternatif akurasi

yang lebih baik

Hasil

classification

dapat digunakan

untuk

mengidentifikasi

pola demografi

pelanggan yang

potensial untuk

membeli

Afif Farisi. (2007).

Pembandingan Tingkat

Akurasi Dua Model Data

mining Yang Dihasilkan

Oleh Decision Tree Dan

Naïve Bayes Studi Kasus:

Suatu Perusahaan

Manufaktur Dan Penjualan

Sepeda

Analisis Model

Komputasi Berbasis

Artificial Neural Network

Untuk Forecasting

Perekonomian Indonesia

Menggunakan

artificial neural

network untuk

melakukan

classification dan

memprediksi

perekonomian

Indonesia

Tidak

menggunakan

data mining tools

melainkan

menulis ulang

algooritma ke

dalam bahasa

pemrograman

ASP.NET

Penggunaan 3 model

artificial neural

network bertujuan

menghasilkan

alternatif akurasi

prediksi yang lebih

baik

artificial neural

network mampu

meramalkan

perekonomian

Indonesia secara

akurat

Bagus Priambodo. (2009).

Analisis Model Komputasi

Berbasis Artificial Neural

Network Untuk

Forecasting Perekonomian

Indonesia

Page 47: Proposal Ka

41

Universitas Indonesia

Perbandingan Penelitian Compare Contrast Criticize Synthesize Summarize Rujukan

Predictive Modelling

Dalam Data mining

Perbandingan

Macroeconomic

Forecasting

Menggunakan Vector Auto

Regression Dan General-

To-Specific Modelling

Penerapan

teknik data

mining

classification

untuk

pengenalan pola

dan prediksi

Teknik data

mining yang

digunakan

berbasis statistika

dan ekonometrika

Tidak secara

spesifik

menjelaskan data

mining tools yang

digunakan

2 metode forecasting

yang digunakan

bertujuan

memberikan

alternatif hasil

ramalan yang lebih

baik

Predictive

modeling

merupakan bagain

dari data mining

yang digunakan

untuk melakukan

prediksi

Siswantoro. (2008).

Predictive Modelling

Dalam Data mining

Perbandingan

Macroeconomic

Forecasting Menggunakan

Vector Auto Regression

Dan General-To-Specific

Modelling

Aplikasi Data Mining Di

Bidang Earth Science

Studi Kasus El Nino dan

La Nina

Menggunakan

teknik data

mining deskriptif

dan prediktif

untuk

memprediksi

bencana alam El

Nino dan La Nina

Menggunakan

data mining tools

yang berbeda

untuk tiap teknik

data mining,

dimana

seharusnya cukup

menggunakan

satu tool saja.

ODM digunakan

untuk melakukan

classification dan

Rapidminer

digunakan untuk

melakukan

association

Nilai akurasi

prediksi yang

dihasilkan sebesar

42,7% sudah

dianggap baik

untuk prediksi

bencana alam El

nino dan La nina

Aplikasi Data Mining Di

Bidang Earth Science

Studi Kasus El Nino dan

La Nina

Page 48: Proposal Ka

42

Universitas Indonesia

Berdasarkan Tabel 2.8 di atas maka dapat dilihat bahwa dari beberapa

teknik data mining yang dijelaskan oleh Jiawei Han dan Michelin Kamber dalam

buku yang berjudul Data mining Concepts and Techniques dapat disimpulkan

bahwa teknik association rule tidak tepat digunakan pada peneletian ini karena

teknik tersebut hanya digunakan untuk memepelajari pola keterkaitan yang ada

dengan menggunakan frequent itemset yang muncul, sehingga tidak dapat

dijadikan acuan untuk melakukan prediksi pengisian jabatan struktural pada

Pemerintah Kota Bogor.

Teknik clustering juga tidak tepat digunakan pada penelitian ini karena

teknik ini digunakan untuk mengelompokkan data berdasarkan kesamaan atribut

data dalam arti pengelompokkan data belum diketahui sebelumnya, sedangkan

pada kasus jabatan struktural tentunya hal ini sudah terbentuk berdasarkan tingkat

eselonering yang ada pada setiap jabatan struktural.

Oleh karena itu, teknik data mining yang tepat untuk digunakan pada

penelitian ini adalah classification, mengingat teknik classification dapat

mempelajari pola yang ada dari class yang sudah ditentukan sehingga dapat

dibangun suatu model prediksi berdasarkan pola yang terbentuk.

Penggunaan data pegawai dari tahun 2009 hingga tahun 2013 akan

digunakan sebagai train data set untuk mengenali pola data kepegawaian, pola

yang dihasilkan akan dijadikan dasar untuk melakukan prediksi pengisian jabatan

struktural pegawai ditahun 2014.

Penelitian berujudul Data Mining Classifcation Technique for Talent

Management using SVM menujukkan bagaiman kombinasi beberapa algoritma

classification sperti CACC, SVM dan SMO dapat menghasilkan model prediksi

dengan akurasi yang lebih baik dalam menggali bakat kepegawaian dalam suatu

organisasi.

Penelitian berujudul Data Mining Classification Techniques For Human

Talent Forecasting membuktikan bahwa alogirtma C 4.5 memiliki akurasi yang

lebih baik dibandingkan beberapa algoritma classification lainnya, untuk

Page 49: Proposal Ka

43

Universitas Indonesia

melakukan pengelompokkan kelas pegawai yang kemudian akan digunakan untuk

meramal bakat dari sumber daya manusia yang ada.

Penelitian berjudul The Decision Tree Classifcation And Its Application

Research In Personnel Management mencoba membangun suatu aplikasi

berbasis desktop yang memiliki kemampuan memprediksi hasil perekrutan

pegawai baru dengan mennggunakan teknik data mining classification. Secara

spesifik algoritma yang digunakan untuk melakukan classification adalah

algoritma C.45

Dalam studi kasus pengisian jabatan struktural di lingkungan Pemerintah

Kota Bogor beberapa atribut data yang akan digunakan mengacu pada Peraturan

Pemerintah No 13 tahun 2002 yaitu: golongan pegawai, masa kerja pegawai,

tingkat pendidikan pegawai, pengalaman dalam unit kerja, serta pendidikan dan

pelatihan yang pernah diikuti oleh pegawai. Dengan atribut tersebut maka metode

data mining yang sesuai untuk menemukan pola pengisian jabatan struktural di

lingkungan Pemerintah Kota bogor adalah teknik classification.

2.7 Theoretical Framework

Untuk menyusun Theoretical Framework dalam penelitian ini tentunya

dimulai dari atribut-atribut yang akan digunakan untuk menyusun itemset dengan

sumber basis data SIMPEG. Beritu ini adalah Theoretical Framework dari

penelitian ini:

Page 50: Proposal Ka

44

Universitas Indonesia

Gambar 2.5 Theoretical framework penelitian.

Seperti yang dapat dilihat pada Gambar 2.5 di atas, teknik data mining

classification dipengaruhi oleh atribut-atribut yang akan digunakan yaitu pangkat

dan golongan pegawai, pengalaman pegawai dalam unit kerja, masa kerja

pegawai, tingkat pendidikan pegawai, serta pendidikan dan pelatihan pegawai.

Pola prediktif classification yang terbentuk akan digunakan untuk

melakukan prediksi pengisian jabatan struktural dengan menggunakan train data

set kepegawaian sehingga menghasillkan prediksi pengisian jabatan struktural

yang nantinya akan berguna bagi Baperjakat dalam menyusun draft pengisian

jabatan struktural di lingkungan Pemerintah Kota Bogor .

Page 51: Proposal Ka

45

Universitas Indonesia

BAB 3

METODOLOGI PENELITIAN

3.1 Tahapan Penelitaian

Kerangka kerja penelitian yang digunakan berdasar pada metodologi

penelitian studi kasus yang di dalamnya terdapat tahapan evaluasi dan analisa

data. Secara bertahap kerangka kerja penelitian ini dapat digambarkan sebagai

berikut:

Gambar 3.1 Kerangka Kerja Penelitian.

Page 52: Proposal Ka

46

Universitas Indonesia

Berdasarkan langkah-langakah metode penelitian seperti pada gambar 3.1

di atas maka penelitian dimulai dengan pendefinisian masalah pengisian jabatan

struktural berdasarkan hasil wawancara dengan nara sumber yaitu Sekretaris

Baperjakat Pemerintah Kota Bogor, yang kemudian dapat ditarik suatu

pertanyaan penelitan yaitu: Bagaimana mengidentifikasi pola pengisian jabatan

struktural dengan mengekstraksi data-data kepegawaian yang ada pada SIMPEG

sehingga mampu memberikan usulan calon pejabat struktural

Untuk dapat menjawab pertanyaan penelitan tersebut tentunya diperlukan

langkah untuk menentukan teknik pengumpulan data dan analisis yang diperlukan

dengan cara melakukan studi literatur yang menghasilkan theoretical framework

untuk penelitan ini

Langkah selanjutnya adalah mengidentifikasi proses bisnis dan data yang

dibutuhkan untuk melakukan data mining dengan menggunakan atribut yang

menjadi penilaian dalam jabatan struktural yang tercantum dalam Peraturan

Pemerintah Republik Indonesia Nomor 13 Tahun 2002 tentang pengangkatan

Pegawai Negeri Sipil dalam jabatan struktural.

Setelah mendapatkan atribut yang diperlukan maka baru dapat dilakukan

pengumpulan data dari basis data SIMPEG yang selanjutnya akan masuk ke

dalam tahap pra-proses dalam data mining dengan menggunakan teknik-teknik

data cleaning, data integration, data selection, dan data transformation untuk

mendapatkan format data jabatan struktural yang sesuai untuk keperluan

association mining rule. Tahapan proses ini merupakan tahapan awal dalam

proses Knowledge Discovery Data (KDD).

Setelah format data jabatan struktural yang sesuai untku proses data

mining didapatkan, barulah proses pengolahan data dengan menggunakan

classification dilakukan untuk mendapatkan pola pengisian jabatan struktural

yang ada.

Pola pengisian jabatan struktural yang terbentuk akan dijadikan dasar

untuk memprediksi data calon pejabat struktural di tahun 2014. Hasil prediksi

Page 53: Proposal Ka

47

Universitas Indonesia

akan dibandingkan dengan data pejabat struktural aktual untuk mengukur akurasi

dari prediksi yang dilakukan.

Setelah hasil prediksi dan nilai akurasinya diukur, maka dapat ditarik suatu

kesimpulan secara umum dengan menggunakan teknik penarikan kesimpulan

induktif dimana hal ini pada proses Knowledge Discovery Data (KDD) disebut

juga sebagai knowledge presentation.

3.2 Metode Pengumpulan Data

Pengumpulan data pada penelitian ini dilakukan dengan menggunakan

metode observasi langsung terhadap basis data kepegawaian dari Sistem Informasi

Manajemen Kepegawaian (SIMPEG) Pemerintah Kota Bogor.

Data yang digunakan mencakup :

Tabel 3.1 Data yang tersedia

Tujuan Data Format Data Rujukan Mendapatkan atribut pangkat golongan pegawai pada saat menjadi pejabat struktural

Data SK Mutasi Jabatan Struktural Pegawai

MySQL

2009-2013 (sumber : SIMPEG Kota Bogor)

Mendapatkan data jabatan struktural pegawai

Data SK Mutasi Jabatan Struktural Pegawai

MySQL

2009-2013 (sumber : SIMPEG Kota Bogor)

Mendapatkan atribut tingkat pendidikan pegawai

Data Riwayat Pendidikan Pegawai

MySQL

2009-2013 (sumber : SIMPEG Bogor)

Mendapatkan atribut pendidikan dan pelatihan pegawai

Data Pendidikan dan Pelatihan Pegawai

MySQL

2009-2013 (sumber : SIMPEG Bogor)

Berdasarkan Tabel 3.1 di atas dapat dijelaskan bahwa itemset yang akan

disusun hanya akan menggunakan data-data mutasi jabatan struktural dengan

menggunakan 5 atribut yang dibahas pada theoretical framework sebelumnya.

Dari 5 atribut yang akan digunakan, 3 di antaranya sudah tersimpan didalam basis

Page 54: Proposal Ka

48

Universitas Indonesia

data SIMPEG yaitu: pangkat dan golongan pegawai pada saat diangkat menjadi

pejabat struktural, tingkat pendidikan pegawai, dan pendidikan dan pelatihan

pegawai. Untuk dua atribut berikutnya yaitu masa kerja pegawai dan pengalaman

pegawai dalam unit kerja akan didapatkan dengan menggunakan teknik-teknik

data integration, selection dan transformation yang merupakan tahap pra proses

dalam data mining.

3.3 Metode Analisis Data

Penelitian ini menggunakan pendekatan kuantitatif dalam tahap analisis

data, dengan menggunakan teknik classification untuk mendapatkan pola

pengisian jabatan struktural dari basis data SIMPEG dengan menggunakan

tahapan proses Knowledge Discovery Data (KDD).

Pola yang teridentifikasi akan dijadikan dasar pengetahuan bagi aplikasi

SIMPEG sehingga memiliki kecerdasan buatan untuk dapat memberikan usulan

pengisian jabatan struktural bagi Baperjakat dalam menyusun draft mutasi jabatan

struktural di lingkungan Pemerintah Kota Bogor.

Beberapa perangkat lunak berbasis open source yang dapat digunakan

untuk melakukan classification diantaranya adalah Weka, R, dan Rapidminer.

Berdasarkan hasil survey tahun 2007 yang dilakukan kdnuggets.com tiga

pearngkat lunak inilah yang situsnya paling sering dikunjungi oleh ahli data

mining (Pehlivanli,2011). Hasil survey lain di tahun 2008 menunjukkan Weka dan

Rapidminer yang paling sering diunduh dibandingkan dengan perangkat lunak

data mining lainnya (Pehlivanli,2011). Berikut ini adalah hasil survey tahun 2007

yang dilakukan oleh situs data mining kdnuggest.com:

Gambar 3.2 Hasil survey kdnuggets.com tahun 2007.

Seperti yang dapat dilihat pada Gambar 3.2 di atas, situs web Yale

(Rapidminer) adalah yang paling sering dikunjungi oleh ahli data mining,

selanjutnya diikuti oleh Weka dan R. Ketiga perangkat lunak ini tentunya

memiliki kelebihan dan kekurangan masing-masing yang dapat dilihat pada tabel

berikut:

Page 55: Proposal Ka

49

Universitas Indonesia

Data mining Tools Compare Contrast Criticize Synthesize Summarize Rujukan

Rapidminer

Aplikasi data

mining gratis

yang sering

digunakan

Memiliki fitur

lebih dari 400

algoritma data

mining dan

mendukung 22

format basis data

Tidak cocok

untuk mengolah

data yang

sederhana

mengingat fitur

yang sangat

kompleks

Data mining tool

gratis dengan fitur

yang sangat banyak

Aplikasi data

mining untuk

beragam jenis

algoritam dan

format data

Ayca Cahmak Pehlivanli ,

(2011). The Comparison

Of Data mining Tools

Weka

Tampilan CLI

command yang

sederhana dan

muudah dipahami

Algoritma yang

tersedia terkesan

secukupnya

Data mining tool

gratis dengan menu

yang sederhana dan

mudah untuk

dipelajari

Aplikasi data

mining sederhana

untuk sejumlah

format data

R Dapat

mengembangkan

algoritma sendiri

dengan bahasa

pemrograman R

Menguasai bahasa

pemrograman R

merupakan

kesulitan

tersendiri

Data mining tool

dengan

menggunakan

bahasa pemrograman

sendiri

Aplikasi data

mining dengan

kebebasan

mengembangkan

algoritma sendiri

Tabel 3.2 Tabel Perbandingan Data Mining Tools

Page 56: Proposal Ka

50

Universitas Indonesia

Berdasarkan Tabel 3.2 di atas maka untuk melakukan teknik

classification pada penelitian in cukup menggunakan perangkat lunak WEKA,

mengingat penggunaan R yang cukup rumit dengan bahasa pemrograman

tersendiri, dan Rapidminer yang memiliki fitur dan algoritma yang terlalu banyak

dan memakan resource yang lebih besar dibandingkan WEKA.

Page 57: Proposal Ka

51

Universitas Indonesia

BAB 4

JADWAL PENYUSUNAN KARYA AKHIR

Jadwal penyusunan karya akhir ini disusun untuk memetakan langkah-

langkah metode penelitian ke dalam rentang waktu yang ditentukan dalam bentuk

Gant Chart seperti pada bagan berikut ini:

Tabel 4.1 Jadwal Penyusunan Karya Akhir

Bulan 2 3 4 5

Minggu 4 1 2 3 4 1 2 3 4 1

Ekstraksi data dari basis data

SIMPEG untuk keperluan data

mining classification

Transformasi data ke dalam bentuk

yang mudah diolah untuk

implementasi classification dengan

menggunakan WEKA

Mengolah data hasil transformasi

ke dalam WEKA dengan

menggunakan beberapa algoritma

classification untuk

mengidentifikasi pola pengisian

jabatan struktural di lingkungan

Pemerintah Kota Bogor

Melakukan prediksi dengan pola

yang terbentuk dan mengukur

akurasi dari setiap algoritma

classification yang digunakan

Page 58: Proposal Ka

52

Universitas Indonesia

Bulan 2 3 4 5

Minggu 4 1 2 3 4 1 2 3 4 1

Analisis hasil prediksi dengan

membandingkan akurasi dari

beberapa algoritma classification

yang digunakan

Menyusun hasil analisis dan

menarik kesimpulan ke dalam

dokumen karya akhir

Berdasarkan Tabel 4.1 di atas dapat dilihat bahwa tahap awal yang

dilakukan adalah melakukan ekstraksi data dari basis data SIMPEG dengan

memilih beberapa tabel yang memiliki atribut yang dibutuhkan terkait penilaian

calon pejabat struktural seperti pangkat golongan pegawai pada tabel pegawai,

tingkat pendidikan pegawai pada tabel pendidikan, pendidikan dan pelatihan

pegawai pada tabel diklat, dan masa kerja pegawai dan masa kerja pada organisasi

pada tabel sk. Waktu yang diperlukan untuk melakukan ektraksi data tersebut

diperkirakan satu minggu dan akan dilaksanakan pada minggu ke-4 di bulan

Februari tahun 2014.

Langkah selanjutnya adalah melakukan transformasi data terhadap tabel –

tabel yng dikumpulkan pada tahap ekstraksi data. Dari beberapa kolom yang

saling terpisah pada beberapa tabel yang berbeda, atribut-atribut yang diperlukan

dikumpulkan menjadi satu tabel sebagai data transaksi yang nantinya akan diolah

oleh data mining tool WEKA. Pada tahap ini juga dilakukan validasi data dengan

cara membuang record yang tidak relevan misalnya ada atribut yang bernilai

NULL. Waktu yang diperlukan untuk melakukan transformasi data tersebut

diperkirakan dua minggu dan akan dilaksanakan pada minggu ke-1 dan ke-2 di

bulan Maret tahun 2014.

Setelah tahap transformasi data tahap selanjutnya adalah mengolah data

tersebut dengan menggunakan mining tool WEKA dengan menggunakan

Page 59: Proposal Ka

53

Universitas Indonesia

beberapa algoritma classification seperti C.45 dan random forrest. Waktu yang

diperlukan untuk melakukan pengolahan data tersebut diperkirakan dua minggu

dan akan dilaksanakan pada minggu ke-3 dan ke-4 di bulan Maret tahun 2014.

Tahap selanjutnya adalah melakukan prediksi dari pola data yang

terbentuk pada tahap sebelumnya. Data yang digunakan sebagai test data untuk

melakukan prediksi adalah data pegawai di tahun 2014. Waktu yang diperlukan

untuk melakukan prediksi pengisian jabatan struktural diperkirakan dua minggu

dan akan dilaksanakan pada minggu ke-1 dan ke-2 di bulan April tahun 2014.

Setelah hasil prediksi didapatkan langkah selanjutnya adalah mengukur

nilai akurasi prediksi dengan membandingkan hasil prediksi dengan penigisian

jabatan struktural di tahun 2014. Beberapa nilai akurasi yang dihasilkan dari

algortima yang berbeda akan dibandingkan untuk menghasilkan nilai akurasi yang

terbaik. Waktu yang diperlukan untuk melakukan analisis hasil prediksi

diperkirakan dua minggu dan akan dilaksanakan pada minggu ke-3 dan ke-4 di

bulan April tahun 2014.

Setelah nilai akurasi prediksi didapat maka langkah selanjutnya adalah

menuangkan seluruh hasil pengolahan data dan prediksi ke dalam tulisan karya

akhir ini. Waktu yang diperlukan untuk menyusun laporan dan kesimpulan

diperkirakan satu minggu dan akan dilaksanakan pada minggu ke-1 di bulan Mei

tahun 2014.

Page 60: Proposal Ka

54

Universitas Indonesia

DAFTAR PUSTAKA

Gultom, Arthur Salomo Hamonangan. (2009). Implementasi business intelligence

untuk pengenalan pola bisnis di Daerah Jakarta Selatan. Program Studi

Magister Teknologi Informasi. Fakultas Ilmu Komputer. Universitas

Indonesia.

Han , jiawei., Kamber, Micheline., Liang. Data mining Concepts And Techniques.

Morgan Kaufmann Publishers, 2006.

Iqbal. (2007). Penerapan Data mining Di Badan Meteorologi Dan Geofisika

(BMG) Untuk Memprediksi Cuaca Di Jakarta. Program Studi Magister

Teknologi Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.

Jantan, Hamidah., Hamdan , Abdul Razak., Othman, Zulaiha Ali .(2011). Data

mining Classification Techniques for Human Talent Forecasting. Faculty

of Computer and Mathematical Sciences UiTM, Terengganu and Faculty

of Information Science and Technology UKM, Bangi, Selangor, Malaysia.

Junanto, Achmad. (2010). Penerapan Data mining Pada Pemberian Biaya

Sponsorship Untuk Menemukan Pola Yang Efektif. Program Studi

Magister Teknologi Informasi. Fakultas Ilmu Komputer. Universitas

Indonesia.

Mahardika, Ramdhani. (2011). Aplikasi Data Mining Di Bidang Earth Science

Studi Kasus El Nino dan La Nina. . Program Studi Magister Teknologi

Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.

Pehlivanli, Ayca Cahmak. (2011). The Comparison Of Data mining Tools.

Department of Computer Engineering İstanbul Kültür University.

Peraturan Pemerintah Republik Indonesia Nomor 100 Tahun 2000 tentang

Pengangkatan PNS dalam Jabatan Struktural. Jakarta: Kementrian

Sekretariat Negara Republik Indonesia.

Peraturan Pemerintah Republik Indonesia Nomor 13 Tahun 2002 tentang

Perubahan atas Peraturan Pemerintah Republik Indonesia Nomor 100

Tahun 2000 tentang Pengangkatan PNS dalam Jabatan Struktural. Jakarta:

Kementrian Sekretariat Negara Republik Indonesia.

Page 61: Proposal Ka

55

Universitas Indonesia

Priambodo, Bagus. (2009). Analisis Model Komputasi Berbasis ANN Untuk

Forecasting Perekonomian Indonesia. Program Studi Magister Teknologi

Informasi. Fakultas Ilmu Komputer. Universitas Indonesia.

Siswantoro. (2008). Predictive Modelling Dalam Data mining Perbandingan

Macroeconomic Forecasting Menggunakan Vector Auto Regression Dan

General-To-Specific Modelling.

Turban, Efraim., Aronson, Jay E., Liang , Ting-Peng. Decission Support Systens

and Intelligent Systems. Pearson Education, Inc, 2005.

Yashoda, E. Prakash, P.S. (2012). Data Mining Classifcation Technique for

Talent Management using SVM. Department of Computer science and

Engineering, Sona College of Technology, Salem, Tamilnadu.

Ye, Peng. (2011). The Decision Tree Classifcation And Its Application Research

In Personnel Management. Huanggang Normal University Huanggang,

China

Page 62: Proposal Ka

56

Universitas Indonesia

Lampiran 1: Lampiran Transkrip Wawancara

Transkrip Wawancara Kepala Bidang Mutasi dan Pengembangan Karir Pegawai

selaku Sekretaris Badan pertimbangan Jabatan dan Kepangkatan (Baperjakat).

Nara Sumber : Ana Ismawati, S.I.P, M.Si.

Unit Kerja : Badan Kepegawaian Pendidikan dan Pelatihan

Jabatan : Kepala Bidang Mutasi dan Pengembangan Karir Pegawai

Tanggal : 19 Desember 2013

Tempat : Ruang Bidang Mutasi dan Pengembangan Karir Pegawai BKPP,

Gedung Sekretarian Daerah Kota Bogor Lantai 2, Pemerintah

Kota Bogor

TWR : Tosan Wiar Ramdhani

AI : Ana Ismawati ,S.I.P , M.Si

TWR : Bisa ibu ceritakan isu-su terkait dalam pengisian jabatan

struktural di lingkungan Pemerintah Kota Bogor?

AI : Wah cukup banyak diantaranya: belum tersusunya pola karir

untuk jabatan struktural dimana pada level kementrian hal ini

sudah tersusun dengan baik. Tim Baperjakat juga merasa kesulitan

dalam menulusuri data calon pejabat struktural yang diusulkan

mengingat data jabatan struktural pada basis data SIMPEG hanya

mencatat mulai tahun 2009, dan kita tetap harus menulusuri data

tersebut secara manual satu per satu dengan menggunakan aplikasi

SIMPEG.

TWR : Menurut ibu saat ini SIMPEG belum cukup membantu?

AI : Dari sisi data mungkin sudah tersedia meskipun tidak cukup

lengkap, karena kita tentunya ingin melihat riwayat jabatan

seseorang sebelum 2009. Oleh karena itu saya sempat menghimbau

untuk menyebarkan formulir kepada seluruh pejabat struktural

untuk mengisi data riwayat jabatan dengan lengkap agar dapat

dimasukkan ke dalam basis data SIMPEG. Selain dari pada itu

akan sangat membantu tim Baperjakat jika SIMPEG mampu

Page 63: Proposal Ka

57

Universitas Indonesia

mengusulkan nama-nama calon pejabat struktural jika terjadi

mutasi jabatan struktural.

TWR : Itu bisa saja dibuat bu, hanya bagaimana dengan regulasi yang

ada, apakah sudah cukup jelas teknis pelaksanaanya?

AI : Itu satu kendala lain, Peraturaturan Pemerintah No 2 Tahun 2000

yang kemudian diperbarui dengan Peraturaturan Pemerintah No 13

Tahun 2002 tidak secara spesifik mengatur mana komponen

kepegawaian yang menjadi prioritas dalam mengisi suatu jabatan

struktural. Syarat minimalnya hanya pangkat golongan dan untuk

komponen lainnya seperti masa kerja pegawai, pendidikan dan

pelatihan pegawai serta pengalaman dalam unit kerja tidak jelas

pembobotannya. Jadi bagaimana pak, apakah bapak bisa membuat

SIMPEG memiliki kemampuan untuk memberikan usulan dafttar

jabatan secara otomatis?

TWR : Seperti yang saya jelaskan sebelumnya bu, hal itu bisa saja

dilakukan, tapi harus jelas terlebih dahulu regulasinya.

Dikarenakan tidak ada pembobotan spesifik terhadap komponen

penilaian pegawai yang ibu jelaskan tadi, maka perlu dipelajari

pola pengisian jabatan struktural sebelumnya dari basis data

SIMPEG. Jika ibu tidak keberatan maka masalah ini yang akan

saya angkat menjadi penelitian untuk karya akhir dalam masa tugas

belajar saya.

AI : Silakan pak , saya sangat mendukung selama itu nantinya akan

memudahkan tugas Baperjakat dan saya juga akan bicarakan

dengan anggota Baperjakat lainnya.

TWR : Baik bu, apakah saya nanti diperkenankan melakukan presentasi

di depan tim Baperjakat?

AI : Silahkan saja, tapi menurut saya karena Baperjakat jarang sekali

mengadakan pertemuan kecuali jika ada mutasi jabatan struktural,

saya sarankan bapak melakukan presentasi kepada 3 dari total 7

anggota Baperjakat yang ada di BKPP saja termasuk saya.

Page 64: Proposal Ka

58

Universitas Indonesia

TWR : Baik bu, terima kasih banyak atas waktu dan kesempatan yang

diberikan.