a2.1100145 Wulan Handayani

download a2.1100145 Wulan Handayani

of 90

Transcript of a2.1100145 Wulan Handayani

  • 8/16/2019 a2.1100145 Wulan Handayani

    1/90

    MODEL DATA MINING DALAM PENENTUAN KONDISI

    PEREKONOMIAN PENDUDUK DI DESA MULYAJAYA

    SKRIPSI

    Oleh :

    WULAN HANDAYANI

    A2.1100145

    PROGRAM STUDI TEKNIK INFORMATIKA

    PROGRAM STRATA SATU (S1)

    SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

    (STMIK) SUMEDANG

    2015

  • 8/16/2019 a2.1100145 Wulan Handayani

    2/90

    MODEL DATA MINING DALAM PENENTUAN KONDISI

    PEREKONOMIAN PENDUDUK DI DESA MULYAJAYA

    SKRIPSI

    Diajukan Sebagai Satu Syarat Untuk Menyelesaikan

    Program Strata Satu (S1) Teknik Informatika

    Oleh :

    WULAN HANDAYANI

    A2.1100145

    PROGRAM STUDI TEKNIK INFORMATIKA

    PROGRAM STRATA SATU (S1)

    SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

    (STMIK) SUMEDANG

    2015

  • 8/16/2019 a2.1100145 Wulan Handayani

    3/90

    PERSETUJUAN SIDANG SKRIPSI

    Nama : Wulan Handayani

    NPM : A2.1100145

    Peminatan : Database

    Judul Skripsi : Model Data Mining dalam Penentuan Kondisi

    Perekonomian Penduduk di Desa Mulyajaya

    Telah disetujui untuk diuji pada siding akhir Skripsi Program Strata Satu

    (S1) Program Studi Teknik Informatika STMIK Sumedang.

    Pembimbing I Pembimbing II

    Dody Herdiana, ST., M.Kom.  Muhamad Nurdin A.M., M.Kom. 

  • 8/16/2019 a2.1100145 Wulan Handayani

    4/90

    PENGESAHAN SKRIPSI

    Nama : Wulan Handayani

    NPM : A2.1100145

    Peminatan : Database

    Judul Skripsi : Model Data Mining  dalam Penentuan Kondisi

    Perekonomian Penduduk di Desa Mulyajaya

    Telah disidangkan dan dinyatakan lulus pada sidang akhir Skripsi

    Program Strata Satu (S1) Teknik Informatika STMIK Sumedang pada

    tanggal Juli 2015.

    Penguji I Penguji II

    Asep Saeppani, M.Kom.  Yopi Hidayatul A., S.Kom., M.T. 

    Mengetahui,

    Ketua Program Studi Teknik Informatika

    Asep Saeppani, M.Kom.

  • 8/16/2019 a2.1100145 Wulan Handayani

    5/90

  • 8/16/2019 a2.1100145 Wulan Handayani

    6/90

    ABSTRAK

    Data mining  penduduk merupakan data yang sangat penting bagiDesa Mulyajaya, karena semua kegiatan administrasi penduduk, datanyabersumber dari data penduduk. Banyaknya data penduduk, menjadi salahsatu kendala dalam pengambilan keputusan mengenai hal kesejahteraanpenduduk, maka dari itu perlu diimbangi dengan pengetahuan yangdihasilkan dari kumpulan data tersebut. Untuk itu, peneliti tertarik untukmengangkat tema penelitian menerapkan model data mining untukmenggali informasi tersembunyi dari kumpulan data penduduk.

    Data   mining merupakan proses menemukan pola antar data danhubungan keterkaitan antar data dari suatu data besar menjadipengetahuan. Informasi yang dihasilkan yaitu kondisi perekonomian

    penduduk berupa kelompok keluarga miskin dan tidak miskin yang dapatdijadikan sebagai acuan pengambilan keputusan dimasa mendatang.Teknik yang digunakan yaitu teknik klasifikasi dengan metode decisiontrees  menggunakan algoritma C4.5.

    Tujuan penerapan model data mining  ini adalah untuk menhasilkaninformasi tentang kondisi perekonomian penduduk berupa kelompokkeluarga miskin dan tidak miskin dengan menyeleksi variabel yang adamenjadi beberapa variabel sesuai dengan kebutuhan informasi, meliputipendidikan, pekerjaan, penghasilan, dinding, lantai dan fasilitas buang airbesar. Variabel yang terpilih akan melewati proses pembersihan data,transformasi data, dan data   mining . Pada variabel terpilih kan dilakukanperhitungan entropy   dan gain , hasil perhitungan akan direfresentasikandalam bentuk pohon keputusan. Hasil dari pohon keputusan yaitu berupaaturan dalam penentuan kelompok keluarga miskin dan tidak miskin.

    Kata kunci  : Data mining, Klasifikasi, Decision trees, Algoritma C4.5,Perekonomian penduduk.

  • 8/16/2019 a2.1100145 Wulan Handayani

    7/90

    KATA PENGANTAR

    Assalamu’alaikum Wr.Wb.

    Puji dan syukur peneliti panjatkan kehadirat Allah SWT atas

    Rahmat, Hidayah dan Karunia-Nya, sehingga peneliti dapat

    menyelesaikan skripsi yang berjudul “MODEL DATA MINING   DALAM

    PENENTUAN KONDISI PEREKONOMIAN PENDUDUK DI DESA

    MULYAJAYA”. Skripsi ini merupakan salah satu syarat untuk

    menyelesaikan Program Studi Strata-1 (S1), pada jurusan Teknik

    Informatika di Sekolah Tinggi Manajemen Informatika dan Komputer

    (STMIK) Sumedang.

    Pada proses pembuatan skripsi ini, banyak bantuan, dorongan dan

    bimbingan dari berbagai pihak yang sangat berharga yang diberikan

    kepada peneliti. Maka, dalam kesempatan ini peneliti ingin mengucapkan

    terima kasih yang sebesar-besarnya kepada:

    1. Kedua orang tua, bapak dan mamah yang senantiasa memberikan

    do’a, motivasi, dukungan dan bantuannya, baik itu moril maupun

    materiil kepada peneliti.

    2. Bapak Dwi Yuniarto, S.Sos., M.Kom., selaku Ketua STMIK

    Sumedang.

    3. Bapak Asep Saeppani, M.Kom., selaku Ketua Jurusan Teknik

    Informatika STMIK Sumedang.

  • 8/16/2019 a2.1100145 Wulan Handayani

    8/90

    4. Bapak Dody Herdiana, ST., M.Kom., selaku Pembimbing I, yang telah

    meluangkan waktunya untuk memberikan bimbingan, bantuan, arahan

    serta saran kepada peneliti dalam penyusunan skripsi ini.

    5. Bapak M. Nurdin, M.Kom., selaku Pembimbing II, yang telah

    meluangkan waktunya untuk memberikan bimbingan, bantuan, arahan

    serta saran kepada peneliti dalam penyusunan skripsi ini.

    6. Seluruh Staf Pengajar STMIK Sumedang yang telah memberikan ilmu,

    arahan serta masukan selama masa perkuliahan.

    7. Seluruh staf Tata Usaha STMIK Sumedang yang telah memberikan

    dukungan dan kerjasamanya.

    8. Teman-teman seperjuangan, terutama kepada Tiara Febyanti R, Novia

    Kemalasari, Fitri Wulandari dan Almira Kurniara yang selalu

    memberikan motivasi, semangat dan senantiasa bertukar pikiran

    dalam menyelesaikan skripsi ini.

    9. Kakak saya Ujang Cahya yang senantiasa memberikan semangat.

    10. Bapak Oma Suryana selaku Kepala Desa dan semua Staf Desa

    Mulyajaya yang bersedia memberikan data penduduk sebagai objek

    penelitian serta informasi yang berguna untuk kelancaran penelitian

    skripsi.

    11. Serta berbagai pihak lainnya yang tidak dapat disebutkan satu persatu

    yang telah banyak memberikan bantuan dan saran sampai

    terealisasikannya skripsi ini.

  • 8/16/2019 a2.1100145 Wulan Handayani

    9/90

    Peneliti menyadari bahwa dalam penyusunan skripsi ini tidak lepas

    dari kekurangan karena keterbatasan kemampuan sehingga diharapkan

    saran dan masukkan yang ditujukan untuk menyempurnakan penyusunan

    skripsi ini sangat peneliti harapkan.

    Akhir kata peneliti mengucapkan terima kasih, semoga skripsi ini

    dapat bermanfaat dan semoga Allah SWT memberikan hikmah yang

    berlimpah kepada kita semua. Amin.

    Wassalamu’alaikum Wr. Wb.

    Sumedang, Juni 2015

    Peneliti

  • 8/16/2019 a2.1100145 Wulan Handayani

    10/90

     

    DAFTAR ISI

    HALAMAN JUDUL ................................................................................. i

    HALAMAN PERSETUJUAN .................................................................. ii

    HALAMAN PENGESAHAN .................................................................... iii

    ORISINILITAS SKRIPSI ........................................................................ iv

    ABSTRAK .............................................................................................. v

    KATA PENGANTAR .............................................................................. vi

    DAFTAR ISI ........................................................................................... ix

    DAFTAR TABEL .................................................................................... xii

    DAFTAR GAMBAR ................................................................................ xiv

    DAFTAR RUMUS .................................................................................. xv

    DAFTAR LAMPIRAN ............................................................................. xvi

    BAB I PENDAHULUAN

    1.1 Latar Belakang ................................................................................ 1 

    1.2 Perumusan Masalah ........................................................................ 6 

    1.3 Tujuan Penelitian ............................................................................. 6 

    1.4 Pembentukan Model ........................................................................ 7 

    1.5 Kontribusi Penelitian ........................................................................ 8 

  • 8/16/2019 a2.1100145 Wulan Handayani

    11/90

    1.6 Sistematika Penulisan ..................................................................... 9 

    1.7 Kegunaan Model .............................................................................. 11 

    BAB II TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN

    2.1 Model Data Mining dalam Penentuan Kondisi Perekonomian

    Penduduk di Desa Mulyajaya .......................................................... 12

    2.1.1 Basis Data ............................................................................... 12

    2.1.2 Data Mining ............................................................................. 15

    2.1.3 Kondisi Perekonomian Penduduk ........................................... 22

    2.2 Spesifikasi yang Berhubungan dengan Model yang Sudah Ada

    dalam Bidang Masalah yang Akan Diteliti........................................ 24

    2.3 Kerangka Pemikiran ........................................................................ 29

    BAB III METODOLOGI PENGEMBANGAN MODEL

    3.1 Objek Penelitian .............................................................................. 31 

    3.2 Metodologi Pengembangan Model Secara Skematik ...................... 32 

    3.3 Uraian Rinci Metodologi Pengembangan Model .............................. 32 

    3.4 Langkah-Langkah Pengembangan Model ....................................... 35 

    3.5 Rencana Validasi Model .................................................................. 38 

    3.6 Jadwal Penelitian ............................................................................. 38 

    BAB IV PENGEMBANGAN MODEL

    4.1 Pendefinisian Sistem ....................................................................... 39

    4.1.1 Aspek Struktur ......................................................................... 40

    4.1.2 Perlaku Sistem ........................................................................ 40

    4.1.3 Performansi Sistem ................................................................. 42

  • 8/16/2019 a2.1100145 Wulan Handayani

    12/90

    4.1.4 Lingkungan Sistem .................................................................. 42

    4.2 Formulasi Model Yang Dikembangkan ............................................ 43

    4.2.1 Formulasi Database yang sedang Berjalan ............................ 43

    4.2.2 Formulasi Sistem yang Diusulkan ........................................... 44

    4.2.3 Formulasi Pre-processing ....................................................... 47

    4.2.4 Formulasi Transformasi .......................................................... 48

    4.2.5 Formulasi Data  Mining ............................................................ 48

    4.2.6 Formulasi Klasifikasi ............................................................... 49

    4.2.7 Formulasi Pohon Keputusan ................................................... 50

    4.2.8 Formulasi Aturan (IF-THEN ) ................................................... 54

    4.3 Analisis Model ................................................................................. 54

    4.4 Validasi Model ................................................................................. 65

    BAB V KESIMPULAN DAN SARAN

    5.1 Kesimpulan ...................................................................................... 66 

    5.2 Saran ............................................................................................... 66 

    DAFTAR PUSTAKA

    LAMPIRAN - LAMPIRAN

  • 8/16/2019 a2.1100145 Wulan Handayani

    13/90

    DAFTAR TABEL

    Tabel 3.1 Jadwal Penelitian ..................................................................... 38

    Tabel 4.1 Struktur Data Tabel Data KK .................................................... 44

    Tabel 4.2 Struktur Data Tabel Data Kondisi Fisik Rumah ........................ 45

    Tabel 4.3 Struktur Data Tabel Kualitas Penduduk ................................... 45

    Tabel 4.4 Struktur Data Tabel Kesejahteraan Penduduk ......................... 45

    Tabel 4.5 Format Tabel Setelah Pemilihan Variabel ................................ 47

    Tabel 4.6 Klasifikasi Pendidikan .............................................................. 49

    Tabel 4.7 Klasifikasi Pendidikan ............................................................. 49

    Tabel 4.8 Klasifikasi Penghasilan ............................................................ 49

    Tabel 4.9 Format Data Klasifikasi ............................................................ 50

    Tabel 4.10 Data Sampel .......................................................................... 50

    Tabel 4.11 Skema Tabel Perhitungan Entropy  dan Gain  ........................ 51

    Tabel 4.12 Database Penduduk Yang Sedang Berjalan .......................... 54

    Tabel 4.13 Tabel Penduduk Sebelum Diseleksi ...................................... 55

    Tabel 4.14 Tabel Kesejahteraan Keluarga Sebelum Seleksi .................. 56

  • 8/16/2019 a2.1100145 Wulan Handayani

    14/90

    Tabel 4.15 Tabel Kondisi Fisik Rumah Sebelum Seleksi ......................... 56

    Tabel 4.16 Tabel Kualitas Keluarga Sebelum Seleksi ............................ 57

    Tabel 4.17 Proses Penggabungan Tabel ................................................. 58

    Tabel 4.18 Data Hasil Seleksi .................................................................. 58

    Tabel 4.19 Hasil Transformasi ................................................................. 60

    Tabel 4.20 Tabel Hasil Proses Klasifikasi ................................................ 60

    Tabel 4.21 Hasil Perhitungan ................................................................... 61

    Tabel 4.22 Tabel Hasil Pengujian ............................................................ 64

  • 8/16/2019 a2.1100145 Wulan Handayani

    15/90

    DAFTAR GAMBAR

    Gambar 3.1 Proses Pengembangan Model Secara Skematik ................. 32

    Gambar 4.1 Aspek Struktur Model Data Mining Penentuan Kondisi

    Perekonomian Penduduk ...................................................... 40

    Gambar 4.2 Skema Database Yang Sedang Berjalan ............................. 43

    Gambar 4.3 Skema Database  Baru ......................................................... 48

    Gambar 4.4 Skema Pohon Keputusan (Decision Tree ) ........................... 53

    Gambar 4.5 Pohon Keputusan Yang Dihasilkan ...................................... 62

  • 8/16/2019 a2.1100145 Wulan Handayani

    16/90

    DAFTAR RUMUS

    Rumus 2.1 Menghitung Gain ................................................................. 21

    Rumus 2.1 Menghitung Entropy ............................................................ 21

  • 8/16/2019 a2.1100145 Wulan Handayani

    17/90

    DAFTAR LAMPIRAN

    Lampiran 1 Riwayat Hidup

    Lampiran 2 Kartu Bimbingan

    Lampiran 3 Surat Keputusan

    Lampiran 4 Surat Izin Penelitian

    Lampiran 5 Data Rekaptulasi Penduduk

    Lampiran 6 Hasil Wawancara

  • 8/16/2019 a2.1100145 Wulan Handayani

    18/90

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang

    Berdasarkan Peraturan Pemerintah Republik Indonesia Nomor 72

    Tahun 2005 tentang Desa. Pemerintahan Desa adalah penyelenggaraan

    urusan pemerintahan oleh Pemerintah Desa dan Badan

    Permusyawaratan Desa dalam mengatur dan mengurus kepentingan

    masyarakat setempat berdasarkan asal-usul dan adat istiadat setempat

    yang diakui dan dihormati dalam sistem Pemerintahan Negara Kesatuan

    Republik Indonesia. Pembentukan desa dimaksudkan untuk

    meningkatkan pelayanan publik guna mempercepat terwujudnya

    kesejahteraan masyarakat.

    Menurut Undang-Undang Republik Indonesia Nomor 11 Tahun 2011

    tentang Kesejahteraan Sosial, Pasal 1 Ayat 1adalah:

    “Kesejahteraan Sosial adalah kondisi terpenuhinya kebutuhanmaterial, spiritual, dan sosial warga negara agar dapat hidup layakdan mampu mengembangkan diri, sehingga dapat melaksanakanfungsi sosialnya”.

    Salah satu ciri ilmu kesejahteraan sosial adalah upaya

    pengembangan metodologi untuk menangani berbagai macam masalah

    sosial, baik tingkat individu, kelompok, keluarga maupun masyarakat ( Adi,

    1994: 3-5). Sesuai Undang-Undang Republik Indonesia Nomor 11 Tahun

    2011 tentang Kesejahteraan Sosial, Pasal 1 Ayat 1, maka Pemerintah

  • 8/16/2019 a2.1100145 Wulan Handayani

    19/90

    Kabupaten Sumedang, telah melaksanakan berdasarakan ketentuan-

    ketentuan pokok kesejahteraan sosial masyarakat.

    Begitu halnya dengan Desa Mulyajaya Kecamatan Wado, yang

    merupakan bagian wilayah Kabupaten Sumedang. Dengan jumlah ± 810

    kepala keluarga dengan jumlah RT 21 dan RW 6, mata pencaharian

    penduduk sebagian besar petani dan buruh dengan latar belakang

    pendidikannya tamatan Sekolah Dasar dan Sekolah Menengah Pertama.

    Hal ini berpengaruh pada pendapatan perkapita masyarakat Desa

    Mulyajaya yang masih rendah, minimnya pendapatan dan rendahnya

    pendidikan merupakan kendala cukup pital dikalangan masyarakat.

    Banyaknya masyarakat Desa Mulyajaya yang belum bisa meningkatkan

    taraf perekonomian yang dapat berdampak terhadap kondisi ekonomi

    masyarakat desa menjadi kendala bagi Pemerintah Desa dalam hal

    kesejahteraan penduduk desa.

    Bedasarkan paparan kendala Desa Mulyajaya dalam hal

    kesejahteraan penduduk, Desa Mulyajaya itu sendiri mengalami kesulitan

    dalam mendapatkan informasi penduduk miskin dan tidak miskin yang

    masih belum jelas, dan juga sering terjadinya faktor subjektif karena

    pengambil keputusan diberikan kepada setiap RW, data penduduk miskin

    dan tidak miskin tersebut nantinya akan dijadikan bahan untuk

    pengambilan keputusan mengenai penduduk yang mendapat bantuan

    apabila pemerintah mengeluarkan bantuan sosial bagi penduduk. Kendala

    yang dihadapi oleh Pemerintah Desa Mulyajaya, secara umum merupakan

  • 8/16/2019 a2.1100145 Wulan Handayani

    20/90

    kendala di wilayah lainnya yang ada di Kabupaten Sumedang. Hal ini,

    disebabkan karena pengolahan data dari beberapa sumber data

    kependudukan dan data hasil survey kelapangan untuk dijadikan bahan

    dalam pengambilan keputusan belum dikelola secara maksimal.

    Pengolahan data tersebut dapat dimaksimalkan dengan adanya

    sebuah basis data. Basis Data terdiri atas 2 kata, yaitu Basis dan Data.

    Basis kurang lebih dapat diartikan sebagai markas atau gudang, tempat

    bersarang/berkumpul. Sedangkan Data adalah representasi fakta dunia

    nyata yang mewakili suatu objek seperti manusia (pegawai, siswa,

    pembeli, pelanggan), barang, hewan, peristiwa, konsep, keadaan, dan

    sebagainya, yang diwujudkan dalam bentuk angka, huruf, symbol teks,

    gambar, bunyi atau kombinasinya (Fatahansyah: 2, 2012).

    Selain itu, diperlukan juga suatu model untuk memaksimalkan

    pengolahan data penduduk, yang nantinya dapat digunakan dalam

    pengambilan keputusan dari beberapa data yang sudah ada untuk

    menggambarkan kondisi ekonomi penduduk di Desa Mulyajaya, salah

    satunya dengan menggunakan model data mining.  Data mining   adalah

    proses yang menggunakan teknik statistic , matematika, kecerdasan

    buatan, dan machine learning  untuk mengekstraksi dan mengidentifikasi

    informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai

    database  besar.

    Basis Data sendiri dapat didefinisikan dalam sejumlah sudut

    pandang seperti:

  • 8/16/2019 a2.1100145 Wulan Handayani

    21/90

    a. Himpunan kelompok data (arsip) yang saling berhubungan yang

    diorganisasi sedemikian rupa agar elak dapat dimanfaatkan kembali

    dengan cepat dan mudah.

    b. Kumpulan data yang saling berhubungan yag disimpan secara

    bersama sedemikian rupa dan tanpa pengulangan (redudansi ) yang

    tidak perlu, untuk memenuhi berbagai kebutuhan.

    c. Kumpulan file  /tabel/arsip yang saling berhubungan yang disimpan

    dalam media penyimpanan elektronis.

    Pemanfaatan Basis Data dilakukan untuk memenuhi sejumlah tujuan

    (objektif) seperti berikut:

    a. Kecepatan dan kemudahan (Speed );

    b. Efisiensi ruang penyimpanan (Space );

    c. Keakuratan (Accurancy );

    d. Ketersedian (Availability );

    e. Kelengkapan (Completeness );

    f. Keamanan (Security );

    g. Kebersamaan Pemakai (Sharability ).

  • 8/16/2019 a2.1100145 Wulan Handayani

    22/90

    Basis Data dapat dibedakan menjadi 4 jenis, yaitu (Nukhrid, Diakses

    26 Maret 2015) :

    a. Basis Data Individual

    Basis data individual adalah basis data yang digunakan oleh

    perseorangan. Biasanya basis data seperti ini banyak dijumpai

    dilingkungan PC.

    b. Basis Data Perusahaan

    Basis data perusahaan adalah basis data yang dimaksudkan untuk

    diakses oleh sejumlah pegawai dalam sebuah perusahaan dalam

    sebuah lokasi. Basis data seperti ini disimpan dalam sebuah server

    dan para pemakai dapat mengakses dari masing-masing komputer

    yang berkedudukan sebagai client.

    c. Basis Data Terdistribusi

    Basis data terdistribusi adalah basis data yang disimpan pada

    sejumlah komputer yang terletak pada beberapa lokasi. Model seperti

    ini banyak digunakan bank yang memiliki sejumlah cabang di berbagai

    kota dan melayani transaksi perbankan yang bersifatonline 

    d. Basis Data Publik

    Basis Data Publik adalah basis data yang dapat diakses oleh siapa

    saja (publik).

    Berdasarkan uraian di atas, maka dalam penulisan skripsi ini peneliti

    ingin mencoba melakukan analisis data dengan serangkaian proses yang

  • 8/16/2019 a2.1100145 Wulan Handayani

    23/90

    memanfaatkan teknologi data mining yang dimaksudkan untuk

    memaksimalkan pengolahan data dari beberapa sumber data

    kependudukan dan data hasil survey kelapangan untuk dijadikan bahan

    dalam pengambilan keputusan. Selain itu, perlu juga diterapkan model

    data mining untuk memaksimalkan data penduduk agar dapat digunakan

    dalam proses penentuan kondisi perekonomian penduduk di Desa

    Mulyajaya berupa kelompok keluarga miskin dan tidak miskin.

    Untuk merealisasikan hal tersebut, peneliti mencoba untuk

    menganalisis bagaimana menentukan kondisi perekonomian penduduk

    berupa kelompok keluarga miskin dan tidak miskin dengan memilih judul

    Skripsi yaitu “Model Data Mining   dalam Penentuan Kondisi

    Perekonomian Penduduk di Desa Mulyajaya”. 

    1.2 Perumusan Masalah

    Berdasarkan latar belakang, maka perumusan masalahnya, yaitu:

    1. Bagaimana menerapkan model data mining   dalam proses penentuan

    kondisi perekonomian penduduk di Desa Mulyajaya?

    1.3 Tujuan Penelitian

    Tujuan dari penelitian ini adalah sebagai berikut:

    1. Terciptanya sebuah basis data yang menerapkan model data   mining  

    dalam memaksimalkan pengelolaan data penduduk di Desa Mulyajaya.

  • 8/16/2019 a2.1100145 Wulan Handayani

    24/90

    2. Basis data ini, diharapkan dapat menyajikan informasi yang akurat

    untuk melihat kondisi perekonomian penduduk, serta dapat

    dimanfaatkan untuk beberapa keperluan desa, seperti pengambilan

    keputusan menyangkut dengan kesejahteraan sosial penduduk.

    1.4 Pembentukan Model

    Model data mining   yang akan dibentuk dalam penelitian ini, yaitu

    discovery model. Dimana pada discovery model ini merupakan sebuah

    sistem basis data yang dapat secara langsung menemukan informasi

    penting yang tersembunyi dalam suatu data yang besar. Data-data yang

    ada kemudian dipilah-pilah untuk menemukan suatu pola yang ada, dan

    keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan

    dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam

    data yang ditemukan dalam waktu yang sesingkat mungkin. Sebagai

    contoh, misalkan pemerintah Desa ingin menemukan kelompok penduduk

    yang memenuhi syarat untuk menerima suatu bantuan.

    Model data mining   dengan discovery model ini dikembangkan

    dengan menggunakan teknik klasifikasi. Klasifikasi adalah proses untuk

    menemukan model atau fungsi yang menjelaskan atau membedakan

    konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas

    dari suatu objek yang labelnya tidak diketahui. Tujuan dari klasifikasi ini

    adalah untuk menganalisa training  data dan membentuk sebuah deskripsi

    yang akurat atau sebuah model untuk setiap kelas berdasarkan feature- 

  • 8/16/2019 a2.1100145 Wulan Handayani

    25/90

    feature   yang tersedia di dalam data tersebut. Metode yang akan

    digunakan yaitu metode decision tree   (pohon keputusan) dengan

    algoritma C4.5.

    Alasan digunakan model dan teknik serta metode diatas, adalah

    memberikan ketepatan dan kemudahan dalam penyediaan informasi yang

    akurat untuk kebutuhan pengambilan keputusan. Proses pada pohon

    keputusan adalah mengubah bentuk data (tabel) menjadi model pohon,

    mengubah model pohon menjadi rule , dan menyederhanakan rule .

    Manfaat utama dari penggunaan pohon keputusan adalah

    kemampuannya untuk mempermudah  proses pengambilan keputusan

    yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan

    lebih menginterpretasikan solusi dari permasalahan.

    1.5 Kontribusi Penelitian

    Penelitian ini diharapkan berguna bagi peneliti juga dapat berguna

    bagi lembaga pemerintah desa yang bersangkutan dan juga bagi peneliti

    selanjutnya yang berkaitan dengan permasalahan yang menggunakan

    data mining . Adapun manfaat dari data penelitian ini adalah sebagai

    berikut:

    a. Menambah ilmu pengetahuan tentang pemanfaatan data  mining  yang

    diterapkan dalam pengolahan data, khususnya data penduduk.

  • 8/16/2019 a2.1100145 Wulan Handayani

    26/90

    b. Mengetahui cara membuat model data   mining   untuk menghasilkan

    informasi yang akurat agar dapat mengatasi faktor subjektif di Desa

    tersebut.

    c. Penelitian bisa dijadikan bahan rekomendasi oleh pihak yang

    berkepentingan, baik bagi akademisi, praktisi maupun oleh aparat

    desa.

    d. Memberikan kemudahan dalam penyajian informasi kependudukan

    dalam pengambilan keputusan.

    1.6 Sistematika Penulisan

    BAB I PENDAHULUAN

    1.1 Latar Belakang

    1.2 Rumusan Masalah

    1.3 Tujuan Penelitian

    1.4 Pembentukan Model

    1.5 Kontribusi Penelitian

    1.6 Sistematika Penulisan

    1.7 Kegunaan Model

    BAB II TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN

    2.1 Penerapan Model Data Mining dalam Penentuan Kondisi

    Perekonomian Penduduk di Desa Mulyajaya

    2.1.1 Basis data

    2.1.2 Data mining

  • 8/16/2019 a2.1100145 Wulan Handayani

    27/90

  • 8/16/2019 a2.1100145 Wulan Handayani

    28/90

    4.2.6 Formulasi Klasifikasi

    4.2.7 Formulasi Pohon Keputusan

    4.2.8 Formulasi Aturan (IF-THEN )

    4.3 Analisis Model

    4.4 Validasi Model

    BAB V KESIMPULAN DAN SARAN

    5.1 Kesimpulan

    5.2 Saran

    Daftar Pustaka

    Lampiran-lampiran

    1.7 Kegunaan Model

    Kegunaan dari model data  mining  yang akan dikaji dalam penelitian,

    yaitu diharapkan dapat:

    a. Memaksimalkan data penduduk di Desa Mulyajaya, sehingga dapat

    disajikan secara tepat dan akurat.

    b. Membantu menemukan informasi yang akurat dari basis data

    kependudukan dan dapat melihat bagaimana kondisi perekonomian

    penduduk desa dengan melihat berapa banyak penduduk yang

    termasuk kategori miskin dan tidak miskin sehingga dapat

    dimanfaatkan untuk pengambilan keputusan dibidang kependudukan

    yang lain.

  • 8/16/2019 a2.1100145 Wulan Handayani

    29/90

    BAB II

    TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN

    2.1 Model Data Mining dalam Penentuan Kondisi Perekonomian

    Penduduk di Desa Mulyajaya

    2.1.1 Basis data

    Basis data terdiri dari 2 kata, yaitu Basis dan Data. Basis dapat

    diartikan sebagai markas atau gudang tempat bersarang/berkumpul.

    Sedangkan data adalah representasi fakta dunia nyata yang mewakili

    suatu objek seperti manusia (pegawai, siswa, pembeli, pelanggan),

    barang hewan, peristiwa, konsep, keadaan dan sebagainya, yang

    diwujudkan dalam bentuk angka, huruf, symbol, teks, gambar, bunyi atau

    kombinasi.

    Menurut Fatahansyah (2012 : 3), Database  dapat didefinisikan dalam

    sejumlah sudut pandang: 

    a. Himpunan kelompok data (arsip) yang saling berhubungan yang

    diorganisasi sedemikian rupa agar kelak dapat dimanfaatkan kembali

    dengan cepat dan mudah. 

    b. Kumpulan data yang saling berhubungan yang disimpan secara

    bersama sedemikian rupa dan tanpa pengulangan (redudansi ) yang

    tidak perlu, untuk memenuhi berbagai kebutuhan. 

    c. Kumpulan file  /tabel/arsip yang saling berhubungan yang disimpan

    dalam media penyimpanan elektronis. 

  • 8/16/2019 a2.1100145 Wulan Handayani

    30/90

    Dari beberapa sudut pandang diatas peneliti dapat menyimpulkan

    bahwa Database atau basis data adalah kumpulan file-file   yang

    mempunyai kaitan antara satu file   dengan file   yang lain sehingga

    membentuk data untuk menghasilkan suatu informasi untuk memenuhi

    berbagai kebutuhan. Bila terdapat file   yang tidak dapat dipadukan atau

    dihubungkan dengan file   yang lainnya, berarti file   tersebut bukanlah

    kelompok dari satu database , melainkan membentuk satu database

    sendiri. Atau basis data (database) adalah kumpulan dari data yang saling

    berhubungan (relation)  antara satu dengan yang lainnya yang

    diorganisasikan berdasarkan skema atau struktur tertentu.

    Model database   adalah kumpulan dari konsepsi basis data yang

    biasanya mewakili struktur dan relasi data yang terdapat pada suatu basis

    data. Esensi sebuah model basis data adalah tempat dimana data atau

    suatu metodologi untuk menyimpan data. Model data yang paling umum

    berdasarkan pada bagaimana hubungan antar record   yang tersimpan

    dalam database . Terdapat 3 jenis model dasar yang paling umum, yaitu:

    Model Database  Hirarki, Model Database   Jaringan dan Model Database  

    Relasional.

    Model database  yang digunakan pada penelitian ini adalah model

    database   relasional karena merupakan model yang paling sederhana,

    sehingga mudah digunakan oleh pengguna. Model ini menggunakan

    sekumpulan table berdimensi dua (yang disebut relasi atau table), dengan

    masing-masing relasi tersusun atas baris dan atribut.

  • 8/16/2019 a2.1100145 Wulan Handayani

    31/90

    Prinsip utama dari database   adalah pengaturan data/arsip.

    Sedangkan tujuan utamanya adalah kemudahan dan kecepatan dalam

    pengambilan kembali data/arsip. Perbedaannya hanya terletak pada

    media penyimpanan yang digunakan.

    Secara lebih lengkap, pemanfaatan basis data dilakukan untuk

    memenuhi sejumlah tujuan (objektif) seperti berikut:

    a. Kecepatan dan Kemudahan (Speed ) 

    Pemanfaatan basis data memungkinkan kita untuk dapat

    menyimpanan data atau melakukan perubahan/manipulasi terhadap

    data atau menampilkan kembali data tersebut dengan lebih cepat dan

    mudah. 

    b. Efisiensi Ruang Penyimpanan (Space ) 

    Dengan basis data, efisiensi/optimalisasi penggunaan ruang

    penyimpanan dapat dilakukan, karena kita dapat melakukan

    penekanan jumlah redudansi data, baik dengan menerapkan sejumlah

    pengkodean atau dengan membuat relasi-relasi (dalam bentuk tabel)

    antar kelompok data yang saling berhubungan. 

    c. Keakuratan (Accuracy ) 

    Pemanfaatan pengkodean atau pembentukan relasi antar data

    bersama dengan penerapan aturan/batas (constraint ) tipe data,

    domain data, keunikan data, dan sebagainya, sangat berguna untuk

    menekan ketidakakuratan penyimpanan data. 

    d. Ketersediaan (Availability ) 

  • 8/16/2019 a2.1100145 Wulan Handayani

    32/90

    Pertumbuahan data (baik dari sisi jumlah maupun jenisnya) sejalan

    dengan waktu akan semakin membutuhkan ruang penyimpanan yang

    besar. Karena itu kita dapat memilah adanya data utama/master, data

    transaksi, data histori hingga data yang kadaluarsa.

    e. Kelengkapan (Completeness ) 

    Dalam sebuah basis data, disamping data kita juga harus menyimpan

    struktur. Untuk mengakomodasi kebutuhan kelengkapan data yang

    semakin berkembang, maka kita tidak melakukan perubahan struktur

    dalam basis data. 

    f. Keamanan (security) 

    Dalam basis data harus diterapkan aspek keamanan, dengan begitu

    kita dapat menentukan siapa saja pengguna yang dapat menggunakan

    basis data beserta objek di dalamnya dan operasi apa saja yang boleh

    dilakukan. 

    g. Kebersamaan Pemakai (Sharability ) 

    Basis data yang dikelola oleh sistem (aplikasi) yang menduung

    lingkungan multi-user, akan dapat menjaga/menghindari munculnya

    persoalan baru seperti inkonsistensi data atau kondisi deadlock . 

    2.1.2 Data mining

    Menurut Fajar Astuti Hermawati (2013: 3) Data mining   adalah

    proses yang mempekerjakan satu atau lebih teknik pembelajaran

    komputer (machine learning ) untuk menganalisis dan mengekstraksi

  • 8/16/2019 a2.1100145 Wulan Handayani

    33/90

    pengetahuan (knowledge ) secara otomatis. Data mining   merupakan

    proses iterative dan interaktif untuk menemukan pola baru yang sahih

    (sempurna), bermanfaat dan dapat dimengerti dalam suatu database yang

    sangat besar (massive database ). Pola-pola ini dikenali oleh perangkat

    tertentu yang dapat memberikan suatu analisa data yang berguna dan

    berwawasan yang kemudian dapat dipelajari dengan lebih teliti.

    Data mining   adalah suatu istilah yang digunakan untuk

    menguraikan penemuan pengetahuan di dalam database . Data mining  

    adalah proses yang menggunakan teknik statistic , matematika,

    kecerdasan buatan, dan machine learning   untuk mengekstraksi dan

    mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait

    dari berbagai database  besar (Turban, dkk. 2005).

    Menurut Gartner Group data mining adalah suatu proses

    menemukan hubungan yang berarti, pola, dan kecenderungan dengan

    memeriksa dalam sekumpulan besar data yang tersimpan dalam

    penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik

    static  dan matematika (Larose, 2005).

    Berdasarkan beberapa pendapat di atas, maka dapat disimpulkan

    bahwa data mining   merupakan proses yang berisi pencarian pola yang

    diinginkan dalam database yang besar untuk membantu pengambilan

    keputusan diwaktu yang akan datang.

    Hubungan yang dicari dalam data mining  dapat berupa hubungan

    antara dua atau lebih dalam satu dimensi. Selain itu, hubungan juga dapat

  • 8/16/2019 a2.1100145 Wulan Handayani

    34/90

    dilihat antara dua atau lebih atribut dan dua atau lebih objek. Sementara

    itu, penemuan pola merupakan keluaran lain dari data mining .

    Menurut Fayyad yang dikutip oleh Kusrini dan Emha Taufiq Luthfi

    (2009: 6) menyatakan bahwa Istilah data mining  dan knowledge discovery

    in database   (KDD) sering kali digunakan secara bergantian untuk

    menjelaskan proses penggalian informasi tersembunyi dalam suatu basis

    data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang

    berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam

    keseluruhan proses KDD adalah data mining . Proses KDD secara garis

    besar dapat dijelaskan sebagai berikut:

    a. Data Selection  

    Pemilihan (seleksi) data dari sekumpulan data operasional perlu

    dilakukan sebelum tahap pengalian informasi dalam KDD dimulai. Data

    hasil seleksi yang akan digunakan untuk proses data mining  disimpan

    dalam suatu berkas, terpisah dari basis data operasional.

    b. Pre-processing/Cleaning  

    Sebelum proses data mining   dapat dilaksanakan, perlu dilakukan

    cleaning   pada data yang menjadi fokus KDD. Proses cleaning

    mencakup antara lain membuang duplikasi data, memeriksa data yang

    inkonsisten, dan memperbaiki kesalahan pada data.

    c. Transformation  

    Coding   adalah proses tranformasi pada data yang telah dipilih,

    sehingga data tersebut sesuai untuk proses data mining . Proses

  • 8/16/2019 a2.1100145 Wulan Handayani

    35/90

    coding   dalam KDD merupakan proses kreatif dan sangat tergantung

    pada jenis atau pola informasi yang akan dicari dalam basis data.

    d. Data Mining  

    Data mining  adalah proses mencari pola atau informasi menarik dalam

    data terpilih dengan menggunakan teknik atau metode tertentu.

    Teknik, metode, atau algoritma dalam data mining  sangat bervariasi.

    Pemilihan metode atau algoritma yang tepat sangat bergantung pada

    tujuan dan proses KDD secara keseluruhan.

    e. Interpretation/Evalution  

    Pola informasi yang dihasilkan dari proses data mining   perlu

    ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang

    berkepentingan. Tahap ini, merupakan bagian dari proses KDD yang

    disebut interpretation . Tahap ini mencakup pemeriksaan apakah pola

    atau informasi yang ditemukan bertentangan dengan fakta atau

    hipotesis yang ada sebelumnya.

    Data mining  dibagi menjadi beberapa kelompok berdasarkan tugas

    yang dapat dilakukan, yaitu (Larose, 2005):

    a. Deskripsi

    Teknik yang ingin mencoba mencari cara untuk menggambarkan pola

    dan kecenderungan yang terdapat dalam data.

  • 8/16/2019 a2.1100145 Wulan Handayani

    36/90

    b. Estimasi

    Teknik yang dibangun menggunakan record   lengkap yang

    menyediakan nilai dari variabel target sebagai nilai prediksi.

    c. Prediksi

    Teknik dalam prediksi menyatakan nilai dari hasil akan ada di masa

    mendatang.

    d. Klasifikasi

    Klasifikasi adalah menentukan sebuah record  data baru ke salah satu

    dari beberapa kategori (class ) yang telah didefinisikan sebelumnya.

    e. Pengklusteran

    Pengklusteran merupakan pengelompokan record , pengamatan, atau

    memperhatikan dan membentuk kelas objek-objek yang memiliki

    kemiripan.

    f. Asosiasi

    Tugas asosiasi dalam data mining   adalah menemukan atribut yang

    muncul data satu waktu.

    Dari beberapa teknik data mining  di atas, maka teknik yang akan

    digunakan dalam menerapkan model Data mining  adalah teknik klasifikasi.

    Klasifikasi yaitu suatu fungsionalitas data mining  yang akan menghasilkan

    model untuk memprediksi kelas atau kategori dari objek-objek di dalam

    basis data. Teknik klasifikasi merupakan suatu pendekatan sistematis

    untuk membangun model klasifikasi dari suatu himpunan data masukan.

  • 8/16/2019 a2.1100145 Wulan Handayani

    37/90

    Klasifikasi dapat disajikan dengan menggunakan berbagai metode seperti

    decision trees, Bayesian classification, k-nearst neighbor, Bayesian

    classification, neural network, classification (IF-THEN) rule .

    Metode yang akan dipakai yaitu metode decision trees   dengan

    menggunakan algoritma C4.5. Menurut Kusrini (2009: 13) Metode pohon

    keputusan dapat mengubah fakta yang sangat besar menjadi pohon

    keputusan yang merepresentasikan aturan. Pohon keputusan juga

    berguna untuk mengekplorasi data, menemukan hubungan tersembunyi

    antara sejumlah calon variabel input dengan sebuah variabel target.

    Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan

    untuk membagi kumpulan data yang besar menjadi himpunan-himpunan

    record   yang lebih kecil dengan menerapkan serangkaian aturan

    keputusan.

    Sebuah model pohon keputusan terdiri dari sekumpulan aturan

    untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil,

    lebih homogen dengan memperhatikan pada variabel tujuannya. Variabel

    tujuannya dikelompokan dengan pasti dan pohon keputusan mengarah

    pada perhitungan probabilitas dari tiap-tiap record   terhadap kategori

    tersebut atau untuk mengklasifikasi record   dengan mengelompokannya

    dalam satu kelas. Algoritma yang dipakai dalam pembentukan pohon

    keputusan, antara lain ID3, CART dan C4.5. Peneliti menggunakan

    algoritma C4.5.

  • 8/16/2019 a2.1100145 Wulan Handayani

    38/90

    Secara umum algoritma C4.5 untuk membangun pohon keputusan

    adalah sebagai berikut:

    a. Pilih atribut sebagai akar.

    b. Buat cabang untuk tiap-tiap nilai.

    c. Bagi kasus dalam cabang.

    d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang

    memiliki kelas yang sama.

    Untuk memilih atribut sebagai akar, didasarkan pada nilai gain  

    tertinggi dari atribut yang ada. Untuk menghitung gain  digunakan rumus

    seperti tertera dalam persamaan 1 berikut.

    ,  = − ∑   |||| ∗   Rumus …… 1)

    Keterangan:

    S : Himpunan Kasus

    A : Atribut

    n : Jumlah partisi atribut A

    |Si| : Jumlah kasus pada partisi ke-i

    |S| : Jumlah kasus dalam S

    Sementara itu perhitungan nilai entropi dapat dilihat pada persamaan 2

    berikut:

     = − ∑   − ∗ log     Rumus …… 2)

  • 8/16/2019 a2.1100145 Wulan Handayani

    39/90

    Keterangan:

    S : Himpunan kasus

    A : Atribut

    n : Jumlah partisi S

    pi : Proporsi dari Si terhadap S

    2.1.3 Kondisi perekonomian penduduk

    Data penduduk adalah data perseorangan atau data agregat yang

    terstruktur sebagai hasil kegiatan pendaftaran penduduk dan pencatatan

    sipil. Sumber data kependudukan yang pokok dibagi menjadi 3, yaitu: a)

    Sensus penduduk, b) Registrasi penduduk, dan c) survey penduduk.

    (Sumber: Ditjen Kependudukan & Pencatatan Sipil, Kemendagri RI)

    Penduduk dikategorikan menjadi penduduk miskin dan tidak miskin,

    adapun 14 kriteria miskin menurut standar Badan Pusat Statistik (BPS)

    yaitu:

    a. Luas lantai bangunan tempat tinggal kurang dari 8 m2 per orang

    b. Jenis lantai tempat tinggal terbuat dari tanah/bambu/kayu murahan

    c. Jenis dinding tempat tinggal dari bamboo/rumbia/kayu berkualitas

    rendah/tembok tanpa diplester

    d. Tidak memiliki fasilitas buang air besar/bersama-sama dengan rumah

    tangga lain

    e. Sumber penerangan rumah tangga tidak menggunakan listrik

  • 8/16/2019 a2.1100145 Wulan Handayani

    40/90

    f. Sumber air minum berasal dari sumur/mata air tidak

    terlindungi/sungai/air hujan

    g. Bahan bakar untuk memasak sehari-hari adalah kayu

    bakar/arang/minyak tanah

    h. Hanya mengonsumsi danging/susu/ayam satu kali dalam seminggu

    i. Hanya membeli satu stel pakaian baru dalam setahun

     j. Hanya sanggup makan sebanyak satu/dua kali dalam sehari

    k. Tidak sanggup membayar biaya pengobatan dipuskesmas/poliklinik

    l. Sumber penghasilan kepala rumah tangga adalah: petani dengan luas

    lahan 500 m2, buruh tani, nelayan, buruh bangunan, buruh

    perkebunan dan atau pekerjaan lainnya dengan pendapatan dibawah

    Rp.600.000,- per bulan

    m. Pendidikan tertinggi kepala rumah tangga: tidak sekolah/tidak tamat

    SD/hanya SD

    n. Tidak memiliki tabungan/barang yang mudah dijual dengan minimal

    Rp.500.000,- seperti sepeda motor kredit/non kredit, emas, ternak,

    kapal motor, atau barang modal lainnya.

    Jika minimal 9 variabel terpenuhi maka suatu rumah tangga

    dikategorikan sebagai rumah tangga miskin.

  • 8/16/2019 a2.1100145 Wulan Handayani

    41/90

    2.2 Spesifikasi yang Berhubungan dengan Model yang Sudah Ada

    dalam Bidang Masalah yang Akan Diteliti

    a. Penerapan data mining untuk menentukan criteria  calon nasabah

    potensial pada AJB BUMIPUTRA 1912 Palembang (Khoiril Amri,

    2013)

    Pada penelitian ini menggunakan model data mining   dengan

    teknik klasifikasi untuk mengahadapi persaingan yang terjadi dalam

    dunia bisnis asuransi, para pihak terkait dalam perusahaan tersebut

    dituntut untuk memikirkan strategi-strategi serta terobosan yang dapat

    menjamin kelangsungan dari bisnis asuransi tersebut. Dengan

    memanfaatkan jumlah data yang sangat besar, perusahaan-

    perusahaan tentunya dapat menemukan beragam informasi. Dengan

    adanya informasi criteria   nasabah perusahaan asuransi dapat

    mengambil keputusan yang tepat dalam menerapkan strategi yang

    tepat untuk menawarkan produk kepada calon nasabah berdasarkan

    criteria  nasabah yang dulu.

    Data mining   diharapkan dapat membantu perusahaan

    menemukan informasi yang sangat penting dari gudang data mereka

    agar dapat meningkatkan bisnis perusahaan. Salah satu metode yang

    digunakan dalam data mining   adalah klasifikasi dimana metode

    tersebut akan menghasilkan model untuk memprediksi kelas atau

    kategori dari objek di dalam database .

  • 8/16/2019 a2.1100145 Wulan Handayani

    42/90

    Persamaan penelitian ini yaitu menggnakan model data mining  

    dengan teknik klasifikasi untuk menghasilkan informasi lebih dari

    informasi yang sudah ada, namun dalam membangun pohon

    keputusannya berbeda, Khoiril Amri menggunakan software  DTREG.

    b. Model data mining dalam memaksimalkan data penduduk desa

    (Studi Kasus: Desa Sarimekar Kecamatan Jatinunggal) (Tresna

    Gustyan R, 2012)

    Dalam penelitian ini, digunakan data mining  untuk menggali nilai

    tambah dari suatu kumpulan data berupa pengetahuan yang selama

    ini tidak diketahui secara manual dan untuk menghindari sistem yang

    belum memiliki integrasi informasi yang baik sehingga mengakibat

    keabsahan data. Teknik klasifikasi dengan menggunakan pohon

    keputusan ini memiliki kemampuan untuk menyajikan informasi dan

    layanan administrasi kependudukan yang cepat, tepat dan akurat.

    Hasil yang didapatkan digunakan untuk memaksimalkan data

    penduduk yang dimanfaatkan dalam pengelompokan keluarga

    sejahtera dan prasejahtera.

    Persamaan dengan penelitian tersebut adalah menggunakan

    model data mining   dalam menemukan informasi serta teknik yang

    digunakan sama yaitu teknik klasifikasi dengan pohon keputusan

    namun algoritma dan hasil penelitian berbeda. Penelitian Tresna

  • 8/16/2019 a2.1100145 Wulan Handayani

    43/90

    Gustyan R. yaitu penemuan pola dari data penduduk untuk

    menghasilkan informasi kelompok keluarga sejahtera dan prasejahtera

    sedangkan peneliti menemukan pola keterkaitan antara data yang satu

    dengan data yang lainnya untuk menghasilkan informasi tersembunyi

    dalam database penduduk dalam penentuan kondisi perekonomian

    penduduk desa.

    c. Penentuan jurusan sekolah menengah atas dengan algoritma

    fuzzy c-means (Bahar, 2011)

    Pada penelitian ini menggunakan konsep clustering  dalam data  

    mining   untuk menentukan jurusan sekolah menengah atas. Dalam

    proses pendidikan, perbedaan masing-masing siswa harus

    diperhatikan karena dapat menetukan baik buruknya prestasi siswa.

    Dengan adanya perbedaan individu tersebut, maka fungsi pendidikan

    tidak hanya dalam proses belajar mengajar, tetapi juga meliputi

    bimbingan/konseling, pemilihan dan penempatan siswa sesuai dengan

    kapasitas individual yang dimiliki. Kemungkinan yang akan terjadi jika

    siswa mengalami kesalahan dalam penempatan yang tidak sesuai

    dengan kapasitas individual yang dimiliki adalah rendahnya prestasi

    belajar siswa.

    Konsep clustering   dalam data mining   diharapkan dapat

    membantu penempatan siswa sesuai dengan kapasitas

    kemampuannya atau sering disebut dengan penjurusan siswa,

  • 8/16/2019 a2.1100145 Wulan Handayani

    44/90

    sehingga dengan penempatan penjurusan yang sesuai akan

    meningkatkan minat dan memberikan kenyamanan seseorang dengan

    dalam belajar.

    Persamaan penelitian ini yaitu menggunakan model data mining ,

    dalam penelitian ini Bahar menggunakan teknik clustering   dengan

    algoritma fuzzy c-means , sedangkan peneliti menggunakan teknik

    klasifikasi dan metode decision tree   dengan menggunakan algoritma

    C4.5.

    d. Penerapan data mining   pada penjualan produk minuman di

    PT.Pepsi ColaIndoberages menggunakan metode clustering  (Enur

    Irdiansyah)

    Pada penelitian ini menggunakan data mining   dengan metode

    clustering   untuk menghadapi dunia bisnis yang dinamis dan penuh

    persaingan, para pelaku di perusahaan terkait harus senantiasa

    memikirkan cara-cara untuk terus survive  dan mengembangkan skala

    bisnis. Dalam menghadapi persaingan bisnis dan meningkatkan

    pendapatan perusahaan, pihak terkait dalam perusahaan dituntut

    untuk dapat mengambil keputusan yang tepat dalam menentukan

    strategi pemasaran produk minuman yang akan dijual.

    Data mining dimaksudkan untuk memberikan solusi nyata bagi

    para pengambil keputusan di dunia bisnis, untuk mengembangkan

    bisnis. Salah satu metode yang terdapat dalam data mining yang

  • 8/16/2019 a2.1100145 Wulan Handayani

    45/90

    digunakan dalam penelitian ini adalah clustering dimana metode

    tersebut mengidentifikasi objek yang memiliki kesamaan karakteristik

    tertentu.

    Persamaan penelitian ini yaitu menggunakan model data

    mining , namun dalam penggunaan metodenya berbeda, Enur

    Irdiansyah menggunakan metode clustering .

    e. Penerapan data mining   pada RSUP Dr. Moh Hosein Sumatera

    Selatan untuk mengelompokan hasil diagnosa pasien pengguna

    asuransi kesehatan miskin (ASKIN) (Sandro Somario, 2013)

    Dalam penelitian ini menggunakan model data mining   dengan

    teknik clustering   untuk mengetahui apa saja yang menjadi penyebab

    penyakit yang di derita pasien pengguna asuransi kemiskinan. Dengan

    mengetahui hal tersebut maka dapat dilakukan usaha pencegahan

    dalam bentuk pemeriksaan disertai penyuluhan ke tempat-tempat

    tinggal masyarakat kurang mampu yang menggunakan askin.

    Data mining diharapkan menjadi solusi untuk mengatasi masalah

    yang dihadapi rumah sakit dalam memberikan informasi yang tepat

    dan akurat, dimana informasi tersebut terdapat dalam penyimpanan

    data rumah sakit.

    Persamaan dengan penelitian ini yaitu menggunakan model data

    mining untuk menghasilkan informasi dari dalam database yang sudah

    ada, namun peneliti Sandro Somario menggunakan teknik clustering  

  • 8/16/2019 a2.1100145 Wulan Handayani

    46/90

    dengan menggunakan algoritma CLMH (Centroid Linkage Hierarchical

    Method ).

    2.3 Kerangka Pemikiran

    Berdasarkan tinjauan pustaka di atas, maka kerangka pemikiran

    untuk model data mining   dalam penentuan kondisi perekonomian

    penduduk di Desa Mulyajaya, yaitu dilakukan dengan teknik klasisfikasi. 

    Data mining  merupakan kegiatan untuk menggali informasi dari data yang

    berukuran besar. Untuk menghasilkan informasi lebih dari sekedar data

    penduduk dibutuhkan suatu teknik yaitu teknik klasifikasi. Tujuan dari

    klasifikasi adalah untuk menemukan model dari training set   yang

    membedakan atribut ke dalam kategori atau kelas yang sesuai, teknik ini

    digunakan untuk mengkalsifikasikan kelas yang belum diketahui

    sebelumnya. Proses ini diterapkan dalam memaksimalkan data penduduk

    agar dapat digunakan untuk kepentingan lain sesuai kebutuhan.

    Proses pencarian pada teknik klasifikasi menggunakan pohon

    keputusan, metode ini memiliki aturan yang dapat dengan mudah

    dipahami dengan bahasa alami. Metode ini juga melakukan proses

    pencarian dengan cara menemukan hubungan tesembunyi antara

    seumlah calon variabel input dengan variabel target. Variabel target

    didasarkan pada nilai gain   tertinggi dari atribut yang ada, nilai gain   ini

    merupakan nilai yang dijadikan prioritas, untuk menentukan nilai gain  

    tersebut digunakan salah satu algoritma data mining  yaitu algoritma C4.5.

  • 8/16/2019 a2.1100145 Wulan Handayani

    47/90

  • 8/16/2019 a2.1100145 Wulan Handayani

    48/90

    BAB III

    METODOLOGI PENGEMBANGAN MODEL

    3.1 Objek Penelitian

    Objek penelitian pada penulisan skripsi ini adalah proses penentuan

    kondisi perekonomian penduduk di Desa Mulyajaya yang berlokasi Jln.

    Dalem Cengkok No. 01 Kecamatan Wado. Desa Mulyajaya memiliki

     jumlah penduduk ± 2.468 dengan jumlah RT 21 dan RW 6. Dalam

    menentukan kelompok keluarga miskin dan tidak miskin, pihak desa

    hanya melakukan dengan cara melihat penghasilan tiap kepala keluarga

    saja tanpa melihat kondisi yang lainnya, sedangkan ada 14 kriteria miskin

    menurut pemerintah yang harus menjadi pertimbangan dalam penentuan

    keluarga miskin. Dari proses tersebut, dapat dilihat kategori keluarga

    miskin masih belum jelas, sehingga para aparat desa sering kali

    mengalami kesulitan dalam hal pemberian bantuan sosial karena hanya

    melihat dari satu kondisi saja.

    Untuk menghasilkan informasi yang akurat mengenai penentuan

    kelompok keluarga miskin dan tidak miskin berdasarkan 14 kriteria miskin

    menurut BPS, maka diperlukan suatu data mining   untuk menggali

    informasi tersembunyi dari database   penduduk menggunakan teknik

    klasifikasi dan metode decision tree s dengan menggunakan algoritma

    C4.5.

  • 8/16/2019 a2.1100145 Wulan Handayani

    49/90

    3.2 Metodologi Pengembangan Model Secara Skematik

    Dalam penelitian ini terdapat beberapa langkah, adapun langkah-

    langkah dalam pengembangan model tersebut secara skematik dapat

    dilihat pada gambar 3.1.

    Gambar 3.1 Proses Pengembangan Model Secara Skematik

    3.3 Uraian Rinci Metodologi Pengembangan Model

    Berdasarkan metodologi pengembangan model secara skematik,

    dapat diuraikan secara rinci langkah-langkah setiap prosesnya sebagai

    berikut:

    PENGURAIAN MASALAH

    PENGUMPULAN DATA

    DATA MINING  

    LAPORAN

    TRANSFORMATION

    PRE-PROCESSING

    SELECTION

  • 8/16/2019 a2.1100145 Wulan Handayani

    50/90

    a. Penguraian Masalah

    Pada tahap ini menjelaskan masalah-masalah yang terdapat di Desa

    Mulyajaya yaitu pada database   penduduk dan prosedur yang sedang

    berjalan di desa tersebut, tujuannya untuk mengetahui masalah apa

    yang terdapat dalam pengolahan data penduduk mengenai proses

    penentuan kondisi perekonomian penduduk serta menjelaskan

    manfaat model data mining   untuk mengatasi masalah di Desa

    Mulyajaya tersebut.

    b. Pengumpulan Data

    Pada tahap pengumpulan data, data yang berhubungan dengan objek

    penelitian dikumpulan.

    c. Selection

    Pemilihan (seleksi) data dari sekumpulan data operasional,

    menciptakan himpunan data target atau memfokuskan pada sampel

    data.

    d. Pre-processing/cleaning

    Proses pembersihan data dilakukan dengan membuang duplikasi data

    yang tidak konsisten.

    e. Transformation

    Proses transformasi pada data yang telah dipilih, sehingga data

    tersebut sesuai untuk proses mining. Meliputi penentuan fitur penting

    untuk mempresentasikan data bergantung pada tujuan yang ingin

  • 8/16/2019 a2.1100145 Wulan Handayani

    51/90

    dicapai. Seperti menghubungkan tabel yang memiliki keterkaitan pola,

    dan transformasi lainnya.

    f. Data mining

    Data mining  merupakan proses pencarian pola atau informasi menarik

    dalam data terpilih dengan menggunakan teknik atau metode tertentu.

    Adapun langkah-langkah model data mining  dengan teknik klasifikasi

    menggunakan algoritma C4.5 adalah sebagai berikut:

    1. Pemilihan variabel.

    2. Melakukan pra-proses, yaitu:

    a. Pilih atribut sebagai akar.

    b. Buat cabang untuk tiap-tiap nilai.

    c. Bagi kasus dalam cabang.

    d. Ulangi proses untuk setiap cabang sampai semua kasus pada

    cabang memiliki kelas yang sama.

    3. Merancang diagram alir data.

    4. Merancang basis data.

    g. Laporan

    Berupa hasil yang diperoleh dari beberapa langkah sebelumnya diatas.

    Hasil dari proses-proses tersebut dapat digunakan untuk pengambilan

    keputusan di masa depan.

  • 8/16/2019 a2.1100145 Wulan Handayani

    52/90

    3.4 Langkah-langkah Pengembangan Model

    Langkah-langkah yang digunakan dalam pengembangan model ini

    adalah sebagai berikut:

    a. Penguraian Masalah

    Pada tahap ini peneliti melakukan beberapa langkah, yaitu:

    1. Melihat proses kerja yang sedang berlangsung.

    2. Mengidentifikasi masalah yang terdapat dalam database   serta

    masalah dalam proses kerja yang sedang berlangsung.

    3. Menarik masalah yang sudah diidentifikasi sebelumnya.

    b. Pengumpulan Data

    Pada tahap pengumpulan data, peneliti melakukan beberapa langkah,

    diantaranya sebagai berikut:

    1. Observasi

    Menganalisis objek yang akan diteliti untuk memperoleh informasi

    dan data yang akan dijadikan bahan penelitian.

    2. Interview

    Melakukan wawancara dengan petugas desa yang berkaitan

    dengan kependudukan.

    3. Studi pustaka

    Mengumpulkan buku sumber dan melakukan browsing   untuk

    mendapatkan informasi yang sesuai dengan masalah yang diteliti.

  • 8/16/2019 a2.1100145 Wulan Handayani

    53/90

    c. Selection

    Pada tahap ini peneliti melakukan pemilihan data dari sekumpulan

    data kependudukan sesuai dengan data yang dibutuhkan dan data

    yang akan diolah berdasarkan kriteria tertentu. Kriteria yang akan

    dipakai dalam penelitian ini adalah kriteria miskin berdasarkan BPS,

    kriteria ini digunakan untuk proses penentuan kondisi perekonomian

    penduduk desa. Data yang sudah diseleksi akan disimpan dalam

    database  baru, terpisah dari database  operasional desa.

    d. Pre-processing

    Pada tahap ini semua data akan melewati tahap pembersihan data

    (Cleaning ) yaitu membuang redudansi   (duplikasi) data dengan cara

    memeriksa nilai data setiap variabel, memperbaiki kesalahan dalam

    penulisan dan kesalahan lainnya pada data penduduk. Selain itu, ada

     juga penggantian atribut-atribut data yang tidak relevan dengan

    hipotesa data mining  yang dimiliki.

    e. Transformasi

    Pada tahap ini semua data akan direpresentasikan sesuai tujuan yang

    diinginkan, seperti menghubungkan antar tabel yang memiliki

    keterkaitan pola, menambah kolom, dan transformasi lainnya.

    Transformasi ini merupakan proses yang bertujuan untuk

    mengkonversi data dari format sistem operasional ke format sistem

    target, sehingga data tersebut sesuai dengan data mining .

  • 8/16/2019 a2.1100145 Wulan Handayani

    54/90

    f. Data mining

    Pada proses data mining   variabel yang terpilih akan dilakukan

    pencarian model, dengan cara mengelompokan data berdasarkan

    klasifikasi tertentu, memilih metode apa yang sesuai dengan informasi

    yang ingin diketahui, memilih teknik sesuai dengan model yang sudah

    dipilih, dan menentukan algoritma yang akan digunakn untuk

    menghasilkan informasi.

    Pada penelitian ini metode yang digunakan adalah teknik klasifikasi

    yang merupakan proses pencarian sekumpulan model atau fungsi

    yang menggambarkan dan membedakan kelas data dengan tujuan

    untuk memprediksi kelas yang belum diketahui sebelumnya. Metode

    yang digunakan yaitu decision tree   dengan menggunakan algoritma

    C4.5.

    g. Laporan

    Hasil yang diperoleh dari penelitian ini yaitu menentukan kondisi

    perekonomian di Desa Mulyajaya yang memperlihatkan apakah

    penduduk di Desa tersebut termasuk kategori miskin atau tidak miskin,

    hal tersebut dapat berguna untuk pengambilan keputusan dimasa

    mendatang mengenai bantuan sosial dari pemerintah yang akan

    diberikan kepada penduduk secara tepat.

  • 8/16/2019 a2.1100145 Wulan Handayani

    55/90

    3.5 Rencana Validasi Model

    a. Menguji apakah model data mining   dengan teknik klasifikasi dapat

    memaksimalkan data penduduk agar dapat disajikan secara tepat dan

    akurat? 

    b. Menguji apakah model data mining  dapat menghasilkan informasi yang

    akurat mengenai penentuan kondisi perekonomian penduduk di Desa

    Mulyajaya? 

    3.6 Jadwal Penelitian

    Tabel 3.1 Jadwal Penelitian

    No KegiatanBulan / MingguMaret April Mei Juni1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

    1 Penguraian Masalah

    2 Pengumpulan Data3 Selection4 Praprocesing5 Transformation6 Data mining  

    7 Laporan

  • 8/16/2019 a2.1100145 Wulan Handayani

    56/90

    BAB IV

    PENGEMBANGAN MODEL

    4.1 Pendefinisian Sistem

    Model data mining dalam penentuan kondisi perekonomian

    penduduk di Desa Mulyajaya adalah model data mining yang digunakan

    untuk mengetahui suatu pola data dan hubungan keterkaitan antar data

    dari data penduduk, yang bertujuan agar dapat menemukan informasi

    tersembunyi dari database   penduduk, yaitu berupa kodisi perekonomian

    penduduk. Model data mining dalam penentuan kondisi perekonomian

    penduduk di Desa Mulyajaya ini, menggunakan teknik klasifikasi dengan

    metode pohon keputusan (decision tree ).

    Pada data mining ini, akan digali informasi dari data penduduk dan

    data penduduk yang dipilih berdasarkan kebutuhan, selanjutnya disimpan

    dalam database baru yang terpisah dari data operasional. Sebelum diolah

    lebih lanjut, data penduduk akan melalui beberapa tahapan. Tahap

    pembersihan data meliputi penghapusan duplikat data (redudansi),

    memperbaiki kesalahan penulisan dan kesalahan lainnya. Data yang

    sudah bersih akan ditransformasi sesuai dengan kebutuhan informasi,

    yaitu dengan menggabungkan tabel yang memiliki keterkaitan pola data

    dikelompokan pada kelas yang belum diketahui sebelumnya. Setelah

    beberapa langkah tersebut, maka langkah selanjutnya adalah menggali

    informasi dari data yang sudah dikelompokan berdasarkan kriteria tertentu

  • 8/16/2019 a2.1100145 Wulan Handayani

    57/90

    sesuai dengan ke

    dari keterkaitan pol

    keputusan dan alg

    4.1.1 Aspek strukt

    Tahap dalam

    gambar 4.1 sebag

    Pen

    (

    4.1.2 Perilaku sist

    Dari aspek st

    dari model data m

    dengan dihasilkan

    berikut:

    butuhan informasinya. Untuk menghas

    a data tersebut diproses menggunakan

    ritma C4.5.

    ur

    membangun model data mining did

    i berikut:

    Gambar 4.1Aspek Struktur Model Data Miningntuan Kondisi Perekonomian Penduduk

    umber: Fajar Astuti Hermawati, 2013)

    m

    ruktur di atas, maka dapat dijelaskan

    ning yang dikembangkan, mulai dari da 

      informasi. Adapun penjelasannya a

    ilkan informasi

    metode pohon

    finisikan pada

    erilaku sistem

    tabase  sampai

    alah sebagai

  • 8/16/2019 a2.1100145 Wulan Handayani

    58/90

    a. Database  Penduduk sebagai tempat menyimpan data penduduk.

    b. Proses seleksi data adalah model proses dalam pemilihan data

    berdasarkan kebutuhan informasi dan disimpan pada database   baru

    yang terpisah dari database  operasional.

    c. Proses pembersihan data adalah model proses dalam pembersihan

    data, seperti menghapus duplikasi data dan memperbaiki kesalahan

    lainnya.

    d. Proses transformasi adalah model proses data sesuai kebutuhan,

    seperti menambahkan variabel dan proses lainnya.

    e. Proses data mining adalah model proses untuk mengolah kembali data

    dalam mendapatkan keterkaitan pola antar variabel.

    f. Untuk mengetahui keterkaitan pola antar varibel, data akan

    dikelompokan berdasarkan kriteria tertentu sesuai dengan kebutuhan

    informasi.

    g. Variabel yang sudah terpilih akan diseleksi kembali untuk dijadikan

    node . Pemilihan variabel dilakukan berdasarkan perhitungan nilai

    entropy   dan nilai gain   tertinggi. Dari perhitungan tersebut dapat

    diketahui beberapa variabel serta nilai-nilai variabel yang mendukung

    untuk pengambilan keputusan tehadap suatu kebutuhan informasi.

    h. Informasi yang dihasilkan dari perhitungan entropy   dan gain   dapat

    dijadikan pengetahuan baru berupa kelompok penduduk mampu dan

    tidak mampu yang berguna sebagai sarana pembangunan desa di

    masa mendatang.

  • 8/16/2019 a2.1100145 Wulan Handayani

    59/90

    4.1.3 Performansi sistem

    Berdasarkan perilaku sistem di atas maka di dapat performansi

    sistem dalam penerapan model data mining pada database   penduduk,

    mampu mengatasi masalah-masalah data kependudukan, diantaranya:

    a. Data yang akurat mampu mengefisiensikan kinerja aparat desa,

    sehingga pelayanan kepada masyarakat bisa lebih maksimal.

    b. Penggalian informasi terhadap data penduduk mampu menghasilkan

    informasi penting bagi pihak Desa, sehingga dapat dijadikan sebagai

    acuan untuk proses pengambilan keputusan dimasa mendatang.

    4.1.4 Lingkungan sistem

    Kemampuan data mining untuk menangani data dalam jumlah besar

    memungkinkan data mining diterapkan pada masalah-masalah kompleks

    yang ukurannya tidak dibatasi oleh otak manusia, seperti diterapkan pada

    database   penduduk. Namun, dalam implementasi data mining pada

    database penduduk kurang maksimal apabila ada beberapa faktor yang

    tidak bisa dikendalikan oleh sistem, diantaranya:

    a. Dalam menemukan pengetahuan dengan data mining tidak bisa

    dilakukan secara instan.

    b. Penilaian hasil data mining dilakukan secara manual.

    c. Sumber daya manusia yang belum memahami cara kerja model data

    mining dan algoritma data mining yang cukup kompleks.

  • 8/16/2019 a2.1100145 Wulan Handayani

    60/90

    4.2 Formulasi Model yang Dikembangakan

    Pada tahap ini menjelaskan tentang formula-formula yang akan di

    kembangkan untuk membuat model data mining yang mampu mengatasi

    masalah pada proses penentuan kondisi perekonomian penduduk.

    4.2.1 Formulasi database  yang sedang berjalan

    Berdasarkan database   yang sedang berjalan, skema data yang

    terbentuk adalah sebagai berikut:

    Gambar 4.2 Skema Database  yang Sedang Berjalan

    Permasalahan yang dapat dilihat dari proses kerja yang sedang

    berlangsung dan masalah dalam database yang sedang berjalan yaitu

    belum maksimalnya pengelolaan database   penduduk yang hanya

    digunakan untuk menampilkan data penduduk saja, selain itu belum

     jelasnya kelompok keluarga miskin dan tidak miskin sehingga masih

  • 8/16/2019 a2.1100145 Wulan Handayani

    61/90

    terjadi kesalahan dalam hal pengambilan keputusan mengenai pemberian

    bantuan sosial kepada penduduk.

    Solusi yang diusulkan berdasarkan permasalahan tersebut di atas

    yaitu menerapan model data mining dalam penentuan kondisi

    perekonomian penduduk di Desa Mulyajaya. Model data mining ini

    digunakan untuk menggali informasi tersembunyi mengenai kondisi

    perekonomian penduduk dari database   penduduk. Sehingga database

    tersebut tidak hanya digunakan untuk menampilkan data penduduk saja.

    4.2.2 Formulasi sistem yang diusulkan

    Berdasarkan database yang berjalan, terdapat 4 tabel. Adapun

    struktur tabel yang terdapat pada database  penduduk, yaitu:

    Tabel 4.1 Struktur Data Tabel Data KK

    No Field Type Size1 Kode Keluarga Number

    2 Nama Kepala Keluarga Text 303 No Urut Number

    4 NIK Number5 Nama Anggota Keluarga Text 306 Jenis Kelamin Text 1

    7 Hubungan Keluarga Text 208 Tempat Lahir Text 15

    9 Tanggal Lahir Date/Time10 Usia Number11 Status Perkawinan Text 15

    12 Agama Text 1013 Golongan Darah Text 214 Kewarganegaraan Text 2515 Pendidikan Text 2516 Pekerjaan Text 30

  • 8/16/2019 a2.1100145 Wulan Handayani

    62/90

    Tabel 4.2 Struktur Data Tabel Data Kondisi Fisik Rumah

    No Field Type Size

    1 Kode Keluarga Number2 Nama Kepala Keluarga Text 303 Penguasaan Aset Tanah Text 30

    4 Dinding Rumah Text 105 Lantai Rumah Text 106 Atap Rumah Text 10

    Tabel 4.3Struktur Data Tabel Kualitas Penduduk

    No Field Type Size

    1 Kode Keluarga Number2 Nama Kepala Keluarga Text 303 Fasilitas Buang Air Besar Text 50

    4 Pola Makan Text 255 Kebiasaan Berobat Text 50

    Tabel 4.4 Struktur Data Tabel Kesejahteraan Penduduk

    No Field Type Size1 Kode Keluarga Number

    2 Nama Kepala Keluarga Text 303 Penghasilan/Bulan (Rp) Number4 Pengeluaran/Bulan (Rp) Number

    5 Kepemilikan Rumah Text 20

    Pembentukan database  baru dilakukan dengan cara menyeleksi data

    penduduk sesuai dengan kebutuhan informasi. Informasi yang dibutuhkan

    yaitu kelompok keluarga miskin dan tidak miskin. Kriteria pengelompokan

    keluarga telah ditentukan oleh Badan Pusat Statistik, tetapi hanya

    beberapa kriteria yang diambil dalam menentukan pengelompokan

    keluarga di Desa Mulyajaya, karena tidak semua kriteria dapat digunakan

    sebagai tolak ukur ketidakmampuan suatu keluarga. Adapun kriteria

    tersebut adalah sebagai berikut:

  • 8/16/2019 a2.1100145 Wulan Handayani

    63/90

    a. Seluruh penduduk mendapatkan pendidikan minimal wajib sekolah 12

    tahun.

    b. Salah satu anggota keluarga memiliki pekerjaan dan penghasilan

    tetap.

    c. Terpenuhinya kebutuhan papan meliputi keadaan dinding, lantai dan

    atap rumah.

    d. Perilaku hidup sehat seperti memiliki fasilitas buang air besar sendiri

    dengan kondisi semi permanen/permanen.

    Keluarga miskin merupakan keluarga yang tidak dapat memenuhi

    kebutuhan minimum seperti sandang, pangan, papan, pendidikan,

    pelayanan kesehatan dan sanitasi.penyeleksian data penduduk dilakukan

    dengan dengan pertimbangan sebagai berikut:

    a. Variabel yang tidak memiliki missing value   atau data variabelnya

    lengkap.

    b. Jumlah karakter dari nilai variabelnya tidak besar.

    c. Variabel sesuai dengan kriteria yang dibutuhkan.

    d. Variabel yang memiliki nilai variabel banyak tidak digunakan.

    Berdasarkan pertimbangan di atas, maka variabel-variabel terpilih,

    yaitu : 1) pendidikan; 2) pekerjaan; 3) penghasilan; 4) dinding rumah; 5)

    lantai rumah; dan 6) fasilitas buang air besar. Variabel yang terpilih

    berasal dari beberapa tabel.

  • 8/16/2019 a2.1100145 Wulan Handayani

    64/90

    Pada tahap ini, variabel tersebut akan digabungkan menjadi satu tabel

    dalam database  baru yang terpisah dari database  operasional.

    4.2.3 Formulasi pre-processing  

    Data yang akan digunakan untuk proses data mining harus melewati

    tahap pembersihan data. Pembersihan data dilakukan dengan cara

    memeriksa semua variabel terpilih. Adapun pembersihan data meliputi:

    a. Membuang redudansi  data, jika beberapa variabel memiliki nilai yang

    sama maka salah satunya akan dihapus sehingga tidak ada duplikasi

    data.

    b. Memeriksa data yang inkonsisten.

    c. Memperbaiki kesalahan pada data, seperti kesalahan cetak.

    Data yang sudah bersih, tidak terdapat duplikasi, konsisten dan tidak

    ada kesalahan sehingga tidak ada data yang perlu dibersihkan. Format

    data menjadi seperti pada tabel berikut:

    Tabel 4.5 Format Tabel Setelah Pemilihan Variabel

    Pendidikan Pekerjaan Penghasilan Dinding Lantai Fasilitas BAB

    Data yang sudah bersih selanjutnya akan dilakukan proses

    tranformasi.

  • 8/16/2019 a2.1100145 Wulan Handayani

    65/90

    4.2.4 Formulasi transformasi

    Pada tahap ini, tabel yang sudah melewati tahap seleksi dan

    pembersihan akan melakukan transformasi data dengan cara

    menambahkan kolom status. Status merupakan variabel yang

    membedakan suatu kelas.

    Database   baru yang sudah terbentuk dapat dilihat pada gambar

    berikut:

    Gambar 4.3 Skema Database  Baru

    Setelah melalui proses seleksi, pembersihan, dan transformasi,

    maka data siap untuk melakukan proses data mining . Proses data mining

    ini merupakan inti dari penelitian ini.

    4.2.5 Formulasi data mining  

    Pada tahap ini, data akan digali untuk mendapatkan suatu

    pengetahuan. Penggalian data ini dilakukan dengan cara mencari

    keterkaitan pola antara variabel. Dalam pencarian keterkaitan pola

    tersebut digunakan teknik klasifikasi dengan menggunakan metode pohon

    keputusan dan algoritma C4.5.

  • 8/16/2019 a2.1100145 Wulan Handayani

    66/90

    4.2.6 Formulasi klasifikasi

    Tahap ini merupakan proses menemukan model yang dapat

    menjelaskan kelas data. Sebelum melakukan proses selanjutnya, variabel

    pendidikan, pekerjaan dan penghasilan akan diklasifikasikan berdasarkan

    kriteria tertentu.

    Pada variabel pendidikan, data dikelompokan menjadi sudah dan

    tidak sekolah. Kriteria pendidikan didefinisikan pada tabel 4.6.

    Tabel 4.6 Klasifikasi Pendidikan

    Pendidikan Klasifikasi

    Tamat SD, SMP, SMA dan PT Sudah

    Tidak Tamat SD Tidak

    Pada variabel pekerjaan dikelompokan berdasarkan yang

    berpenghasilan tetap dan tidak tetap. Pekerjaan didefinisikan pada tabel

    4.7.

    Tabel 4.7 Klasifikasi Pekerjaan

    Pekerjaan Klasifikasi

    PNS/TNI/POLRI, Pegawai Swasta, Pensiunan TetapPetani, Nelayan, Pedagang, Wirawsasta, Pekerja Lepas danlain-lain.

    Tidak Tetap

    Untuk variabel penghasilan dibagi menjadi dua klasifikasi sebagai

    berikut (Sumber: BPS):

    Tabel 4.8 Klasifikasi Penghasilan

    Penghasilan Klasifikasi

    Penghasilan < Rp. 600.000,- Rendah

    Penghasilan > Rp. 600.000,- Tinggi

  • 8/16/2019 a2.1100145 Wulan Handayani

    67/90

    Setelah melakukan beberapa proses, maka format akhir dapat di

    lihat pada tabel

    Tabel 4.9 Format Data Klasifikasi

    Pendidikan Pekerjaan Penghasilan Dinding LantaiFasilitas

    BAB

    Sudah Tetap Rendah Tembok KeramikYa

    Tidak Tidak Tetap Tinggi Bambu KayuTidak

    Kayu Semen

    4.2.7 Formulasi pohon keputusan

    Dalam membangun pohon keputusan perlu memilih variabel sebagai

    akar yang didasarkan pada nilai gain   tertinggi dari kasus yang ada.

    Langkah perhitungan dalam menentukan node  adalah sebagai berikut:

    a. Menentukan data sampel

    Data yang dihitung adalah nilai entropy   dan gain   berdasarkan jumlah

    kasus yang dijadikan sampel.

    Tabel 4.10Data Sampel

    Pendidikan Pekerjaan Penghasilan Dinding Lantai F.BABStatus

    Sudah Tidak Tetap Tinggi Kayu Semen Ya Tidak Miskin

    Tidak Tidak Tetap Rendah Bambu Kayu TidakMiskin

    Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin

    Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin

    Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin

    Sudah Tidak Tetap Rendah Bambu Kayu TidakMiskin

    Tidak Tidak Tetap Tinggi Bambu Semen TidakMiskin

    Sudah Tetap Tinggi Tembok Keramik Ya Tidak Miskin

  • 8/16/2019 a2.1100145 Wulan Handayani

    68/90

    Tidak Tidak Tetap Rendah Tembok Keramik YaMiskin

    Tidak Tidak Tetap Rendah Bambu Kayu Tidak

    Miskin

    Sudah Tetap Tinggi Tembok Keramik TidakTidak Miskin

    b. Menentukan jumlah kasus

    Menghitung jumlah kasus secara keseluruhan, menghitung jumlah

    kasus berdasarkan kelas miakin dan tidak miskin dari semua sampel

    data, dan menghitung jumlah kelas miskin dan tidak miskin

    berdasarkan nilai masing-masing variabel. Berikut skema untuk

    perhitungan nilai entropy  dan gain :

    Tabel 4.11 Skema Tabel Perhitungan Entropy  dan Gain  

    Node Jml Kasus

    (S)

    Miskin

    !)Tidak Miskin

    ")Entropy Gain

    1 Total

    Variabel

    Nilai

    Nilai

    Variabel

    Nilai

    Nilai

    Variabel

    Nilai

    Nilai

    Nilai

  • 8/16/2019 a2.1100145 Wulan Handayani

    69/90

    c. Menghitung entropy  total

    Nilai entropy  total adalah nilai entropy  kasus secara keseluruhan. Data

    yang diperlukan pada perhitungan ini adalah keseluruhan jumlah

    kasus yang menempati kelas miskin dan kelas tidak miskin. Adapun

    rumus untuk perhitungannya adalah sebagai berikut:

     = − # − ∗ log

     

    Perhitungan entropy   dilakukan dengan menghitung selisih antara

    proporsi kasus miskin terhadap jumlah seluruh kasus, dengan proporsi

    antara kasus tidak miskin terhadap seluruh kasus.

    a. Menghitung entropy  masing-masing nilai variabel

    Pada perhitungan ini, masing-masing nilai variabel akan dihitung

     jumlah kasus yang menempati kelas miskin dan tidak miskin. Setelah

    itu tentukan nilai dari setiap kelasnya, perhitungan entropy  dilakukan

    dengan cara menghitung selisih antara proporsi jumlah kasus yang

    menempati kelas miskin terhadah jumlah kasus dari variabel dengan

     jumlah kasus yang menempati kelas tidak miskin terjadap jumlah

    kasus dari variabel.

    b. Menghitung nilai gain  

    Setelah nilai entropy   didapatkan, selanjutnya perhitungan gain.

    Menghitung gain dapat menggunakan rumus 2.2 sebagai berikut:

    ,  = − # |||| ∗

     

  • 8/16/2019 a2.1100145 Wulan Handayani

    70/90

    Nilai gain merupakan selisih antara nilai entropy  total dari keseluruhan

     jumlah kasus dengan nilai entropy   total dari masing-masing variabel.

    Entropy  total variabel adalah jumlah total dari nilai entropy  dari masing-

    masing nilai variabel.

    c. Menentukan node akar

    Yang dijadikan node   akar pada pohon keputusan adalah nilai gain  

    tertinggi.

    d. Menentukan node  cabang

    Nilai variabel dari node   akar akan dilakukan perhitungan untuk node  

    cabang. Sebelum mendapatkan node  cabang, nilai variabel dari node  

    akar akan dihitung apakah pohon keputusan akan berlanjut atau tidak.

    Nilai variabel mengkalsifikasikan kasus lebih dari satu kelas maka

    perhitungan akan di lanjutkan dengan membentuk node  cabang.

    e. Menentukan leaf node  

    Jika nilai variabel mengklasifikasikan kasus menjadi satu kelas maka

    perhitungan selesai. Berarti tidak ada node   cabang. Berikut skema

    pohon keputusannya:

  • 8/16/2019 a2.1100145 Wulan Handayani

    71/90

    Gambar(

    Dari skema d

    nilai variabel.

    mengklasifikasikan

    sedangkan nilai v

    sehingga masih h

    cabang. Nilai vari

    dalam satu ketas

    variabel telah dikel

    4.2.8 Formulasi at

    Setelah pem

    berupa aturan if-th 

     

    4.4 Skema Pohon Keputusan (Decisionumber: Fajar Astuti Hermawati, 2013)

    iatas dapat dijelaskan bahwa node   ak

    ilai variabel pertama merupakan

    kasus menjadi satu sehingga diben

    riabel kedua mengklasifikasikan ke da

    rus melakukan perhitungan untuk me

    bel dari node   cabang mengklasifika

    ehingga dibentuk leaf node   dan masi

      mpokan berdasarkan kelas tertentu.

    ran (IF-THEN )

    bentukan pohon keputusan, dapat di

    n, yaitu if node  akar and node  cabang

    Tree )

    r memiliki dua

    nilai yang

    uk leaf node ,

    lam dua kelas

    mbentuk node  

    ikan kelas ke

    g-masing nilai

    bentuk aturan

    then leaf node

  • 8/16/2019 a2.1100145 Wulan Handayani

    72/90

    berupa kelompok keluarga miskin dan keluarga tidak miskin. Aturan yang

    terbentuk dapat dimanfaatkan untuk proses pengambilan keputusan.

    4.3 Analisis Model

    Berdasarkan tahapan-tahapan formulasi yang telah dijelaskan, maka

    didapat analisis penerapan model data mining terhadap database. Rincian

    analisis tersebut adalah sebagai berikut:

    a. Database

    Data yang digunakan adalah data penduduk di Desa Mulyajaya.

    Adapun skema database nya adalah sebagai berikut.

    Tabel 4.12 Database  Penduduk yang Sedang Berjalan

    b. Seleksi Data

    Proses seleksi data dilakukan berdasarkan kriteria tertentu sesuai

    dengan kebutuhan informasi. Variabel yang diseleksi berasal dari tabel

  • 8/16/2019 a2.1100145 Wulan Handayani

    73/90

    penduduk, tabel kondisi fisik rumah, tabel kesejahteraan penduduk dan

    tabel kualitas penduduk.

    Data yang diseleksi merupakan data yang tidak memiliki missing

    value , inkonsisten dan kesalahan lainnya serta sesuai dengan

    informasi yang akan dihasilkan dari variabel yang ada pada database  

    yang sedang berjalan.

    Tabel 4.13 

    Tabel Penduduk Sebelum Diseleksi

  • 8/16/2019 a2.1100145 Wulan Handayani

    74/90

    Tabel 4.14 Tabel Kesejahteraan Keluarga Sebelum Seleksi

    Kode KeluargaNama Kepala

    KeluargaPenghasilan/Bulan (Rp)

    Pengeluaran/Bulan (Rp)

    KepemilikanRumah

    32052302099 NYANGNYANG 1.000.000 1.000.000 Milik Orang Tua

    321101000 SARA 400.000 400.000 Pinjam Pakai

    32110123030 YAYA S.pd. 6.000.000 4.000.000 Milik Sendiri

    32110124030 WOWO SUKIRTA 4.000.000 2.000.000 Milik Sendiri

    32110123030 KATMA 2.200.000 2.200.000 Milik Sendiri

    32110140510 TATANG 1.000.000 1.000.000 Milik Sendiri

    32110123030 ACIM 500.000 500.000 Milik Sendiri

    32110113100 ADE SUYANTO 2.000.000 2.000.000 Milik Sendiri32110124030 SUMARJA 400.000 400.000 Milik Sendiri

    32111000023  ERAT 300.000 300.000 Milik Sendiri

    32110123030 AMAR 2.000.000 2.000.000 Milik Sendiri

    10171620908 AGUS SUHENDRA 2.000.000 2.000.000 Milik Sendiri

    32081723068 NANANG SURISNA 500.000 500.000 Milik Orang Tua

    32110001111 CECEP TATANG R 2.000.000 1.000.000 Milik Orang Tua

    Tabel 4.15 Tabel Kondisi Fisik Rumah Sebelum Seleksi

    Kode Keluarga Nama Kepala KeluargaDindingRumah

    LantaiRumah

    AtapRumah

    32052302099 NYANGNYANG Kayu Semen Genteng

    321101000 SARA Tembok Semen Genteng

    32110123030 YAYA S.Pd. Tembok Keramik Genteng

    32110124030 WOWO SUKIRTA Tembok Keramik Genteng

    32110123030 KATMA Tembok Keramik Genteng

    32110140510 TATANG Tembok Keramik Genteng

    32110123030 ACIM Bambu Semen Genteng

    32110113100 ADE SUYANTO Kayu Semen Genteng

    32110124030 SUMARJA Tembok Keramik Genteng

    32111000023  ERAT Bambu Semen Genteng

    32110123030 AMAR Tembok Keramik Genteng

    10171620908 AGUS SUHENDRA Tembok Keramik Genteng

    32081723068 NANANG SURISNA Bambu Kayu Genteng

    32110001111 CECEP TATANG R Tembok Keramik Genteng

  • 8/16/2019 a2.1100145 Wulan Handayani

    75/90

    Tabel 4.16 Tabel Kualitas Keluarga Sebelum Seleksi

    Kode Keluarga Nama Keluarga Fasilitas BAB Pola Makan

    32052302099 NYANGNYANG WC Permanen 3 kali

    321101000 SARA Fasilitas Umum 3 kali

    32110123030 YAYA S.pd. WC Permanen 3 kali

    32110124030 WOWO SUKIRTA WC Permanen 3 kali

    32110123030 KATMA WC Permanen 3 kali

    32110140510 TATANG WC Darurat 3 kali

    32110123030 ACIM WC Darurat 3 kali

    32110113100 ADE SUYANTO WC Permanen 3 kali

    32110124030 SUMARJA WC Permanen 2 kali

    32111000023  ERAT WC Darurat 3 kali

    32110123030 AMAR WC Darurat 3 kali

    10171620908 AGUS SUHENDRA WC Permanen 3 kali

    32081723068 NANANG SURISNA Fasilitas Umum 3 kali

    32110001111 CECEP TATANG R WC Permanen 3 kali

    Variabel hasil seleksi terdiri dari pendidikan dan pekerjaan dari tabel

    penduduk, penghasilan dari tabel kesejahteraan penduduk, dinding,

    lantai, atap dari tabel kondisi fisik rumah, fasilitas bab dari tabel

    kualitas penduduk. Tabel baru di simpan diluar database  operasional.

    Semua variabel yang dibutuhkan digabungkan menjadi satu tabel

    berdasarkan kode kk.

  • 8/16/2019 a2.1100145 Wulan Handayani

    76/90

    Tabel 4.17 Proses Penggabungan Tabel

    KodeKeluarga

    Nama KepalaKeluarga

    Pendidikan Pekerjaan Penghasilan/Bulan (Rp)

    DindingRumah

    LantaiRumah

    Fasilitas BAB

    32052302099 NYANGNYANGTamat SLTP

    Wiraswasta 1.000.000 Kayu Semen WC Permanen

    321101000 SARATamat SD

    Buruh 400.000 Tembok Semen Fasilitas Umum

    32110123030 YAYA S.pd. Tamat S-1 PNS 6.000.000 Tembok Keramik WC Permanen

    32110124030 WOWO S Tamat S-1 PNS 4.000.000 Tembok Keramik WC Permanen

    32110123030 KATMA Tamat SD Buruh 2.200.000 Tembok Keramik WC Permanen

    32110140510 TATANG Tamat SDIbu RumahTangga

    1.000.000 Tembok Keramik WC Darurat

    32110123030 ACIMTidak tamatSD

    Petani 500.000 Bambu Semen WC Darurat

    32110113100 ADE S Tamat S-1 Guru swasta 2.000.000 Kayu Semen WC Permanen

    32110124030 SUMARJATidak tamatSD

    Petani 400.000 Tembok Keramik WC Permanen

    32111000023  ERATTidak tamatSD

    BelumBekerja

    300.000 Bambu Semen WC Darurat

    32110123030 AMAR Tamat SLTA Pensiunan 2.000.000 Tembok Keramik WC Darurat

    10171620908 AGUS S Tamat SLTA Petani 2.000.000 Tembok Keramik WC Permanen

    32081723068 NANANG S Tamat SD IRT 500.000 Bambu Kayu Fasilitas Umum

    32110001111 CECEP T.R Tamat SLTP Buruh 2.000.000 Tembok Keramik WC Permanen

    Variabel kode kk diambil untuk menyesuaikan data pada proses

    penggabungan, setelah data sesuai maka kode kk akan dihapus.

    Tabel 4.18Data Hasil Seleksi

    Nama KepalaKeluarga

    Pendidikan PekerjaanPenghasilan/

    Bulan (Rp)DindingRumah

    LantaiRumah

    Fasilitas BAB

    NYANGNYANG Tamat SLTP Wiraswasta 1.000.000 Kayu Semen WC Permanen

    SARA Tamat SD Buruh 400.000 Tembok Semen Fasilitas Umum

    YAYA S.pd. Tamat S-1 PNS 6.000.000 Tembok Keramik WC Permanen

    WOWO S Tamat S-1 PNS 4.000.000 Tembok Keramik WC Permanen

    KATMA Tamat SD Buruh 2.200.000 Tembok Keramik WC Permanen

    TATANG Tamat SD IRT 1.000.000 Tembok Keramik WC Darurat

    ACIM Tidak tamat SD Petani 500.000 Bambu Semen WC Darurat

    ADE SUYANTO Tamat S-1 Guru swasta 2.000.000 Kayu Semen WC Permanen

    SUMARJA Tidak tamat SD Petani 400.000 Tembok Keramik WC Permanen

    ERAT Tidak tamat SDBelumBekerja

    300.000 Bambu Semen WC Darurat

    AMAR Tamat SLTA Pensuinan 2.000.000 Tembok Keramik WC Darurat

    AGUS S Tamat SLTA