Post on 27-Nov-2020
PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN
PROSES ANTAR CLASSIFIER MACHINE LEARNING UNTUK
KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr
Skripsi
Oleh :
BAYU RUKMANA JATI
NIM 11150970000032
PROGRAM STUDI FISIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2019 M / 1441 H
i
PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN
PROSES ANTAR CLASSIFIER MACHINE LEARNING UNTUK
KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr
Skripsi
Diajukan kepada Fakultas Sains dan Teknologi untuk Memenuhi Persyaratan
Memperoleh Gelar Sarjana Sains (S.Si)
Oleh :
BAYU RUKMANA JATI
NIM 11150970000032
PROGRAM STUDI FISIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2019 M / 1441 H
ii
LEMBAR PERSETUJUAN PEMBIMBING
PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN
PROSES ANTAR CLASSIFIER MACHINE LEARNING UNTUK
KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr
Skripsi
Diajukan kepada Fakultas Sains dan Teknologi untuk Memenuhi Persyaratan
Memperoleh Gelar Sarjana Sains (S.Si)
Oleh
Bayu Rukmana Jati
NIM : 11150970000032
Menyetujui
Mengetahui,
Ketua Program Studi Fisika UIN Syarif Hidayatullah Jakarta
Tati Zera, M.Si
NIP. 196906082005012002
Pembimbing I,
Pembimbing II,
Elvan Yuniarti, M.Si
NIP. 197912272008012015
Nizar Septian, M.Si
NUP. 9920113284
iii
LEMBAR PERGESAHAN
Skripsi yang berjudul “PERBANDINGAN AKURASI PREDIKSI DAN
KECEPATAN PROSES ANTAR CLASSIFIER MACHINE LEARNING
UNTUK KLASIFIKASI SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr”
ditulis oleh Bayu Rukmana Jati dengan NIM 11150970000032 telah diuji dan
dinyatakan lulus dalam sidang Munaqasah Fakultas Sains dan Teknologi Universitas
Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 28 April 2020. Skripsi ini
telah diterima sebagai salah satu syarat memperoleh gelar sarjana Strata Satu (S1)
Program Studi Fisika.
Menyetujui,
Mengetahui,
Penguji I,
Penguji II,
Dr. Sitti Ahmiatri Saptari, M.Si.
NIP. 197704162005012008 Dr. Sutrisno, Dipl.Seis.
NIP. 195902021982031005
Pembimbing I,
Pembimbing II,
Elvan Yuniarti, M.Si
NIP. 197912272008012015 Nizar Septian, M.Si
NUP. 9920113284
Dekan Fakultas Sains dan Teknologi,
Ketua Program Studi Fisika,
Prof. Dr. Lily Surraya Eka Putri, M.Env. Studi
NIP. 196904042005012005 Tati Zera, M.Si
NIP. 196906082005012002
28 April
iv
LEMBAR PERNYATAAN
Dengan ini saya menyatakan bahwa:
1. Skripsi ini merupakan hasil karya asli saya sendiri yang diajukan untuk
memenuhi salah satu persyaratan memperoleh gelar Sarjana Sains (S.Si) di UIN
Syarif Hidayatullah Jakarta.
2. Semua sumber yang saya gunakan dalam penelitian ini telah dicantumkan sesuai
dengan ketentuan yang berlaku di UIN Syarif Hidayatullah Jakarta.
3. Jika di kemudian hari terbukti bahwa karya ini bukan hasil karya asli saya sendiri
atau merupakan hasil jiplakan dari karya orang lain, maka saya bersedia
menerima sanksi yang berlaku di UIN
Syarif Hidyatullah Jakarta.
Jakarta, 28 April 2020
Materai 6000
Bayu Rukmana Jati
v
ABSTRAK
Perkembangan ilmu pengetahuan yang mulai memasuki era Machine
Learning menuntut setiap bidang ilmu untuk dapat melakukan otomatisasi pekerjaan.
Penelitian ini menggunakan machine learning untuk melakukan klasifikasi radiasi
dari bahan radioaktif yang tidak diketahui sumber bahannya dengan beberapa jenis
classifier menggunakan data spektrum gamma yang direkam menggunakan sintilator
NaI(Tl). Classifier yang digunakan antara lain: Decision Tree, Random Forest,
AdaBoost, Naive Bayes, Gaussian Process, dan Support Vector. Setiap classifier akan
melakukan training dengan menggali informasi dari data spektrum yang sudah
diketahui, dan kemudian diuji dengan data spektrum baru yang belum diketahui untuk
mendapatkan hasil klasifikasi, akurasi prediksi, serta kecepatan prosesnya. Sebelum
klasifikasi dilakukan masing-masing classifier akan diatur parameter-parameter dan
kernel-nya sesuai dengan kondisi dan kebutuhan penelitian. Dari klasifikasi yang
telah dilakukan, classifier menghasilkan akurasi prediksi dengan rentang 20% hingga
100% untuk semua classifier, dan kecepatan proses mulai dari 0.054 detik hingga 717
detik. Oleh karena itu, classifier yang memiliki akurasi dan kecepatan terbaik adalah
classifier Support Vector Machine dengan kernel linear yang memiliki akurasi
sebesar 100% dan kecepatan proses selama 0.244 detik.
Kata Kunci: Akurasi, classifier, data, gamma, machine learning, optimum,
otomatisasi.
vi
ABSTRACT
Development of science which began to enter the era machine learning
demanding every field of science be able to do work automation. This study uses
machine learning to classify radiation from radioactive material with unknown source
material with several types of classifier using gamma spectrum data that recorded by
NaI(Tl) scintillator. Classifiers used include: Decision Tree, Random Forest,
AdaBoost, Naive Bayes, Gaussian Process, and Support Vector. Each classifier will
conduct training by digging information from known spectrum data, and then testing
it with new unknown spectrum data to get the results of classification, prediction
accuracy, and speed of the process. Before the classification is done, each classifier
will set its parameters and kernel according to the conditions and research needs.
From the classification that has been done, the classifier produces prediction accuracy
with a range of 20% to 100% for all classifiers, and the processing speed starts from
0.054 seconds to 717 seconds. Therefore, the classifier that has the best accuracy and
speed is the Support Vector Machine classifier with a linear kernel which has an
accuracy of 100% and a processing speed of 0.244 seconds.
Keywords: Accuracy, automation, classifier, data, gamma, machine learning,
optimum.
vii
KATA PENGANTAR
Segala puji dan syukur atas hadirat Allah SWT berkat rahmat dan karunia-
Nya. Sehingga penulis dapat menyelesaikan skripsi ini dengan baik. Shalawat dan
salam senantiasa tercurahkan kepada baginda Nabi besar Muhammad SAW, beserta
para keluarganya, para sahabat dan para pengikut-pengikutnya, inshaa Allah kita
semua termasuk di dalamnya hingga akhir zaman. Berkat perjuangan beliau yang
telah mengantarkan manusia dari zaman Jahiliah ke zaman yang penuh dengan ilmu
pengetahuan seperti saat ini.
Penulis menyadari bahwa penulisan skripsi yang berjudul
“PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN PROSES
ANTAR CLASSIFIER MACHINE LEARNING UNTUK KLASIFIKASI
SPEKTRUM GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr” tidak dapat terselesaikan
tanpa dukungan dari berbagai pihak, baik moril maupun materiil. Oleh karena itu,
penulis ingin menyampaikan ucapan terima kasih kepada semua pihak yang telah
membantu penulis dalam penyusunan skripsi ini, terutama kepada:
1. Kedua orang tua yang telah memberikan dukungan moril dan materiil
serta doa yang tiada henti- hentinya kepada penulis.
2. Segenap keluarga besar yang telah menyemangati dan mendukung dalam
penyelesaian skripsi ini.
3. Ibu Tati Zera, M.Si selaku Ketua Program Studi Fisika dan Pembimbing
Akademik yang telah memberikan arahan kepada penulis.
viii
4. Ibu Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud. selaku Dekan Fakultas
Sains dan Teknologi UIN Syarif Hidayatulla Jakarta.
5. Ibu Elvan Yuniarti,M.Si selaku pembimbing I, serta sebagai dosen di
Instrumentasi yang telah sabar membimbing penulis, memberikan
banyak ilmunya kepada penulis dan memberikan banyak masukan
kepada penulis terkait penulisan skripsi ini.
6. Bapak Nizar Septian, M.Si selaku pembimbing II yang telah
membimbing penulis, memberikan saran yang membangun kepada
penulis dan memberikan motivasi kepada penulis dari awal masuk kuliah
hingga akhir dari penulisan skripsi ini.
7. Ibu Dr. Sitti Ahmiatri Saptari, M.Si. dan Bapak Dr. Sutrisno, Dipl.Seis.
selaku penguji. Terima kasih atas waktu, masukan dan arahannya kepada
penulis untuk menjadikan tulisan ini menjadi semakin baik.
8. Para dosen-dosen Program Studi Fisika yang telah memberikan ilmu-
ilmunya selama perkuliahan.
9. Sahabat seperjuangan: Syarif, Andri, Ilham, Faris, Fadhur dan Candra
yang selalu memberikan support, doa, dan menjadi teman diskusi.
10. Muhammad Sholih Fajri selaku sahabat sekaligus tutor bagi penulis
dalam mencari ide pada tulisan ini.
11. Teman-teman Fisika UIN angkatan 2015 yang senantiasa memberikan
semangat dan bantuannya kepada penulis.
Kesalahan diri sendiri yang paling besar bukanlah kegagalan, tetapi berhenti
ix
dan menyerah sebelum merasakan keberhasilan. Oleh karena itu, penulis menyadari
bahwa skripsi ini masih jauh dari kata sempurna. Dikarenakan keterbatasan
pengalaman dan pengetahuan yang dimiliki penulis. Oleh karena itu, penulis
mengharapkan segala bentuk saran serta masukan bahkan kritik yang membangun
dari berbagai pihak yang dapat disampaikan melalui alamat e-mail penulis
bayu_luftwaffe97@yahoo.com. Semoga skripsi ini dapat bermanfaat bagi para
pembaca dan semua pihak khususnya yang memerlukan.
Jakarta, 18 Januari 2020
Penulis
x
DAFTAR ISI
LEMBAR PERSETUJUAN PEMBIMBING ............................................... ii
LEMBAR PERGESAHAN ........................................................................... iii
LEMBAR PERNYATAAN ........................................................................... iv
ABSTRAK ....................................................................................................... v
ABSTRACT .................................................................................................... vi
KATA PENGANTAR ................................................................................... vii
DAFTAR ISI .................................................................................................... x
DAFTAR GAMBAR .................................................................................... xiii
DAFTAR GRAFIK ....................................................................................... xv
DAFTAR TABEL......................................................................................... xvi
BAB I PENDAHULUAN ............................................................................... 1
1.1 Latar Belakang..................................................................................... 1
1.2 Perumusan Masalah ............................................................................. 3
1.3 Batasan Masalah .................................................................................. 3
1.4 Tujuan Penelitian ................................................................................. 4
1.5 Manfaat Penelitian ............................................................................... 4
1.6 Sistematika Penulisan .......................................................................... 5
BAB II DASAR TEORI ................................................................................. 7
xi
2.1 Peluruhan Radioaktif ........................................................................... 7
2.1.1. Peluruhan Alfa .............................................................................. 7
2.1.2. Peluruhan Beta.............................................................................. 9
2.1.3. Radiasi Gamma .......................................................................... 10
2.2. Spekstroskopi Gamma ....................................................................... 11
2.3. Machine Learning .............................................................................. 15
2.4. Klasifikasi .......................................................................................... 16
2.4.1. Decision Tree Classifier ............................................................. 17
2.4.2. Random Forest Classifier ........................................................... 23
2.4.3. AdaBoost Classifier .................................................................... 26
2.4.4. Naive Bayes Classification ......................................................... 31
2.4.5. Gaussian Process Classifier ........................................................ 34
2.4.6. Support Vector Machine............................................................. 37
2.5. Sci-Kit Learn ..................................................................................... 44
BAB III METODE PENELITIAN ............................................................. 46
3.1 Waktu dan Tempat Penelitian ........................................................... 46
3.2 Alat dan Bahan .................................................................................. 46
3.3 Tahapan Penelitian ............................................................................ 47
3.3.1 Persiapan Penelitian.................................................................... 48
3.3.3 Praproses Data ............................................................................ 51
3.3.4 Melakukan Klasifikasi ................................................................ 53
3.3.5 Penyajian Data dan Confusion Matrix ....................................... 58
BAB IV HASIL DAN PEMBAHASAN...................................................... 59
4.1 Hasil Performa Prediksi untuk Setiap Classifier. .............................. 59
4.1.1 Decision Tree Classifier ............................................................. 60
4.1.2 Random Forest Classifier ........................................................... 63
4.1.3 AdaBoost Classifier .................................................................... 65
xii
4.1.4 Naive Bayes Classifier ................................................................ 69
4.1.5 Gaussian Process Classifier ....................................................... 71
4.1.6 Support Vector Classifier ........................................................... 75
4.2 Perbandingan Antar Classifier .......................................................... 78
4.3 Menentukan Classifier dengan Performa Terbaik ............................. 80
BAB V KESIMPULAN DAN SARAN ....................................................... 82
5.1 Kesimpulan ........................................................................................ 82
5.2 Saran .................................................................................................. 83
DAFTAR PUSTAKA .................................................................................... 84
xiii
DAFTAR GAMBAR
Gambar 2. 1 Peluruhan alfa dari inti radioaktif............................................................. 7
Gambar 2. 2 Peristiwa penerowongan oleh partikel alfa .............................................. 8
Gambar 2. 3 Spektrum elektron dipancarkan dari peluruhan beta ................................ 9
Gambar 2. 4 Sinar gamma dipancarkan mengikuti peluruhan beta ............................ 11
Gambar 2. 5 Spektra Energi Co60. ............................................................................. 13
Gambar 2. 6 Spektra Energi Na22. ............................................................................. 13
Gambar 2. 7 Spektra energi Am241 ............................................................................ 14
Gambar 2. 8 Spektra energi Cs137. ............................................................................ 14
Gambar 2. 9 Spektra Energi Sr90.. ............................................................................. 15
Gambar 2. 10 Perbedaan klasifikasi biner, dengan klasifikasi banyak kelas .............. 17
Gambar 2. 11 Contoh diagram Decision Tree Classifier biner .................................. 18
Gambar 2. 12 Contoh Diagram Decision Tree Classifier multiclass .......................... 19
Gambar 2. 13 Menentukan Node Cabang dan Akar ................................................... 21
Gambar 2. 14 Diagram Algoritma Random Forest Classifier. ................................... 24
Gambar 2. 15 Contoh Penggabungan Beberapa Classifier Menjadi Satu .................. 27
Gambar 2. 16 SVM membentuk hyperplane yang memisahkan kedua class ............ 38
Gambar 2. 17 Pengaturan Posisi Hyperplane. ............................................................ 39
Gambar 2. 18 Menentukan margin pada SVM ........................................................... 40
xiv
Gambar 4. 1 Confusion matrix validasi DTC. ............................................................ 62
Gambar 4. 2 Confusion matrix data tes DTC .............................................................. 62
Gambar 4. 3 Confusion matrix RFC. .......................................................................... 65
Gambar 4. 4 Confusion Matrix ABC .......................................................................... 68
Gambar 4. 5 Confusion Matrix Naive Bayes. .............................................................. 70
Gambar 4. 6 Confusion Matrix Gaussian Process Classifier Kernel RBF. ................ 73
Gambar 4. 7 Confusion Matrix GPC Kernel White Noise. ......................................... 73
Gambar 4. 8 Confusion Matrix GPC Kernel Ratinal Quadratic. ............................... 74
Gambar 4. 9 Confusion Matrix SVC Kernel RBF. ...................................................... 76
Gambar 4. 10 Confusion Matrix SVC Kernel Linear .................................................. 77
Gambar 4. 11 Confusion Matrix SVC Kernel Polinomial ........................................... 77
xv
DAFTAR GRAFIK
Grafik 4. 1 Akurasi Data Validasi dan Tes DTC Terhadap Jumlah Cabang. ............. 60
Grafik 4. 2 Grafik akurasi hasil validasi dan tes RFC................................................. 64
Grafik 4. 3 Grafik prediksi adaboost classifier. .......................................................... 66
Grafik 4. 4 Grafik tes ABC dengan jumlah estimator yang berubah. ......................... 67
xvi
DAFTAR TABEL
Tabel 3. 1 Alat dan Bahan Penelitian .......................................................................... 47
Tabel 3. 2 Data 60Co (80 detik) Sebelum Transpose ................................................. 52
Tabel 3. 3 Data 60Co (80 detik) Sesudah Transpose .................................................. 52
Tabel 4. 1 Tabel Akurasi Gaussian Process Classifier Dengan Beberapa Kernel ...... 71
Tabel 4. 2 Tabel Akurasi Support Vektor Classifier Dengan Beberapa Kernel ......... 75
Tabel 4. 3 Tabel Perbandingan Classifier. .................................................................. 79
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Beberapa dekade terakhir, perkembangan ilmu pengetahuan mulai memasuki
era mesin yang dapat berpikir sendiri atau lebih dikenal dengan artificial intelligence
(AI). Dalam perkembangannya, sebuah AI harus melalui tahap pelatihan terlebih
dahulu, dengan menggunakan algoritma-algoritma yang biasa disebut dengan
machine learning [1]. Dengan menggunakan machine learning, sebuah AI dapat
memprediksi apakah seseorang dapat dikatakan menderita sakit atau tidak [2],
membedakan jenis bunga, bahkan untuk mengenali wajah seseorang (face
recognizing) dari database yang sudah dipelajari sebelumnya, perilaku inilah yang
diberi nama ‘pengklasifikasian’ [3].
Algoritma machine learning yang menjadi fondasi untuk melakukan
klasifikasi disebut dengan classifier. Sebuah classifier dapat dibuat dengan
menggunakan ilmu statistika untuk melakukan pengolahan dan manipulasi data. Pada
penelitian ini, beberapa algoritma classifier digunakan di bidang fisika terapan, yaitu
untuk memprediksi sebuah jenis inti radioaktif melalui eksperimen gamma
spektroskopi. [4].
Pada kasus tersebut, semua jenis classifier dapat digunakan. Akan tetapi,
klasifikasi yang dihasilkan memiliki akurasi yang berbeda-beda. Selain itu, kecepatan
2
proses klasifikasi juga berbeda. Perbedaan-perbedaan itulah membuat classifier
dipertandingkan antara satu dengan lainnya dengan tujuan untuk menentukan
classifier manakah yang cocok digunakan pada kasus tersebut [5].
Pada tahun 2018, terdapat beberapa penelitian mengenai perbandingan metode
machine learning untuk otomatisasi deteksi spektroskopi gamma. Penelitian ini
dilakukan oleh Mark Kamuda, dkk. dengan melakukan perbandingan antara beberapa
pola neural network [6]. Selain itu, pada tahun 2015 juga pernah dilakukan penelitian
tentang otomatisasi deteksi isotop pada limbah uranium dengan menggunakan sebuah
classifier oleh Haruhi Hata, dkk. [7]
Sci-Kit Learn atau lebih dikenal dengan nama sklearn adalah sebuah modul
untuk melakukan analisis data, penggalian data, serta machine learning. Pertama kali
dimulai pada tahun 2007 sebagai proyek Google Summer of Code oleh David
Cournapeau yang dilanjutkan oleh Fabian Pedregosa pada tahun 2010 dan
membuatnya menjadi public release [6].
Dengan menggunakan modul sklearn untuk memperoleh berbagai macam
algoritma classifier dalam penelitian ini menjadikan penulis melakukan perbandingan
classifier menjadi praktis dan mudah sehingga penulis tidak perlu membuat algoritma
sendiri dari lembaran kosong. Dengan alasan tersebut, penulis tertarik untuk
melakukan penelitian mengenai classifier dengan judul penelitian
“PERBANDINGAN AKURASI PREDIKSI DAN KECEPATAN PROSES ANTAR
3
CLASSIFIER MACHINE LEARNING UNTUK KLASIFIKASI SPEKTRUM
GAMMA 60Co, 22Na, 241Am, 137Cs, 90Sr”
1.2 Perumusan Masalah
Berdasarkan latar belakang di atas penulis dapat merumuskan masalah dalam
penelitian tersebut antara lain sebagai berikut;
1. Bagaimana cara melakukan perbandingan classifier dalam spektroskopi
gamma?
2. Bagaimana membangun sebuah program untuk membuat perbandingan
classifier?
3. Bagaimana performa dari akurasi dan kecepatan proses untuk setiap
classifier?
4. Classifier apa yang paling optimum?
1.3 Batasan Masalah
Agar penelitian ini tetap sesuai dengan rumusan masalah di atas, maka
penelitian ini diberikan batasan-batasan masalah sebagai berikut:
1. Penelitian hanya menggunakan classifier pada pustaka sklearn saja.
Classifier yang digunakan berupa Decision Tree Classifier, Random
Forest, AdaBoost Classifier, Naive Bayes Classifier, Gaussian Process
Classifier dan Support Vector Machine.
2. Penelitian dilakukan menggunakan program Jupyter Notebook.
4
3. Penelitian hanya membahas mengenai akurasi prediksi dan kecepatan
proses dari classifier.
4. Bahan radiasi yang digunakan hanya berupa 60Co, 22Na, 241Am, 137Cs,
90Sr.
1.4 Tujuan Penelitian
Berdasarkan latar belakang dan rumusan masalah di atas, maka tujuan dari
penelitian ini adalah:
1. Mengetahui akurasi dan performa prediksi untuk masing-masing
classifier.
2. Menganalisis perbandingan performa akurasi prediksi dan kecepatan
proses untuk setiap classifier.
3. Menentukan classifier dengan performa terbaik dalam menentukan bahan
radiasi.
1.5 Manfaat Penelitian
Penelitian ini dapat bermanfaat untuk otomasi penggolongan radiasi dari
bahan radioaktif yang belum diketahui jenis sumber bahannya. Diharapkan dengan
penelitian ini dapat dilakukan penggolongan yang cepat dan tidak perlu menggunakan
tenaga lebih seperti cara manual untuk menganalisis jenis radiasi bahan radioaktif.
5
Selain itu, penelitian ini juga bermanfaat untuk penelitian khususnya di
bidang komputer dan sains yaitu sebagai penelitian yang berhubungan dengan
classifier pada machine learning untuk melakukan pengklasifikasian data.
1.6 Sistematika Penulisan
Memberikan gambaran ringkas pada skripsi ini, peneliti membuat tulisan ini
menjadi lima bab. Adapun sistematika penulisan yang digunakan sebagai berikut:
BAB I PENDAHULUAN, berisi latar belakang, pembatasan masalah,
perumusan masalah, tujuan penelitian, manfaat penelitian, sistematika penulisan.
BAB II DASAR TEORI, berisi bab-bab yang mengandung dasar teori yang
mengandung tentang peluruhan radioaktif, spektroskopi gamma, machine learning,
klasifikasi, dan jenis-jenis classifier. Dasar teori ini nantinya akan menjadi acuan saat
penelitian berjalan.
BAB III METODE PENELITIAN, menjelaskan mengenai waktu dan
tempat penelitian, alat dan bahan yang digunakan, tahapan penyusunan, perancangan
dan metode analisis.
BAB IV HASIL PENELITIAN, menyajikan hasil penelitian berupa hasil
rancangan program, hasil prediksi klasifikasi, hasil perbandingan akurasi, dan
pembahasan mengenai hasil perbandingan tersebut.
6
BAB V PENUTUP, berisi tentang kesimpulan penelitian yang telah dilakukan dan
saran-saran yang diberikan oleh peneliti untuk penelitian berikutnya.
7
BAB II
DASAR TEORI
2.1 Peluruhan Radioaktif
Inti radioaktif merupakan sebuah inti atom yang bersifat tidak stabil.
Ketidakstabilan ini disebabkan oleh ketidakseimbangan antara partikel-partikel
penyusun atom seperti elektron dan proton. Oleh karena itu inti radioaktif yang tidak
stabil akan selalu memancarkan radiasi (radioaktif) dan meluruh menjadi inti yang
lebih stabil seiring berjalannya waktu [7].
2.1.1. Peluruhan Alfa
Peluruhan alfa merupakan bentuk paling umum dari peluruhan inti radioaktif.
Inti radioaktif akan meluruh dengan mengeluarkan kumpulan partikel-partikel
penyusun yang tetap. Hasil peluruhan ini akan menghasilkan produk inti baru dengan
tingkat kestabilan yang lebih tinggi. Ini adalah bentuk paling umum karena energi
ikat nuklir gabungan sangat tinggi dan massa partikel alfa yang relatif kecil [7].
Ilustrasi untuk peluruhan alfa adalah seperti pada Gambar 2. 1:
Gambar 2. 1 Peluruhan alfa dari inti radioaktif
8
Partikel alfa yang dihasilkan dari peluruhan tersebut merupakan inti Helium [8].
Peluruhan alfa merupakan salah satu contoh dari efek tunneling (terowong)
kuantum. Misalkan pada inti induk terdapat sebuah partikel alfa (kombinasi 2
elektron dan 2 proton). Saat partikel alfa melewati jari-jari inti R, ia merasakan
tolakan Coulomb dari inti anak. Energi potensial dalam situasi itu dapat dinyatakan
seperti pada Gambar 2. 2. Tinggi potensial halang dalam inti anak adalah 30 hingga 40
MeV. Khasnya, partikel alfa memiliki energi 4 hingga 8 MeV. Jadi, tidaklah mungkin
bagi partikel alfa untuk melewati penghalang ini; satu-satunya cara partikel alfa dapat
muncul keluar adalah dengan “menerowong” penghalang [9].
Gambar 2. 2 Peristiwa penerowongan oleh partikel alfa [9]
9
2.1.2. Peluruhan Beta
Dalam peluruhan beta, neutron dalam inti berubah menjadi proton (atau
sebaliknya). Nomor inti dan nomor proton berubah, namun massa inti tidak. Partikel
yang dipancarkan disebut sebagai partikel beta pada penemuannya tahun 1898, yang
kemudian diidentifikasi sebagai elektron [9]. Contoh yang paling sederhana adalah
peluruhan neutron
𝑛 → 𝑝 + 𝛽− 2. 1
Sejumlah percobaan peluruhan beta pertama kalinya mengungkapkan dua
kesulitan. Pertama, contoh pada persamaan 2. 1 terlihat melanggar hukum kekekalan
momentum sudut karena akan menghasilkan proton yang memiliki spin 1/2 [7]. Yang
kedua, pengukuran energi yang dipancarkan−spektrum elektron merupakan energi
kontinu, dari nol hingga suatu nilai maksimum Kmax, seperti yang diperlihatkan pada
Gambar 2. 3 [9].
Gambar 2. 3 Spektrum elektron dipancarkan dari peluruhan beta [9]
Dari peluruhan neutron pada persamaan 2. 1, energi elektron yang dikalkulasi
kontinu dari 0 – Kmax MeV. Akan tetapi, dalam eksperimen energi tersebut selalu
10
kurang dari Kmax MeV. Kejadian tersebut tampak seperti adanya “kehilangan” energi
dari peluruhan beta [9]. Pada tahun 1930, permasalahan ini dipecahkan oleh ilmuwan
bernama Wolfgang Pauli. Ilmuwan asal Italia tersebut menduga bahwa ada “partikel
ketiga” yang dipancarkan selain 𝑝 dan 𝛽−, yang kemudian disebut sebagai neutrino
dan menjadi solusi dari pelanggaran yang ditemukan pada peluruhan neutron [7].
Sehingga dengan adanya neutrino, yang dinotasikan sebagai 𝑣 mengubah peluruhan
tersebut menjadi
𝑛 → 𝑝 + 𝛽− + �̅� 2. 2
2.1.3. Radiasi Gamma
Bersamaan dengan peluruhan alfa dan beta, keadaan inti terakhir mungkin
akan berada pada keadaan tereksitasi. Sama seperti atom lain pada umumnya, inti
tersebut akan menuju ke ground state setelah memancarkan satu foton lagi, yaitu
sinar gamma [9] seperti yang ditunjukkan pada Gambar 2. 4.
11
Gambar 2. 4 Sinar gamma dipancarkan mengikuti peluruhan beta [9].
Normalnya sinar gamma akan dipancarkan sesaat setelah inti berada pada
keadaan tereksitasi. Kita juga dapat membedakan spektroskopi gamma dengan
spektrum optik atom [7].
2.2. Spekstroskopi Gamma
Spektroskopi gamma adalah pembelajaran kuantitatif mengenai spektrum
energi dari sumber radiasi gamma, seperti industri nuklir, investigasi geotermal, dan
astrofisika. Karena tingginya energi foton yang dimiliki sinar gamma, maka energi
gamma dapat diselesaikan secara individual, dan spektrometer sinar gamma dapat
mengukur dan menampilkan energi-energi dari foton gamma yang terdeteksi [10].
Deteksi dan Akuisisi Data
Detektor spektroskopi gamma adalah benda pasif yang bisa berinteraksi
dengan radiasi gamma yang datang. Mekanisme yang digunakan antara lain adalah
12
efek fotolistrik, efek Compton, dan produksi kembar [10]. Pada proses tersebut,
energi gamma diserap dan diubah ke dalam bentuk sinyal tegangan dengan
mendeteksi perbedaan energi sebelum dan sesudah interaksi (pada pencacah sintilasi,
menggunakan fotomultiplier). Tegangan sinyal yang dihasilkan proporsional terhadap
energi sinar gamma yang dideteksi. Jenis material yang umum digunakan pada
spektroskopi gamma adalah pencacah sintilasi NaI (Natrium Iodida) [10].
Data radiasi yang telah diubah menjadi sinyal tegangan akan dianalisa
menggunakan multichannel analyzer (MCA). Alat tersebut mengambil tegangan
sementara dalam bentuk gaussian. Dari sini, data diubah ke dalam bentuk digital
menggunakan konverter analog ke digital (ADC). ADC juga mengurutkan pulsa
sinyal menjadi beberapa channel yang masing-masing channel-nya mewakili
tingkatan energi tertentu, dan nomor sinyal terdeteksi merepresentasikan intensitas
radiasi yang masuk pada tingkat energi tersebut. Dengan mengganti nilai channel dari
MCA, pengguna dapat memungkinkan untuk mengatur resolusi dan sensitivitas
scintilator [11]. Adapun hasil spektrum gamma yang gunakan dapat dilihat pada
Gambar 2. 5 sampai Gambar 2. 9 di bawah ini:
13
Gambar 2. 5 Spektra Energi Co60. Puncak gamma berada pada energi 1154.4 keV.
Gambar 2. 6 Spektra Energi Na22. Puncak gamma berada pada energi 455.5 keV.
14
Gambar 2. 7 Spektra energi Am241. Puncak gamma berada pada energi 59.5 keV
Gambar 2. 8 Spektra energi Cs137. Puncak gamma berada pada energi 595.3 keV.
15
Gambar 2. 9 Spektra Energi Sr90. Puncak gamma berada pada energi 94.4 keV.
2.3. Machine Learning
Machine Learning adalah pembangunan sebuah model matematika untuk
membantu memahami data. Kata ‘Learning’ dimasukkan apabila model tersebut
diberikan parameter yang dapat disesuaikan dengan data yang diamati; yang
dikatakan bahwa program dapat dianggap “belajar” dari data. Sesaat setelah model
cocok dengan data yang sudah diamati sebelumnya, mereka dapat digunakan untuk
memprediksi dan mengerti aspek-aspek dari data yang baru didapat [1,5].
Pada dasarnya, Machine Learning dapat dibagi menjadi dua kategori utama,
yaitu: supervised learning dan unsupervised learning [5]. Supervised learning
melibatkan bagaimana model dapat dihubungkan dengan fitur-fitur terukur dan
beberapa label yang terkait dengan data; setelah model ini ditentukan, model dapat
digunakan untuk menentukan label terhadap data yang baru dan belum pernah
16
terlihat. Model ini kemudian dapat dibagi kembali menjadi dua bagian yang baru,
yaitu: klasifikasi dan regresi.
Unsupervised learning melibatkan model untuk bergerak sendiri tanpa
referensi. Jika dengan supervised learning mesin dibantu dengan kemungkinan
variabel keluaran data sebenarnya, maka model ini memberikan mesin sebuah data
untuk diproses tanpa bantuan dari variabel keluaran data. Model ini mencakup tugas-
tugas seperti pengelompokan (clustering) dan pengurangan dimensi (dimensionality
reduction) [12].
2.4. Klasifikasi
Klasifikasi (classification) termasuk ke dalam kategori supervised learning
yang tujuan utamanya adalah untuk memprediksi sebuah class label, yang merupakan
pilihan dari daftar kemungkinan yang sudah ditentukan sebelumnya. Klasifikasi
terkadang dipisahkan menjadi binary classification, yang merupakan
pengklasifikasian khusus untuk melenyapkan antara tepat dua kelas yang berbeda.
Sementara klasifikasi lainnya, adalah multiclass clasification yang digunakan untuk
menentukan klasifikasi data yang memiliki lebih dari dua kelas [13].
Dalam menentukan klasifikasi biner, klasifikasi hanya menghasilkan 2 kelas
saja, seperti pada contoh “Apakah radiasi ini bersumber dari 60Co atau 22Na?”.
Perbedaan pada kedua jenis klasifikasi dapat dilihat pada Gambar 2. 10 di bawah ini:
17
Gambar 2. 10 Perbedaan klasifikasi biner (kiri), dengan klasifikasi banyak kelas (kanan). [15]
Model klasifikasi termasuk ke dalam model diskrit. Model diskrit yang berarti
hanya dapat memiliki kelas tertentu setelah data terklasifikasi. Sehingga, hasil
keluaran klasifikasi akan bersifat jelas dan tidak seperti model regresi yang bersifat
kontinu-yang salah satu variabelnya bergantung dengan variabel lainnya [15].
Untuk mencocokan kelas, algoritma akan membantu mesin untuk mengetahui
kelasnya masing-masing dengan menggunakan parameter-parameter tertentu yang
dimasukkan ke dalam model matematika untuk diketahui probabilitas tertinggi pada
suatu kelas untuk menentukan kelayakan suatu data terhadap kelas tersebut [3]. Di
bawah ini merupakan beberapa contoh algoritma classifier yang digunakan dalam
penelitian ini.
2.4.1. Decision Tree Classifier
Decision Tree Classifier (DTC) merupakan algoritma yang membentuk
sebuah pohon penentuan (decision tree). Prinsip utamanya adalah dengan
mempertanyakan setiap target variabel dengan ‘yes’ atau ‘no’ dan
mendistribusikannya menjadi sebuah pohon. Tujuannya adalah untuk menciptakan
18
model yang dapat memprediksi hasil/nilai dari variabel target dengan pembelajaran
sederhana yang disimpulkan dari fitur-fitur data [16].
Bentuk dari classifier ini menyerupai diagram alir pada diagram yang
menampilkan kondisi ya/tidak ataupun betul/salah. Contoh bentuk DTC dapat dilihat
pada Gambar 2. 12 dan Gambar 2. 12 di bawah ini:
Gambar 2. 11 Contoh diagram Decision Tree Classifier biner, melakukan klasifikasi isotop Am-241
dan Na-22.
19
Gambar 2. 12 Contoh Diagram Decision Tree Classifier multiclass, melakukan klasifikasi untuk 4 jenis
isotop.
Decision tree classifier memiliki sebuah bagian yang disebut node.
Node dipisahkan menjadi root node, yang merupakan node akar dan menempati
bagian paling atas diagram. Leaf node, yang merupakan node daun/akhir untuk
menentukan kelas data hasil prediksi. Untuk node yang bagian tengah, tidak ada
sebutan khusus atau biasa dianggap sebagai node ranting [14].
Menentukan node akar
Dalam membuat sebuah decision tree, diperlukan pekerjaan untuk
menentukan variabel manakah yang cocok untuk dijadikan node akar. Penentuan ini
dapat diketahui dengan menghitung nilai kekeruhan (impuritas) pada setiap variabel
dengan prediksi hasil pada praproses. Untuk menghitung nilai impuritas, dapat
menggunakan persamaan Gini impurity [14]
𝐼𝐺 = 1 − ∑𝑝𝑖2
𝐽
𝑖=1
2. 3
20
Dengan J merupakan jumlah kelas dan 𝑖 = {1, 2, … , 𝐽}. Sementara 𝑝𝑖 adalah
probabilitas untuk setiap nilai i.
Karena dalam setiap cabang decision tree memiliki dua kemungkinan/daun,
maka untuk mengetahui impuritas sebenarnya dari variabel tersebut dapat diketahui
dengan menghitung rata-ratanya. Jika jumlah kedua prediksi tidak sama, maka perlu
menggunakan rata-rata yang diberatkan.
�̅� =
∑ 𝑤𝑖𝑥𝑖𝑛𝑖=1
∑ 𝑤𝑖𝑛𝑖=1
2. 4
Dengan 𝑤𝑖adalah pemberat yang didapat dari perbandingan jumlah sampel
pada masing-masing daun dan 𝑥𝑖 merupakan nilai Gini pada setiap daun. Jika jumlah
sampel pada kedua daun adalah sama, maka cukup menggunakan perhitungan rata-
rata yang biasa saja.
�̅� =1
𝑛∑𝑥𝑖
𝑛
𝑖=1
2. 5
Node akar akan ditentukan kepada variabel yang memiliki nilai rata-
rata Gini terkecil. Karena nilai Gini berbanding terbalik dengan impuritas, maka
variabel dengan nilai Gini terendah berarti memiliki impuritas yang lebih baik [14].
21
Menentukan percabangan dan node daun/akhir
Untuk menentukan percabangan dan node daun dapat melakukan hal yang
sama seperti dalam menentukan node akar. Menggunakan variabel dengan nilai gini
terendah untuk dijadikan cabang selanjutnya. Akan tetapi, perbedaannya terdapat
pada jumlah data yang diproses. Jumlah data yang diproses tidak semua melainkan
hasil prediksi dari variabel sebelumnya [14].
Contoh:
Ketika variabel E 59,5 > 2000 memprediksi 110 sampel spektrum menyatakan
“Ya!” dan 125 sampel spektrum menyatakan “Tidak!” dengan menggunakan total
235 sampel, maka untuk menentukan ranting pada cabang variabel selanjutnya
hanya menggunakan 110 atau 125 sampel saja. Tidak perlu semua sampel.
Contoh bisa dilihat pada Gambar 2. 13 berikut:
Gambar 2. 13 Menentukan Node Cabang dan Akar
22
Pada kedua contoh tulisan dan Gambar 2. 13 di atas, dapat diketahui bahwa
semakin panjang ranting pohon, maka jumlah sampel spektrum yang diproses untuk
diprediksi akan menjadi lebih sedikit untuk setiap variabel energi. Ini dinamakan
penyempitan variasi sehingga hasil akhir menjadi lebih akurat akibat bantuan dari
prediksi variabel energi sebelumnya.
Sementara untuk menentukan apakah node perlu dicabangkan kembali atau
menjadi node daun dapat ditentukan dengan menggunakan Gini impurity seperti
sebelumnya dengan kondisi, jika nilai Gini menjadi lebih besar setelah dicabangkan,
maka lebih baik tidak perlu dicabangkan [14].
Keuntungan yang didapat dari menggunakan algoritma decision tree ada
beberapa, di antaranya:
Mudah dimengerti dan diinterpretasikan. Diagram dapat
divisualisasikan
Membutuhkan sedikit persiapan data.
Dapat menangani data kategori maupun numerik.
Dapat menangani banyak hasil keluaran.
Dapat berfungsi walaupun data dimanipulasi.
Dengan teknik tertentu, classifier ini dapat menganalisa data yang
hanya memiliki satu variabel data [1].
23
Walaupun demikian, terdapat pula kerugian dalam menggunakan classifier
ini, di antaranya:
Algoritma pembelajaran ini dapat menciptakan sebuah pohon over-
kompleks yang dapat membuat data tidak dapat disimpulkan dengan
baik, biasa disebut overfitting.
Decision tree dapat menjadi tidak stabil karena variasi data yang
rendah dapat menghasilkan bentuk pohon yang jauh berbeda.
Sangat sulit untuk memproses konsep logika yang berat, seperti
‘exclusive or’ (XOR).
Membutuhkan praproses data seperti penyeimbangan dataset untuk
menghilangkan pohon bias karena dominansi suatu klasifikasi [17].
2.4.2. Random Forest Classifier
Random Forest Classifier merupakan sebuah algoritma terkumpul (ansambel)
yang menggunakan beberapa model dari decision tree classifier untuk dikumpulkan
menjadi satu classifier yang lebat [18], seperti hutan yang dicontohkan oleh Gambar 2.
14 di berikut:
24
Gambar 2. 14 Diagram Algoritma Random Forest Classifier.
Bootstrapping and aggregating data (Bagging)
Dalam membuat pohon pada algoritma random forest dapat dibuat dengan
melakukan bootstrapping. Bootstrap atau pemilihan kembali dilakukan untuk
membuat data baru yang bersifat sementara dan membentuk pohon menjadi terlihat
‘acak’ pada setiap jenisnya. Pohon yang dimaksud adalah decision tree yang
melakukan prediksi pada masing-masing data sesuai pekerjaannya. Dalam proses
bootstrap, setiap sampel memiliki peluang yang sama untuk dapat dipilih pada proses
bootstrap [13]
𝑃𝑖 =
1
𝑁
2. 6
Dengan 𝑃𝑖 merupakan peluang sampel terpilih, dan 𝑁 adalah jumlah data.
Membuat decision tree pada masing-masing data bootstrap, jumlah variabel
yang menjadi akar dan cabang tidak ditentukan dengan impuritas, melainkan dengan
memilih acak variabel dari kelompok variabel yang juga dipilih acak baik jumlah dan
25
variabelnya. Untuk jumlah variabel, biasanya menggunakan √𝑦 dengan y adalah
jumlah variabel dan beberapa nilai di atas atau di bawahnya untuk dibandingkan
tingkat akurasinya [19].
Out-of-bag samples
Saat melakukan bootstrapping, ada kemungkinan beberapa sampel untuk
terpilih lebih dari sekali. Dengan kata lain, ini memungkinkan pula untuk beberapa
sampel tidak terpilih yang disebut ‘out-of-bag’ [20]. Pada umumnya, kemungkinan
untuk sampel tidak terpilih pada setiap data adalah sebagai berikut
𝐷 ≈
1
3𝑁
2. 7
Di mana D merupakan jumlah data ‘out-of-bag’ untuk setiap satu set data.
Data ini dapat diprediksi ulang menggunakan voting terbanyak dari setiap pohon
yang telah dibuat dan diperiksa kebenarannya [21].
Dengan menggunakan data ‘out-of-bag’, akurasi atau rasio error dari random
forest dapat dihitung dengan menggunakan rasio error prediksi sementara data ‘out-
of-bag’
𝑧 =1
𝑁∑𝑠𝑐(𝑇)𝑗
𝑁
𝑗=1
2. 8
26
Di mana z adalah rata-rata error ‘out-of-bag’ untuk 𝑠𝑐(𝑇)𝑗 adalah setiap
sampel yang salah klasifikasi dalam pohon yang memiliki sampel 𝑠𝑐(𝑇)𝑗 sebagai
sampel ‘out-of-bag’-nya [13]. Sehingga, akurasi yang dimiliki oleh sebuah algoritma
ini dapat dihitung dengan
𝐴𝑐𝑐 = 1 − 𝑧 2. 9
Iterasi ini dapat dilakukan berulang kali sesuai dengan parameter yang
memungkinkan untuk algoritma random forest memiliki akurasi terbaik.
2.4.3. AdaBoost Classifier
AdaBoost, atau Adaptive Boosting adalah sebuah algoritma metaheuristik
yang merupakan algoritma tingkat tinggi untuk menyelesaikan sebuah masalah
khusus. Algoritma ini dapat digunakan konjungsi dengan algoritma lainnya (terutama
yang lemah) untuk meningkatkan hasil keluaran yang didapat. Prinsip dasar dari
AdaBoost Classifier adalah untuk meningkatkan kualitas dari weak learner (seperti
decision tree) [13] dengan beberapa data yang dimodifikasi berulang kali seperti pada
Gambar 2. 15 di bawah ini:
27
Gambar 2. 15 Contoh Penggabungan Beberapa Classifier Menjadi Satu. [13]
Keluaran dari weak learner akan digabungkan menjadi satu untuk
mempresentasikan keluaran final dari satu classifier yang telah ditingkatkan (boosted)
seperti pada Gambar 2. 15 di atas [13]. Karena sifatnya yang adaptif, kesalahan yang
dilakukan oleh weak learner dalam menentukan klasifikasi sebelumnya dapat
diperbaiki dengan menggunakan contoh-contoh sebelumnya. AdaBoost sensitif
terhadap derau dan outliers membuatnya dalam beberapa kasus menjadi kurang peka
terhadap masalah overfitting seperti algoritma lainnya [22].
AdaBoost memiliki tiga ide utama, yaitu:
AdaBoost menggabungkan banyak weak learner untuk menentukan
klasifikasi, weak learner yang dimaksud biasanya disebut stumps.
Beberapa stumps memiliki kekuatan voting yang lebih besar
ketimbang lainnya.
28
Setiap stumps dibentuk dengan mempertimbangkan kesalahan yang
dibuat oleh stumps sebelumnya [13].
Untuk menggunakan algoritma AdaBoost, diperlukan sebuah hipotesis dari
weak learner dalam bentuk Gini [13]
𝑓𝐼𝐺 = 1 − ∑𝑝𝑖2
𝑁
𝑖=1
2. 10
Di mana setiap 𝑓𝐼𝐺 merupakan weak learner yang melakukan prediksi yang
menghasilkan impuritas Gini 𝐼𝐺 untuk kemudian dicari rasio kesalahannya. Hasil
keluaran yang memiliki impuritas Gini terkecil akan terlebih dahulu untuk dihitung
kekuatan votingnya [22]
𝛼𝑚 =
1
2ln (
1 − 𝜖𝑚
𝜖𝑚)
2. 11
Dengan 𝜖𝑚 merupakan rasio kesalahan. Rasio kesalahan dengan kekuatan
voting memiliki rentang nilai antara 0 hingga 1, namun berbanding terbalik. Jika rasio
kesalahan besar, maka kekuatan voting yang dimiliki tidak besar dan tidak akan
berpengaruh terhadap klasifikasi lainnya. Rasio kesalahan pada persamaan (2. 11)
dapat diketahui melalui persamaan berikut [13]
29
𝜖𝑚 = ∑𝑤𝑖
𝑗
𝑖=1
2. 12
Dengan 𝜖𝑚 adalah total berat weight pada setiap data 𝑖 = 1, 2,… , 𝑗 data yang
salah prediksi [13].
Dalam menentukan klasifikasi, AdaBoost memiliki pemberatan (weighting)
untuk melakukan perhitungan kesalahan yang dilakukan oleh weak learner. Pada
awalnya, nilai pemberat w berlaku untuk semua data dapat dihitung dengan formula
𝑤𝑖 = 1/𝑁 2. 13
Dengan N adalah Jumlah data yang akan diklasifikasi [22]. Catat bahwa jika
nilai pemberat dijumlah, maka totalnya akan menghasilkan nilai 1 [13].
Setelah kekuatan voting dari stump pada weak learner diketahui, nilai
pemberat untuk kesalahan yang dilakukan oleh stump dengan kekuatan voting
terbesar dapat diketahui dengan persamaan
𝑤𝑖,𝑡+1 = 𝑤𝑖 × 𝑒𝛼𝑚 2. 14
Sementara itu, untuk yang lainnya dalam satu kelas yang sama dapat
membalik nilai eksponen sehingga didapat
𝑤𝑖,𝑡+1 = 𝑤𝑖 × 𝑒−𝛼𝑚 2. 15
30
Untuk 𝛼𝑚 adalah kekuatan voting stump yang terbesar [13].
Dengan nilai pemberat yang baru, nilai pemberat pada persamaan dapat
dinormalisasi untuk menjadikan total pemberat menjadi bernilai 1 kembali dengan
melakukan pembagian nilai pemberat saat ini dengan total pemberat saat ini [13]
𝑤𝑖(𝑛𝑜𝑟𝑚) = 𝑤𝑖
∑ 𝑤𝑖𝑖 2. 16
Dilakukan pada setiap sampel klasifikasi untuk digunakan sebagai
pertimbangan untuk melakukan hipotesis selanjutnya [22].
Pada algoritma AdaBoost, terdapat metode untuk memodifikasi data sehingga
menjadi data yang baru dan minim kesalahan seperti bagging pada Random Forest.
Metode ini dapat digunakan dengan menjalankan nilai acak ke dalam data untuk
memperoleh sampel yang akan dimasukkan ke dalam data baru. Untuk setiap
pemberat data, data yang memiliki pemberat terbesar akan memiliki peluang untuk
digunakan oleh data baru. Peluang untuk data tersebut diperoleh adalah
𝑃𝑖 =𝑤𝑖
∑ 𝑤𝑖𝑖 2. 17
Dengan,
𝑃𝑖 = peluang sampel 𝑖 terpilih
𝑤𝑖 = berat dari sampel 𝑖.
31
Data hasil bagging tersebut akan digunakan sebagai data pengganti untuk
meningkatkan (boosting) hasil klasifikasi yang telah dilakukan oleh para stumps.
Karena data dengan berat terbesar memiliki kemungkinan terpilih oleh kejadian acak
lebih dari sekali, maka data yang sama tersebut akan diberlakukan sebagai satu blok
besar sampel saja. Sementara itu, proses dilakukan dari awal kembali dengan
menggunakan data hasil bagging.
Pengklasifikasian
AdaBoost melakukan klasifikasi data berdasarkan jumlah dari kekuatan
voting pada masing-masing prediksi klasifikasi sampel. Jumlah kekuatan voting yang
terbesar akan dipilih untuk melakukan klasifikasi pada sampel tersebut [13].
2.4.4. Naive Bayes Classification
Algoritma yang menggunakan aturan-aturan berdasarkan keadaan data yang
dipaparkan. Sehingga, tidak ada modifikasi khusus yang dilakukan algoritma
terhadap data [14]. Dalam algoritma ini terdapat aturan Bayes yang meliputi
probabilitas klasifikasi data yang telah diketahui untuk mengetahui probabilitas data
yang belum diketahui menggunakan
𝑃(𝑋|𝑌) =
𝑃(𝑋 ∩ 𝑌)
𝑃(𝑌)
2. 18
32
Untuk probabilitas 𝑃(𝑋|𝑌) = 𝑃(𝐵𝑢𝑘𝑡𝑖|𝐻𝑎𝑠𝑖𝑙) yang sudah diketahui (apriori)
dari data latihan [14], dan
𝑃(𝑌|𝑋) =
𝑃(𝑋 ∩ 𝑌)
𝑃(𝑋)
2. 19
Untuk probabilitas 𝑃(𝑌|𝑋) = 𝑃(𝐻𝑎𝑠𝑖𝑙|𝐵𝑢𝑘𝑡𝑖) yang belum diketahui
(posteriori) untuk memprediksi data tes [14]. Jika kedua formula (2. 18) dan (2. 19)
diturunkan, maka akan mendapatkan
𝑃(𝑋|𝑌) =
𝑃(𝑋 ∩ 𝑌)
𝑃(𝑌)
𝑃(𝑋 ∩ 𝑌) = 𝑃(𝑋|𝑌)𝑃(𝑌)
𝑃(𝑌|𝑋) =
𝑃(𝑋|𝑌)𝑃(𝑌)
𝑃(𝑋)
2. 20
Persamaan (2. 20) disebut sebagai ‘aturan Bayes’ [14].
Aturan Bayes tersebut dapat memberikan rumus untuk probabilitas Y yang
diberikan oleh variabel X. Akan tetapi, dalam kasus yang sebenarnya sering kali
terdapat berbagai macam variabel X. Karena itulah, aturan Bayes dapat diperluas
menjadi apa yang disebut sebagai Naive Bayes. Dikatakan ‘naive’ karena setiap
variabel X akan diasumsikan independen satu sama lain secara naif [14]
33
𝑃(𝑌|𝑋) =
𝑃(𝑋|𝑌)𝑃(𝑌)
𝑃(𝑋)
𝑃(𝑌 = 𝑘|𝑋) =
𝑃(𝑋|𝑌 = 𝑘)𝑃(𝑌 = 𝑘)
𝑃(𝑋)
2. 21
Di mana k merupakan kelas dari Y. Jika aturan Bayes memiliki beberapa
variabel X, maka
𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛)
=𝑃(𝑋1|𝑌 = 𝑘) ∗ 𝑃(𝑋2|𝑌 = 𝑘)…∗ 𝑃(𝑋𝑛|𝑌 = 𝑘) ∗ 𝑃(𝑌 = 𝑘)
𝑃(𝑋1) ∗ 𝑃(𝑋2)… ∗ 𝑃(𝑋𝑛)
2. 22
Atau
𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛) =
𝑃(𝑌 = 𝑘)∏ 𝑃(𝑋𝑖|𝑌 = 𝑘)𝑛𝑖=1
𝑃(𝑋1, 𝑋2, … , 𝑋𝑛)
2. 23
Persamaan inilah yang disebut sebagai Naive Bayes [14, 24].
Karena nilai 𝑃(𝑋1, 𝑋2, … , 𝑋𝑛) pada setiap kelas adalah sama, maka bagian
bawah persamaan dapat dihilangkan menjadi
𝑃(𝑌 = 𝑘|𝑋1 …𝑋𝑛) = ∝ 𝑃(𝑌 = 𝑘)∏ 𝑃(𝑋𝑖|𝑌 = 𝑘)
𝑛
𝑖=1
2. 24
Persamaan (2. 24) merupakan persamaan Naive Bayes yang disederhanakan.
Dengan asumsi bahwa hasil yang ditimbulkan dari setiap kejadian adalah berbeda,
34
atau yang biasa disebut conditional independence. Notasi 𝛼 pada persamaan (2. 24)
merupakan normalization factor dari Naive Bayes untuk menyamakan probabilitas
apriori dengan posteriorinya [14].
Normalisasi Gaussian dapat dimuat ke dalam persamaan Naive Bayes. Untuk
menggunakannya, hanya memerlukan rata-rata dari variabel X dan variasinya saja,
sehingga
𝑃(𝑋|𝑌 = 𝑘) =
1
√2𝜋𝜎𝑘2𝑒
−(𝑥−𝜇𝑘)2
2𝜎𝑐2
2. 25
Di mana 𝜇 dan 𝜎2 merupakan rata-rata dan variasi dari variabel X yang
dihitung probabilitasnya untuk terjadi di Y pada kelas ‘k’ [14].
2.4.5. Gaussian Process Classifier
Gaussian Process Classifier (GPC) memanfaatkan proses Gaussian untuk
melakukan klasifikasi data dan memberikan prediksi dari probabilitas setiap sampel.
GPC memberikan proses Gaussian sebelum fungsi laten f, yang mana kemudian akan
ditimpa dengan fungsi sigmoid 𝜎(𝑓(𝑥)) untuk memperoleh klasifikasi probabilistik
untuk kelas 𝑘 seperti pada persamaan 2. 26
𝑝(𝑌 = 𝑘|𝑓) = 𝜎(𝑓) 2. 26
Dimana 𝜎(𝑓) adalah fungsi logistik atau probit sigmoid [23]
35
Fungsi laten f merupakan sekedar fungsi gangguan yang nilainya tidak
teramati dan tidak relevan dengan sendirinya. Tujuannya hanyalah untuk
memungkinkan formulasi yang bagus saja, dan fungsi f tersebut akan terbuang saat
melakukan prediksi [23].
Pendekatan Laplace untuk banyak kelas
Untuk nilai fungsi laten setiap vektor kelas C didapat sebagai berikut:
𝒇 = (𝑓11, … , 𝑓𝑛
1, 𝑓12, … , 𝑓𝑛
2, 𝑓1𝐶 , … , 𝑓𝑛
𝐶 ) 2. 27
Demikian f memiliki panjang sejauh 𝐶𝑛. Saat menyelesaikan kasus dengan
banyak kelas, perlu menggunakan fungsi softmax [23]. Untuk menentukan nilai
softmax 𝑦𝑖 untuk setiap kelas C dalam variabel f dapat menggunakan persamaan
berikut
𝑃(𝑦𝑖
𝐶|𝒇𝑖) = 𝜋𝑖𝑐 =
𝑒𝑓𝑖𝑐
∑ 𝑓𝑖𝑐
𝑐′
2. 28
Di mana 𝜋𝑖𝑐merupakan denotasi dari output softmax. Kemudian 𝝅 akan
memiliki panjang vektor yang sama dengan f dengan entri 𝜋𝑖𝑐 [23].
Fungsi Kernel
36
Fungsi kernel atau fungsi kovarian dapat membantu menyelesaikan masalah
dalam pengklasifikasian data. Dalam algoritma gaussian process, terdapat beberapa
kernel penolong, di antaranya:
Konstan: 𝐾𝐶(𝑥, 𝑥′) = 𝐶
Linear: 𝐾𝐿(𝑥, 𝑥′) = 𝑥𝑇𝑥′
White Gaussian Noise: 𝐾𝐺𝑁(𝑥, 𝑥′) = 𝛿𝑥,𝑥′
Radial Based: 𝐾𝑅𝐵𝐹(𝑥, 𝑥′) = 𝑒(−
1
2𝑑(
𝑥
𝑙,𝑥′
𝑙)2
), 𝑙 > 0
Rational Quadratic: 𝐾𝑅𝑄(𝑥, 𝑥′) = (1 +𝑑(𝑥,𝑥′)
2
2𝛼𝑙2)−𝛼, 𝛼 > 0, 𝑙 > 0
Dimana 𝑙 merupakan konstanta lenght scale yang dapat diparameterkan pada
fungsi kovarian. Sementara 𝛼 merupakan konstanta scale mixture yang juga dapat
diparameterkan pada fungsi kovarian [23].
Dalam penggunaan gaussian process pada pengerjaan machine learning,
kernel-kernel tersebut akan dimasukkan ke dalam sebuah fungsi Marginal Likelihood
untuk memperoleh probabilitas [23].
Log Marginal Likelihood
Log marginal likelihood menunjukkan kualitas dari suatu data training untuk
menentukan prediksi bagi data yang belum terlihat sebelumnya [23]. Persamaan log
marginal likelihood diberikan oleh persamaan probabilitas
37
log 𝑝(𝑓(𝑥)|𝑥) = −
1
2𝑓(𝑥)𝑇𝐾(𝑥, 𝑥′)−1𝑓(𝑥′) −
1
2log det(𝐾(𝑥, 𝑥′))
−𝑛
2log 2𝜋
2. 29
Untuk n adalah jumlah data dan 𝑓(𝑥) adalah fungsi laten yang dikalikan
dengan fungsi kovarian K. Karena bentuk dari log marginal likelihood yang
berbentuk probabilitas perkalian (product), maka semakin tinggi nilainya semakin
baik kualitasnya [24].
2.4.6. Support Vector Machine
Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik,
dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on
Computational Learning Theory. SVM menggunakan teknik dari teori-teori
komputasi seperti margin hyperplane, kernel, dan teori pendukung lainnya untuk
menentukan klasifikasi suatu data [25]. Cara SVM untuk menentukan klasifikasi
dapat dilihat pada Gambar 2. 16 berikut:
38
Gambar 2. 16 SVM membentuk hyperplane yang memisahkan kedua class –1 dan +1 [14]
Secara formal, prinsip kerja SVM adalah membuat sebuah atau sekumpulan
hyperplane pada dimensi tinggi atau bahkan tak hingga untuk menentukan klasifikasi,
regresi, maupun tindakan lain seperti mendeteksi outliers. Secara intuitif, pemisahan
yang baik dicapai oleh hyperplane yang memiliki jarak terbesar ke titik-data pelatihan
terdekat dari setiap kelas (disebut functional margin), karena secara umum semakin
besar margin, semakin rendah kesalahan generalisasi dari classifier [14].
Linear SVM
Dalam SVM, kernel dasar yang dimiliki adalah linear. Kernel ini dapat
digunakan untuk kumpulan data yang dapat dipisahkan menggunakan aljabar linier
secara langsung. Jika data yang diamati memiliki nilai sebagai berikut:
(𝑥1⃑⃑ ⃑, 𝑦1),… , (𝑥𝑖⃑⃑ ⃑, 𝑦𝑖) 2. 30
39
Di mana 𝑦𝑖 bernilai 1 atau -1, yang masing-masing mengindikasikan kelas
dari 𝑥𝑖⃑⃑ ⃑. Setiap 𝑥𝑖⃑⃑ ⃑ adalah vektor riil berdimensi p. Dari sini setiap data tersebut dapat
dicari nilai margin maksimum yang memisahkan antara grup 𝑥𝑖⃑⃑ ⃑ yang memiliki nilai
𝑦𝑖 = 1 dan grup 𝑥𝑖⃑⃑ ⃑ yang memiliki nilai 𝑦𝑖 = −1 sehingga jarak antara kedua grup
dapat terpisah secara maksimum untuk dibentuk sebuah hyperplane [14] seperti yang
dapat dilihat pada Gambar 2. 17 berikut:
Gambar 2. 17 Pengaturan Posisi Hyperplane. [Sumber: https://en.wikipedia.org/wiki/Support-
vector_machine]
Setiap hyperplane dalam garis linier dapat dituliskan sebagai berikut:
�̅�𝑇. �̅� + 𝑏 = 0 2. 31
Dan untuk pola data yang memiliki kelas -1 (kelas negatif) dapat dirumuskan:
�̅�𝑇. �̅� + 𝑏 = −1 2. 32
40
Sementara untuk pola data kelas +1 (kelas positif):
�̅�𝑇. �̅� + 𝑏 = 1 2. 33
Untuk menemukan margin terbesarnya, dapat dilakukan dengan melihat jarak dari
dua titik terdekat pada setiap kelas (Gambar 2. 18)
Gambar 2. 18 Menentukan margin pada SVM [14]
Dengan melihat bahwa setiap poin adalah vektor, maka didapat:
𝑥2̅̅ ̅ − 𝑥1̅̅̅ = 𝑡�̅�
𝑥2̅̅ ̅ = 𝑥1̅̅̅ + 𝑡�̅� 2. 34
41
Kemudian, substitusi persamaan 2. 33 dengan persamaan 2. 35
�̅�𝑇. 𝑥2̅̅ ̅ + 𝑏 = 1
�̅�𝑇. (𝑥1̅̅̅ + 𝑡�̅�) + 𝑏 = 1
(�̅�𝑇. 𝑥1̅̅ ̅ + 𝑏) + 𝑡‖�̅�‖2 = 1 2. 35
Melihat persamaan 2. 32, maka persamaan 2. 35 menjadi
(�̅�𝑇. 𝑥1̅̅ ̅ + 𝑏) + 𝑡‖�̅�‖2 = 1
−1 + 𝑡‖�̅�‖2 = 1
𝑡 =
2
‖�̅�‖2
2. 36
Jarak antara 𝑥1 dan 𝑥2 adalah panjang dari segmen t; maka didapat
𝑑(𝑥1̅̅̅, 𝑥2̅̅ ̅) = 𝑡‖�̅�‖ =
2
‖�̅�‖
2. 37
Dengan mempertimbangkan seluruh titik poin dari dataset asli, kita dapat
menentukan persamaan constraint-nya
𝑦𝑖(�̅�𝑇 . 𝑥�̅� + 𝑏) ≥ 1, ∀(𝑥�̅�, 𝑦𝑖) 2. 38
42
Pada beberapa kasus, persamaan 2. 38 dapat menghasilkan model yang sangat
kuat, namun dalam sekian banyak dataset, ini juga bisa jadi batasan yang kuat. Untuk
menghindari kekakuan tersebut, kita dapat memberikan fungsi minimum untuk bisa
melatih SVM dengan formula optimasi yang sama
{min
1
2‖�̅�‖
𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1
2. 39
Fungsi 2. 39 tersebut dapat disederhanakan kembali (dengan menghilangkan
akar pada fungsi minimumnya) dalam persamaan quadratic programming problem
berikut
{min
1
2�̅�𝑇�̅�
𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1
2. 40
Implementasi Scikit-Learn
Dengan tujuan untuk membuat hyperplane lebih fleksibel, semua
implementasi Scikit-Learn didasari oleh simple variant yang mencakup apa yang
disebut slack variables (𝜁) di dalam fungsi minimum
min
1
2�̅�𝑇�̅� + 𝐶 ∑𝜁𝑖
𝑖
2. 41
Dengan begitu, persamaan constraint-nya menjadi
43
𝑦𝑖(�̅�𝑇. 𝑥�̅� + 𝑏) ≥ 1 − 𝜁𝑖 2. 42
Non-linear SVM
Jika SVM sudah dapat menentukan kelas data dengan menggunakan sistem
linier, maka untuk kasus nonlinear akan sedikit berbeda. Untuk menyelesaikan
masalah, Bernhard E. Boser, Isabelle M. Guyon dan Vladimir N. Vapnik
menyarankan sebuah cara untuk membuat nonlinear classifier dengan
mengaplikasikan sebuah kernel trick untuk hyperplane margin maksimum [25].
Hasil algoritma menggunakan kernel trick akan sama seperti pada SVM linier,
akan tetapi untuk setiap fungsi dot product akan diganti dengan fungsi nonlinear
kernel. Algoritma ini memungkinkan classifier untuk menyesuaikan hyperplane
margin maksimum pada ruang fitur yang ditransformasikan menuju dimensi yang
lebih tinggi [14].
Transformasi ruang fitur akan membuat klasifikasi data pada ruang data
dengan dimensi yang lebih tinggi atau bahkan tak hingga. Namun, karena
keterbatasan visual, peningkatan dimensi hanyalah dengan menyelesaikan persamaan
dan memasukkan nilai data untuk ditentukan kelasnya tanpa mengubah nilai data
tersebut ke dalam bentuk nyata di ruang dimensi yang tinggi tersebut. Beberapa
kernel yang dapat digunakan antara lain:
Polinomial: 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) = (𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑)𝑑
44
Gaussian Radial Basis Fuction: 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) = exp (−𝛾‖𝑥𝑖⃑⃑ ⃑ − 𝑥𝑗⃑⃑ ⃑‖2) untuk
𝛾 > 0. Terkadang diparameterkan sebagai 𝛾 = 1
2𝜎2
Kernel berkaitan dengan transformasi 𝜑(𝑥𝑖⃑⃑ ⃑) dengan persamaan 𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥𝑗⃑⃑ ⃑) =
𝜑(𝑥𝑖⃑⃑ ⃑) ⋅ 𝜑(𝑥𝑗⃑⃑ ⃑). Nilai w juga terdapat pada ruang transformasi, dengan �⃑⃑� =
∑ 𝛼𝑖𝑦𝑖𝜑(𝑥𝑖⃑⃑ ⃑) 𝑖 . Dot product dengan w untuk pengklasifikasian dapat dihitung lagi
menggunakan kernel trick, seperti �⃑⃑� ⋅ 𝜑(𝑥𝑖⃑⃑ ⃑) = ∑ 𝛼𝑖𝑦𝑖𝑘(𝑥𝑖⃑⃑ ⃑, 𝑥 ) 𝑖 [14].
2.5. Sci-Kit Learn
Sci-Kit Learn atau lebih dikenal dengan nama sklearn adalah sebuah modul
untuk melakukan analisis data, penggalian data, serta machine learning. Pertama kali
dimulai pada tahun 2007 sebagai proyek Google Summer of Code oleh David
Cournapeau yang dilanjutkan oleh Fabian Pedregosa pada tahun 2010 dan
membuatnya menjadi public release [6].
Modul sklearn menggunakan bahasa pemrograman python dalam
pengembangannya serta pengoperasiannya. Modul tersebut berisi banyak algoritma
untuk melakukan machine learning dan data mining untuk supervised dan
unsupervised learning skala menengah [6].
Menggunakan teknologi Numpy untuk struktur dan modifikasi data dalam
python sebagai pustaka utama yang berkekuatan tinggi dan memiliki kompatibilitas
tinggi terhadap pustaka bahasa python lainnya [6].
45
Desain Kode
Objek desain kode yang dimiliki oleh sklearn mengacu pada interface, bukan
pada inheritance. Untuk memfasilitasi objek dari luar menggunakan sklearn,
inheritance tidak dipaksakan; melainkan, melakukan perjanjian kode untuk
menyediakan interface yang konsisten [6]. Kode-kode yang disediakan seperti:
fit untuk memulai proses pelatihan algoritma pada classifier.
predict pada algoritma classifier untuk memprediksi hasil klasifikasi.
score untuk melihat hasil akurasi dari algoritma-algoritma classifier (hasil
dalam bentuk desimal).
46
BAB III
METODE PENELITIAN
Setelah mengetahui dasar-dasar teori yang dijabarkan pada BAB II, peneliti
dapat melakukan penelitian menggunakan metode-metode yang berkaitan. Selain itu,
penelitian juga dilaksanakan sesuai prosedur dan waktu yang telah ditentukan.
3.1 Waktu dan Tempat Penelitian
Penelitian perbandingan akurasi dan kecepatan proses classifier machine
learning untuk klasifikasi spektrum gamma 60Co, 22Na, 241Am, 137Cs, 90Sr. Penelitian
ini dilaksanakan pada bulan Oktober sampai Januari 2020. Penelitian tersebut
bertempat di Pusat Laboratorium Terpadu (PLT) Universitas Islam Negeri (UIN)
Jakarta.
3.2 Alat dan Bahan
Selama penelitian berlangsung dalam pembuatan dan pengujian perbandingan
akurasi dan cepat proses classifier machine learning untuk klasifikasi spektrum
gamma 60Co, 22Na, 241Am, 137Cs, 90Sr.. Membutuhkan alat penelitian di mana alat-alat
tersebut berfungsi sebagai media pendukung penelitian, sedangkan bahan penelitian
sebagai media pendukung alat dan penelitian tersebut. Beberapa alat dan bahan bisa
dilihat pada tabel berikut ini :
47
Tabel 3. 1 Alat dan Bahan Penelitian
Alat dan Bahan Keterangan
Alat :
1. Perangkat Detektor Spektroskopi Gamma NaI(Tl)
2. Komputer dengan Aplikasi Cassy Lab
3. Komputer dengan Aplikasi Jupyter Notebook
4. Modul Sci-Kit Learn\
5. Radioaktif 60Co, 22Na, 241Am, 137Cs, 90Sr
1 Buah
1 Buah
1 Buah
Versi 0.21.3
Masing-masing 1 buah.
(Spesifikasi Komputer untuk Klasifikasi)
CPU: Intel® Core™ i3-5005U 2.0 GHz
GPU: Nvidia® GeForce 930M
RAM: 8GB SODIMM 1600 MHz
Disk: TOSHIBA HDD 7200 RPM
3.3 Tahapan Penelitian
Penelitian ini meliputi beberapa tahapan. Secara garis besar tahapan tersebut
terbagi atas preprocessing data, pengklasifikasian, pengujian classifier, dan
perbandingan hasil klasifikasi. Adapun tahapan keseluruhan dapat dilihat dari Bagan 3.
1 berikut ini:
48
Bagan 3. 1 Bagan Tahapan Penelitian
3.3.1 Persiapan Penelitian
Pada tahapan ini proses yang dilakukan adalah mencari informasi tentang alat
dan bahan yang digunakan dari buku dan dokumentasi program. Serta mencari
penelitian yang sejenis dari beberapa jurnal. Tahapan ini bertujuan memilih bahan-
bahan referensi sebagai studi pustaka.
PENGUJIAN
CLASSIFIER UNTUK
KLASIFIKASI DATA
PREPROCESSING DATA
ANALISIS HASIL
PENGAMBILAN DATA
SPEKTROSKOPI GAMMA
KAJIAN PUSTAKA
KESIMPULAN
49
3.3.2 Pengambilan Data Spektroskopi Gamma
Pengambilan data spektroskopi untuk kelima inti radioaktif dilakukan di Pusat
Laboratorium Terpadu Universitas Islam Negeri Syarif Hidayatullah Jakarta dengan
menggunakan perangkat detektor sintilasi gamma NaI(Tl) dan aplikasi Cassy Lab.
Detektor Sintilasi yang digunakan adalah perangkat Leybold Didactic seperti pada
Gambar 3. 1 berikut:
Gambar 3. 1 Detektor Sintilasi Cassy Leybold Didactic
50
Kalibrasi
Untuk melakukan kalibrasi, data mula-mula diambil untuk kelima inti
radioaktif. Pengambilan data dilakukan dengan mengatur setelan perangkat pada
program aplikasi sebagai berikut:
Multichannel: On
Gain Box: -2
Negative Pulses: On
Voltage: 676 V (Diatur oleh Catu Daya)
Channel: 512 Channel (5.9 keV/Channel)
Time: 50 s (Data Training), 80 s (Data Tes)
Data spektrum gamma yang telah diambil sebelumnya dikalibrasi terlebih
dahulu sesuai dengan spektrum yang telah diketahui. Spektrum yang telah diketahui
yakni Am-241 dengan energi 59.5 keV dan Cs-137 dengan energi 662 keV. Kalibrasi
energi menggunakan mode gaussian yang disediakan oleh aplikasi Cassy Lab, lalu
memasukan entry puncak ke dalam kotak dialog kalibrasi energi. Kemudian, hasil
kalibrasi akan mengubah indeks channel menjadi energi.
Pengambilan data
Setelah data dikalibrasi, maka pengambilan data akan dilanjutkan untuk
masing-masing sampel inti. Untuk data training classifier, data spektrum yang
diambil berjumlah 200 untuk masing-masing inti radioaktifdengan waktu deteksi
51
selama 50 detik. Sementara untuk data uji coba classifier, data spektrum yang diambil
berjumlah 15 untuk masing-masing inti dengan waktu deteksi selama 80 detik. Nilai
energi pada masing-masing channel mengikuti hasil kalibrasi sebelumnya.
3.3.3 Praproses Data
Aplikasi Jupyter dan modul sklearn memungkinkan untuk melakukan proses
klasifikasi berikut pemrosesan datanya. Sebelum klasifikasi dilakukan, data spektrum
yang telah didapat dimuat ke dalam format Excel. Kemudian, data diolah terlebih
dahulu supaya klasifikasi dapat berjalan dengan normal. Pengolahan data yang
dilakukan adalah dengan mengubah posisi kelas menjadi berada pada ujung kanan
data (transpose). Ini dikarenakan sistem klasifikasi pada modul sklearn memiliki
model pembacaan seperti itu. Proses transpose yang dilakukan pada data 60Co (80
detik) dapat dilihat seperti Tabel 3. 2 Data 60Co (80 detik) Sebelum Transposedan Tabel 3. 3
Data 60Co (80 detik) Sesudah Transpose berikut:
52
Tabel 3. 2 Data 60Co (80 detik) Sebelum Transpose
Menjadi,
Tabel 3. 3 Data 60Co (80 detik) Sesudah Transpose
E 60Co 22Na 241Am 137Cs 90Sr
24,5 keV 40 20 210 564 109
30,4 keV 37 26 113 516 122
36,2 keV 44 11 185 557 138
... ... ... ... ... ...
2948 keV 0 0 0 0 0
2948 keV ... 36,2 keV 30,4 keV 24,5 keV E
0 ... 44 37 40 60Co
0 ... 11 26 20 22Na
0 ... 185 113 210 241Am
0 ... 557 516 564 137Cs
0 ... 138 122 109 90Sr
53
Setelah data ditranspose, selanjutnya data dipisah menjadi dua bagian, yakni
data latihan (training), dan data validasi. Pemisahan ini tidak berlaku untuk data tes
(80 detik) karena data tersebut memang ditujukan untuk melakukan tes prediksi dari
classifier. Populasi dataset antara data train dan data validasi adalah 9:1, yang berarti
dataset untuk validasi hanyalah 10% dari data spektrum total sementara 90% adalah
untuk data training. Data validasi tidak boleh terlalu besar supaya tidak terjadi
overfitting pada classifier [26].
Pengambilan dataset validasi tidak menggunakan metode khusus seperti k-
fold cross validation ataupun leave one out cross validation. Sehingga dataset
validasi adalah 10% data terakhir dari total data.
3.3.4 Melakukan Klasifikasi
Setelah data melewati praproses, dataset akan dilanjutkan untuk dimuat ke
dalam classifier (fitting). Pada proses ini, data akan dimuat kepada masing-masing
classifier dengan parameter tertentu. Parameter yang digunakan bergantung pada
classifier itu sendiri.
Dalam aplikasi Jupyter, untuk melakukan klasifikasi dapat menggunakan
fungsi ClassifierName(parameter). Nilai parameter bergantung pada batasan-batasan
dan nilai yang dapat diubah pada suatu classifier (seperti jumlah ranting pada DTC).
Sementara ClassifierName adalah nama terdaftar masing-masing classifier pada
aplikasi.
54
Kemudian, data sampel spektrum gamma dapat dimasukkan ke dalam
classifier dengan fungsi fit(X_train, y_train) untuk melakukan training data. Yang
mana X_train merupakan daftar tingkat energi spektrum gamma yang berlaku sebagai
variabel/fitur, dan y_train adalah jumlah intensitas spektrum pada tingkat energi
spektrum tersebut. Metode memasukkan data sampel spektrum sama untuk seluruh
jenis classifier.
Untuk melakukan validasi dan tes data, dapat menggunakan perintah
dtclassifier.predict(X_val) untuk validasi, dan dtclassifier.predict(X_test) untuk tes.
X_val dan X_test adalah daftar tingkat energi spektrum gamma pada data validasi dan
tes secara berurutan. Metode ini juga sama dilakukan pada setiap classifier.
Terakhir, untuk mendapatkan hasil akurasi data validasi dan tes dapat
menggunakan perintah score(X_val, y_pred_val) untuk validasi, dan
classification_report(X_test, y_pred_test) untuk tes. Nilai akurasi yang dihasilkan
adalah berbentuk desimal, memiliki rentang nilai antara 0 – 1. Sementara untuk
memperoleh waktu proses adalah dengan menggunakan perintah %%time yang akan
menghasilkan lama waktu proses pada suatu classifier.
Decision Tree Classifier
Untuk melakukan klasifikasi Decision Tree Classifier, penulis menggunakan
fungsi DecisionTreeClassifier(max_depth). Dengan max_depth adalah jumlah ranting
pada pohon untuk menentukan kelas isotop yang dituju pada akhir klasifikasi.
55
Jumlah ranting divariasikan menjadi 1 hingga 9 ranting (Total Pure). Berikut
contoh banyak ranting pada classifier DTC pada Gambar 3. 2 di bawah ini:
Gambar 3. 2 Banyak Ranting pada DTC Ditandai dengan Panah Merah
Random Forest Classifier
Untuk melakukan klasifikasi Random Forest, penulis menggunakan fungsi
RandomForestClassifier(max_depth, n_estimators). Dengan n_estimators merupakan
jumlah pohon dan max_depth adalah jumlah ranting pada masing-masing pohon.
Variasi parameter hanya dilakukan pada jumlah pohonnya (estimator) saja.
Estimator divariasikan menjadi sebanyak 1 hingga 9 estimator (Akurasi 100% pada
hasil tes) dengan inkrementasi sebesar 1. Sementara jumlah ranting adalah 9 untuk
semua pohon yang dibentuk. Jumlah pohon (estimator) dapat dilihat pada Gambar 3. 3
di bawah ini:
56
Gambar 3. 3 Jumlah Pohon (Estimator) pada Random Forest Classifier
AdaBoost Classifier
Untuk melakukan klasifikasi spektrum pada classifier AdaBoost, penulis
menggunakan fungsi AdaBoostClassifier(n_estimators, learning_rate). Karena
classifier ini merupakan peningkatan dari classifier sebelumnya (contoh: Decision
Tree), maka AdaBoost juga menggunakan jumlah estimator seperti pada Random
Forest. Jumlah estimator akan menentukan banyaknya pengulangan klasifikasi yang
dilakukan oleh algoritma, bukan banyak pohon.
Selain itu, ada pula parameter learning rate yang merupakan rangkapan
learning dari classifier ini. Learning rate adalah lawan dari jumlah estimator yang
memungkinkan classifier untuk melakukan fitting data secara langsung tanpa
mempedulikan banyaknya estimator. Jumlah estimator dan learning rate divariasikan
menjadi 1 hingga 10 dengan inkrementasi sebesar 1 untuk masing-masing parameter.
57
Data tes classifier hanya akan dimasukkan ke dalam proses dengan jumlah
estimator berbeda saja, tidak dengan learning rate yang berbeda. Dalam hal ini,
learning rate dibiarkan dengan nilai 1 secara default saat estimator divariasikan, dan
estimator dibiarkan 10 saat learning rate divariasikan.
Gaussian Process Classifier
Untuk melakukan klasifikasi pada Gaussian Process, penulis menggunakan
fungsi GaussianProcessClassifier(kernel). Parameter asal yang disorot adalah jenis
kernel yang digunakan, dan kernel yang digunakan adalah kernel RBF (Radial Basis
Function), White Noise Kernel, dan Rational Quadratic.
Naive Bayes Classifier
Tidak ada parameter yang krusial pada Naive Bayes Classifier dikarenakan
classifier tersebut tidak mendukung adanya perubahan kecil. Jika classifier ingin
diubah, maka perubahan harus dilakukan keseluruhan, atau dengan kata lain
mengganti classifier. Classifier Naive Bayes yang digunakan adalah Gaussian Naive
Bayes sesuai dengan fungsinya GaussianNB().
Support Vector Classifier
58
Untuk melakukan klasifikasi SVC, dapat menggunakan fungsi SVC(kernel,
degree). Pada Support Vector Classifier, parameter yang disesuaikan hanyalah
kernel-nya saja. Kernel disesuaikan untuk menggunakan kernel RBF, Linear, dan
Polinomial yang juga ditujukan untuk diselaraskan dengan Gaussian Process
Classifier yang juga menggunakan kernel RBF. Selain itu, parameter kernel
mengikuti nilai asal (default) dari modul. Nilai degree pada fungsi program adalah
jumlah ordo pada kernel polinomial. Ordo diberikan nilai 3 secara default.
3.3.5 Penyajian Data dan Confusion Matrix
Penyajian data dapat menggunakan nilai persentase akurasi. Untuk data
dengan parameter yang banyak penyesuaian, hasil akan disajikan juga dengan bentuk
grafik. Penyajian grafik akan sangat berguna untuk mengetahui performa ketepatan
classifier untuk tiap nilai parameter yang telah disesuaikan.
Untuk melihat hasil dengan lebih akurat, hasil klasifikasi juga disajikan dalam
bentuk confusion matrix. Akan tetapi, penyajian hasil hanya ditujukan kepada satu
parameter saja dengan hasil terakhir milik suatu classifier.
59
BAB IV
HASIL DAN PEMBAHASAN
Classifier memiliki sifat dan tindakan yang berbeda dalam melakukan
klasifikasi yang sangat mempengaruhi hasil dari klasifikasi. Dalam menentukan
klasifikasi spektrum gamma, classifier melakukan training dengan memasukan data
spektrum ke dalam model klasifikasi. Kemudian, classifier akan melakukan validasi
dengan memprediksi data menggunakan sebongkah data training untuk mengetahui
hasil awal dari keakuratan prediksinya, dan dilanjutkan dengan melakukan prediksi
sesungguhnya dengan data yang baru (tes) seperti pada subbab 4.1.
4.1 Hasil Performa Prediksi untuk Setiap Classifier.
Setelah melakukan percobaan dengan prosedur yang tertuang dalam tahapan
penelitian, peneliti mendapatkan hasil-hasil prediksi untuk setiap classifier yang
berupa grafik, data akurasi dan kecepatan proses, dan confusion matrix. Data grafik
hanya didapatkan untuk classifier yang menggunakan basis Decision Tree Classifier
karena hasil prediksi dapat berubah saat melakukan iterasi ulang, sementara yang
lainnya memiliki hasil konstan untuk setiap iterasi sehingga hanya mendapatkan hasil
berupa nilai akurasi prediksinya saja. Adapun hasil proses untuk setiap classifier
ditunjukkan pada subbab di bawah ini.
60
4.1.1 Decision Tree Classifier
Decision Tree Classifier akan membuat beberapa ranting untuk melakukan
prediksi dari sebuah fitur untuk menentukan kelasnya. Karakteristik penting pada
classifier ini adalah pada jumlah rantingnya. Pada Grafik 4. 1 di bawah ini terlihat nilai
akurasi dari setiap jumlah ranting yang berbeda pada Decision Tree Classifier.
Grafik 4. 1 Akurasi Data Validasi dan Tes DTC Terhadap Jumlah Cabang. Grafik Validasi Ditandai
dengan Warna Hijau Sementara Grafik Tes Ditandai dengan Warna Merah. Angka 3.6% dan 11.7%
merupakan deviasi terendah dan tertinggi. Sementara ‘Wall Time’ adalah waktu prosesnya.
Pada grafik tersebut, grafik validasi yang ditandai dengan warna hijau
menunjukkan bahwa semakin banyak ranting/cabang maka akan semakin tinggi
akurasinya. Melihat adanya stagnasi pada grafik mulai dari cabang yang berjumlah 4,
dapat diketahui bahwa saat itu DTC sudah berjalan dengan optimal atau dalam
kondisi terbaik. Ini menandakan bahwa saat semakin banyak jumlah cabang, maka
classifier akan melakukan lebih banyak perbandingan tingkat energi dibanding saat
jumlah cabangnya sedikit.
61
Sementara pada grafik tes yang ditandai dengan warna merah menyatakan
nilai deviasi semakin tinggi pada jumlah cabang 4 ke atas. Kejadian ini terjadi akibat
penentuan variabel energi spektrum yang dipilih secara acak untuk menjadi node akar
pada setiap iterasi. Energi spektrum yang terpilih tidak memiliki nilai Gini Impurity
yang rendah sehingga classifier tidak dapat melakukan prediksi secara optimal. Nilai
deviasi bervariasi mulai dari 3,6% hingga 11,7%.
Titik akurasi pada grafik tes DTC terakhir hanya mencapai 80% saja. Titik ini
merupakan titik terakhir yang dapat dibuat oleh DTC. Dengan kata lain, jumlah
cabang sudah maksimal. Waktu yang diperlukan bagi Decision Tree Classifier untuk
melakukan klasifikasi data adalah sebesar 6,8 detik. Jika hanya dilakukan 1 kali
iterasi, maka waktu yang diperlukan adalah selama 119 ms.
Confusion Matrix DTC
Dari data grafik validasi dan tes terakhir, didapat akurasi data yang
menunjukkan titik optimal dari DTC. Titik tersebut dianalisis ke dalam bentuk
confusion matrix untuk diketahui hasil klasifikasi secara mendetail seperti pada
Gambar 4. 1 berikut:
62
Gambar 4. 1 Confusion matrix validasi dtc. Bagian bawah menunjukkan hasil prediksi sementara
bagian kiri menunjukkan nilai kebenaran
Dari confusion matrix tersebut, data validasi menunjukkan akurasi prediksi
yang sempurna. Dari 5 kelas, tidak ada data yang salah dalam prediksi. Pada nilai
True Label 60Co, terdapat nilai 22 yang berarti ada 22 sampel spektrum pada kelas
60Co tersebut untuk diuji dalam validasi classifier. Sementara itu, untuk confusion
matrix data tes dapat dilihat pada Gambar 4. 2 berikut:
Gambar 4. 2 Confusion matrix data tes dtc
63
Pada confusion matrix data tes DTC, terdapat 13 kesalahan prediksi pada
sebuah kelas isotop. Isotop tersebut berada pada baris pertama yang menandakan
kebenaran sampel tersebut adalah milik 60Co. Akan tetapi dalam melakukan
prediksinya, DTC menentukan sampel tersebut adalah milik 22Na (kolom kedua)
yang membuatnya melakukan kesalahan prediksi pada sampel tersebut. Hal ini sesuai
dengan data grafik tes pada Grafik 4. 1 yang hanya mendapatkan akurasi sebesar 80%
saja.
4.1.2 Random Forest Classifier
Random Forest Classifier, sebagai essemble classifier atau classifier terpadu
memiliki fungsi untuk mengumpulkan classifier lain. Namun, sesuai namanya
classifier yang terkumpul pada Random Forest adalah Decision Tree Classifier.
Decision Tree Classifier terkumpul dalam satu kuasa untuk menjadi sebuah ‘Forest’.
Maka dari itu, banyaknya Decision Tree akan memiliki peran tersendiri dalam
melakukan prediksi pada Random Forest Classifier. Random Forest yang dibuat
dalam penelitian ini memiliki Decision Tree (pohon) sebanyak 1 hingga 9 pohon
dengan jumlah ranting sebanyak 9 untuk setiap pohonnya seperti pada Grafik 4. 2
berikut:
64
Grafik 4. 2 Grafik akurasi hasil validasi dan tes RFC. Hasil validasi berwarna hijau, sementara data tes
berwarna merah. Angka 1% dan 15% merupakan deviasi terendah dan tertinggi. Sementara ‘Wall
Time’ adalah waktu prosesnya.
Pada grafik di atas, kedua grafik memiliki akurasi yang cukup tinggi. Ini
dikarenakan karena RFC memiliki prinsip kerja yang hampir sama dengan DTC. Jika
dengan 1 decision tree dengan jumlah cabang 9 dapat menghasilkan akurasi sebesar
80%, maka dengan lebih banyak decision tree dengan jumlah cabang yang sama akan
dapat menghasilkan akurasi yang lebih tinggi seperti pada Grafik 4. 2 di atas. Deviasi
yang dihasilkan pada setiap iterasi berkisar 1% hingga 15%.
Sementara itu, waktu yang diperlukan oleh Random Forest Classifier untuk
menentukan klasifikasi dengan seluruh iterasi adalah selama 4,2 s. Jika hanya
dilakukan 1 kali iterasi, waktu yang diperlukan adalah selama 106 ms.
Confusion Matrix RFC
Adapun bentuk dari confusion matrix pada RFC dapat dilihat pada Gambar 4. 3
berikut:
65
Gambar 4. 3 Confusion matrix rfc. bagian kiri merupakan hasil prediksi validasi dan bagian kanan
merupakan hasil prediksi tes
Dari confusion matrix di atas, dapat dilihat hasil prediksi pada kedua tindakan
tidak memiliki kesalahan pada setiap sampel spektrum yang diuji. Hasil prediksi
validasi dan hasil tes yang dibentuk ke dalam confusion matrix adalah titik terakhir
pada grafik, di saat jumlah pohon berjumlah 9, dengan nilai akurasi sebesar 100%.
4.1.3 AdaBoost Classifier
Tidak jauh berbeda dengan Random Forest Classifier, AdaBoost Classifier
yang juga merupakan classifier terpadu yang memadukan beberapa classifier lemah
(stumps) untuk dipadukan menjadi satu classifier dengan kekuatan prediksi yang
lebih tinggi. Perbedaannya, AdaBoost merupakan classifier meta yang akan bekerja
sangat hebat saat memecahkan masalah tertentu atau dalam keadaan tertentu saja.
66
AdaBoost Classifier dalam penelitian ini menggunakan parameter classifier
terpadu DTC dengan jumlah ranting sebanyak 1 (stumps). Hasil prediksi validasi dan
tes dari classifier ini dapat dilihat pada grafik di bawah ini:
Grafik 4. 3 Grafik prediksi adaboost classifier. Warna hijau menunjukkan hasil validasi saat jumlah
estimator berubah, warna biru menunjukkan hasil validasi saat learning rate berubah
Dari Grafik 4. 3 di atas, warna hijau merupakan grafik hasil validasi
berdasarkan jumlah estimator yang diubah dengan learning rate sebesar 1. Sementara
warna merah merupakan grafik hasil validasi berdasarkan jumlah learning rate yang
diubah dengan jumlah estimator sebanyak 10.
Kedua grafik tersebut menunjukkan perbedaan signifikan yang berbanding
terbalik di antara keduanya. Ini disebabkan karena learning rate akan membuat
67
potensi dari hasil voting prediksi suatu stumps akan dikurangi seharga learning rate
tersebut. Maka dari itu, hasil prediksi akan menjadi tidak akurat dalam nilai learning
rate yang lebih tinggi. Sementara untuk grafik akurasi tes, dapat dilihat pada Grafik 4.
4 di bawah ini.
Grafik 4. 4 Grafik tes ABC dengan jumlah estimator yang berubah. Angka 1.2% dan 8.4% merupakan
deviasi terendah dan tertinggi. Sementara ‘Wall Time’ adalah waktu prosesnya.
Pada grafik hasil prediksi data tes yang berwarna merah, penulis tidak
membuat tindakan saat learning rate diubah. Ini dikarenakan karena tidak akuratnya
hasil klasifikasi yang dibuat dengan tingginya nilai learning rate, yang tidak
membuat classifier bekerja semestinya sesuai dengan peningkatan (“Boosting”) dari
classifier sebelumnya.
Nilai optimum yang diraih oleh ABC adalah pada saat jumlah estimator
sebanyak 10 ke atas, dengan nilai akurasi sebesar 100%. Sebelum mencapai posisi
tersebut, hasil tes memiliki nilai deviasi sekitar 1.2% hingga 8.4% seperti yang
68
terlihat pada jumlah estimator 6 sampai 9. Kejadian ini, tentu saja tidak terlepas dari
metode klasifikasi yang didasari oleh stumps milik decision tree. Walau demikian,
proses boosting dari ABC dapat dikatakan berhasil.
Waktu yang dibutuhkan AdaBoost untuk melakukan klasifikasi dengan
seluruh iterasi adalah selama 22 s. Sementara jika hanya dilakukan 1 kali iterasi,
maka waktu yang diperlukan adalah selama 1,65 s.
Confusion Matrix ABC
Adapun bentuk dari confusion matrix pada RFC dapat dilihat pada Gambar 4. 4
berikut:
Gambar 4. 4 Confusion Matrix ABC. Bagian Kiri Menunjukkan Hasil Validasi dan Bagian Kanan
Menunjukkan Hasil Tes
Confusion matrix milik AdaBoost Classifier memiliki hasil serupa dengan
confusion matrix RFC (Gambar 4. 1 dan Gambar 4. 2). Karena memiliki profil yang sama
69
di antara kedua classifier tersebut (berbasis DTC), maka hasil prediksi isotopnya
memiliki akurasi yang serupa.
4.1.4 Naive Bayes Classifier
Naive Bayes Classifier tidak memiliki parameter khusus yang dapat diubah
suaikan secara aplikatif. Jadi, untuk setiap prediksi suatu sampel spektrum, proses
training yang dilakukan oleh Naive Bayes hanya dilakukan dengan melihat
kesesuaian kondisi intensitas spektrum dengan tingkat energinya masing-masing,
sehingga tidak ada perbandingan dengan tingkat energi isotop yang lainnya. Pada
penelitian ini, dengan menggunakan Naive Bayes dengan tipe Gaussian, atau
Gaussian NB didapat nilai akurasi hasil prediksi data validasi sebesar 92%,
sementara untuk data tesnya memiliki nilai akurasi sebesar 22% saja.
Untuk hasil validasi, akurasi sebesar 92% tidak terlalu menjadi masalah dan
dapat ditolerir. Tapi untuk hasil tes, 22% berarti menunjukkan ketidakmampuan suatu
classifier tersebut untuk melakukan klasifikasi, khususnya dalam penelitian ini. Nilai
akurasi yang rendah tersebut disebabkan karena Naive Bayes Classifier tidak
melakukan perhitungan prediksi dengan melakukan perbandingan tingkat energi antar
isotop, melainkan menyederhanakannya dengan membandingkan nilai intensitas
dengan kondisi tingkat energi yang telah ditentukan sebelumnya secara independen.
Positifnya, Naive Bayes Classifier dapat melakukan pembaruan klasifikasi
secara daring dengan sampel baru yang dimasukkan ke dalam classifier secara
70
terpisah. Sangat berguna untuk memproses data yang tertinggal ataupun data baru
yang terlambat didapat. Waktu yang diperlukan oleh Naive Bayes dalam melakukan
prediksi dan klasifikasi data adalah selama 54 ms.
Confusion Matrix NBC
Hasil prediksi yang dilakukan oleh Naive Bayes Classifier dapat dilihat pada
Gambar 4. 5 berikut ini:
Gambar 4. 5 Confusion Matrix Naive Bayes. Bagian Validasi (Kiri) Terlihat Lebih Rapi Dibandingkan
Dengan Hasil Tes (Kanan).
Pada confusion matrix di atas, dapat diketahui bahwa bagian hasil validasi
memiliki akurasi yang lebih tinggi dibandingkan dengan bagian hasil tes (92% vs
22%). Seperti sebelumnya, ini disebabkan bahwa kondisi banyaknya intensitas pada
suatu tingkat energi yang dibuat oleh classifier ini akan disesuaikan dengan fitur-fitur
tingkatan energi spektrum dalam satu sampel secara independen saat training. Maka,
jika keadaan dianggap sesuai, maka sebuah sampel spektrum akan langsung divonis
sebagai anggota dari salah satu kelas isotop yang ada.
71
Pada confusion matrix hasil tes, prediksi terlihat hampir semua tertuju pada
isotop 60Co. Ini dapat diartikan bahwa banyak nilai pada sampel pada data sesuai
dengan kondisi dari 60Co. Dengan tidak melihat isotop lainnya, maka sampel
tersebut diyakini sebagai anggota kelas isotop, tidak peduli seperti apa nilai pada
sampel pendukung lain untuk membuat sampel tersebut bisa masuk ke dalam kelas
isotop lainnya.
4.1.5 Gaussian Process Classifier
Gaussian Process Classifier merupakan classifier yang menggunakan ‘kernel
trick’ untuk melakukan modifikasi bentuk classifier itu sendiri, oleh karena itu hasil
yang diberikan tidak berdasarkan parameter yang berbentuk perbandingan nilai,
namun berbentuk kernel seperti pada Tabel 4. 1 berikut ini:
Tabel 4. 1 Tabel Akurasi Gaussian Process Classifier Dengan Beberapa Kernel
Kernel Level (lenght
scale, noise
level)
Akurasi
Validasi
(%)
Akurasi
Tes (%)
Log
Marginal
Likelihood
Waktu
Proses
(detik)
RBF 1 100 100 -34. 07373 390
White Noise
Kernel
1 20 20 -623.83246 19,3
Rational
Quadratic
1 99 100 -32.66388 717
Dari hasil beberapa kernel di atas didapat nilai akurasi untuk hasil prediksi
data validasi, data tes, dan nilai log marginal likelihood-nya. Dari sini dapat dilihat
72
bahwa nilai log marginal likelihood akan menunjukkan seberapa bagus penentuan
prediksi dari data training untuk dilakukan pengetesan. Nilai log marginal likelihood
akan semakin tinggi jika kualitas dari kernel yang digunakan cukup baik.
Pada kernel White Noise, nilai log marginal likelihood didapat sebesar -
623.83246. Nilai ini sangat jauh dari nilai log marginal likelihood pada kernel
lainnya. Terbukti pada akurasinya dalam menentukan prediksi isotop untuk data
validasi dan data tes hanya mendapatkan 20% saja untuk keduanya.
Untuk RBF dan Rational Quadratic memiliki nilai log marginal likelihood
yang cukup bersaing pada -34.07373 untuk RBF dan -32.66388 untuk Rational
Quadratic. Dari penilaian log marginal likelihood tersebut, Rational Quadratic
memiliki nilai yang lebih tinggi dari RBF. Akan tetapi, nilai akurasi dari hasil
validasi Rational Quadratic hanya 99% saja dibanding RBF dengan 100% akurat.
Waktu yang diperlukan bagi masing-masing kernel berbeda. Dalam
prosesnya, White Noise Kernel memiliki waktu tercepat yaitu hanya selama 19,3 s,
sementara bagi kernel RBF dan Rational Quadratic adalah selama 390 s dan 717 s
berturut-turut.
Confusion Matrix GPC
Gaussian Process Classifier hanya menghasilkan satu hasil prediksi pada
masing-masing kernelnya, sehingga dari 3 kernel yang digunakan terdapat confusion
matrix yang berbeda-beda seperti pada gambar di bawah ini:
73
Gambar 4. 6 Confusion Matrix Gaussian Process Classifier dengan Kernel RBF. Bagian Kiri
Merupakan Validasi dan Bagian Kanan Merupakan Tes
Pada confusion matrix (Gambar 4. 6) GPC dengan kernel RBF, matriks tersebut
menunjukkan kesesuaian sempurna di antara hasil prediksi validasi dan prediksi tes.
Gambar 4. 7 Confusion Matrix GPC dengan Kernel White Noise. Bagian Kiri Merupakan Validasi,
dan Bagian Kanan Merupakan Tes.
Pada confusion matrix GPC dengan kernel White Noise seperti pada Gambar 4.
7 di atas, hasil prediksi dan kebenaran sangat tidak sesuai. Jika ditelaah lebih lanjut,
terlihat bahwa hasil prediksi yang benar terletak pada inti radioaktif 90Sr saja.
74
Hal yang membuat White Noise Kernel banyak melakukan kesalahan adalah
karena pada persamaan kernel 𝐾𝐺𝑁(𝑥, 𝑥′) = 𝛿𝑥,𝑥′ yang akan menghasilkan keluaran
biner, yakni isotop 60Co dan isotop 90Sr saja. Untuk itu, jika salah satu sampel
spektrum yang diuji tidak sesuai dengan keadaan pertama (isotop 60Co), maka
selanjutnya sampel tersebut akan ‘dibuang’ menjadi milik isotop 90Sr.
Ini menandakan bahwa White Noise Kernel tidak dapat digunakan untuk
melakukan klasifikasi multiclass, yang dalam penelitian ini terdapat 5 kelas isotop.
Gambar 4. 8 Confusion Matrix GPC dengan Kernel Ratinal Quadratic. Bagian Kiri yang Merupakan
Validasi Terdapat 1 Kesalahan Prediksi.
Pada confusion matrix GPC dengan kernel Rational Quadratic, seperti yang
terpapar pada Gambar 4. 8 memiliki satu kesalahan prediksi pada fitur data 90Sr
(sebenarnya). Akan tetapi, classifier melakukan kesalahan prediksi dan
menganggapnya milik isotop 22Na. Walaupun demikian, classifier tidak melakukan
kesalahan pada data tesnya dan memiliki nilai log marginal likelihood yang lebih
tinggi daripada dua kernel lainnya.
75
4.1.6 Support Vector Classifier
Support Vector Classifier yang bersumber dari Support Vector Machine
memiliki parameter yang hampir sama seperti Gaussian Process, terutama parameter
kernel. Sehingga data yang akan ditampilkan adalah berupa tabel untuk masing-
masing kernel seperti pada Tabel 4. 2 berikut ini:
Tabel 4. 2 Tabel Akurasi Support Vektor Classifier Dengan Beberapa Kernel
Kernel C
(Regularisasi)
Akurasi
Validasi (%)
Akurasi
Tes (%)
Waktu
Proses
(milidetik)
RBF 1 99 100 314
Linear 1 100 100 244
Polinomial 1 99 88 400
Dari Tabel 4. 2 di atas, ketiga kernel memiliki waktu proses yang sangat cepat,
yaitu selama 314 ms untuk RBF, 244 ms untuk Linear, dan 400 ms untuk Polinomial.
Akan tetapi, untuk nilai akurasi RBF memiliki kekurangan pada bagian akurasi
validasi yang menyebabkan nilai akurasi menjadi 99%. Sementara itu, pada akurasi
dengan kernel Polinomial memiliki kekurangan pada kedua bagian hasil. Hasil
akurasi validasi memiliki nilai 99% sedangkan untuk akurasi tes memiliki nilai 88%.
Hasil akurasi tertinggi dipegang oleh kernel Linear dengan akurasi sebesar 100%
untuk kedua bagian tanpa kesalahan prediksi.
Confusion Matrix SVC
76
Hasil klasifikasi dari Support Vector Classifier terbagi menjadi 3 kelompok
matriks untuk setiap kernel, di antaranya untuk kernel RBF:
Gambar 4. 9 Confusion Matrix SVC dengan Kernel RBF. Terlihat Ada 1 Kesalahan Prediksi Pada
Matriks Hasil Validasi Bagian Kiri.
Pada confusion matrix SVC yang menggunakan kernel RBF (Gambar 4. 9),
Hasil prediksi pada bagian validasi (kiri) memiliki 1 kesalahan di mana sampel
spektrum yang seharusnya berada pada isotop 90Sr, namun diprediksi berada pada
isotop 60Co. Sementara untuk confusion matrix dengan kernel Linear:
77
Gambar 4. 10 Confusion Matrix SVC dengan Kernel Linear. Bagian Kiri Menunjukkan Hasil Validasi
dan Kanan Menunjukkan Hasil Tes.
Dari confusion matrix tersebut (Gambar 4. 10), hasil prediksi tidak mengalami
kesalahan sedikit pun pada bagian hasil validasi maupun tes. Kernel ini menjadi yang
terbaik di antara kernel lainnya dalam SVC yang digunakan untuk melakukan
klasifikasi pada penelitian ini. Selain itu, untuk confusion matrix dengan kernel
Polinomial:
Gambar 4. 11 Confusion Matrix SVC dengan Kernel Polinomial. Pada Bagian Validasi (Kiri) Terdapat
1 Kesalahan Klasifikasi, Sementara Pada Bagian Tes (Kanan) Terdapat Cukup Banyak Kesalahan.
78
Dari confusion matrix di atas (Gambar 4. 11), diketahui kesalahan prediksi pada
bagian validasi terdapat pada isotop 241Am. Namun, classifier memprediksinya
bahwa inti tersebut merupakan isotop 22Na. Sementara pada bagian tes, letak
kesalahan yang dilakukan oleh classifier sama, yaitu pada isotop 241Am dan
memprediksinya berada pada isotop 22Na. Akan tetapi, jumlah kesalahan yang
dilakukan lebih besar daripada saat melakukan validasi. Ini dapat diartikan sebagai
kernel Polinomial memiliki nilai bias yang tinggi atau dengan kata lain, overfitting.
4.2 Perbandingan Antar Classifier
Setelah didapat hasil akurasi, kecepatan proses, dan posisi kesalahan
klasifikasi pada confusion matrix, data tersebut dapat dirangkum menjadi 1 buah tabel
untuk dilakukan perbandingan namun untuk confusion matrix dibiarkan pada hasil
sendiri pada sub-bab sebelumnya. Tabel perbandingan dapat dilihat pada Tabel 4. 3 di
bawah ini:
79
Tabel 4. 3 Tabel Perbandingan Classifier.
Classifier Kernel Akurasi
Validasi (%)
Akurasi Tes
(%)
Waktu
Training
(detik)
Decision Tree - 100 80 6,48
Random
Forest
- 100 100 4,2
AdaBoost - 100 100 22
Naive Bayes - 92 22 0,054
Gaussian
Process
Round Based
Function (RBF)
100 100 390
White Noise Kernel
(WK)
20 20 19,3
Rational Quadratic
(RQ)
99 100 717
Support
Vector
Round Based
Function (RBF)
99 100 0,314
Linear 100 100 0,244
Polinomial 99 88 0,400
Berdasarkan tabel perbandingan tersebut, pada umumnya beberapa classifier
memiliki akurasi yang tinggi dalam menentukan klasifikasi data. Di antaranya juga
terdapat yang mencapai 100% akurat dalam melakukan klasifikasi spektrumnya.
80
Seperti pada Random Forest, AdaBoost, Gaussian Process (RBF), dan Support
Vector (Linear).
Terdapat pula waktu proses yang dibutuhkan suatu classifier dalam
melakukan prediksi sekaligus menempatkan data training ke dalam classifier. Waktu
proses training rata-rata berkisar 60 ms hingga 4 s. Namun, ada juga yang dapat
mencapai ratusan detik seperti pada Gaussian Process yang dapat mencapai 390 s (6
m 30 s) dengan kernel RBF, dan 717 s (11 m 57 s) dengan kernel Rational Quadratic.
4.3 Menentukan Classifier dengan Performa Terbaik
Jika dilihat berdasarkan data akurasi antara akurasi validasi dengan akurasi tes
pada subbab 4.2, dapat diketahui bahwa jika suatu classifier memiliki akurasi yang
rendah, maka classifier tersebut memiliki nilai variasi (𝜎2) akurasi yang tinggi.
Tingginya variasi pada classifier menandakan bahwa classifier tersebut overfitting.
Dengan catatan, kejadian ini dikhususkan pada deteksi isotop seperti pada penelitian
ini saja. Seperti pada Naive Bayes dan Gaussian Process (White Noise). Classifier
tersebut tergolong overfitting karena memiliki akurasi yang rendah baik pada tes atau
validasi, maupun keduanya. Dikhususkan untuk GPC dengan White Noise Kernel,
kernel tersebut merupakan fungsi kovarian biner. Fungsi kovarian biner hanya
mampu melakukan klasifikasi antar dua jenis isotop saja, tidak bisa untuk klasifikasi
banyak isotop.
81
Dari keempat variabel tersebut, termasuk akurasi validasi, akurasi tes, dan
waktu proses, dapat dilihat jika antara ketiga classifier yang memiliki akurasi 100%
untuk semua jenis akurasi (validasi dan tes) maka classifier terbaik untuk melakukan
deteksi otomatis isotop adalah Support Vector dengan waktu proses tercepat (0,244
detik). Akan tetapi, Support Vector yang dimaksud harus memiliki parameter yang
sama seperti dalam penelitian ini. Sehingga menjadi, Support Vector Classifier
(Kernel = Linear) adalah classifier terbaik untuk melakukan deteksi otomatis isotop
radioaktif.
82
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil penelitian yang telah dilakukan dapat disimpulkan sebagai
berikut:
Hasil performa untuk setiap classifier sangat bervariasi. Untuk
classifier dengan basis Decision Tree, akurasi yang dihasilkan akan
berubah untuk setiap iterasi yang dilakukan, serta memiliki nilai
deviasi berkisar 1%-15%. Sementara classifier yang lain memiliki
hasil yang konstan dan tidak terpengaruh dengan jumlah iterasi yang
dilakukan.
Setiap classifier memiliki kemampuan berbeda untuk melakukan
klasifikasi spektrum gamma yang bersifat multiclass. Pada Naive
Bayes Classifier yang merupakan classifier biner, terlihat hasil
prediksi tes yang sangat rendah yaitu 22%.
Classifier dengan performa terbaik untuk melakukan deteksi otomatis
isotop adalah Support Vector Classifier dengan parameter kernel linear
menghasilkan akurasi sebesar 100% untuk validasi dan tes serta waktu
proses selama 0,244 detik.
83
5.2 Saran
Untuk penelitian selanjutnya yang terkait dengan deteksi otomatis isotop
radioaktif menggunakan classifier, disarankan:
Menggunakan variasi waktu yang lebih banyak dalam mengambil
data spektrum untuk mendapatkan hasil performa classifier yang lebih
fleksibel.
Melakukan pengambilan data disertai dengan background noise untuk
mengetahui kekuatan classifier untuk mendeteksi data spektrum asli
dan noise.
Mengganti classifier yang digunakan oleh AdaBoost untuk classifier
yang berbeda selain Decision Tree.
Melakukan modifikasi parameter classifier, karena dapat
mempengaruhi performa classifier secara keseluruhan.
Menggunakan perangkat dengan spesifikasi berbeda untuk mengetahui
perbedaan kecepatan proses yang dibutuhkan.
84
DAFTAR PUSTAKA
[1] G. James, D. Witten, T. Hastie dan R. Tibshirani, An Introduction to Stastitical
Learning, New York: Springer Science+Business Media, 2018.
[2] F. S. Alotaibi, “Implementation of Machine Learning Model to Predict Heart
Failure Disease,” International Journal of Advanced Computer Science and
Applications, vol. 6, no. 10, pp. 261-268, 2019.
[3] D. Bzdok, N. Altman dan M. Krzywinski, “Statistics versus Machine Learning,”
Nature Methods, vol. 4, no. 15, pp. 233-234, 2018.
[4] H. Hata, K. Yokoyama, Y. Ishimori, Y. Ohara, Y. Tanaka dan N. Sugitsue,
“Application of Support Vector Machine to Rapid Classification of Uranium
Waste Drums Using Low-resolution γ-ray Spectra,” Applied Radiation and
Isotopes, no. 105, pp. 143-146, 2015.
[5] M. Mehryar, R. Afshin dan T. Ameet, Foundations of Machine Learning,
Massachusetts: MIT Press, 2012.
[6] M. Kamuda, J. Zhao dan K. Huff, “A comparison of machine learning methods
for automated gamma-ray spectroscopy,” Nuclear Instruments and Methods in
Physics Research, vol. X, no. 954, 2018.
[7] H. Hata, K. Yokoyama, Y. Ishimori, Y. Ohara, Y. Tanaka dan N. Sugitsue,
“Application ofsupport vector machine to rapid classification of uranium waste
drums using low-resolution γ-rays pectra,” Applied Radiation and Isotopes, no.
104, pp. 143-146, 2015.
[8] F. Pedregosa, G. Varoquaux dan A. Gramford, “Scikit Learn: Machine Learning
in Python,” Journal of Machine Learning Research, no. 12, p. 2825−2830, 2011.
[9] S. T. Thornton dan A. Rex, Modern Physics for Scientists and Engineers (4th
Ed.), Boston: Cengage Learning, 2013.
[10] A. Beiser, “Chapter 12: Nuclear Transformations,” dalam Concepts of Modern
Physics, Boston, Macgraw-Hill, 2003, pp. 432-434.
[11] S. K. Krane, Modern Physics, New York: John Wiley & Sons, 1983.
85
[12] G. Alcocer, Gamma Spectroscopy: Theory, Experiments, and Statistics,
Saarbrücken: Lambert Academic Publishing, 2015.
[13] H. P. Lima, G. P. Guedes, A. F. Barbosa dan J. M. Seixas, “A Fast
Multichannel-Analyzer for Radiation Detection Applications,” IEEE
Transactions on Instrumentation and Measurement, vol. 2, no. 53, pp. 378-383,
2004.
[14] M. Bowles, Machine Learning in Python, Essential Techniques for Predictive
Analysis, Indianapolis: John Wiley & Sons, Inc., 2015.
[15] S. Raschka, Python Machine Learning, Birmingham: Packt Publishing Ltd.,
2015.
[16] A. Smola dan S. V. N. Vishwanathan, Introduction to Machine Learning,
Cambridge: Cambridge University Press, 2008.
[17] J. R. Quinlan, “Induction of Decision Trees,” Machine Learning, no. 1, pp. 80-
106, 1986.
[18] G. Bonarosco, Machine Learning Algorithms, Birmingham: Packt Publishing
Ltd., 2017.
[19] D. Mehtaa dan V. Raghavan, “Decision tree approximations of Boolean
functions,” Theoritical Computer Science, no. 270, pp. 609-623, 2002.
[20] S. Gollapudi, Practical Machine Learning, Birmingham: Packt Publishing Ltd.,
2016.
[21] L. Breiman, “Random Forest,” Machine Learning, vol. II, no. 45, pp. 5-32, 2001.
[22] L. Breiman, “Bagging Predictors,” Machine Learning, no. 24, pp. 123-140,
1996.
[23] L. Breiman, “Out of Bag Estimation,” University of California, California, 1996.
[24] R. E. Schapire, “Explaining AdaBoost,” Empirical Inference, vol. V, no. 1, pp.
37-52, 2013.
[25] C. E. Rassmussen dan C. K. I. Williams, Gaussian Process for Machine
Learning, Massachusetts: MIT Press, 2006.
86
[26] M. v. d. Wilk, M. Bauer, S. John dan J. Hensman, “Learning Invariances using
the Marginal Likelihood,” dalam Conference on Neural Information Processing
Systems, Montreal, Canada, 2018.
[27] B. E. Boser, I. M. Guyon dan V. N. Vapnik, “ A Training Algorithm for Optimal
Margin Classifiers,” dalam Proceedings of the fifth annual workshop on
Computational learning theory – COLT '92, New York, 1992.
[28] M. Kuhn dan K. Johnson, Applied Predictive Modeling, New York: Springer,
2013.