BAB II KAJIAN PUSTAKA 2.1 State of The Art Review
Transcript of BAB II KAJIAN PUSTAKA 2.1 State of The Art Review
7
BAB II
KAJIAN PUSTAKA
2.1 State of The Art Review
Beberapa penelitian yang telah dilakukan sebelumnya terkait dengan judul
yang diangkat adalah :
Miftahul Firodh Fatroni melakukan penelitian menggunakan text mining
dan metode Naïve Bayes untuk merespon emosi dari teks berbahasa Indonesia.
Hasil pada penelitian tersebut disimpulkan bahwa Semakin banyak jumlah kata
kunci dalam kamus kelas, semakin kecil pula nilai persentase error yang akan
muncul. Selain itu Proses klasifikasi text mining sangat bergantung kepada
banyaknya jumlah dan variasi data training yang digunakan. Penulis menyarankan
pada proses klasifikasi teks pada tahap analisa dapat di coba dengan menggunakan
metode yang lain, misalnya metode korelasi, metode K-Means, Naïve Bayes
multinomial, metode clustering, atau metode yang lain. Agar dapat dibandingkan
seberapa besar tingkat ketepatan.
Pada penelitianm Arifin and Ketut Eddy Purnama melakukan Klasifikasi
Emosi Dalam Teks Bahasa Indonesia menggunakan metode K-Nearest Neighbour.
Pada penelitian yang dilakukan penulis melakukan klasfikasi emosi pada artikel
yang ada diinternet kemudian dilakukan pengujian antara metode Naïve Bayes
dengan K-Nearest Neighbour. Hasil dari penelitian tersebut didapat metode K-
Nearest Neighbour menghasilkan nilai akurasi 71.26% yang lebih tinggi daripada
metode Naïve Bayes dengan nilai akurasi 58.01% (Arifin, 2012).
Chaitail G. Patil dan Sandip S.Patil , melakukan penelitian menggunakan
Metode Support Vector Machine ( SVM ) dan dataset ISEAR untuk Ekstraksi Emosi
dari Headline News. Pada penelitian ini membandingkan 3 metode klasifikasi yaitu
Naive Bayes Classifier , Vector Space Model dan Support Vector Machine. Hasil
yang didapat pada penelitian ini Metode Support Vector Machine memiliki akurasi
tertinggi yaitu 71.64% sedangkan Metode Naive Bayes Classifier akurasinya 60.8%
dan yang terendah pada metode Vector Space Model 34.8% (Patil & Patil, 2013).
Sedangkan Pada Penelitian Social Media Analysis for Product Safety using
Text Mining and Sentiment Analysis yang dilakukan oleh Haruna Isah, Paul
8
Trundle, Daniel Neagu menggunakan Text Mining dan Metode Naive Bayes
mendapatkan hasil akurasi 83%. Pada penelitian membahas tentang analisis sosial
media tentang keamanan produk (Isah, Trundle, & Neagu, 2014).
Pravesh Kumar Singh , Mohd Shahid Husain melakukan tinjauanpenelitian
yang membandingkan metode Naive Bayes , Multi Layer Perfection dan Support
Vector Machine pada Teknik Opinion Mining dan analisa sentiment. Pada
tinjauannya mendapatkan hasil untuk akurasi dalam Movie Reviews yaitu 81.15%
(SVM ) , 81.05% ( MLP ) dan 75.50% (NB). Sedangkan akurasi pada Product
Review mendapatkan hasil yaitu 79.40% (SVM) , 79.27% (MLP) dan 62.50%
(NB). Hasil akurasi tersebut menggunakan fitur N-gram (P. K. Singh & Shahid
Husain, 2014).
Saif M. Mohammad dan Svetlana Kiritchenko melakukan penelitian
menggunakan metode Hashtag Emotion Lexicon dan metode SVM untuk
melakukan klasifikasi untuk mendapatkan kategori emosi pada tweets. Pada
penelitian tersebut bahwa Hashtag Emotion Lexicon memiliki kualitas yang baik
dengan menggunakan tugas klasifikasi kalimat sebagai test bed, di mana klasifikasi
menggunakan itu dilakukan secara signifikan lebih baik daripada yang
menggunakan WordNet Leksikon yang dibuat secara manual (Mohammad &
Kiritchenko, 2015).
Dio Ariadi dan Kartika Fithriasari melakukan penelitian dengan
menggunakan metode Support Vector Machine dan Naïve Bayes Classifier untuk
Klasifikasi Berita Indonesia. Hasil dari penelitian tersebut pengukuran performa
baik akurasi, precision, recall, dan F-Measure SVM kernel linier lebih baik dari
NBC. Selain itu secara waktu saat menggunakan aplikasi SVM jauh lebih cepat
untuk mendapatkan hasil daripada NBC.Secara keseluruhan terdapat 33 berita yang
tidak bisa diprediksi dengan baik oleh kedua metode (Ariadi & Fithriasari, 2015).
Pada Penelitian Julius Bata, Suyoto dan Pranowo dilakukan penelitian
mengenai leksikon untuk mendeteksi emosi dari teks. Dari hasil penelitian yang
dilakukan penulis berhasil melakukan pengembangan leksikon yang memiliki 2
proses yaitu pemilihan seed words dan perluasan leksikon. Kedua proses tersebut
menghasilkan 1165 kata dalam leksikon emosi bahasa Indonesia. Namun penulis
menyarankan untuk penelitian selanjutnya dilakukan pengukuran unjuk kerja dari
9
leksikon dengan melakukan deteksi emosi dari teks. Penelitian ini juga melakukan
pembobotan berupa biner agar dapat dikembangkan menggunakan pembobotan
lain seperti tfidf (Bata, Suyoto, & Pranowo, 2015).
Ranap Sitorus, Harry Soekotjo Dachlan, dan Wijono melakukan penelitian
menggunakan metode TF-IDF dan metode Vector Space Model untuk menganalisis
pengaruh frasa pada deteksi emosi dari teks. Dari hasil penelitian tingkat
keberhasilan dalam penerapan metode Term Frequency-Inverse Document
Frequency (TF-IDF) dan VSM (Vector Space Model) dalam klasifikasi emosi
sangat baik akan tetapi hasil emosi dengan pendeteksian menggunakan frase masih
kurang sempurna. pada non frasa apabila ada penggabungan kata negatif dan positif
seperti “tidak baik” maka hasil dari non-frasa akan menghasilkan emosi senang
(Sitorus & Dachlan, 2017).
Pada penelitian Afifah Nurlaila dan Wiranto melakukan penelitian dalam
hal klasifikasi emosi pelanggan di Natasha Skin Care dengan menggunakan metode
Naïve Bayes Classifier. Dari hasil penelitian yang dilakukan menunjukkan bahwa
metode Naïve Bayes Classifier tidak selalu menghasilkan kinerja yang baik dalam
melakukan klasifikasi emosi konsumen. Hal ini dapat terjadi pada kasus
ketidakseimbangan kelas yang mengakibatkan adanya dua kelas yang tidak dapat
diklasifikasikan, yaitu fear dan surprise (Nurlaila, 2017).
Sartaj Ahmad dan Rishabh Varma melakukan penelitian menggunakan
teknik data mining dengan metode Support Vector Machine ( SVM ) dan K- Nearest
Neighbour ( K-NN ) untuk ekstraksi informasi dari pesan teks. Hasil pada penelitian
tersebut menjelaskan bahwa metode yang digunakan sangat efisien untuk
menemukan sentimen orang tersebut dengan menganalisis pesan teks dan juga
memproses emotikon (Ahmad & Varma, 2018).
10
Tabel 2. 1 State Of The Art Review Penelitian.
Judul Pengarang Tahun Text
Mining
Naive
Bayes
SVM K-NN ISEAR MLP Emolex VSM
Kecerdasan Buatan Dalam Program
Chatting
Untuk Merespon Emosi Dari Teks
Berbahasa Indonesia Menggunakan
Teks Mining Dan Naïve Bayes
Miftahul Firodh
Fatroni
2011
Classification Of Emotions In
Indonesian Texts Using K-Nn
Method
Arifin and Ketut
Eddy Purnama
2012
Use of Porter Stemming Algorithm
and SVM for Emotion Extraction
from News Headlines
Chaitali G. Patil dan
Sandip S. Patil
2013
11
Social Media Analysis
for Product
Safety using Text
Mining and Sentiment Analysis
Haruna Isah, Paul
Trundle, Daniel
Neagu
2014
Methodological Study of opinion
Mining and Sentiment Analysis
Techniques
Pravesh Kumar
Singh , Mohd
Shahid Husain
2014
Using Hashtags to Capture Fine
Emotion Categories from Tweets
Saif M. Mohammad
and Svetlana
Kiritchenko
2015
Klasifikasi Berita Indonesia
Menggunakan Metode Naive
Bayesian Classification dan Support
Vector Machine dengan Confix
Stripping Stemmer
Dio Ariadi dan
Kartika Fithriasari
2015
Leksikon Untuk Deteksi Emosi Dari
Teks Bahasa Indonesia
Julius Bata, Suyoto
dan Pranowo
2015
12
Analisis Pengaruh Frasa Pada
Deteksi Emosi Dari Teks
Menggunakan Vector Space Model
Ranap Sitorus,
Harry Soekotjo
Dachlan, dan
Wijono
2017
Classification Of Customers Emotion
Using Naïve Bayes Classifier
Afifah Nurlaila dan
Wiranto
2017
Information extraction from text
messages using
data mining techniques
Sartaj Ahmad
and Rishabh Varma
2018
13
2.2 Big Data dan Analisis Big Data
Big data adalah mengenai mendapatkan, menyimpan, berbagi,
mengevaluasi dan melaksanakan kegiatan berdasarkan informasi yang diciptakan
manusia dan perangkat elektronik serta didistribusikan melalui teknologi komputer
dan jaringan. Data berasal dari berbagai sumber, termasuk sensor yang digunakan
untuk mengumpulkan informasi, media sosial, video dan gambar digital, perangkat
RFID dan lain – lain. Big Data Analytics merupakan investasi strategis untuk
meningkatkan agilitas dan kemampuan bertahan organisasi dalam pasar yang
kompetitif (Zaldy Adrianto, 2017).
2.3 Twitter
Twitter layanan jejaring sosial dan mikroblog yang memungkinkan
penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140
karakter, yang dikenal dengan sebutan kicauan (tweet). Pengguna Twitter
mengikuti yang lain atau diikuti. Tidak seperti di sebagian besar situs jejaring sosial
online, seperti Facebook atau MySpace, hubungan yang diikuti dan yang harus
diikuti memerlukan konfirmasi. Seorang pengguna dapat mengikuti pengguna lain,
dan pengguna yang diikuti tidak perlu mengikuti kembali. Menjadi pengikut di
Twitter berarti bahwa pengguna menerima semua pesan (disebut tweet) dari
pengguna yang mengikuti. Praktik umum untuk menanggapi tweet telah berevolusi
menjadi budaya markup yang terdefinisi dengan baik: RT adalah singkatan dari
retweet, “@” diikuti oleh pengguna mengidentifikasi alamat pengguna, dan “#”
diikuti oleh kata mewakili hashtag. Kosakata marka yang terdefinisi dengan baik
ini dikombinasikan dengan batas ketat 140 karakter per posting memudahkan
pengguna dengan keringkasan dalam ekspresi. Mekanisme retweet
memberdayakan pengguna untuk menyebarkan informasi pilihan mereka di luar
jangkauan pengikut tweet asli (Kwak et al., 2010).
2.4 Emosi
Emosi merupakan keadaan kompleks dari pikiran yang dipengaruhi oleh
peristiwa eksternal, perubahan fisiologis, atau hubungan dengan orang lain. Dengan
14
tidak adanya kontak tatap muka untuk mendeteksi ekspresi wajah dan intonasi
dalam suara, opsi alternatifnya adalah menguraikan emosi dari teks di layanan
sosial media (Haji Binali, Chen Wu, 2010). Emosi "tampaknya memengaruhi apa
yang kita perhatikan, apa yang kita pelajari, apa yang kita ingat, dan pada akhirnya
jenis penilaian dan keputusan yang kita buat" (Smith et al., 2012). Dalam konteks
komunikasi tertulis, penelitian sebelumnya telah menunjukkan bahwa rangsangan
emosional dalam hal kata-kata emosi atau framing emosional pesan dapat
menimbulkan proses kognitif yang luas seperti perhatian .Peningkatan tingkat
keterlibatan kognitif pada gilirannya dapat menyebabkan kemungkinan respon
perilaku yang lebih tinggi terhadap rangsangan emosional dalam hal berbagi
informasi. Selain itu, proses perhatian juga terbukti berdampak pada penularan
emosi, yang merupakan penyebaran suasana hati dan mempengaruhi melalui
populasi dengan paparan sederhana. Penelitian tentang penularan emosi telah
menunjukkan bahwa emosi dapat menyebar melalui berbagai jenis jejaring sosial
dalam berbagai konteks (Stieglitz & Dang-Xuan, 2013).
2.5 Text Mining
Text mining adalah satu langkah dari analisis teks yang dilakukan secara
otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu
rangkaian teks yang terangkum dalam sebuah dokumen. Prosedur utama dalam
metode ini terkait dengan menemukan kata-kata yang dapat mewakili isi dari
dokumen untuk selanjutnya dilakukan analisis keterhubungan antar dokumen
dengan menggunakan metode statistik tertentu seperti analisis kelompok,
klasifikasi dan asosiasi. Tahapan dalam text mining secara umum adalah
tokenizing, filtering, stemming, tagging, dan analyzing.
1. Tokenizing
Tokenizing merupakan tahapan untuk memisah-misahkan setiap kata
(token) pada data input.
2. Filtering
Filtering merupakan proses seleksi terhadap kata-kata yang
dihasilkan dari proses tokenizing, dapat dilakukan dengan algoritma
stop list maupun word list. Algoritma stop list akan membuang kata-
15
kata yang tidak penting seperti kata ganti, kata keterangan, kata
sambung, kata depan dan kata sandang. Sebaliknya, algoritma word list
akan menyimpan kata-kata yang penting.
3. Stemming
Proses stemming kemudian dilakukan untuk mencari kata dasar dari
setiap kata yang telah lolos proses filtering. Terdapat 4 varian algoritma
untuk proses stemming ini, yaitu:
a. Table lookup
seluruh kata dasar disimpan dalam memori untuk selanjutnya
dijadikan acuan dalam pemeriksaan data input. Kelemahan metode
ini adalah membutuhkan ruang penyimpanan yang besar.
b. Successor variety
setiap kata dalam data input yang akan diperiksa dipecah secara
bertahap menjadi awalan-awalan (prefiks). Untuk setiap awalan
kemudian dicari kemungkinan bentuk lainnya (variasinya) didalam
corpus, pencarian dihentikan jika jumlah temuan telah melampaui
nilai batas tertentu;
c. N-gram
pemeriksaan setiap kata dalam data input dilakukan dengan
menerapkan konsep clustering. Setiap kata dicari nilai
kedekatannya dengan kata-kata yang lain dan disimpan dalam
sebuah matriks. Matriks tersebut kemudian dijadikan acuan untuk
melakukan pengelompokan kata-kata.
d. Affix removal
untuk setiap kata pada data input dihilangkan awalan dan
akhirannya dengan mengacu kepada action rules. Pada data yang
berbahasa Indonesia, proses filtering secara sederhana dilakukan
dengan menghilangkan awalan dan akhiran dari setiap kata. Jika
data berbahasa Inggris, maka diperlukan proses lanjutan yang
disebut sebagai tagging.
16
4. Tagging
Proses tagging dilakukan untuk mencari bentuk awal dari setiap kata
lampau. Setelah semua kata penting berhasil dikoleksi dari rangkaian
proses tersebut, maka tahap berikutnya adalah analyzing.
5. Analyzing
Analyzing yaitu menentukan keterhubungan antar data dengan
mengamati frekuensi kemunculan tiap kata yang ada pada tiap data
(Prilianti & Wijaya, 2014).
2.6 Algoritma Nazief Stemmer
Algoritma yang dibuat oleh (Adriani, Asian, Nazief, & Williams, 2007) ini
memiliki tahap-tahap sebagai berikut:
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tesebut adalah root word. Maka algoritma
berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)
dibuang. Jika berupa particles (“- lah”, “-kah”, “-tah” atau “-pun”)
maka langkah ini diulangi lagi untuk menghapus Possesive
Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “- kan”). Jika kata
ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke
langkah 3a. a. Jika “-an” telah dihapus dan huruf terakhir dari kata
tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut
ditemukan dalam kamus maka algoritma berhenti. Jika tidak
ditemukan maka lakukan langkah 3b.
a) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut
adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut
ditemukan dalam kamus maka algoritma berhenti. Jika tidak
ditemukan maka lakukan langkah 3b.
b) Akhiran yang dihapus (“-i”, “-an” atau “- kan”)
dikembalikan, lanjut ke langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang
dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
17
a) Periksa tabel kombinasi awalan-akhiran yang tidak
diijinkan. Jika ditemukan maka algoritma berhenti, jika
tidak pergi ke langkah 4b.
b) For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan.
Jika root word belum juga ditemukan lakukan langkah 5,
jika sudah maka algoritma berhenti. Catatan: jika awalan
kedua sama dengan awalan pertama algoritma berhenti.
5. Melakukan Recording.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata
awal diasumsikan sebagai root word.
2.7 International Survery On Emotion Antecedents And Reaction
Pada penelitian ini, data yang diolah diambil dari ISEAR databank. Selama
bertahun- tahun selama tahun 1990-an, sebuah kelompok besar psikolog di seluruh
dunia mengumpulkan data dalam proyek ISEAR, dipimpin oleh Klaus R. Scherer
dan Harald Wallbott. Mahasiswa responden, baik psikolog dan non-psikolog,
diminta untuk melaporkan situasi di mana mereka mengalami semua 7 emosi utama
(senang, takut, marah, sedih, jijik, malu, dan rasa bersalah). Dalam setiap kasus,
pertanyaan-pertanyaan meliputi cara mereka telah mengenali situasi dan bagaimana
mereka bereaksi. Data akhir ini memuat laporan tentang tujuh emosi masing-
masing sekitar 3000 responden di 37 negara di 5 benua (Fatroni, 2011).
2.8 Term Frequency Inverse Document Frequency (TF IDF)
Metode Tf-Idf (Robertson, 2005) merupakan suatu cara untuk memberikan
bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan
dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata
didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang
mengandung kata tersebut. Frekuensi kemunculan kata didalam dokumen yang
diberikan menunjukkan seberapa penting kata tersebut didalam dokumen tersebut.
Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum
kata tersebut. Sehingga bobot hubungan antara sebuah kata dan sebuah dokumen
akan tinggi apabila frekuensi kata tersebut tinggi didalam dokumen dan frekuensi
18
keseluruhan dokumen yang mengandung kata tersebut yang rendah pada kumpulan
dokumen (database). Rumus umum untuk Tf-Idf: TF adalah algoritma pembobotan
heuristik yang menentukan bobot data berdasarkan kemunculan term (istilah).
Semakin sering sebuah istilah muncul, semakin tinggi bobot data untuk istilah
tersebut, dan sebaliknya. Berikut rumus umum tf-idf:
𝑤𝑖𝑗 = 𝑡𝑓 + 𝑖𝑑𝑓 (1)
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 + log (𝑁
𝑛) (2)
Keterangan :
wij = bobot kata / term tj terhadap dokumen di
tfij = Jumlah kemunculan kata/term tj dalamdi
N = jumlah semua dokumen yang ada dalam database
n = jumlah dokumen yang mengandung kata /term tj
(minimal ada satu kata yaitu term tj )
Berdasarkan rumus diatas, berapapun besarnya nilai tfij, apabila N = n maka akan
didapatkan hasil 0 (nol) untuk perhitungan Idf. Untuk itu dapat ditambahkan nilai
1 pada sisi Idf, sehingga perhitungan bobotnya menjadi sbb:
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 + (log (𝑁
𝑛) + 1) (3)
2.9 Support Vector Machine
Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari
hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input
space. konsep dari SVM merupakan kombinasi harmonis dari konsep komputasi
yang sudah ada puluhan tahun sebelumnya, seprti hyperplane. Kernel
diperkenalkan oleh Aronszajn dan demikian dengan konsep- konsep lainnya.
Prinsipnya SVM bekerja secara linear, dan dikembangkan untuk dapat diterapkan
pada masalah non-linear. Dengan menggunakan metode kernel trick yang mencari
hyperplane dengan cara mentransformasi dataset ke ruang vektor yang berdimensi
lebih tinggi (feature space), kemudian proses klasifikasi dilakukan pada feature
space tersebut. Penentuan fungsi kernel yang digunakan akan sangat berpengaruh
terhadap hasil prediksi. Data yang berada tepat pada bidang pemisah disebut
sebagai support vector (SV). Usaha untuk mencari lokasi hyperplane ini
19
merupakan inti dari proses pembelajaran pada SVM (Cortes & Vapnik, 1995).
Fungsi kernel yang biasanya digunakan dalam literatur SVM pada Tabel:
Tabel 2. 2 Jenis Kernel pada SVM
Jenis Kernel Definisi
Polynomial 𝐾(�⃗�𝑖, �⃗�𝑗) = (�⃗�𝑖. �⃗�𝑗 + 1)𝑝
Gaussian
𝐾(�⃗�𝑖, �⃗�𝑗) = 𝑒𝑥𝑝 (−‖�⃗�𝑖 − �⃗�𝑗‖
2
2𝜎2)
Sigmoid 𝐾(�⃗�𝑖, �⃗�𝑗) = 𝑡𝑎𝑛ℎ(𝛼�⃗�𝑖. �⃗�𝑗 + 𝛽)
SVM teknik klasifikasi dengan proses pelatihan (supervised learning) pada
penelitian ini menggunakan kernel Polynomial dengan f(x) (Cholissodin,
Farisuddin, & Santoso, 2017).
𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖 𝐾(𝑥 𝑥𝑖)𝑛𝑖=1 + 𝑏) (1)
2.10 K – Nearest Neighbour
K-Nearest Neighbor merupakan salah satu metode untuk mengambil
keputusan menggunakan pembelajaran terawasi dimana hasil dari data masukan
yang baru diklasifikasi berdasarkan terdekat dalam data nilai. Algoritma K-Nearest
Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek
yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek
tersebut. KNN merupakan algoritma supervised learning dimana hasil dari .Query
instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada algoritma
KNN. Dimana kelas yang paling banyak muncul yang nantinya akan menjadi kelas
hasil dari klasifikasi.Langkah-langkah untuk menghitung metode K-Nearest
Neighbour (Ndaumanu & Arief, Kusrini, 2014) antara lain :
1. Menentukan parameter K (jumlah tetangga paling dekat).
2. Menghitung kuadrat jarak Euclid(queri instance) masing-masing objek
terhadap data sampel yang diberikan menggunakan persamaan 1.
𝐷(𝑥, 𝑦) = √∑ (𝑋𝑘 − 𝑌𝑘)2𝑛𝑘−1 (4)
20
3. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok
yang mempunyai jarak Euclid terkecil.
4. Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor)
5. Dengan menggunakan kategori Nearest Neighbor yang paling
mayoritas maka dapat diprediksi nilai query instance yang telah
dihitung.
2.11 SVM - KNN
Penelititan ini menggunakan metode gabungan SVM dan KNN pada data
twitter. Alur metode usulan yang digunakan terlihat pada Gambar 2.1. Metode
SVM polynomial kernel digunakan untuk melakukan klasifikasi pada ISEAR
dataset untuk menentukan kelas emosi. Setelah didapatkan label kelas emosi
dilakukan seleksi dataset kembali berdasarkan kelas emosi yang telah ditentukan
pada tabel kelas emosi (Tirtayani, Luh Ayu, Noce Maylani Asril, 2013). Metode
K-NN akan melakukan klasifikasi kembali berdasarkan dataset yang sudah
ditentukan kelas emosinya dari metode SVM. K-NN bekerja dengan melakukan
perhitungan euclidean distance untuk menentukan label emosi yang memiliki jarak
terdekat dengan data uji.
Dataset Klasifikasi SVMHasil Klasifikasi Kelas
Emosi
Dataset dengan Hasil Klasifikasi
Kelasi EmosiKlasifikasi K-KNN
Hitung Jarak Terdekat
Hasil Klasifikasi Label Emosi
Gambar 2. 1 Metode SVM – KNN
21
2.12 PHP
PHP (Hypertext Preprocessor), merupakan bahasa pemrograman pada
sisi server yang memperbolehkan programmer menyisipkan perintah–perintah
perangkat lunak web server (Apache, IIS, atau apapun) akan dieksekusi
sebelum perintah itu dikirim oleh halaman ke browser yang me-request-nya,
contohnya adalah bagaimana memungkinkannya memasukkan tanggal
sekarang pada sebuah halaman web setiap kali tampilan tanggal dibutuhkan.
Sesuai dengan fungsinya yang berjalan di sisi server maka PHP adalah bahasa
pemrograman yang digunakan untuk membangun teknologi web application.
PHP telah menjadi bahasa scripting untuk keperluan umum yang pada awalnya
hanya digunakan untuk pembangunan web yang menghasilkan halaman web
dinamis. Untuk tujuan ini, kode PHP tertanam ke dalam dokumen sumber
HTML dan diinterpretasikan oleh server web dengan modul PHP prosesor, yang
menghasilkan dokumen halaman web. Sebagai bahasa pemrograman untuk
tujuan umum, kode PHP diproses oleh aplikasi penerjemah dalam modus baris
-baris perintah modus dan melakukan operasi yang diinginkan sesuai sistem
operasi untuk menghasilkan keluaran program dichannel output standar. Hal
ini juga dapat berfungsi sebagai aplikasi grafis. PHP tersedia sebagai prosesor
untuk server web yang paling modern dan sebagai penerjemah mandiri pada
sebagian besar system operasi dan komputer platform (Henry Februariyanti, 2012).
2.13 MYSQL
MySQL adalah sebuah implementasi dari sistem manajemen basisdata
relasional (RDBMS) yang didistribusikan secara gratis dibawah lisensi GPL
(General Public License). Setiap pengguna dapat secara bebas menggunakan
MySQL, namun dengan batasan perangkat lunak tersebut tidak boleh dijadikan
produk turunan yang bersifat komersial. MySQL sebenarnya merupakan turunan
salah satu konsep utama dalam basisdata yang telah ada sebelumnya; SQL
(Structured Query Language). SQL adalah sebuah konsep pengoperasian
basisdata, terutama untuk pemilihan atau seleksi dan pemasukan data, yang
memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis.
Kehandalan suatu sistem basis data (DBMS) dapat diketahui dari cara
22
kerja pengoptimasinya dalam melakukan proses perintah-perintah SQL
yang dibuat oleh pengguna maupun program-program aplikasi yang
memanfaatkannya. Sebagai peladen basis data, MySQL mendukung operasi
basis data transaksional maupun operasi basis data non-transaksional. Pada
modus operasi non-transaksional, MySQL dapat dikatakan unggul dalam
hal unjuk kerja dibandingkan perangkat lunak peladen basis data kompetitor
lainnya (Henry Februariyanti, 2012).
2.14 XAMPP
XAMPP adalah sebuah software web server apache yang didalamnya
sudah tersedia database server MySQL dan dapat mendukung pemrograman
PHP. XAMPP merupakan software yang mudah digunakan, gratis dan
mendukung instalasi di Linux dan Windows. Keuntungan lainnya adalah cuma
menginstal satu kali sudah tersedia Apache Web Server, MySQL Database
Server, PHP Support (PHP 5 dan PHP 7) dan beberapa module lainnya (Henry
Februariyanti, 2012)
2.15 Cofusion Matrix
Evaluasi dengan confusion matrix menghasilkan nilai accuracy, precison,
dan recall. Accuracy dalam klasifikasi adalah persentase ketepatan record data yang
diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi,
Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif
yang juga positif benar pada data yang sebenarnya.Recall atau sensitivity adalah
proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar
(Andriani, 2012).
Tabel 2. 3 Cofusion Matrix
Kelas Prediksi
True False
Kelas
Sebenarnya
True TP FN
False FP TN
Keterangan untuk tabel 2.3 dinyatakan sebagai berikut:
23
True Posstive (TP), yaitu jumlah dokumen dari kelas 1 yang benar dan diklasifikan
sebagai kelas 1.
True Negative (TN), yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan
sebagai kelas 0.
False Positive (FP), yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan
sebagai kelas 1.
False Negative (FN) yaitu jumlah dokumen dari kelas 1yang salah diklasifikasikan
sebagai kelas 0.
Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai- nilai yang
telah dimasukkan tersebut untuk dihitung jumlah (recall), precision, dan accuracy.
Untuk menghitung digunakan persamaan dibawah ini:
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑃
𝑇𝑃+𝐹𝑃 (1)
𝑅𝑒𝑐𝑎𝑙𝑙 =𝑇𝑃
𝑇𝑃+𝐹𝑁 (2)
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑃 + 𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3)