BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

17
7 BAB II KAJIAN PUSTAKA 2.1 State of The Art Review Beberapa penelitian yang telah dilakukan sebelumnya terkait dengan judul yang diangkat adalah : Miftahul Firodh Fatroni melakukan penelitian menggunakan text mining dan metode Naïve Bayes untuk merespon emosi dari teks berbahasa Indonesia. Hasil pada penelitian tersebut disimpulkan bahwa Semakin banyak jumlah kata kunci dalam kamus kelas, semakin kecil pula nilai persentase error yang akan muncul. Selain itu Proses klasifikasi text mining sangat bergantung kepada banyaknya jumlah dan variasi data training yang digunakan. Penulis menyarankan pada proses klasifikasi teks pada tahap analisa dapat di coba dengan menggunakan metode yang lain, misalnya metode korelasi, metode K-Means, Naïve Bayes multinomial, metode clustering, atau metode yang lain. Agar dapat dibandingkan seberapa besar tingkat ketepatan. Pada penelitianm Arifin and Ketut Eddy Purnama melakukan Klasifikasi Emosi Dalam Teks Bahasa Indonesia menggunakan metode K-Nearest Neighbour. Pada penelitian yang dilakukan penulis melakukan klasfikasi emosi pada artikel yang ada diinternet kemudian dilakukan pengujian antara metode Naïve Bayes dengan K-Nearest Neighbour. Hasil dari penelitian tersebut didapat metode K- Nearest Neighbour menghasilkan nilai akurasi 71.26% yang lebih tinggi daripada metode Naïve Bayes dengan nilai akurasi 58.01% (Arifin, 2012). Chaitail G. Patil dan Sandip S.Patil , melakukan penelitian menggunakan Metode Support Vector Machine ( SVM ) dan dataset ISEAR untuk Ekstraksi Emosi dari Headline News. Pada penelitian ini membandingkan 3 metode klasifikasi yaitu Naive Bayes Classifier , Vector Space Model dan Support Vector Machine. Hasil yang didapat pada penelitian ini Metode Support Vector Machine memiliki akurasi tertinggi yaitu 71.64% sedangkan Metode Naive Bayes Classifier akurasinya 60.8% dan yang terendah pada metode Vector Space Model 34.8% (Patil & Patil, 2013). Sedangkan Pada Penelitian Social Media Analysis for Product Safety using Text Mining and Sentiment Analysis yang dilakukan oleh Haruna Isah, Paul

Transcript of BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

Page 1: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

7

BAB II

KAJIAN PUSTAKA

2.1 State of The Art Review

Beberapa penelitian yang telah dilakukan sebelumnya terkait dengan judul

yang diangkat adalah :

Miftahul Firodh Fatroni melakukan penelitian menggunakan text mining

dan metode Naïve Bayes untuk merespon emosi dari teks berbahasa Indonesia.

Hasil pada penelitian tersebut disimpulkan bahwa Semakin banyak jumlah kata

kunci dalam kamus kelas, semakin kecil pula nilai persentase error yang akan

muncul. Selain itu Proses klasifikasi text mining sangat bergantung kepada

banyaknya jumlah dan variasi data training yang digunakan. Penulis menyarankan

pada proses klasifikasi teks pada tahap analisa dapat di coba dengan menggunakan

metode yang lain, misalnya metode korelasi, metode K-Means, Naïve Bayes

multinomial, metode clustering, atau metode yang lain. Agar dapat dibandingkan

seberapa besar tingkat ketepatan.

Pada penelitianm Arifin and Ketut Eddy Purnama melakukan Klasifikasi

Emosi Dalam Teks Bahasa Indonesia menggunakan metode K-Nearest Neighbour.

Pada penelitian yang dilakukan penulis melakukan klasfikasi emosi pada artikel

yang ada diinternet kemudian dilakukan pengujian antara metode Naïve Bayes

dengan K-Nearest Neighbour. Hasil dari penelitian tersebut didapat metode K-

Nearest Neighbour menghasilkan nilai akurasi 71.26% yang lebih tinggi daripada

metode Naïve Bayes dengan nilai akurasi 58.01% (Arifin, 2012).

Chaitail G. Patil dan Sandip S.Patil , melakukan penelitian menggunakan

Metode Support Vector Machine ( SVM ) dan dataset ISEAR untuk Ekstraksi Emosi

dari Headline News. Pada penelitian ini membandingkan 3 metode klasifikasi yaitu

Naive Bayes Classifier , Vector Space Model dan Support Vector Machine. Hasil

yang didapat pada penelitian ini Metode Support Vector Machine memiliki akurasi

tertinggi yaitu 71.64% sedangkan Metode Naive Bayes Classifier akurasinya 60.8%

dan yang terendah pada metode Vector Space Model 34.8% (Patil & Patil, 2013).

Sedangkan Pada Penelitian Social Media Analysis for Product Safety using

Text Mining and Sentiment Analysis yang dilakukan oleh Haruna Isah, Paul

Page 2: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

8

Trundle, Daniel Neagu menggunakan Text Mining dan Metode Naive Bayes

mendapatkan hasil akurasi 83%. Pada penelitian membahas tentang analisis sosial

media tentang keamanan produk (Isah, Trundle, & Neagu, 2014).

Pravesh Kumar Singh , Mohd Shahid Husain melakukan tinjauanpenelitian

yang membandingkan metode Naive Bayes , Multi Layer Perfection dan Support

Vector Machine pada Teknik Opinion Mining dan analisa sentiment. Pada

tinjauannya mendapatkan hasil untuk akurasi dalam Movie Reviews yaitu 81.15%

(SVM ) , 81.05% ( MLP ) dan 75.50% (NB). Sedangkan akurasi pada Product

Review mendapatkan hasil yaitu 79.40% (SVM) , 79.27% (MLP) dan 62.50%

(NB). Hasil akurasi tersebut menggunakan fitur N-gram (P. K. Singh & Shahid

Husain, 2014).

Saif M. Mohammad dan Svetlana Kiritchenko melakukan penelitian

menggunakan metode Hashtag Emotion Lexicon dan metode SVM untuk

melakukan klasifikasi untuk mendapatkan kategori emosi pada tweets. Pada

penelitian tersebut bahwa Hashtag Emotion Lexicon memiliki kualitas yang baik

dengan menggunakan tugas klasifikasi kalimat sebagai test bed, di mana klasifikasi

menggunakan itu dilakukan secara signifikan lebih baik daripada yang

menggunakan WordNet Leksikon yang dibuat secara manual (Mohammad &

Kiritchenko, 2015).

Dio Ariadi dan Kartika Fithriasari melakukan penelitian dengan

menggunakan metode Support Vector Machine dan Naïve Bayes Classifier untuk

Klasifikasi Berita Indonesia. Hasil dari penelitian tersebut pengukuran performa

baik akurasi, precision, recall, dan F-Measure SVM kernel linier lebih baik dari

NBC. Selain itu secara waktu saat menggunakan aplikasi SVM jauh lebih cepat

untuk mendapatkan hasil daripada NBC.Secara keseluruhan terdapat 33 berita yang

tidak bisa diprediksi dengan baik oleh kedua metode (Ariadi & Fithriasari, 2015).

Pada Penelitian Julius Bata, Suyoto dan Pranowo dilakukan penelitian

mengenai leksikon untuk mendeteksi emosi dari teks. Dari hasil penelitian yang

dilakukan penulis berhasil melakukan pengembangan leksikon yang memiliki 2

proses yaitu pemilihan seed words dan perluasan leksikon. Kedua proses tersebut

menghasilkan 1165 kata dalam leksikon emosi bahasa Indonesia. Namun penulis

menyarankan untuk penelitian selanjutnya dilakukan pengukuran unjuk kerja dari

Page 3: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

9

leksikon dengan melakukan deteksi emosi dari teks. Penelitian ini juga melakukan

pembobotan berupa biner agar dapat dikembangkan menggunakan pembobotan

lain seperti tfidf (Bata, Suyoto, & Pranowo, 2015).

Ranap Sitorus, Harry Soekotjo Dachlan, dan Wijono melakukan penelitian

menggunakan metode TF-IDF dan metode Vector Space Model untuk menganalisis

pengaruh frasa pada deteksi emosi dari teks. Dari hasil penelitian tingkat

keberhasilan dalam penerapan metode Term Frequency-Inverse Document

Frequency (TF-IDF) dan VSM (Vector Space Model) dalam klasifikasi emosi

sangat baik akan tetapi hasil emosi dengan pendeteksian menggunakan frase masih

kurang sempurna. pada non frasa apabila ada penggabungan kata negatif dan positif

seperti “tidak baik” maka hasil dari non-frasa akan menghasilkan emosi senang

(Sitorus & Dachlan, 2017).

Pada penelitian Afifah Nurlaila dan Wiranto melakukan penelitian dalam

hal klasifikasi emosi pelanggan di Natasha Skin Care dengan menggunakan metode

Naïve Bayes Classifier. Dari hasil penelitian yang dilakukan menunjukkan bahwa

metode Naïve Bayes Classifier tidak selalu menghasilkan kinerja yang baik dalam

melakukan klasifikasi emosi konsumen. Hal ini dapat terjadi pada kasus

ketidakseimbangan kelas yang mengakibatkan adanya dua kelas yang tidak dapat

diklasifikasikan, yaitu fear dan surprise (Nurlaila, 2017).

Sartaj Ahmad dan Rishabh Varma melakukan penelitian menggunakan

teknik data mining dengan metode Support Vector Machine ( SVM ) dan K- Nearest

Neighbour ( K-NN ) untuk ekstraksi informasi dari pesan teks. Hasil pada penelitian

tersebut menjelaskan bahwa metode yang digunakan sangat efisien untuk

menemukan sentimen orang tersebut dengan menganalisis pesan teks dan juga

memproses emotikon (Ahmad & Varma, 2018).

Page 4: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

10

Tabel 2. 1 State Of The Art Review Penelitian.

Judul Pengarang Tahun Text

Mining

Naive

Bayes

SVM K-NN ISEAR MLP Emolex VSM

Kecerdasan Buatan Dalam Program

Chatting

Untuk Merespon Emosi Dari Teks

Berbahasa Indonesia Menggunakan

Teks Mining Dan Naïve Bayes

Miftahul Firodh

Fatroni

2011

Classification Of Emotions In

Indonesian Texts Using K-Nn

Method

Arifin and Ketut

Eddy Purnama

2012

Use of Porter Stemming Algorithm

and SVM for Emotion Extraction

from News Headlines

Chaitali G. Patil dan

Sandip S. Patil

2013

Page 5: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

11

Social Media Analysis

for Product

Safety using Text

Mining and Sentiment Analysis

Haruna Isah, Paul

Trundle, Daniel

Neagu

2014

Methodological Study of opinion

Mining and Sentiment Analysis

Techniques

Pravesh Kumar

Singh , Mohd

Shahid Husain

2014

Using Hashtags to Capture Fine

Emotion Categories from Tweets

Saif M. Mohammad

and Svetlana

Kiritchenko

2015

Klasifikasi Berita Indonesia

Menggunakan Metode Naive

Bayesian Classification dan Support

Vector Machine dengan Confix

Stripping Stemmer

Dio Ariadi dan

Kartika Fithriasari

2015

Leksikon Untuk Deteksi Emosi Dari

Teks Bahasa Indonesia

Julius Bata, Suyoto

dan Pranowo

2015

Page 6: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

12

Analisis Pengaruh Frasa Pada

Deteksi Emosi Dari Teks

Menggunakan Vector Space Model

Ranap Sitorus,

Harry Soekotjo

Dachlan, dan

Wijono

2017

Classification Of Customers Emotion

Using Naïve Bayes Classifier

Afifah Nurlaila dan

Wiranto

2017

Information extraction from text

messages using

data mining techniques

Sartaj Ahmad

and Rishabh Varma

2018

Page 7: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

13

2.2 Big Data dan Analisis Big Data

Big data adalah mengenai mendapatkan, menyimpan, berbagi,

mengevaluasi dan melaksanakan kegiatan berdasarkan informasi yang diciptakan

manusia dan perangkat elektronik serta didistribusikan melalui teknologi komputer

dan jaringan. Data berasal dari berbagai sumber, termasuk sensor yang digunakan

untuk mengumpulkan informasi, media sosial, video dan gambar digital, perangkat

RFID dan lain – lain. Big Data Analytics merupakan investasi strategis untuk

meningkatkan agilitas dan kemampuan bertahan organisasi dalam pasar yang

kompetitif (Zaldy Adrianto, 2017).

2.3 Twitter

Twitter layanan jejaring sosial dan mikroblog yang memungkinkan

penggunanya untuk mengirim dan membaca pesan berbasis teks hingga 140

karakter, yang dikenal dengan sebutan kicauan (tweet). Pengguna Twitter

mengikuti yang lain atau diikuti. Tidak seperti di sebagian besar situs jejaring sosial

online, seperti Facebook atau MySpace, hubungan yang diikuti dan yang harus

diikuti memerlukan konfirmasi. Seorang pengguna dapat mengikuti pengguna lain,

dan pengguna yang diikuti tidak perlu mengikuti kembali. Menjadi pengikut di

Twitter berarti bahwa pengguna menerima semua pesan (disebut tweet) dari

pengguna yang mengikuti. Praktik umum untuk menanggapi tweet telah berevolusi

menjadi budaya markup yang terdefinisi dengan baik: RT adalah singkatan dari

retweet, “@” diikuti oleh pengguna mengidentifikasi alamat pengguna, dan “#”

diikuti oleh kata mewakili hashtag. Kosakata marka yang terdefinisi dengan baik

ini dikombinasikan dengan batas ketat 140 karakter per posting memudahkan

pengguna dengan keringkasan dalam ekspresi. Mekanisme retweet

memberdayakan pengguna untuk menyebarkan informasi pilihan mereka di luar

jangkauan pengikut tweet asli (Kwak et al., 2010).

2.4 Emosi

Emosi merupakan keadaan kompleks dari pikiran yang dipengaruhi oleh

peristiwa eksternal, perubahan fisiologis, atau hubungan dengan orang lain. Dengan

Page 8: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

14

tidak adanya kontak tatap muka untuk mendeteksi ekspresi wajah dan intonasi

dalam suara, opsi alternatifnya adalah menguraikan emosi dari teks di layanan

sosial media (Haji Binali, Chen Wu, 2010). Emosi "tampaknya memengaruhi apa

yang kita perhatikan, apa yang kita pelajari, apa yang kita ingat, dan pada akhirnya

jenis penilaian dan keputusan yang kita buat" (Smith et al., 2012). Dalam konteks

komunikasi tertulis, penelitian sebelumnya telah menunjukkan bahwa rangsangan

emosional dalam hal kata-kata emosi atau framing emosional pesan dapat

menimbulkan proses kognitif yang luas seperti perhatian .Peningkatan tingkat

keterlibatan kognitif pada gilirannya dapat menyebabkan kemungkinan respon

perilaku yang lebih tinggi terhadap rangsangan emosional dalam hal berbagi

informasi. Selain itu, proses perhatian juga terbukti berdampak pada penularan

emosi, yang merupakan penyebaran suasana hati dan mempengaruhi melalui

populasi dengan paparan sederhana. Penelitian tentang penularan emosi telah

menunjukkan bahwa emosi dapat menyebar melalui berbagai jenis jejaring sosial

dalam berbagai konteks (Stieglitz & Dang-Xuan, 2013).

2.5 Text Mining

Text mining adalah satu langkah dari analisis teks yang dilakukan secara

otomatis oleh komputer untuk menggali informasi yang berkualitas dari suatu

rangkaian teks yang terangkum dalam sebuah dokumen. Prosedur utama dalam

metode ini terkait dengan menemukan kata-kata yang dapat mewakili isi dari

dokumen untuk selanjutnya dilakukan analisis keterhubungan antar dokumen

dengan menggunakan metode statistik tertentu seperti analisis kelompok,

klasifikasi dan asosiasi. Tahapan dalam text mining secara umum adalah

tokenizing, filtering, stemming, tagging, dan analyzing.

1. Tokenizing

Tokenizing merupakan tahapan untuk memisah-misahkan setiap kata

(token) pada data input.

2. Filtering

Filtering merupakan proses seleksi terhadap kata-kata yang

dihasilkan dari proses tokenizing, dapat dilakukan dengan algoritma

stop list maupun word list. Algoritma stop list akan membuang kata-

Page 9: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

15

kata yang tidak penting seperti kata ganti, kata keterangan, kata

sambung, kata depan dan kata sandang. Sebaliknya, algoritma word list

akan menyimpan kata-kata yang penting.

3. Stemming

Proses stemming kemudian dilakukan untuk mencari kata dasar dari

setiap kata yang telah lolos proses filtering. Terdapat 4 varian algoritma

untuk proses stemming ini, yaitu:

a. Table lookup

seluruh kata dasar disimpan dalam memori untuk selanjutnya

dijadikan acuan dalam pemeriksaan data input. Kelemahan metode

ini adalah membutuhkan ruang penyimpanan yang besar.

b. Successor variety

setiap kata dalam data input yang akan diperiksa dipecah secara

bertahap menjadi awalan-awalan (prefiks). Untuk setiap awalan

kemudian dicari kemungkinan bentuk lainnya (variasinya) didalam

corpus, pencarian dihentikan jika jumlah temuan telah melampaui

nilai batas tertentu;

c. N-gram

pemeriksaan setiap kata dalam data input dilakukan dengan

menerapkan konsep clustering. Setiap kata dicari nilai

kedekatannya dengan kata-kata yang lain dan disimpan dalam

sebuah matriks. Matriks tersebut kemudian dijadikan acuan untuk

melakukan pengelompokan kata-kata.

d. Affix removal

untuk setiap kata pada data input dihilangkan awalan dan

akhirannya dengan mengacu kepada action rules. Pada data yang

berbahasa Indonesia, proses filtering secara sederhana dilakukan

dengan menghilangkan awalan dan akhiran dari setiap kata. Jika

data berbahasa Inggris, maka diperlukan proses lanjutan yang

disebut sebagai tagging.

Page 10: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

16

4. Tagging

Proses tagging dilakukan untuk mencari bentuk awal dari setiap kata

lampau. Setelah semua kata penting berhasil dikoleksi dari rangkaian

proses tersebut, maka tahap berikutnya adalah analyzing.

5. Analyzing

Analyzing yaitu menentukan keterhubungan antar data dengan

mengamati frekuensi kemunculan tiap kata yang ada pada tiap data

(Prilianti & Wijaya, 2014).

2.6 Algoritma Nazief Stemmer

Algoritma yang dibuat oleh (Adriani, Asian, Nazief, & Williams, 2007) ini

memiliki tahap-tahap sebagai berikut:

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka

diasumsikan bahwa kata tesebut adalah root word. Maka algoritma

berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)

dibuang. Jika berupa particles (“- lah”, “-kah”, “-tah” atau “-pun”)

maka langkah ini diulangi lagi untuk menghapus Possesive

Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “- kan”). Jika kata

ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke

langkah 3a. a. Jika “-an” telah dihapus dan huruf terakhir dari kata

tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut

ditemukan dalam kamus maka algoritma berhenti. Jika tidak

ditemukan maka lakukan langkah 3b.

a) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut

adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut

ditemukan dalam kamus maka algoritma berhenti. Jika tidak

ditemukan maka lakukan langkah 3b.

b) Akhiran yang dihapus (“-i”, “-an” atau “- kan”)

dikembalikan, lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang

dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

Page 11: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

17

a) Periksa tabel kombinasi awalan-akhiran yang tidak

diijinkan. Jika ditemukan maka algoritma berhenti, jika

tidak pergi ke langkah 4b.

b) For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan.

Jika root word belum juga ditemukan lakukan langkah 5,

jika sudah maka algoritma berhenti. Catatan: jika awalan

kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recording.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata

awal diasumsikan sebagai root word.

2.7 International Survery On Emotion Antecedents And Reaction

Pada penelitian ini, data yang diolah diambil dari ISEAR databank. Selama

bertahun- tahun selama tahun 1990-an, sebuah kelompok besar psikolog di seluruh

dunia mengumpulkan data dalam proyek ISEAR, dipimpin oleh Klaus R. Scherer

dan Harald Wallbott. Mahasiswa responden, baik psikolog dan non-psikolog,

diminta untuk melaporkan situasi di mana mereka mengalami semua 7 emosi utama

(senang, takut, marah, sedih, jijik, malu, dan rasa bersalah). Dalam setiap kasus,

pertanyaan-pertanyaan meliputi cara mereka telah mengenali situasi dan bagaimana

mereka bereaksi. Data akhir ini memuat laporan tentang tujuh emosi masing-

masing sekitar 3000 responden di 37 negara di 5 benua (Fatroni, 2011).

2.8 Term Frequency Inverse Document Frequency (TF IDF)

Metode Tf-Idf (Robertson, 2005) merupakan suatu cara untuk memberikan

bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan

dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata

didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang

mengandung kata tersebut. Frekuensi kemunculan kata didalam dokumen yang

diberikan menunjukkan seberapa penting kata tersebut didalam dokumen tersebut.

Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum

kata tersebut. Sehingga bobot hubungan antara sebuah kata dan sebuah dokumen

akan tinggi apabila frekuensi kata tersebut tinggi didalam dokumen dan frekuensi

Page 12: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

18

keseluruhan dokumen yang mengandung kata tersebut yang rendah pada kumpulan

dokumen (database). Rumus umum untuk Tf-Idf: TF adalah algoritma pembobotan

heuristik yang menentukan bobot data berdasarkan kemunculan term (istilah).

Semakin sering sebuah istilah muncul, semakin tinggi bobot data untuk istilah

tersebut, dan sebaliknya. Berikut rumus umum tf-idf:

𝑤𝑖𝑗 = 𝑡𝑓 + 𝑖𝑑𝑓 (1)

𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 + log (𝑁

𝑛) (2)

Keterangan :

wij = bobot kata / term tj terhadap dokumen di

tfij = Jumlah kemunculan kata/term tj dalamdi

N = jumlah semua dokumen yang ada dalam database

n = jumlah dokumen yang mengandung kata /term tj

(minimal ada satu kata yaitu term tj )

Berdasarkan rumus diatas, berapapun besarnya nilai tfij, apabila N = n maka akan

didapatkan hasil 0 (nol) untuk perhitungan Idf. Untuk itu dapat ditambahkan nilai

1 pada sisi Idf, sehingga perhitungan bobotnya menjadi sbb:

𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 + (log (𝑁

𝑛) + 1) (3)

2.9 Support Vector Machine

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari

hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input

space. konsep dari SVM merupakan kombinasi harmonis dari konsep komputasi

yang sudah ada puluhan tahun sebelumnya, seprti hyperplane. Kernel

diperkenalkan oleh Aronszajn dan demikian dengan konsep- konsep lainnya.

Prinsipnya SVM bekerja secara linear, dan dikembangkan untuk dapat diterapkan

pada masalah non-linear. Dengan menggunakan metode kernel trick yang mencari

hyperplane dengan cara mentransformasi dataset ke ruang vektor yang berdimensi

lebih tinggi (feature space), kemudian proses klasifikasi dilakukan pada feature

space tersebut. Penentuan fungsi kernel yang digunakan akan sangat berpengaruh

terhadap hasil prediksi. Data yang berada tepat pada bidang pemisah disebut

sebagai support vector (SV). Usaha untuk mencari lokasi hyperplane ini

Page 13: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

19

merupakan inti dari proses pembelajaran pada SVM (Cortes & Vapnik, 1995).

Fungsi kernel yang biasanya digunakan dalam literatur SVM pada Tabel:

Tabel 2. 2 Jenis Kernel pada SVM

Jenis Kernel Definisi

Polynomial 𝐾(�⃗�𝑖, �⃗�𝑗) = (�⃗�𝑖. �⃗�𝑗 + 1)𝑝

Gaussian

𝐾(�⃗�𝑖, �⃗�𝑗) = 𝑒𝑥𝑝 (−‖�⃗�𝑖 − �⃗�𝑗‖

2

2𝜎2)

Sigmoid 𝐾(�⃗�𝑖, �⃗�𝑗) = 𝑡𝑎𝑛ℎ(𝛼�⃗�𝑖. �⃗�𝑗 + 𝛽)

SVM teknik klasifikasi dengan proses pelatihan (supervised learning) pada

penelitian ini menggunakan kernel Polynomial dengan f(x) (Cholissodin,

Farisuddin, & Santoso, 2017).

𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖 𝐾(𝑥 𝑥𝑖)𝑛𝑖=1 + 𝑏) (1)

2.10 K – Nearest Neighbour

K-Nearest Neighbor merupakan salah satu metode untuk mengambil

keputusan menggunakan pembelajaran terawasi dimana hasil dari data masukan

yang baru diklasifikasi berdasarkan terdekat dalam data nilai. Algoritma K-Nearest

Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek

yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek

tersebut. KNN merupakan algoritma supervised learning dimana hasil dari .Query

instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada algoritma

KNN. Dimana kelas yang paling banyak muncul yang nantinya akan menjadi kelas

hasil dari klasifikasi.Langkah-langkah untuk menghitung metode K-Nearest

Neighbour (Ndaumanu & Arief, Kusrini, 2014) antara lain :

1. Menentukan parameter K (jumlah tetangga paling dekat).

2. Menghitung kuadrat jarak Euclid(queri instance) masing-masing objek

terhadap data sampel yang diberikan menggunakan persamaan 1.

𝐷(𝑥, 𝑦) = √∑ (𝑋𝑘 − 𝑌𝑘)2𝑛𝑘−1 (4)

Page 14: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

20

3. Kemudian mengurutkan objek-objek tersebut ke dalam kelompok

yang mempunyai jarak Euclid terkecil.

4. Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor)

5. Dengan menggunakan kategori Nearest Neighbor yang paling

mayoritas maka dapat diprediksi nilai query instance yang telah

dihitung.

2.11 SVM - KNN

Penelititan ini menggunakan metode gabungan SVM dan KNN pada data

twitter. Alur metode usulan yang digunakan terlihat pada Gambar 2.1. Metode

SVM polynomial kernel digunakan untuk melakukan klasifikasi pada ISEAR

dataset untuk menentukan kelas emosi. Setelah didapatkan label kelas emosi

dilakukan seleksi dataset kembali berdasarkan kelas emosi yang telah ditentukan

pada tabel kelas emosi (Tirtayani, Luh Ayu, Noce Maylani Asril, 2013). Metode

K-NN akan melakukan klasifikasi kembali berdasarkan dataset yang sudah

ditentukan kelas emosinya dari metode SVM. K-NN bekerja dengan melakukan

perhitungan euclidean distance untuk menentukan label emosi yang memiliki jarak

terdekat dengan data uji.

Dataset Klasifikasi SVMHasil Klasifikasi Kelas

Emosi

Dataset dengan Hasil Klasifikasi

Kelasi EmosiKlasifikasi K-KNN

Hitung Jarak Terdekat

Hasil Klasifikasi Label Emosi

Gambar 2. 1 Metode SVM – KNN

Page 15: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

21

2.12 PHP

PHP (Hypertext Preprocessor), merupakan bahasa pemrograman pada

sisi server yang memperbolehkan programmer menyisipkan perintah–perintah

perangkat lunak web server (Apache, IIS, atau apapun) akan dieksekusi

sebelum perintah itu dikirim oleh halaman ke browser yang me-request-nya,

contohnya adalah bagaimana memungkinkannya memasukkan tanggal

sekarang pada sebuah halaman web setiap kali tampilan tanggal dibutuhkan.

Sesuai dengan fungsinya yang berjalan di sisi server maka PHP adalah bahasa

pemrograman yang digunakan untuk membangun teknologi web application.

PHP telah menjadi bahasa scripting untuk keperluan umum yang pada awalnya

hanya digunakan untuk pembangunan web yang menghasilkan halaman web

dinamis. Untuk tujuan ini, kode PHP tertanam ke dalam dokumen sumber

HTML dan diinterpretasikan oleh server web dengan modul PHP prosesor, yang

menghasilkan dokumen halaman web. Sebagai bahasa pemrograman untuk

tujuan umum, kode PHP diproses oleh aplikasi penerjemah dalam modus baris

-baris perintah modus dan melakukan operasi yang diinginkan sesuai sistem

operasi untuk menghasilkan keluaran program dichannel output standar. Hal

ini juga dapat berfungsi sebagai aplikasi grafis. PHP tersedia sebagai prosesor

untuk server web yang paling modern dan sebagai penerjemah mandiri pada

sebagian besar system operasi dan komputer platform (Henry Februariyanti, 2012).

2.13 MYSQL

MySQL adalah sebuah implementasi dari sistem manajemen basisdata

relasional (RDBMS) yang didistribusikan secara gratis dibawah lisensi GPL

(General Public License). Setiap pengguna dapat secara bebas menggunakan

MySQL, namun dengan batasan perangkat lunak tersebut tidak boleh dijadikan

produk turunan yang bersifat komersial. MySQL sebenarnya merupakan turunan

salah satu konsep utama dalam basisdata yang telah ada sebelumnya; SQL

(Structured Query Language). SQL adalah sebuah konsep pengoperasian

basisdata, terutama untuk pemilihan atau seleksi dan pemasukan data, yang

memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis.

Kehandalan suatu sistem basis data (DBMS) dapat diketahui dari cara

Page 16: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

22

kerja pengoptimasinya dalam melakukan proses perintah-perintah SQL

yang dibuat oleh pengguna maupun program-program aplikasi yang

memanfaatkannya. Sebagai peladen basis data, MySQL mendukung operasi

basis data transaksional maupun operasi basis data non-transaksional. Pada

modus operasi non-transaksional, MySQL dapat dikatakan unggul dalam

hal unjuk kerja dibandingkan perangkat lunak peladen basis data kompetitor

lainnya (Henry Februariyanti, 2012).

2.14 XAMPP

XAMPP adalah sebuah software web server apache yang didalamnya

sudah tersedia database server MySQL dan dapat mendukung pemrograman

PHP. XAMPP merupakan software yang mudah digunakan, gratis dan

mendukung instalasi di Linux dan Windows. Keuntungan lainnya adalah cuma

menginstal satu kali sudah tersedia Apache Web Server, MySQL Database

Server, PHP Support (PHP 5 dan PHP 7) dan beberapa module lainnya (Henry

Februariyanti, 2012)

2.15 Cofusion Matrix

Evaluasi dengan confusion matrix menghasilkan nilai accuracy, precison,

dan recall. Accuracy dalam klasifikasi adalah persentase ketepatan record data yang

diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi,

Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif

yang juga positif benar pada data yang sebenarnya.Recall atau sensitivity adalah

proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar

(Andriani, 2012).

Tabel 2. 3 Cofusion Matrix

Kelas Prediksi

True False

Kelas

Sebenarnya

True TP FN

False FP TN

Keterangan untuk tabel 2.3 dinyatakan sebagai berikut:

Page 17: BAB II KAJIAN PUSTAKA 2.1 State of The Art Review

23

True Posstive (TP), yaitu jumlah dokumen dari kelas 1 yang benar dan diklasifikan

sebagai kelas 1.

True Negative (TN), yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan

sebagai kelas 0.

False Positive (FP), yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan

sebagai kelas 1.

False Negative (FN) yaitu jumlah dokumen dari kelas 1yang salah diklasifikasikan

sebagai kelas 0.

Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai- nilai yang

telah dimasukkan tersebut untuk dihitung jumlah (recall), precision, dan accuracy.

Untuk menghitung digunakan persamaan dibawah ini:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑃

𝑇𝑃+𝐹𝑃 (1)

𝑅𝑒𝑐𝑎𝑙𝑙 =𝑇𝑃

𝑇𝑃+𝐹𝑁 (2)

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑃 + 𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3)