Post on 23-Nov-2015
[0]
PROPOSAL TESIS
SENTIMEN ANALYSIS ELEKTABILITAS CALON PRESIDEN
INDONESIA 2014 DENGAN METODE SUPPORT VECTOR
MACHINES
RULI WIDYA ASMORO
211210255
PROGRAM PASCASARJANA MAGISTER
TEKNOLOGI INFORMASI SEKOLAH
TINGGI TEKNIK SURABAYA
2013
[1]
PROPOSAL TESIS
Judul Tesis : SENTIMEN ANALYSIS ELEKTABILITAS
CALON PRESIDEN INDONESIA 2014 DENGAN
METODE SUPPORT VECTOR MACHINES
Nama : Ruli Widya Asmoro
NRP : 211210255
Jurusan/Program Studi : Teknologi Informasi/S2
Dosen Pembimbing : Ir. Endang Setyati, MT. Jenis Tesis : Kontribusi Pemanfaatan
I. Latar Belakang Sesuai dengan UUD 1945 yang menyatakan bahwa pemilu
dilaksanakan secara langsung, umum, bebas, rahasia, jujur, dan adil setiap 5
(lima) tahun. Pemilu diselenggarakan untuk memilih anggota Dewan
Perwakilan Rakyat (DPR), Dewan Perwakilan Daerah (DPD), Presiden dan
Wakil Presiden dan Dewan Perwakilan Rakyat Daerah (DPRD).
Sebelumnya, pemilihan Presiden dan Wakil Presiden dilakukan
secara tidak langsung oleh rakyat. Di awal kemerdekaan Presiden dan Wakil
Presiden pertama yakni Presiden Ir. Soekarno dan Wakil Presiden Drs.
Mohammad Hatta dipilih Badan Usaha Persiapan Kemerdekaan Indonesia
(BPUPKI).
Sesuai dengan Pasal 6 UUD 1945 sebelum diamandemen, disebutkan
bahwa Presiden dan Wakil Presiden dipilih oleh Majelis Permusyawaratan
Rakyat (MPR) dengan suara terbanyak. Pasca reformasi, Pasal 6 A sebagai
hasil Perubahan ketiga UUD 1945 yang disahkan tanggal 10 November 2001
mengamanatkan bahwa Presiden dan Wakil Presiden dipilih dalam satu
pasangan secara langsung oleh rakyat. Sebagai tindak lanjut Pasal 6 A UUD
1945, diberlakukan UU No. 23 tahun 2003 tentang Pemilihan Umum Presiden
dan Wakil Presiden Pilpres pertama dilakukan pada tahun 2004.
Pasal 5 UU No. 23 tahun 2003 mensyaratkan bahwa peserta Pemilu
Presiden dan Wakil Presiden adalah Pasangan Calon yang diusulkan secara
berpasangan oleh partai politik atau gabungan partai politik.Pasangan calon
yang dimaksud hanya dapat diusulkan oleh partai politik atau gabungan partai
politik yang memperoleh sekurang-kurangnya 15 % (lima belas persen) dari
jumlah kursi DPR atau 20 % (dua puluh persen) dari perolehan suara sah
secara nasional dalam Pemilu anggota DPR di tahun 2004.
Untuk pemilihan Presiden dan Wakil Presiden (Pilpres) di tahun 2009
ditetapkan UU No. 42 tahun 2008 tentang Pemilihan Umum Presiden dan
Wakil Presiden Pilpres. Pasal 8 dan 9 UU No. 42 tahun 2008 mensyaratkan
bahwa peserta Pemilu Presiden dan Wakil Presiden adalah Pasangan Calon
yang diusulkan dalam 1 (satu) pasangan Partai Politik atau Gabungan Partai
Politik.Pasangan calon yang dimaksud hanya dapat diusulkan oleh partai
politik atau gabungan partai politik yang memperoleh paling sedikit 20 %
(dua puluh persen) dari jumlah kursi DPR atau 25 % (dua puluh lima persen)
dari perolehan suara sah secara nasional dalam Pemilu anggota DPR di tahun
2009.
[2]
Sebagai kegiatan kenegaraan yang terstruktur dan rutin,
penyelenggaraan Pemilihan Presiden dan Wakil Presiden (Pilpres) telah
membuka bagi seluruh rakyat Indonesia berpartisipasi secara langsung dalam
menentukan pilihan pemimpinnya.
Pemilihan langsung Presiden dan Wakil Presiden telah memberikan
beberapa manfaat. Pertama, merupakan kesempatan dan tempat yang luas
bagi tumbuhnya sistem perpolitikan nasional.Kedua, pasangan Presiden dan
Wakil Presiden terpilih akan memiliki mandat dan legitimasi yang sangat kuat
karena didukung oleh suara rakyat melalui pemilih. Diharapkan bahwa
Presiden terpilih berada di posisi segala kepentingan sosial politik dan dapat
menjembani berbagai kepentingan tersebut.
Partisipasi rakyat secara langsung dalam Pemilu Presiden dan Wakil
Presiden akan menjadi alat kontrol bagi pasangan Presiden dan Wakil
Presiden terpilih selama masa pemerintahannya.Kontrol rakyat akan
menjadikan Presiden dan Wakil Presiden terpilih mempunyai beban
konstitusional dalam memenuhi janji-janji, visi dan misi serta program yang
disampaikan dalam masa kampanye. Dengan demikian akan terbangun
hubungan sinergis antara pasangan Presiden dan Wakil Presiden terpilih
dengan rakyat pemilih yang dijembatani oleh pemenuhan janji-janji, visi dan
misi serta program yang disampaikan dalam masa kampanye, memberi
gambaran telah terwujudnya. Inilah aktualisasi nilai-nilai demokrasi dalam
penyelenggaraan Pemilu Presiden dan Wakil Presiden .
Hal terpenting juga adalah sistem Pemilu Presiden dan Wakil
Presiden secara langsung melahirkan check and balance antara lembaga
legislatif dan lembaga eksekutif yang lebih seimbang karena kedua lembaga
ini sama kuatnya. Tidak ada satu lembaga yang dapat membubarkan lembaga
lainnya. Sehingga dalam pengambilan kebijakan, masing-masing lembaga
dapat saling bersinergi untuk menghasilkan keputusan yang terbaik bagi
rakyat sebagai konstituennya.
Menjelang pemilihan umum (pemilu) tahun 2014 yang makin dekat,
partai-partai politik dan tokoh-tokoh yang berminat untuk maju dalam pemilu
itu, sudah mulai bersiap-siap. Banyaknya tokoh-tokoh masyarakat yang akan
mengajukan diri menjadi calon presiden. Dari kesemua calon presiden yang
dikenal public biasanya sudah memiliki Elektabilitas tinggi yaitu orang yang
dikenal baik secara meluas dalam masyarakat dan orang tersebut memiliki
skill dan menguasai permasalahan Negara.
Dalam memperkenalkan calon presiden banyak usaha yang dilakukan
oleh juru kampanyae mereka dimana suatu publikasi dan kampanye memegag
peranan yang sangat penting. Beberapa tahun terakhir, jejaring sosial telah tumbuh secara luar biasa cepatnya. Pertumbuhan mulai dari pengguna hingga
fasilitas yang ditawarkan oleh jejaring sosial tersebut. Indonesia telah menjadi
negara dengan pengguna Twitter terbesar di Asia dan ke enam di dunia
(Sysmosos Inc., 2010) dengan banyak pengguna Twitter di tahun 2010
adalah2.41% dari seluruh pengguna di dunia. Angka ini naik dari0.5% pada
tahun 2009. Dalam Proposal tesis ini berusaha mencari informasi yang
terkandung dalam Twitter ini tentang sentiment public mengenai elektabilitas
calon presiden 2014 dimana informasi tersebut sangat harga sebagai alat penentu
kebijakan siapa yang memiliki Elektabilitas tertinggi sebagai calon Presiden
2014.
[3]
Berdasarkan latar belakang di atas dan kajian pustaka yang sudah
dilakukan, maka penulis tertarik untuk mempelajari lebih lanjut tentang
sentiment analys elektabilitas calon presiden Indonesia 2014 dengan
menggunakan metode support vector Machines untuk melakukan penelitian
ini.
II. Tujuan dan Manfaat
Tujuan dan manfaat dari penelitian ini adalah :
a. Melakukan analisa dan penilaian terhadap informasi dari pandangan public tentang elektabilitas calon presiden yang akan maju dalam pemilihan presiden
2014.
b. Dengan Elektabilitas calon presiden yang akan maju di pemilu 2014 benar-benar menjadi seorang pemimpin yang ideal bagi Indonesia.
c. Dengan adanya informasi public dari twitter tentang calon Presiden yang akan maju pemilu 2014 dapat di ketahui opini public positif maupun negative dari
tiap calon presiden.
III. Hipotesis
Metode yang diusulkan diharapkan dapat membantu proses penentuan
Elektabilitas calon Presiden Indonesia 2014 dengan akurat melalui pandangan
Publik sehingga diperoleh sesosok Presiden yang paling memiliki wibawa,
kemampuan dalam mengelola dan menyelesaikan permasalahan dalam pemerintahan
dengan tingkat keakuratan mencapai 82,9%1.
IV. Tinjauan Pustaka
A. Judul Paper : Sentiment Analysis of Twitter Data
Penulis : Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca
Passonneau
Jurusan : Department of Computer Science, Columbia University, New York,
USA
Pada penelitian disini memiliki prinsip yang sama bahwa kita dapat memperoleh data
sebanyak-banyaknya yang bersifat real-time karena dengan adanya twitter maka
masyarakat dapa meluapkan apapun yang dirasakan sekita itu. Bahasa yang
dipakai di twitter tidak beraturan maka pada preprocessing dilakukan beberapa teknik
untuk melakukan ekstraksi data mentahnya diantaranya adalah 1). melabeli 170
ekspresi yang sering muncul di tweet yaitu symbol emoticon. Contoh pelabelan secara
manual yang dilakukan adalah untuk symbol dilabeli sebagai ekspresi positif. 2). Mengganti URL dengan tag ||U|| 3). Mengganti symbol target @ dengan tag ||d|| 4). Mengganti semua kalimat negasi seperti (e.g. not, no, never, nt, cannot) di ganti dengan tag NOT. 5). mengganti urutan karakter diulang oleh tiga karakter, misalnya, mengkonversi coooooooool ke coool.
1
Pang,B.,Lee,L.,&Vithyanathan,S (Referensi no 5)
[4]
Dalam penelitian ini disediakan tabel statistic untuk setiap token yang tagset standar
ditetapkan oleh Treebank Penn untuk mengidentifikasi tanda baca. Kami mencatat
terjadinya tiga tag twitter standar: emoticon, dan URL target. Token yang tersisa
baik kata-kata bahasa Inggris non (seperti coool, zzz dll) atau simbol lainnya
Tabel 1 Data statistic yang digunakan experiment
Number of Token 79.152
Number of stop words 30.371
Number of English words 23.837
Number of punctuation marks 9.356
Number of capitalized words 4.851
Number of twitter tags 3.371
Number of exclamation marks 2.228
Number of negation 942
Number of other tokens 9.047
Dalam Tabel 1 kita melihat bahwa 38,3% dari token adalah kata-kata berhenti, 30,1%
dari token ditemukan di WordNet dan token 1,2% adalah kata-kata negasi. 11,8% dari
semua token tanda baca termasuk tanda seru yang menebus 2,8% dari semua token.
Secara total, 84,1% dari semua token token yang kita harapkan untuk melihat dalam
teks bahasa khas Inggris. Ada tag 4,2% yang khusus untuk Twitter yang meliputi
emoticon, target, dan hastags "RT" (tweet). Token 11,7% sisanya adalah baik kata-
kata yang tidak dapat ditemukan dalam WordNet (seperti Zzzzz, kewl) atau simbol
khusus yang tidak termasuk dalam kategori tag Twitter.
1. Hasil Eksperiment
a. Positif Vs Negatif ini merupakan klasifikasi biner dimana dua polaritas sentiment negative
positif. Dalam penelitian disediakan data yang seimbang dari 1709 dan
kebetulan memiliki presentasi 50% setiap kelasnya.
b. Perbandingan dari model Fitur yang disediakan untuk penelitian ini adalah model unigram dan
menambahkan beberapa set sebagai fitur lainnya. Pertama penambahan fitur
non polar (baris f5, f6, f7, f10, f11 pada Tabel) dan amati ada perbaikan
dalam kinerja. Selanjutnya, kita menambahkan semua bagian-of-speech fitur
berbasis (baris f1, f8) dan mengamati keuntungan sebesar di atas 3,49% .
Tabel 2 pengelompokan fitur
N Polar POS # of (+/-) POS (JJ, RB, VB, NN) F1
Other # of negation words, positive words, negative words # of extremely-pos., extremely-neg., positive, negative emoticons # of (+/-) hashtags, capitalized words, exclamation Words
F2
F3
F4
Non-polar POS # of JJ, RB, VB, NN F5
Other # of slangs, latin alphabets, dictionary words, words f6 # of hashtags, URLs, targets, newlines
F6
F7
R Polar POS For POS JJ, RB, VB, NN, prior pol. scores of words of that POS
F8
Other prior polarity scores of all words F9
Non-polar Other percentage of capitalized text F10
B Non-polar Other exclamation, capitalized text F11
[5]
Table 2 N mengacu pada set fitur yang nilainya adalah bilangan bulat positif.
Mereka terutama menghitung fitur, misalnya, menghitung jumlah kata keterangan
positif, negatif verba dll R mengacu pada fitur yang nilainya adalah bilangan real,
misalnya, jumlah skor polaritas sebelum kata-kata dengan bagian-pidato-kata sifat/
keterangan / kerja / kata benda, dan jumlah skor polaritas sebelum semua kata. B
mengacu pada seperangkat fitur yang memiliki nilai boolean, misalnya, kehadiran
tanda seru, kehadiran teks dikapitalisasi.
Tabel 3 Nilai rata-rata standart deviasi pada 2 way
Model Avg. Acc % Std.Dev %
Unigram 71.35 1.95
Senti-Fiture 71.27 0.65
Kernel 73.93 1.50
Unigram + Senti Fiture 75.39 1.29
Kernel + Senti-Fiture 74.61 1.43
Eksperimen ini menyimpulkan bahwa Tabel 3 menunjukkan fitur yang paling
penting dalam Senti-fitur adalah model yang melibatkan polaritas sebelum part of
speech. Semua fitur lainnya memainkan peran marginal dalam mencapai sistem
yang paling tepat. Bahkan, penelitian ini bereksperimen dengan menggunakan
unigrams hanya dengan fitur polaritas sebelum POS dan mencapai kinerja
75,1%, yang hanya sedikit lebih rendah daripada menggunakan semua Senti-fitur.
Table 4 hasil Akurasi untuk klasifikasi model 2-way
Fetures Acc F1.Meansure
Post Neg
Unigram Baseline 71.35 71.13 71.50
+F5,F6,F7,F10,F11 70.1 69.66 70.46
+ F1, F8 74.84 74.4 75.2
+ F2,F3,F4,F9 75.39 74.81 75.86
Pada table 4 menunjukkan hasil terbaik untuk akurasi pada penambahan
beberapa fitur terjadi ketika penambahan fitur F2,F3,F4,F9 mendapat akurasi
hingga 75.39%.
A. Positif vs negative vs Netral Dalam klasifikasi 3 kelas positif, negative dan netral ini sama dengan dataset
1709 akan dibagi menjadi rata setiap kelasnya yaitu 33.33%.
d. Perbandingan dari model Dalam penelitian ini model unigram mencapai keuntungan sebesar 23,25%.
Tabel membandingkan kinerja tiga model. dilaporkan mean dan deviasi standar
dari 5 kali lipat akurasi tes. Kami mengamati bahwa pohon kernel mengungguli
unigram dan model Senti-fitur dengan 4,02% dan 4,29% mutlak, masing-masing.
Kami mencatat bahwa perbedaan ini jauh lebih menonjol dibandingkan dengan
tugas klasifikasi dua arah (positf dan negative). Sekali lagi, kami melakukan
hampir 100 Senti-fitur serta dasar unigram yang memiliki sekitar 13.000 fitur.
Kami juga bereksperimen dengan kombinasi model. Untuk klasifikasi kombinasi
[6]
kernel dengan Senti-fitur melebihi kombinasi unigrams dengan Senti-fitur dengan
margin kecil.
Tabel 5 Nilai rata-rata standart deviasi pada 3-way
Model Avg. Acc % Std.Dev %
Unigram 50.58 1.52
Senti-Fiture 56.31 0.69
Kernel 60.60 1.00
Unigram + Senti Fiture 60.50 2.27
Kernel + Senti-Fiture 60.83 1.09
Tabel 5 menyajikan akurasi classifier dan F1-mengukur ketika fitur yang
ditambahkan secara bertahap. Di mulai dengan model unigram kemudian
menambahkan set berbagai fitur. Pertama, ditambahkan semua non-polar fitur
(baris f5, f6, f7, f10 pada Tabel 4) dan dapat diamati peningkatan kecil dalam
kinerja. Selanjutnya, ditambahkan semua fitur berbasis part-of-speech dan dapat
diamati keuntungan sebesar 3,28% di atas unigram baseline. Dapat dilihat
peningkatan tambahan dalam akurasi dengan 0,64% ketika ditambahkan fitur
polaritas lainnya sebelum (baris f2, f3, f4, f9 pada Tabel 4). Hasil ini sesuai
dengan penelitian sebelumnya yaitu klasifikasi 2-arah. Sekali lagi, kontribusi
utama berasal dari fitur yang melibatkan polaritas sebelum part-of-speech.
Tabel 6 hasil akurasi untuk klasifikasi model 3-way
Fetures Acc F1.Meansure
Post Net Neg
Unigram Baseline 56.58 56.86 56.58 56.20
+F5,F6,F7,F10,F11 59.91 55.12 59.84 55
+ F1, F8 59.86 58.42 61.04 59.82
+ F2,F3,F4,F9 60.50 59.41 60.15 61.86
Dari hasil yang telah diperoleh berdasarkan model 2-way (pos vs neg) dan 3-
way (pos vs neg vs net) terlihat pada tabel 6 dan tabel 8 maka dapat disimpulkan
hasil dari penelitian ini adalah hasil untuk analisis sentimen di Twitter. Telah
digubakan model state-of-the-art model yang unigram sebagai baseline dan
melaporkan keuntungan keseluruhan lebih dari 4% untuk dua tugas klasifikasi:
biner, positif versus negatif dan 3-way yang positif versus negatif dibandingkan
netral. Hasil yang diperoleh merupaka sample data acak pada twitter.
Penelitian ini mencoba mempelajari kerja dari dua jenis model: tree kernel
dan model fitur berbasis dan menunjukkan bahwa kedua model ini mengungguli
dasar unigram. Untuk pendekatan berbasis fitur, penelitian ini melakukan
analisis fitur yang mengungkapkan bahwa fitur yang paling penting adalah
model yang menggabungkan polaritas sebelum kata-kata dan tag part-of-
speech.
[7]
B. Judul Jurnal : Support Vector Machine Active Learning with Applications to Text Classification
Penulis : Simon Tong dan Daphne Koller
Jurusan : Computer Science Department, Stanford University
Dalam penelitian ini menggunakan klasifikasi teks sebagai teknik untuk
mengatasi terjadinya ledakan data teks saat ini dengan menggunakan metode SVM
(support vectore machine).
Contoh kasus yang dapat menggunakan algoritma ini adalah :
Pencarian web
Penyaringan spam email.
Relevansi umpan balik.
2. SUPPORT VECTOR MACHINES
Support vector Machines (Vapnik, 1982) memiliki dasar teoritis yang
kuat dan sangat baik uji keberhasilannya dan telah diterapkan untuk tugas-tugas
seperti pendeteksian tulisan tangan, Pengenalan obyek, dan klasifikasi teks.
2.1 Pengenalan SVMs
Dalam penelitian ini SVMs difungsikan dalam pengaturan klasifikasi
biner. Data pelatihan {X 1... Xn} Yang vektor dalam beberapa ruang X Rd. Kami juga diberi label mereka {y 1 ..y.n} di mana yi {- 1, 1}. Dalam bentuk yang paling sederhana, adalah SVMs hyperplanes yang memisahkan Data
dengan margin maksimal (lihat Gambar. 1a). Semua vektor berbaring pada satu
sisi hyperplane ofthe diberi label sebagai - 1, dan semua vektor berbaring di
sisi lain diberi label sebagai 1. Secara umum SVMs memungkinkan untuk
memproyeksi data training pada ruang x untuk feature space F melalui
operator Mercer kernel K. Dengan kata lain kita mempertimbangkan data set
classification:
f(x) = n iK(xi, x) . (1)
i=1
Ketika K memenuhi kondisi Mercer kernel (Burges, 1998) kita dapat menulis
K(u, v) = (u) (v) where : X F dan menunjukkan dalam produk
sehingga dapat ditulis f sebagai berikut:
n
f(x) = w (x), where w = i=1 i(xi). (2) Jadi, dengan menggunakan K implisit memproyeksikan data training menjadi
berbeda (seringnya fitur yang lebih baik) ruang F. SVM kemudian
menghitung yang i s yang sesuai ke hyperplane marjin maksimal dalam F.
[8]
2.2 SVMs untukTransduction Ada belabelan pada data set training dan tugas untuk menciptakan
sebuah classifier yang akan memiliki kinerja yang baik pada data uji tak
terlihat. Selain induksi rutin, SVMs juga dapat digunakan untuk transduksi
tion. Di sini kita pertama diberikan data ofboth set label dan unlabeled. Tugas
belajar adalah untuk menetapkan label untuk data unlabeled seakurat
mungkin. SVMs dapat melakukan trans- produksi dengan mencari hyperplane
yang memaksimalkan relatif marjin untuk kedua berlabel dan data unlabeled.
Lihat Gambar 1b untuk contoh. Baru-baru ini, transductive SVMs (TSVMs)
telah digunakan untuk klasifikasi teks (Joachims, 1999b), mencapai beberapa
perbaikan dalam presisi / recall impas kinerja selama SVMs induktif biasa.
3. Version Space Mengingat data set training berlabel dan Mercer kernel K, ada hyperplanes yang
memisahkan data dalam F ruang fitur diinduksi. Kami menyebutnya hipotesis of
consistent ditetapkan version space (Mitchell, 1982). Dengan kata lain, hipotesis f
dalam version space setiap x pelatihan misalnya i dengan y label i kita memiliki
f (x i )> 0 jika y i = 1 dan f (x i ) 0}.
Perhatikan bahwa karena H adalah seperangkat hyperplanes, ada bijection antar
unit vektor w dan hipotesis f di H. Dengan demikian kita akan mengubah V
sebagai:
V = {w W | w = 1, yi(w (xi)) > 0, i = 1 . . . n}.
4. Active Learning
Di dalam pool-based active learning kita memiliki contoh data unlabeled.
Hal ini diasumsikan bahwa x merupakan contoh yang independen dan
terdistribusi secara identik yang mendasari distribusi F (x) dan label distribusi
bersyarat P (y | x).
Pemberian unlabeled U, merupakan sebuah pembelajaran dimana
memiliki tiga komponen: (f, q, X). Itu Komponen pertama adalah sebuah
classifier, f: X {- 1, 1}, dilatih pada set saat oflabeled Data X (Dan mungkin unlabeled kasus di U juga). Komponen kedua q (X) adalah query fungsi yang,
diberi X set saat ini berlabel, yang memutuskan misalnya dalam U untuk query
berikutnya.
Definisi 2 Area (V) adalah luas permukaan yang versi V ruang menempati pada
hyper- sphere, w = 1.
[9]
Definisi 3 Diberi l pembelajar aktif, mari V i menunjukkan version space setelah
query dibuat. Sekarang, mengingat (i + 1)th query x i +1 , Tentukan:
Vi = Vi {w W | (w (xi+1)) > 0}, Vi
+ = Vi
{w W | +(w (xi+1)) > 0}.
jadi Vi and Vi
+ menunjukkan ruang resultingversion ketika next query xi+1
diberi label sebagai 1 dan 1
Dalam penelitian ini menyajikan three ways of approximating procedure
yaitu:
Simple Margin,Recall dari 3 bagian dari beberapa data {x1 . . . xi} dan label {y1 . . . yi}, dimana Yang SVM Unit vektor w i diperoleh dari data ini adalah
pusat terbesar Hyper-sphere yang dapat ditampung di dalam ruang saat ini
versi V i , Posisi w i di versi space V i jelas tergantung pada bentuk ofthe
wilayah V i
Margin MaxMin. Metode Margin sederhana dapat menjadi pendekatan yang agak kasar. Ini bergantung pada asumsi bahwa ruang versi cukup simetris dan
bahwa w i adalah terpusat ditempatkan. Ini telah dibuktikan, baik dalam teori
dan praktek, bahwa asumsi dapat gagal secara signifikan (Herbrich et al.,
2001). Memang, jika kita tidak hati-hati kita benar-benar dapat permintaan
sebuah contoh yang hyperplane bahkan tidak memotong Versi ruang.
Pendekatan MaxMin dirancang untuk mengatasi masalah ini untuk beberapa
derajat. Mengingat beberapa data {x 1 ... X i } Dan label {Y1 ... Yi }, Vektor
satuan SVM w i mmerupakan metode yang sangat erupakan pusat
hypersphere terbesar yang dapat ditampung dalam versi saat ini.
Ratio Margin, Metode ini memiliki semangat yang sama dengan metode Margin MaxMin.. Kita menggunakan m
- dan m
+ sebagai indikasi ofthe
ukuran V - dan V
+ . Namun, kami akan mencoba untuk mempertimbangkan
fakta bahwa versi saat ini space V memiliki ukuran besar dan untuk beberapa
x pada pool both m - dan m
+ mungkin kecil memiliki bentuknya version
space. Jadi kita malah akan melihat ukuran relatif m - dan m
+ dan memilih
untuk query x untuk yang min(m
m
+ , mm
+ ).
Ketiga metode di atas merupakan komponen query yang selalu membagi
dua version space. Setelah melakukan beberapa jumlah permintaan kemudian
kita kembali ke sebuah classifier dengan mempelajari SVM dengan beberapa
contoh label. Margin dapat digunakan sebagai indikasi version space size
terlepas dari fitur vektor yang memiliki modulus konstan.
5. Experiments
Untuk uji evaluasi metode yang kami gunakan di terpkan pada dua dunia
nyata klasifikasi teks domain: Reuters-21.578 kumpulan data dan Newsgroup
kumpulan data.
[10]
5.1 Reuters Data Collection Experiments
Data set the Reuters-21.578 adalah koleksi umum digunakan dalam cerita
newswire yang dikategorikan dalam label topik. Setiap berita telah dilabelkan
sesuai dengan nomorpada topic tertentu seperti "jagung", "gandum" dan
"akuisisi perusahaan". Perhatikan bahwa beberapa topik yang saling tumpang
tindih sehingga beberapa artikel memiliki lebih dari satu kategori. Dalam
penelitian ini menggunakan 12.902 artikel dari "ModApte" dan, untuk tetap
sebanding dengan studi sebelumnya, kami menganggap ada sepuluh besar topik
yang paling sering terjadi.
Kami mempelajari sepuluh biner yang berbeda pada pengklasifikasian,
salah satu untuk membedakan setiap topik. Maka dilakukan perhitungan dengan
fitur TFIDF-weighted word frequency vector dimana Setiap vektor memiliki
modulus unit.
(a) (b) Gambar 1. (a) uji akurasi set rata-rata selama sepuluh topik yang paling sering
terjadi ketika menggunakan of1000 ukuran kolam renang. (b) Uji Rata-rata set
presisi / recall impas titik selama sepuluh topik yang paling sering terjadi bila
menggunakan kolam ukuran 1000.
Topic Simple MaxMin Ratio Equivalent
Random size
Earn 86.39 1.65 87.75 1.40 90.24 2.31 34 Acq 77.04 1.17 77.08 2.00 80.42 1.50 > 100 Money-fx 93.82 0.35 94.80 0.14 94.83 0.13 50 Grain 95.53 0.09 95.29 0.38 95.55 1.22 13 Crude 95.26 0.38 95.26 0.15 95.35 0.21 > 100 Trade 96.31 0.28 96.64 0.10 96.60 0.15 > 100 Interest 96.15 0.21 96.55 0.09 96.43 0.09 > 100 Ship 97.75 0.11 97.81 0.09 97.66 0.12 > 100 Wheat 98.10 0.24 98.48 0.09 98.13 0.20 > 100
Corn 98.31 0.19 98.56 0.05 98.30 0.19 15
Tabel 7: Uji akurasi set rata-rata selama sepuluh besar topik yang paling sering
terjadi (kebanyakan topik yang sering pertama) ketika dilatih dengan sepuluh
dokumen berlabel. Tebal menunjukkan signifikansi statistik.
[11]
5.2 Newsgroups Experiments
Pengumpulan data K. Lang Lang Newsgroup collection(1995). Kami
menggunakan lima kelompok comp *, membuang header Usenet dan baris
subjek.. Kami memproses teks dokumen persis seperti sebelumnya, sehingga
vektor dari sekitar 10000 dimensi.
Gambar 2: (a) Sebuah contoh sederhana ofquerying cluster unlabeled. (B)
Makro-rata tes mengatur akurasi untuk comp. os ms-jendela.. misc dan comp sys..
ibm. pc. hardware mana Hybrid menggunakan metode Rasio untuk sepuluh
pertanyaan pertama dan sederhana untuk sisanya.
Tabel 8: Dalam hitungan detik untuk metode Aktif pada dataset Newsgroup
[12]
c. Judul Jurnal : Sentiment Analysis of Enterprise Mashups Using Scikit and NLTK Penulis : A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN
Jurusan : Department of Information Technology, Quaid-e-Awam University,
Nawabshah, Pakistan
Studi yang dilakukan untuk menemukan sentimen rahasia dalam pesan status
twitter yang berfungsi untuk membantu suatu perusahaan dan individu dalam
mengambil keputusan yang lebih baik dalam bisnis mereka dengan penggunaan
pesan status (tweet) yang diekstrak dari twitter dengan menggunakan twitter API.
Sentimen analisis dapat dilakukan pada berbagai tingkat dokumen teks,
kalimat atau frase dianalisis tingkat sentimen dilakukan di individu kalimat dari
sebuah dokumen yaitu mendeteksi isi subjektivitas kalimat jika itu bukan Kalimat
netral, maka polaritas kalimat tersebut terdeteksi untuk menemukan apakah itu
positif atau negative yang bertujuan untuk menemukan polaritas kolektif dokumen
yang dikenal sebagai klasifikasi dokumen tingkat sentimen (Liu 2011).
Penulis telah menyarankan algoritma pembelajaran unsupervised pendekatan untuk
memberikan rating thumps up jika review adalah positif atau thumps turun jika
ditinjau dianggap sebagai negatif.
Tujuan dari pendekatan ini adalah untuk menganalisis apakah skema
pembelajaran mesin: Nave Bayes, Entropi Maksimum, dan SVM, bekerja sangat
baik , untuk mengklasifikasikan dokumen berdasarkan topik.
Dalam makalah ini, kami menganalisis menggunakan bidang alami
pengolahan bahasa (NLP) dan Teknik pembelajaran mesin (ML) untuk menemukan
keselarasan dengan sentiment. Selain itu kita mengembangkan crawler sederhana
yang mengekstrak data dari twitter dan membangun corpus untuk sentiment
classification dengan menggunakan NLTK (Bird et al,2009) dan (Pendregosa et al,
2011). Selain itu penelitian ini membahasa kinerja teknik evaluasi yang berbeda
berdasarkan berbagai metric seperti akurasi, presisi, recall dan f-skor.
Framework yang diusulkan dalam penelitian ini diuji dengan deteksi polaritas
pesan twitter. Bigram, unigram, frekuensi panjang dan frekuensi dokumen invers
(TF-IDF) dan metode seleksi fitur serta tiga algoritma pembelajaran mesin yaitu
support vector machines (SVM) ,Maximum Entropy, dan Nave Bayes. Pekerjaan
juga mencakup kinerja perbandingan metode pembelajaran yang berbeda untuk
menganalisis jenis teknik bekerja terbaik dengan twitter corpus.
Dalam penelitian ini dilakukan dalam empat fase yaitu:
Pengembangan crawler. Pengembangan mesin NLP. Pengembangan modul ML. Pengembangan model sentimen deteksi.
[13]
A. Pengembangan crawler Langkah awal dalam sentimen analisis adalah untuk membangun sebuah
korpus teksyang didasarkan pada tweets. Sehingga untuk mengumpulkan data maka
kita mengunakan Crawler yang merupakan program komputer yang mencari situs
web dan mengumpulkan data yang ada pada situs atau web yang dituju.Pada
penelitian ini menggunakan stream API, untuk mengcrawler mengekstrak tweets
dari Twitter sehingga korpus dapat dibuat untuk memanipulasi untuk Sentimen
analisis (Gambar 3).
Vector Machine NLP Learning
World Engine
Module Wide Web
Extracts Feature
Extraction & Tweets Normalizat Sentiment
Crawl
Creating Sentiment Corp
Er
us Detection
Model
Gambar 3. Usulan Framewok
B. Pengembangan Mesin NLP NLP adalah studi komputasi linguistik(Jurafsky et al., 2009). Metode NLP
diperlukan secara efektif untuk memproses teks dan memahami yang mendasari
semantik tweet. Tujuan dari NLP yaitu mencoba untuk mengekstrak fitur yang
relevan yang diperlukan untuk mendeteksi polaritas tweet, dan kedua adalah
menormalkan set fitur. Proses normalisasi membantu untuk mengurangi fiture
space. Namun, sebelum melakukan dua langkah tersebut, kita perlu melakukan pre-
processing untuk input masukan. Pre-processing meliputi penentuan set kosakata
inputan dimana hal ini berfungsi untuk menyederhanakan bahasa yang digunakan
dalam input.
C. Pengembangan Modul ML Pada penelitian ini menggunakan teknik ML dengan dataset yang berbeda
dari parameter dan menggunakan metode seperti: bag-of-word, bigrams dan TF-
IDF. Selain itu metode Nave Bayes classifier, Linear support vector machine
(SVM) dan stochastic decent gradient (SDG) juga digunakan untuk menguji mana
yang merupakan algoritma terbaik.
Nave Bayes classifier adalah probabilistik sederhana berdasarkan pada
penerapan Teorema Bayes 'dengan kuat kemerdekaan asumsi. Naif Bayes classifier
mengkategorikan dokumen berdasarkan ketentuan bahwa dokumen berisi. Ini cepat
dan akurat bila diterapkan dengan ekstraksi fitur kata Boolean.
Support vector machines merupakan teknik klasifikasi yang digunakan
untuk menemukan besar margin hyper-plane dimana hal tersebut merupakan teknik
klasifikasi non-probabilistikdengan inputan berupa vector yang mana space vector
merupakan teknik ML yang bertujuan untuk menemukan batas keputusan antara
dua kelas yang maksimal jauh dari titik dalam data pelatihan.
[14]
D. Pengembangan model Deteksi Sentiment Dalam konteks tulisan ini, banyak macam teknik normalisasi digunakan
untuk mengurangi set fitur. Selain teknik ini ML berbeda dan Metode ekstraksi fitur
dievaluasi. Dalam skenario pertama Nave Bayes assifier adalah dipilih
menggunakan simple tas-of-kata ekstraksi fitur untuk melatih model kami.
Tabel.9. Berbeda metrik nilai untuk Nave Bayes menggunakan
Bag-of-word method
Metrics Positive Negative
Accuracy 74%
Precision 82% 69%
Recall 62% 87%
F-score 71% 77%
Kinerja analisis Nave Bayes menggunakan metode Bag-of-word
Gambar.4. The Roc curve untuk Nave Bayes classifier
(Gambar 4) menunjukkan kurva ROC untuk Nave Bayes menggunakan
metode Bag-of-word dapat dilihat bahwa hasil dari kurva ROC dapat
dirangkum dalam nilai tunggal yang merupakan daerah di bawah kurva. Daerah
itu dalam kasus ini adalah 83% seperti yang ditunjukkan pada Gambar. 2. Nilai
ini dapat digunakan untuk membandingkan model dengan model lain, nilai yang
lebih besar adalah lebih baik Model akan. Keakuratan dicapai adalah 74% pada
Data set yang terdiri dari 1 juta tweets. Hasil menunjukkan bahwa recall positif
adalah 62%, ini berarti bahwa 38% dari negatif palsu berada di kelas yang
positif.
[15]
Presisi untuk tweets positif lebih baik dibandingkan dengan ingat, yaitu
82 persen. Hal ini menyebabkan positif palsu 18% untuk label positif. Setiap
tweet yang diidentifikasi sebagai negatif adalah 69% mungkin benar. Tapi
menciak apapun yang adalah negatif benar iidentifikasi sebagai tersebut dengan
87% ingat, yang berarti negatif palsu 13% di positif kelas. F-Skor tidak
memberikan informasi yang berguna atau wawasan lainnya. Mereka hanya
tertimbang rata-rata precision dan recall.
Kinerja analisis SVM linear menggunakan bag-of-word
Dalam skenario ini linear SVM digunakan pada yang sama Data set dan
ukuran sampel yang sama menggunakan simple bag-of-word metode seleksi
fitur. Hasilnya diilustrasikan dalam (Tabel 8). Hal ini dapat disimpulkan dari
Hasil yang akurasi telah ditingkatkan dengan 2%.
Tabel 10: Perbedaan nilai metric untuk SVM Linear menggunakan
Metode bag-of-word Metric Positive Negative Accuracy 76% Precision 77% 75% Recall 74% 78% F-score 76% 77%
Stochastic decent gradient classifier using bag-of-words
Stochastic Decent Gradient (SGD) classifier is merupakan teknik ML
lain yang cocok untuk data yang jarang. (Tab. 3) Menunjukkan bahwa akurasi
ditingkatkan dibandingkan dengan SVM linear dan Nave Bayes.
Tabel.11. Hasil SGD classifierStochastic classifier
Metric Positive Negative
Accuracy 77%
Precision 79% 75%
Recall 73% 80%
F-score 76% 78%
[16]
Gambar 5. menunjukkan kurva ROC untuk SVM Linear, dapat terlihat bahwa
daerah yang tertutup adalah 84% dibandingkan dengan 83% untuk
Naif Bayes.
Frequency analysis of corpus Setelah analisis dengan cermat dari corpus tweet, itu disadari bahwa
normalisasi lebih lanjut dari set data tak terelakkan. Sebelum normalisasi, fitur
set untuk 50 positif dan negatif istilah yang paling terjadi secara berkontribusi
1600000 dan 1800000 masing. Setelah normalisasi, fitur set kedua untuk jumlah
50 hal positif dan negatif yang paling sering dikurangi menjadi 500000 masing-
masing.
Analisis kinerja menggunakan Nave Bayes dan tertinggi IG features
Gambar.6. Sebuah perbandingan Nave Bayes, Linear SVM dan SGD
classifier mempertimbangkan metric yang berbeda
(Gambar 6) menunjukkan analisis komparatif di antara berbagai ukuran Nave
Bayes, Linear SVM dan SGD pengklasifikasi menggunakan sederhana kantong-
of-kata model.
Setelah menghilangkan fitur informasi rendah dan memanfaatkan fitur informasi
tertinggi gain, 35000 istilah yang diambil. Istilah ditempatkan dalam satu set dan
hanya kata-kata dari tweet yang diekstrak bahwa muncul di set ini.
[17]
Tabel.12. Hasil setelah menggunakan fitur informasi gain tinggi
Metric Positive Negative
Accuracy 79%
Precision 83% 75%
Recall 71% 86%
F-score 77% 80%
yang menunjukkan bahwa akurasi telah ditingkatkan sebagai dibandingkan
dengan percobaan sebelumnya. (Gbr. 5) menunjukkan ROC kurva untuk Nave
Bayes classifier setelah eliminasi
Gambar. 7.ROC kurva untuk Naive Bayes setelah
memperoleh IG tinggi fitur.
informasi yang rendah fitur dan menggunakan tinggi Informasi fitur keuntungan.
Hal ini dapat diamati dari mengetahui bahwa daerah yang tertutup di bawah kurva
adalah 87% yang juga merupakan perbaikan atas hasil sebelumnya.
E. KESIMPULAN Dari makalah dapat disimpulkan bahwa kami menyelidiki bidang alami
pengolahan bahasa (NLP) dan teknik ML serta menemukan keselarasan
untuksentiment dengan metode pembelajaran mesin learning yang dipakai adalah
SVM,Maximum Entropy dan Nave Bayes. Sedangkan untuk pengolahan fitur
yang lain menguji deteksi polaritas pesan twitter mereka menggunakan Bigram,
unigram, frekuensi panjang dan frekuensi dokumen invers (TF-IDF) dan metode
seleksi fitur lainnya. Untuk teknik Evaluasi digunakan metrik seperti akurasi,
presisi, recall, dan f-skor.
[18]
V. Ruang Lingkup dan Batasan masalah A. Ruang Lingkup
1) Data Input
Dalam penelitian ini semua data baik data training dan data input
yang di olah berasal dari twitter yang berisikan tetang semua opini
sentiment baik positif maupun negatif terhadap ektabilitas calon
Presiden Indonesia 2014 yang sering muncul di setiap opini public
pada Twitter seperti Aburizal Bakrie, Hatta Rajasa, Prabowo Subianto,
Wiranto, Joko Widodo dan itu merupakan pemfilteran yang dilakukan
diawal dengan rencana difokuskan pada nama-nama calon presiden
2014 yang memiliki elektabilitas tinggi dari setiap opini yang muncul
untuk mendapatkan tweet dan sewaktu-waktu mungkin dapat berubah
menyesuaikan kebutuhan tanpa mengurangi tujuan akhir penelitian ini
yang kemudian data yang diperoleh akan klasifikasi menjadi beberapa
opini yaitu:
a) Mendukung (Positif)
b) Tidak Mendukung (Negatif)
c) Biasa (Netral)
Data diambil selama 2 bulan mulai tanggal 1 Mei 2013 sampai
dengan 31 Juni 2013. Data set ini diambil menggunakan Stream API
yang disediakan oleh Twitter dengan menggunakan keyword nama-
nama calon presiden Indoesia 2014 beserta ekstabilitasnya.
Dalam penelitian ini menggunakan metode Support Vector
Machines yang rencananya akan digabung dengan metode lain untuk
melakukan ekstrasi fitur yang akan mencoba menggunakan unigram,
unigram+bigram, unigram+POS(JJ, RB, VB, NN), # of negation
words, positive words, negative words,# of extremely-pos., extremely-
neg., positive, negative emoticons,# of (+/-) hashtags, capitalized
words, exclamation Words, percentage of capitalized text dan Tf-Idf
sedangkan untuk pembatasan sebuah fitur menggunakan frequency
based selection.
Untuk tahap awal (preprosesing) terdapat beberapa fitur yang
perlu ditangani system seperti tokenasi, normalisasi, case folding,
convert negation, dan juga stopward removal.
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
AdministratorHighlight
[19]
Sebagai contoh data yang akan dipakai untuk data training sebagai
berikut :
Tabel 13. Contoh Data Training
No Opini Twitter
1 @aburizalbakrie @anuarsyahsh Selamat untuk Pak ARB atas naiknya
elektabilitas capres. Semoga terus membaik sampai 2014...
2 RT @KompasTV: Aburizal Bakrie - Jokowi, raih elektabilitas tertinggi dalam survei Capres-Cawapres 2014!
3 Elektabilitas Prabowo Paling Tinggi, MeskiTak Aman dan Tak Mudah untuk
Menang Capres 2014 http://dlvr.it/1qNx90 via:@yuliarachman
4 Survey dari SSS menempatkan Prabowo Subianto sbg Capres 2014 yg
mempunyai elektabilitas paling tinggi. Suara Partai Gerindra jg nai
5 JOKOWI FOR PRESIDENT RT @fadjroeL: SURVEI CAPRES 2014:
Elektabilitas JOKOWI teratas - http://Bisnis.com
http://web.bisnis.com/articles/survei-capres-2014-elektabilitas-jokowi-
teratas
6 "@inilahdotcom: Jika jadi Capres 2014, @hattarajasa Ingin Menang
http://bit.ly/sOPcOw " paling 15% spt Amien Rais, elektabilitas rendah
7 Jk anak pak hatta tdk diproses hukum, tingkat elektabilitas hatta rajasa
menjadi capres 2014 diprediksi menurun. Yg pntg msh diatas ARB :D
8 yang wulan tau sih ow wiranto juga pelanggar HAM RT @Beritasatu:
Elektabilitas Wiranto untuk Capres 2014 Meningkat http://brt.st/4Ye
8 Masa sih :p RT @Beritasatu: Elektabilitas Wiranto untuk Capres 2014
Meningkat http://brt.st/4Ye
9 Belum ningkat 2014 dah lewat.. RT @detikcom: Akbar: Tingkatkan
Elektabilitas Ical, Kita Ingin Capres Golkar Menang http://de.tk/Gg7hP
10 Elektabilitas Rendah, Aburizal Optimis Maju Capres 2014 - Jaring News
http://jaringnews.com/politik-peristiwa/umum/26353/elektabilitas-rendah-
aburizal-optimis-maju-capres- via @jaringnews
Dari data training yang diperoleh, selanjutnya dilakukan tahap Ekstraksi
data yaitu meliputi tahap:
1. Tokenasi merupakan proses untuk memisah misahkan kata atau word. Proses tokenizer dalam Twitter memiliki perbedaan dengan proses
tokenizer pada teks lain. Hal ini dikarenakan adanya emoticon yang sering
digunakan oleh pengguna Twitter dalam mengungkapkan perasaannya.
Tahapan tokenizer dimulai dari memisah-misah bagian tweet yang
dipisahkan dengan karakter spasi. Selanjutnya, bagian yang hanya
memiliki satu karakter non alfabet dan angka akan dibuang. Bagian yang
termasuk dalam daftar emotikon akan dikonversi menjadi sebuah ekspresi
seperti pada table berikut
[20]
Tabel 14. Daftar emoticon
Emoticon Konversi
>:] :-) :) :o) :] :3 :c) :> =] 8) =)
:} :^)
senang
>:D :-D :D 8-D 8D x-D xD XD
XD =-D =D =-3 =3
Tertawa
>:[ :-( :( :-c :c :-< :< :-[ :[ :{ >
.>
[21]
2) Data Output
Pada akhir periode penelitian, Sistem akan memunculkan nilai dari
klasifikasikan tiga kodisi output yaitu Mendukung (positif), tidak
mendukung (negative) dan netral sehingga diperoleh prosentase
tertinggi nama yang paling didukung oleh public karena memiliki
elektabilitas yang tinggi untuk calon presiden 2014.
3) Blok Diagram
Secara umum blok diagram system yang akan dibuat adalah :
Gambar 8. Rancangan Blok Diagram
Klasifikasi nama
calon presiden Preprocessing
Perhitungan data uji
dengan data training
Sub system Pengambilan Data
Streaming
Twitter API PreProsessing
Data Uji
Data Base
Sentimen Opini
Data Training
Opini user
Nama-nama
Calon Presiden
Hasil Sentimen
Analysis
Tokenasi
Normalisasi
case folding,
convert negation
stopward removal
[22]
Keterangan:
Pada system yang akan dirancang adalah dibagi menjadi dua proses dimana :
a. Tahap Pre Processing
Pada tahap ini dimulai dari pengambilan data mentah bersumber dari Twitter
Selanjutnya dilakukan tahap awal (preprosesing) terdapat beberapa fitur yang perlu ditangani system seperti tokenasi, normalisasi, case folding,
convert negation, dan juga stopward removal untuk mendapatkan sebuah
nilai probabilitas kata yang sering muncul yang kemudian akan dijadikan
data training dan disimpan pada data base.
b. Tahap proses Klasifikasi analisis sentiment
Sedangkan pada tahap ini akan dilakukan proses uji klasifikasi dengan data awal sama yaitu data mentah dari Twitter yang
selanjutnya akan dilakukan tahap preprocessing.
Selanjutnya dihitung nilai probabilitas yang disesuaikan dengan database dari data training dengan algoritma SVM.
Pengkalsifikasian hasil akhir periode penelitian, Sistem akan memunculkan nilai dari klasifikasikan tiga kodisi output yaitu
Mendukung (positif), tidak mendukung (negative) dan netral sehingga
diperoleh prosentase tertinggi nama yang paling didukung oleh public
karena memiliki elektabilitas yang tinggi untuk calon presiden 2014
4) Desain tampilan I/O
* Input
Gambar 9. Rencna Tampilan Input
Keterangan: Kita memasukkan opini terbaru pada kotak textbox kemudian kita klik
PROSES.
SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN
INDONESIA 2014
*Inputkan Opini
PROSES
[23]
* Rencana Tampilan Output
Gambar 10. Rencna Tampilan Output
* Keterangan:
Pemasukakan Opini akan memunculkan nilai apakah termasuk positif,
negative, ataukah netral sehingga di peroleh nilai prosentase reputasi
elektabilitas calon presiden yang paling diminati oleh public.
5) Testing
Sistem testing yang akan dilakukan adalah mencoba input sebuah
opini/sentiment yang berasal dari Twitter selanjutnya sistem akan secara
otomatis melakukan pengelompokan sesuai dengan parameter yang telah
ditentukan.
B. Batasan Masalah Pada tugas akhir ini masalah yang dibahas akan dibatasi pada :
1. System tidak menangani pengambilan tweet secara langsung 2. Opini/sentiment yang di ambil adalah dalam bentuk teks bahasa
Indonesia dan hanya difokuskan pada opini yang dituju pada penelitian
ini.
3. Penelitian Rencananya akan difokuskan pada sentiment/ opini tentang nama-nama calon presiden 2014 yang sering muncul dalam twitter dan
sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan tanpa
mengurangi tujuan akhir penelitian ini.
4. Algoritma yang dipakai klasifikasi menggunakan Support Vector Machine (SVM) dan dalam penelitian ini metode yang digunakan
sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan,
tanpa mengurangi tujuan akhir dari penelitian.
OUTPUT
SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN INDONESIA
2014
NO KEYWORD
HASIL TWEETER (%)
POSITIF NEGATIF NETRAL
1 Aburizal
Bakrie 20% 50% 30%
2 Hatta Rajasa 15% 40% 45%
3 Prabowo
Subianto 30% 20% 50%
4 Wiranto 20% 45% 35%
5 Joko Widodo 40% 25% 35%
[24]
No.
Kegiatan Bulan
1 2 3 4 5 6 1 Studi Literatur 2 Analisa 3 Implementasi 4 Pengujian 5 Dokumentasi
VI. Metedologi Penelitian
A. Studi Literatur Dengan mempelajari buku-buku referensi dan jurnal yang berkaitan
dengan permasalahan penelitian yang diangkat serta mencari solusi
yang terbaik. Topik bahasan utama yang dibutuhkan diantaranya adalah
Sentimen analisis dan SVM.
B. Analisa Melakukan uji coba secara teoritis terhadap masalah yang diangkat
guna menganalisa apakah rancangan algoritma yang
digunakan dapat menghasilkan solusi yang sesuai dengan tujuan
penelitian.
C. Implementasi Membuat program dari hasil rancangan algoritma yang telah dibuat
untuk mengimplementasikan serta membuktikan bahwa hasil
analisa secara teoritis yang telah dilakukan benar-benar sesuai yang
diharapkan.
D. Pengujian Pengujian dilakukan untuk melihat apakah data yang telah menjadi
input akan diproses sesuai dengan output yang d i harapankan. Hal ini
juga dilakukan untuk mengevaluasi apakah metode yang diusulkan
mampu menjawab tujuan yang ingin dicapai.
E. Dokumentasi Merupakan langkah akhir, penyusunan laporan mulai dari latar
belakang permasalahan sampai dengan pengambilan kesimpulan
akan dijelaskan dalam tahap dokumentasi ini.
VII. Jadwal Penelitian
[25]
VIII. Daftar pustaka
(1) Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca
Passonneau, (2011), Sentiment Analysis Of Twitter Data, Department of Computer Science, Columbia University, New York, USA
(2) Simon Tong. Dephne Koller. 2001. Stanford University.Support Vector Machine Active Learning with Application to Text Classification. Journal of Machine Learning Research.PP 45-66
(3) A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN(2012), Sentiment
Analysis of Enterprise Mashups Using Scikit and NLTK, Department of
Information Technology, Quaid-e-Awam University, Nawabshah, Pakistan
(4) Akhshi Kumar, Teeja Mary Sebast ian (2012), Sentiment Analissis on Twitter,Departemen of computer Engineering Delhi Technological University, Delhi,India
(5) Pang, B., Lee, L., & Vithyanathan, S. (2002). Thumbs Up ? Sentiment
Classification Using Machine Learning Techniques. Proceedings of
The ACL-02 conference on Empirical methods in natural language
processing (pp. 79-86). Stroudsburg: Association for Computational
Linguistic.