Propasal Ruli Widya Asmoro-211210255

[0]

PROPOSAL TESIS

SENTIMEN ANALYSIS ELEKTABILITAS CALON PRESIDEN

INDONESIA 2014 DENGAN METODE SUPPORT VECTOR

MACHINES

RULI WIDYA ASMORO

211210255

PROGRAM PASCASARJANA MAGISTER

TEKNOLOGI INFORMASI SEKOLAH

TINGGI TEKNIK SURABAYA

2013

[1]

PROPOSAL TESIS

Judul Tesis : SENTIMEN ANALYSIS ELEKTABILITAS

CALON PRESIDEN INDONESIA 2014 DENGAN

METODE SUPPORT VECTOR MACHINES

Nama : Ruli Widya Asmoro

NRP : 211210255

Jurusan/Program Studi : Teknologi Informasi/S2

Dosen Pembimbing : Ir. Endang Setyati, MT. Jenis Tesis : Kontribusi Pemanfaatan

I. Latar Belakang Sesuai dengan UUD 1945 yang menyatakan bahwa pemilu

dilaksanakan secara langsung, umum, bebas, rahasia, jujur, dan adil setiap 5

(lima) tahun. Pemilu diselenggarakan untuk memilih anggota Dewan

Perwakilan Rakyat (DPR), Dewan Perwakilan Daerah (DPD), Presiden dan

Wakil Presiden dan Dewan Perwakilan Rakyat Daerah (DPRD).

Sebelumnya, pemilihan Presiden dan Wakil Presiden dilakukan

secara tidak langsung oleh rakyat. Di awal kemerdekaan Presiden dan Wakil

Presiden pertama yakni Presiden Ir. Soekarno dan Wakil Presiden Drs.

Mohammad Hatta dipilih Badan Usaha Persiapan Kemerdekaan Indonesia

(BPUPKI).

Sesuai dengan Pasal 6 UUD 1945 sebelum diamandemen, disebutkan

bahwa Presiden dan Wakil Presiden dipilih oleh Majelis Permusyawaratan

Rakyat (MPR) dengan suara terbanyak. Pasca reformasi, Pasal 6 A sebagai

hasil Perubahan ketiga UUD 1945 yang disahkan tanggal 10 November 2001

mengamanatkan bahwa Presiden dan Wakil Presiden dipilih dalam satu

pasangan secara langsung oleh rakyat. Sebagai tindak lanjut Pasal 6 A UUD

1945, diberlakukan UU No. 23 tahun 2003 tentang Pemilihan Umum Presiden

dan Wakil Presiden Pilpres pertama dilakukan pada tahun 2004.

Pasal 5 UU No. 23 tahun 2003 mensyaratkan bahwa peserta Pemilu

Presiden dan Wakil Presiden adalah Pasangan Calon yang diusulkan secara

berpasangan oleh partai politik atau gabungan partai politik.Pasangan calon

yang dimaksud hanya dapat diusulkan oleh partai politik atau gabungan partai

politik yang memperoleh sekurang-kurangnya 15 % (lima belas persen) dari

jumlah kursi DPR atau 20 % (dua puluh persen) dari perolehan suara sah

secara nasional dalam Pemilu anggota DPR di tahun 2004.

Untuk pemilihan Presiden dan Wakil Presiden (Pilpres) di tahun 2009

ditetapkan UU No. 42 tahun 2008 tentang Pemilihan Umum Presiden dan

Wakil Presiden Pilpres. Pasal 8 dan 9 UU No. 42 tahun 2008 mensyaratkan

bahwa peserta Pemilu Presiden dan Wakil Presiden adalah Pasangan Calon

yang diusulkan dalam 1 (satu) pasangan Partai Politik atau Gabungan Partai

Politik.Pasangan calon yang dimaksud hanya dapat diusulkan oleh partai

politik atau gabungan partai politik yang memperoleh paling sedikit 20 %

(dua puluh persen) dari jumlah kursi DPR atau 25 % (dua puluh lima persen)

dari perolehan suara sah secara nasional dalam Pemilu anggota DPR di tahun

2009.

[2]

Sebagai kegiatan kenegaraan yang terstruktur dan rutin,

penyelenggaraan Pemilihan Presiden dan Wakil Presiden (Pilpres) telah

membuka bagi seluruh rakyat Indonesia berpartisipasi secara langsung dalam

menentukan pilihan pemimpinnya.

Pemilihan langsung Presiden dan Wakil Presiden telah memberikan

beberapa manfaat. Pertama, merupakan kesempatan dan tempat yang luas

bagi tumbuhnya sistem perpolitikan nasional.Kedua, pasangan Presiden dan

Wakil Presiden terpilih akan memiliki mandat dan legitimasi yang sangat kuat

karena didukung oleh suara rakyat melalui pemilih. Diharapkan bahwa

Presiden terpilih berada di posisi segala kepentingan sosial politik dan dapat

menjembani berbagai kepentingan tersebut.

Partisipasi rakyat secara langsung dalam Pemilu Presiden dan Wakil

Presiden akan menjadi alat kontrol bagi pasangan Presiden dan Wakil

Presiden terpilih selama masa pemerintahannya.Kontrol rakyat akan

menjadikan Presiden dan Wakil Presiden terpilih mempunyai beban

konstitusional dalam memenuhi janji-janji, visi dan misi serta program yang

disampaikan dalam masa kampanye. Dengan demikian akan terbangun

hubungan sinergis antara pasangan Presiden dan Wakil Presiden terpilih

dengan rakyat pemilih yang dijembatani oleh pemenuhan janji-janji, visi dan

misi serta program yang disampaikan dalam masa kampanye, memberi

gambaran telah terwujudnya. Inilah aktualisasi nilai-nilai demokrasi dalam

penyelenggaraan Pemilu Presiden dan Wakil Presiden .

Hal terpenting juga adalah sistem Pemilu Presiden dan Wakil

Presiden secara langsung melahirkan check and balance antara lembaga

legislatif dan lembaga eksekutif yang lebih seimbang karena kedua lembaga

ini sama kuatnya. Tidak ada satu lembaga yang dapat membubarkan lembaga

lainnya. Sehingga dalam pengambilan kebijakan, masing-masing lembaga

dapat saling bersinergi untuk menghasilkan keputusan yang terbaik bagi

rakyat sebagai konstituennya.

Menjelang pemilihan umum (pemilu) tahun 2014 yang makin dekat,

partai-partai politik dan tokoh-tokoh yang berminat untuk maju dalam pemilu

itu, sudah mulai bersiap-siap. Banyaknya tokoh-tokoh masyarakat yang akan

mengajukan diri menjadi calon presiden. Dari kesemua calon presiden yang

dikenal public biasanya sudah memiliki Elektabilitas tinggi yaitu orang yang

dikenal baik secara meluas dalam masyarakat dan orang tersebut memiliki

skill dan menguasai permasalahan Negara.

Dalam memperkenalkan calon presiden banyak usaha yang dilakukan

oleh juru kampanyae mereka dimana suatu publikasi dan kampanye memegag

peranan yang sangat penting. Beberapa tahun terakhir, jejaring sosial telah tumbuh secara luar biasa cepatnya. Pertumbuhan mulai dari pengguna hingga

fasilitas yang ditawarkan oleh jejaring sosial tersebut. Indonesia telah menjadi

negara dengan pengguna Twitter terbesar di Asia dan ke enam di dunia

(Sysmosos Inc., 2010) dengan banyak pengguna Twitter di tahun 2010

adalah2.41% dari seluruh pengguna di dunia. Angka ini naik dari0.5% pada

tahun 2009. Dalam Proposal tesis ini berusaha mencari informasi yang

terkandung dalam Twitter ini tentang sentiment public mengenai elektabilitas

calon presiden 2014 dimana informasi tersebut sangat harga sebagai alat penentu

kebijakan siapa yang memiliki Elektabilitas tertinggi sebagai calon Presiden

2014.

[3]

Berdasarkan latar belakang di atas dan kajian pustaka yang sudah

dilakukan, maka penulis tertarik untuk mempelajari lebih lanjut tentang

sentiment analys elektabilitas calon presiden Indonesia 2014 dengan

menggunakan metode support vector Machines untuk melakukan penelitian

ini.

II. Tujuan dan Manfaat

Tujuan dan manfaat dari penelitian ini adalah :

a. Melakukan analisa dan penilaian terhadap informasi dari pandangan public tentang elektabilitas calon presiden yang akan maju dalam pemilihan presiden

2014.

b. Dengan Elektabilitas calon presiden yang akan maju di pemilu 2014 benar-benar menjadi seorang pemimpin yang ideal bagi Indonesia.

c. Dengan adanya informasi public dari twitter tentang calon Presiden yang akan maju pemilu 2014 dapat di ketahui opini public positif maupun negative dari

tiap calon presiden.

III. Hipotesis

Metode yang diusulkan diharapkan dapat membantu proses penentuan

Elektabilitas calon Presiden Indonesia 2014 dengan akurat melalui pandangan

Publik sehingga diperoleh sesosok Presiden yang paling memiliki wibawa,

kemampuan dalam mengelola dan menyelesaikan permasalahan dalam pemerintahan

dengan tingkat keakuratan mencapai 82,9%1.

IV. Tinjauan Pustaka

A. Judul Paper : Sentiment Analysis of Twitter Data

Penulis : Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca

Passonneau

Jurusan : Department of Computer Science, Columbia University, New York,

USA

Pada penelitian disini memiliki prinsip yang sama bahwa kita dapat memperoleh data

sebanyak-banyaknya yang bersifat real-time karena dengan adanya twitter maka

masyarakat dapa meluapkan apapun yang dirasakan sekita itu. Bahasa yang

dipakai di twitter tidak beraturan maka pada preprocessing dilakukan beberapa teknik

untuk melakukan ekstraksi data mentahnya diantaranya adalah 1). melabeli 170

ekspresi yang sering muncul di tweet yaitu symbol emoticon. Contoh pelabelan secara

manual yang dilakukan adalah untuk symbol dilabeli sebagai ekspresi positif. 2). Mengganti URL dengan tag ||U|| 3). Mengganti symbol target @ dengan tag ||d|| 4). Mengganti semua kalimat negasi seperti (e.g. not, no, never, nt, cannot) di ganti dengan tag NOT. 5). mengganti urutan karakter diulang oleh tiga karakter, misalnya, mengkonversi coooooooool ke coool.

1

Pang,B.,Lee,L.,&Vithyanathan,S (Referensi no 5)

[4]

Dalam penelitian ini disediakan tabel statistic untuk setiap token yang tagset standar

ditetapkan oleh Treebank Penn untuk mengidentifikasi tanda baca. Kami mencatat

terjadinya tiga tag twitter standar: emoticon, dan URL target. Token yang tersisa

baik kata-kata bahasa Inggris non (seperti coool, zzz dll) atau simbol lainnya

Tabel 1 Data statistic yang digunakan experiment

Number of Token 79.152

Number of stop words 30.371

Number of English words 23.837

Number of punctuation marks 9.356

Number of capitalized words 4.851

Number of twitter tags 3.371

Number of exclamation marks 2.228

Number of negation 942

Number of other tokens 9.047

Dalam Tabel 1 kita melihat bahwa 38,3% dari token adalah kata-kata berhenti, 30,1%

dari token ditemukan di WordNet dan token 1,2% adalah kata-kata negasi. 11,8% dari

semua token tanda baca termasuk tanda seru yang menebus 2,8% dari semua token.

Secara total, 84,1% dari semua token token yang kita harapkan untuk melihat dalam

teks bahasa khas Inggris. Ada tag 4,2% yang khusus untuk Twitter yang meliputi

emoticon, target, dan hastags "RT" (tweet). Token 11,7% sisanya adalah baik kata-

kata yang tidak dapat ditemukan dalam WordNet (seperti Zzzzz, kewl) atau simbol

khusus yang tidak termasuk dalam kategori tag Twitter.

1. Hasil Eksperiment

a. Positif Vs Negatif ini merupakan klasifikasi biner dimana dua polaritas sentiment negative

positif. Dalam penelitian disediakan data yang seimbang dari 1709 dan

kebetulan memiliki presentasi 50% setiap kelasnya.

b. Perbandingan dari model Fitur yang disediakan untuk penelitian ini adalah model unigram dan

menambahkan beberapa set sebagai fitur lainnya. Pertama penambahan fitur

non polar (baris f5, f6, f7, f10, f11 pada Tabel) dan amati ada perbaikan

dalam kinerja. Selanjutnya, kita menambahkan semua bagian-of-speech fitur

berbasis (baris f1, f8) dan mengamati keuntungan sebesar di atas 3,49% .

Tabel 2 pengelompokan fitur

N Polar POS # of (+/-) POS (JJ, RB, VB, NN) F1

Other # of negation words, positive words, negative words # of extremely-pos., extremely-neg., positive, negative emoticons # of (+/-) hashtags, capitalized words, exclamation Words

F2

F3

F4

Non-polar POS # of JJ, RB, VB, NN F5

Other # of slangs, latin alphabets, dictionary words, words f6 # of hashtags, URLs, targets, newlines

F6

F7

R Polar POS For POS JJ, RB, VB, NN, prior pol. scores of words of that POS

F8

Other prior polarity scores of all words F9

Non-polar Other percentage of capitalized text F10

B Non-polar Other exclamation, capitalized text F11

[5]

Table 2 N mengacu pada set fitur yang nilainya adalah bilangan bulat positif.

Mereka terutama menghitung fitur, misalnya, menghitung jumlah kata keterangan

positif, negatif verba dll R mengacu pada fitur yang nilainya adalah bilangan real,

misalnya, jumlah skor polaritas sebelum kata-kata dengan bagian-pidato-kata sifat/

keterangan / kerja / kata benda, dan jumlah skor polaritas sebelum semua kata. B

mengacu pada seperangkat fitur yang memiliki nilai boolean, misalnya, kehadiran

tanda seru, kehadiran teks dikapitalisasi.

Tabel 3 Nilai rata-rata standart deviasi pada 2 way

Model Avg. Acc % Std.Dev %

Unigram 71.35 1.95

Senti-Fiture 71.27 0.65

Kernel 73.93 1.50

Unigram + Senti Fiture 75.39 1.29

Kernel + Senti-Fiture 74.61 1.43

Eksperimen ini menyimpulkan bahwa Tabel 3 menunjukkan fitur yang paling

penting dalam Senti-fitur adalah model yang melibatkan polaritas sebelum part of

speech. Semua fitur lainnya memainkan peran marginal dalam mencapai sistem

yang paling tepat. Bahkan, penelitian ini bereksperimen dengan menggunakan

unigrams hanya dengan fitur polaritas sebelum POS dan mencapai kinerja

75,1%, yang hanya sedikit lebih rendah daripada menggunakan semua Senti-fitur.

Table 4 hasil Akurasi untuk klasifikasi model 2-way

Fetures Acc F1.Meansure

Post Neg

Unigram Baseline 71.35 71.13 71.50

+F5,F6,F7,F10,F11 70.1 69.66 70.46

+ F1, F8 74.84 74.4 75.2

+ F2,F3,F4,F9 75.39 74.81 75.86

Pada table 4 menunjukkan hasil terbaik untuk akurasi pada penambahan

beberapa fitur terjadi ketika penambahan fitur F2,F3,F4,F9 mendapat akurasi

hingga 75.39%.

A. Positif vs negative vs Netral Dalam klasifikasi 3 kelas positif, negative dan netral ini sama dengan dataset

1709 akan dibagi menjadi rata setiap kelasnya yaitu 33.33%.

d. Perbandingan dari model Dalam penelitian ini model unigram mencapai keuntungan sebesar 23,25%.

Tabel membandingkan kinerja tiga model. dilaporkan mean dan deviasi standar

dari 5 kali lipat akurasi tes. Kami mengamati bahwa pohon kernel mengungguli

unigram dan model Senti-fitur dengan 4,02% dan 4,29% mutlak, masing-masing.

Kami mencatat bahwa perbedaan ini jauh lebih menonjol dibandingkan dengan

tugas klasifikasi dua arah (positf dan negative). Sekali lagi, kami melakukan

hampir 100 Senti-fitur serta dasar unigram yang memiliki sekitar 13.000 fitur.

Kami juga bereksperimen dengan kombinasi model. Untuk klasifikasi kombinasi

[6]

kernel dengan Senti-fitur melebihi kombinasi unigrams dengan Senti-fitur dengan

margin kecil.

Tabel 5 Nilai rata-rata standart deviasi pada 3-way

Model Avg. Acc % Std.Dev %

Unigram 50.58 1.52

Senti-Fiture 56.31 0.69

Kernel 60.60 1.00

Unigram + Senti Fiture 60.50 2.27

Kernel + Senti-Fiture 60.83 1.09

Tabel 5 menyajikan akurasi classifier dan F1-mengukur ketika fitur yang

ditambahkan secara bertahap. Di mulai dengan model unigram kemudian

menambahkan set berbagai fitur. Pertama, ditambahkan semua non-polar fitur

(baris f5, f6, f7, f10 pada Tabel 4) dan dapat diamati peningkatan kecil dalam

kinerja. Selanjutnya, ditambahkan semua fitur berbasis part-of-speech dan dapat

diamati keuntungan sebesar 3,28% di atas unigram baseline. Dapat dilihat

peningkatan tambahan dalam akurasi dengan 0,64% ketika ditambahkan fitur

polaritas lainnya sebelum (baris f2, f3, f4, f9 pada Tabel 4). Hasil ini sesuai

dengan penelitian sebelumnya yaitu klasifikasi 2-arah. Sekali lagi, kontribusi

utama berasal dari fitur yang melibatkan polaritas sebelum part-of-speech.

Tabel 6 hasil akurasi untuk klasifikasi model 3-way

Fetures Acc F1.Meansure

Post Net Neg

Unigram Baseline 56.58 56.86 56.58 56.20

+F5,F6,F7,F10,F11 59.91 55.12 59.84 55

+ F1, F8 59.86 58.42 61.04 59.82

+ F2,F3,F4,F9 60.50 59.41 60.15 61.86

Dari hasil yang telah diperoleh berdasarkan model 2-way (pos vs neg) dan 3-

way (pos vs neg vs net) terlihat pada tabel 6 dan tabel 8 maka dapat disimpulkan

hasil dari penelitian ini adalah hasil untuk analisis sentimen di Twitter. Telah

digubakan model state-of-the-art model yang unigram sebagai baseline dan

melaporkan keuntungan keseluruhan lebih dari 4% untuk dua tugas klasifikasi:

biner, positif versus negatif dan 3-way yang positif versus negatif dibandingkan

netral. Hasil yang diperoleh merupaka sample data acak pada twitter.

Penelitian ini mencoba mempelajari kerja dari dua jenis model: tree kernel

dan model fitur berbasis dan menunjukkan bahwa kedua model ini mengungguli

dasar unigram. Untuk pendekatan berbasis fitur, penelitian ini melakukan

analisis fitur yang mengungkapkan bahwa fitur yang paling penting adalah

model yang menggabungkan polaritas sebelum kata-kata dan tag part-of-

speech.

[7]

B. Judul Jurnal : Support Vector Machine Active Learning with Applications to Text Classification

Penulis : Simon Tong dan Daphne Koller

Jurusan : Computer Science Department, Stanford University

Dalam penelitian ini menggunakan klasifikasi teks sebagai teknik untuk

mengatasi terjadinya ledakan data teks saat ini dengan menggunakan metode SVM

(support vectore machine).

Contoh kasus yang dapat menggunakan algoritma ini adalah :

Pencarian web

Penyaringan spam email.

Relevansi umpan balik.

2. SUPPORT VECTOR MACHINES

Support vector Machines (Vapnik, 1982) memiliki dasar teoritis yang

kuat dan sangat baik uji keberhasilannya dan telah diterapkan untuk tugas-tugas

seperti pendeteksian tulisan tangan, Pengenalan obyek, dan klasifikasi teks.

2.1 Pengenalan SVMs

Dalam penelitian ini SVMs difungsikan dalam pengaturan klasifikasi

biner. Data pelatihan {X 1... Xn} Yang vektor dalam beberapa ruang X Rd. Kami juga diberi label mereka {y 1 ..y.n} di mana yi {- 1, 1}. Dalam bentuk yang paling sederhana, adalah SVMs hyperplanes yang memisahkan Data

dengan margin maksimal (lihat Gambar. 1a). Semua vektor berbaring pada satu

sisi hyperplane ofthe diberi label sebagai - 1, dan semua vektor berbaring di

sisi lain diberi label sebagai 1. Secara umum SVMs memungkinkan untuk

memproyeksi data training pada ruang x untuk feature space F melalui

operator Mercer kernel K. Dengan kata lain kita mempertimbangkan data set

classification:

f(x) = n iK(xi, x) . (1)

i=1

Ketika K memenuhi kondisi Mercer kernel (Burges, 1998) kita dapat menulis

K(u, v) = (u) (v) where : X F dan menunjukkan dalam produk

sehingga dapat ditulis f sebagai berikut:

n

f(x) = w (x), where w = i=1 i(xi). (2) Jadi, dengan menggunakan K implisit memproyeksikan data training menjadi

berbeda (seringnya fitur yang lebih baik) ruang F. SVM kemudian

menghitung yang i s yang sesuai ke hyperplane marjin maksimal dalam F.

[8]

2.2 SVMs untukTransduction Ada belabelan pada data set training dan tugas untuk menciptakan

sebuah classifier yang akan memiliki kinerja yang baik pada data uji tak

terlihat. Selain induksi rutin, SVMs juga dapat digunakan untuk transduksi

tion. Di sini kita pertama diberikan data ofboth set label dan unlabeled. Tugas

belajar adalah untuk menetapkan label untuk data unlabeled seakurat

mungkin. SVMs dapat melakukan trans- produksi dengan mencari hyperplane

yang memaksimalkan relatif marjin untuk kedua berlabel dan data unlabeled.

Lihat Gambar 1b untuk contoh. Baru-baru ini, transductive SVMs (TSVMs)

telah digunakan untuk klasifikasi teks (Joachims, 1999b), mencapai beberapa

perbaikan dalam presisi / recall impas kinerja selama SVMs induktif biasa.

3. Version Space Mengingat data set training berlabel dan Mercer kernel K, ada hyperplanes yang

memisahkan data dalam F ruang fitur diinduksi. Kami menyebutnya hipotesis of

consistent ditetapkan version space (Mitchell, 1982). Dengan kata lain, hipotesis f

dalam version space setiap x pelatihan misalnya i dengan y label i kita memiliki

f (x i )> 0 jika y i = 1 dan f (x i ) 0}.

Perhatikan bahwa karena H adalah seperangkat hyperplanes, ada bijection antar

unit vektor w dan hipotesis f di H. Dengan demikian kita akan mengubah V

sebagai:

V = {w W | w = 1, yi(w (xi)) > 0, i = 1 . . . n}.

4. Active Learning

Di dalam pool-based active learning kita memiliki contoh data unlabeled.

Hal ini diasumsikan bahwa x merupakan contoh yang independen dan

terdistribusi secara identik yang mendasari distribusi F (x) dan label distribusi

bersyarat P (y | x).

Pemberian unlabeled U, merupakan sebuah pembelajaran dimana

memiliki tiga komponen: (f, q, X). Itu Komponen pertama adalah sebuah

classifier, f: X {- 1, 1}, dilatih pada set saat oflabeled Data X (Dan mungkin unlabeled kasus di U juga). Komponen kedua q (X) adalah query fungsi yang,

diberi X set saat ini berlabel, yang memutuskan misalnya dalam U untuk query

berikutnya.

Definisi 2 Area (V) adalah luas permukaan yang versi V ruang menempati pada

hypersphere, w = 1.

[9]

Definisi 3 Diberi l pembelajar aktif, mari V i menunjukkan version space setelah

query dibuat. Sekarang, mengingat (i + 1)th query x i +1 , Tentukan:

Vi = Vi {w W | (w (xi+1)) > 0}, Vi

+ = Vi

{w W | +(w (xi+1)) > 0}.

jadi Vi and Vi

+ menunjukkan ruang resultingversion ketika next query xi+1

diberi label sebagai 1 dan 1

Dalam penelitian ini menyajikan three ways of approximating procedure

yaitu:

Simple Margin,Recall dari 3 bagian dari beberapa data {x1 . . . xi} dan label {y1 . . . yi}, dimana Yang SVM Unit vektor w i diperoleh dari data ini adalah

pusat terbesar Hyper-sphere yang dapat ditampung di dalam ruang saat ini

versi V i , Posisi w i di versi space V i jelas tergantung pada bentuk ofthe

wilayah V i

Margin MaxMin. Metode Margin sederhana dapat menjadi pendekatan yang agak kasar. Ini bergantung pada asumsi bahwa ruang versi cukup simetris dan

bahwa w i adalah terpusat ditempatkan. Ini telah dibuktikan, baik dalam teori

dan praktek, bahwa asumsi dapat gagal secara signifikan (Herbrich et al.,

2001). Memang, jika kita tidak hati-hati kita benar-benar dapat permintaan

sebuah contoh yang hyperplane bahkan tidak memotong Versi ruang.

Pendekatan MaxMin dirancang untuk mengatasi masalah ini untuk beberapa

derajat. Mengingat beberapa data {x 1 ... X i } Dan label {Y1 ... Yi }, Vektor

satuan SVM w i mmerupakan metode yang sangat erupakan pusat

hypersphere terbesar yang dapat ditampung dalam versi saat ini.

Ratio Margin, Metode ini memiliki semangat yang sama dengan metode Margin MaxMin.. Kita menggunakan m

- dan m

+ sebagai indikasi ofthe

ukuran V - dan V

+ . Namun, kami akan mencoba untuk mempertimbangkan

fakta bahwa versi saat ini space V memiliki ukuran besar dan untuk beberapa

x pada pool both m - dan m

+ mungkin kecil memiliki bentuknya version

space. Jadi kita malah akan melihat ukuran relatif m - dan m

+ dan memilih

untuk query x untuk yang min(m

m

+ , mm

+ ).

Ketiga metode di atas merupakan komponen query yang selalu membagi

dua version space. Setelah melakukan beberapa jumlah permintaan kemudian

kita kembali ke sebuah classifier dengan mempelajari SVM dengan beberapa

contoh label. Margin dapat digunakan sebagai indikasi version space size

terlepas dari fitur vektor yang memiliki modulus konstan.

5. Experiments

Untuk uji evaluasi metode yang kami gunakan di terpkan pada dua dunia

nyata klasifikasi teks domain: Reuters-21.578 kumpulan data dan Newsgroup

kumpulan data.

[10]

5.1 Reuters Data Collection Experiments

Data set the Reuters-21.578 adalah koleksi umum digunakan dalam cerita

newswire yang dikategorikan dalam label topik. Setiap berita telah dilabelkan

sesuai dengan nomorpada topic tertentu seperti "jagung", "gandum" dan

"akuisisi perusahaan". Perhatikan bahwa beberapa topik yang saling tumpang

tindih sehingga beberapa artikel memiliki lebih dari satu kategori. Dalam

penelitian ini menggunakan 12.902 artikel dari "ModApte" dan, untuk tetap

sebanding dengan studi sebelumnya, kami menganggap ada sepuluh besar topik

yang paling sering terjadi.

Kami mempelajari sepuluh biner yang berbeda pada pengklasifikasian,

salah satu untuk membedakan setiap topik. Maka dilakukan perhitungan dengan

fitur TFIDF-weighted word frequency vector dimana Setiap vektor memiliki

modulus unit.

(a) (b) Gambar 1. (a) uji akurasi set rata-rata selama sepuluh topik yang paling sering

terjadi ketika menggunakan of1000 ukuran kolam renang. (b) Uji Rata-rata set

presisi / recall impas titik selama sepuluh topik yang paling sering terjadi bila

menggunakan kolam ukuran 1000.

Topic Simple MaxMin Ratio Equivalent

Random size

Earn 86.39 1.65 87.75 1.40 90.24 2.31 34 Acq 77.04 1.17 77.08 2.00 80.42 1.50 > 100 Money-fx 93.82 0.35 94.80 0.14 94.83 0.13 50 Grain 95.53 0.09 95.29 0.38 95.55 1.22 13 Crude 95.26 0.38 95.26 0.15 95.35 0.21 > 100 Trade 96.31 0.28 96.64 0.10 96.60 0.15 > 100 Interest 96.15 0.21 96.55 0.09 96.43 0.09 > 100 Ship 97.75 0.11 97.81 0.09 97.66 0.12 > 100 Wheat 98.10 0.24 98.48 0.09 98.13 0.20 > 100

Corn 98.31 0.19 98.56 0.05 98.30 0.19 15

Tabel 7: Uji akurasi set rata-rata selama sepuluh besar topik yang paling sering

terjadi (kebanyakan topik yang sering pertama) ketika dilatih dengan sepuluh

dokumen berlabel. Tebal menunjukkan signifikansi statistik.

[11]

5.2 Newsgroups Experiments

Pengumpulan data K. Lang Lang Newsgroup collection(1995). Kami

menggunakan lima kelompok comp *, membuang header Usenet dan baris

subjek.. Kami memproses teks dokumen persis seperti sebelumnya, sehingga

vektor dari sekitar 10000 dimensi.

Gambar 2: (a) Sebuah contoh sederhana ofquerying cluster unlabeled. (B)

Makro-rata tes mengatur akurasi untuk comp. os ms-jendela.. misc dan comp sys..

ibm. pc. hardware mana Hybrid menggunakan metode Rasio untuk sepuluh

pertanyaan pertama dan sederhana untuk sisanya.

Tabel 8: Dalam hitungan detik untuk metode Aktif pada dataset Newsgroup

[12]

c. Judul Jurnal : Sentiment Analysis of Enterprise Mashups Using Scikit and NLTK Penulis : A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN

Jurusan : Department of Information Technology, Quaid-e-Awam University,

Nawabshah, Pakistan

Studi yang dilakukan untuk menemukan sentimen rahasia dalam pesan status

twitter yang berfungsi untuk membantu suatu perusahaan dan individu dalam

mengambil keputusan yang lebih baik dalam bisnis mereka dengan penggunaan

pesan status (tweet) yang diekstrak dari twitter dengan menggunakan twitter API.

Sentimen analisis dapat dilakukan pada berbagai tingkat dokumen teks,

kalimat atau frase dianalisis tingkat sentimen dilakukan di individu kalimat dari

sebuah dokumen yaitu mendeteksi isi subjektivitas kalimat jika itu bukan Kalimat

netral, maka polaritas kalimat tersebut terdeteksi untuk menemukan apakah itu

positif atau negative yang bertujuan untuk menemukan polaritas kolektif dokumen

yang dikenal sebagai klasifikasi dokumen tingkat sentimen (Liu 2011).

Penulis telah menyarankan algoritma pembelajaran unsupervised pendekatan untuk

memberikan rating thumps up jika review adalah positif atau thumps turun jika

ditinjau dianggap sebagai negatif.

Tujuan dari pendekatan ini adalah untuk menganalisis apakah skema

pembelajaran mesin: Nave Bayes, Entropi Maksimum, dan SVM, bekerja sangat

baik , untuk mengklasifikasikan dokumen berdasarkan topik.

Dalam makalah ini, kami menganalisis menggunakan bidang alami

pengolahan bahasa (NLP) dan Teknik pembelajaran mesin (ML) untuk menemukan

keselarasan dengan sentiment. Selain itu kita mengembangkan crawler sederhana

yang mengekstrak data dari twitter dan membangun corpus untuk sentiment

classification dengan menggunakan NLTK (Bird et al,2009) dan (Pendregosa et al,

2011). Selain itu penelitian ini membahasa kinerja teknik evaluasi yang berbeda

berdasarkan berbagai metric seperti akurasi, presisi, recall dan f-skor.

Framework yang diusulkan dalam penelitian ini diuji dengan deteksi polaritas

pesan twitter. Bigram, unigram, frekuensi panjang dan frekuensi dokumen invers

(TF-IDF) dan metode seleksi fitur serta tiga algoritma pembelajaran mesin yaitu

support vector machines (SVM) ,Maximum Entropy, dan Nave Bayes. Pekerjaan

juga mencakup kinerja perbandingan metode pembelajaran yang berbeda untuk

menganalisis jenis teknik bekerja terbaik dengan twitter corpus.

Dalam penelitian ini dilakukan dalam empat fase yaitu:

Pengembangan crawler. Pengembangan mesin NLP. Pengembangan modul ML. Pengembangan model sentimen deteksi.

[13]

A. Pengembangan crawler Langkah awal dalam sentimen analisis adalah untuk membangun sebuah

korpus teksyang didasarkan pada tweets. Sehingga untuk mengumpulkan data maka

kita mengunakan Crawler yang merupakan program komputer yang mencari situs

web dan mengumpulkan data yang ada pada situs atau web yang dituju.Pada

penelitian ini menggunakan stream API, untuk mengcrawler mengekstrak tweets

dari Twitter sehingga korpus dapat dibuat untuk memanipulasi untuk Sentimen

analisis (Gambar 3).

Vector Machine NLP Learning

World Engine

Module Wide Web

Extracts Feature

Extraction & Tweets Normalizat Sentiment

Crawl

Creating Sentiment Corp

Er

us Detection

Model

Gambar 3. Usulan Framewok

B. Pengembangan Mesin NLP NLP adalah studi komputasi linguistik(Jurafsky et al., 2009). Metode NLP

diperlukan secara efektif untuk memproses teks dan memahami yang mendasari

semantik tweet. Tujuan dari NLP yaitu mencoba untuk mengekstrak fitur yang

relevan yang diperlukan untuk mendeteksi polaritas tweet, dan kedua adalah

menormalkan set fitur. Proses normalisasi membantu untuk mengurangi fiture

space. Namun, sebelum melakukan dua langkah tersebut, kita perlu melakukan pre-

processing untuk input masukan. Pre-processing meliputi penentuan set kosakata

inputan dimana hal ini berfungsi untuk menyederhanakan bahasa yang digunakan

dalam input.

C. Pengembangan Modul ML Pada penelitian ini menggunakan teknik ML dengan dataset yang berbeda

dari parameter dan menggunakan metode seperti: bag-of-word, bigrams dan TF-

IDF. Selain itu metode Nave Bayes classifier, Linear support vector machine

(SVM) dan stochastic decent gradient (SDG) juga digunakan untuk menguji mana

yang merupakan algoritma terbaik.

Nave Bayes classifier adalah probabilistik sederhana berdasarkan pada

penerapan Teorema Bayes 'dengan kuat kemerdekaan asumsi. Naif Bayes classifier

mengkategorikan dokumen berdasarkan ketentuan bahwa dokumen berisi. Ini cepat

dan akurat bila diterapkan dengan ekstraksi fitur kata Boolean.

Support vector machines merupakan teknik klasifikasi yang digunakan

untuk menemukan besar margin hyper-plane dimana hal tersebut merupakan teknik

klasifikasi non-probabilistikdengan inputan berupa vector yang mana space vector

merupakan teknik ML yang bertujuan untuk menemukan batas keputusan antara

dua kelas yang maksimal jauh dari titik dalam data pelatihan.

[14]

D. Pengembangan model Deteksi Sentiment Dalam konteks tulisan ini, banyak macam teknik normalisasi digunakan

untuk mengurangi set fitur. Selain teknik ini ML berbeda dan Metode ekstraksi fitur

dievaluasi. Dalam skenario pertama Nave Bayes assifier adalah dipilih

menggunakan simple tas-of-kata ekstraksi fitur untuk melatih model kami.

Tabel.9. Berbeda metrik nilai untuk Nave Bayes menggunakan

Bag-of-word method

Metrics Positive Negative

Accuracy 74%

Precision 82% 69%

Recall 62% 87%

F-score 71% 77%

Kinerja analisis Nave Bayes menggunakan metode Bag-of-word

Gambar.4. The Roc curve untuk Nave Bayes classifier

(Gambar 4) menunjukkan kurva ROC untuk Nave Bayes menggunakan

metode Bag-of-word dapat dilihat bahwa hasil dari kurva ROC dapat

dirangkum dalam nilai tunggal yang merupakan daerah di bawah kurva. Daerah

itu dalam kasus ini adalah 83% seperti yang ditunjukkan pada Gambar. 2. Nilai

ini dapat digunakan untuk membandingkan model dengan model lain, nilai yang

lebih besar adalah lebih baik Model akan. Keakuratan dicapai adalah 74% pada

Data set yang terdiri dari 1 juta tweets. Hasil menunjukkan bahwa recall positif

adalah 62%, ini berarti bahwa 38% dari negatif palsu berada di kelas yang

positif.

[15]

Presisi untuk tweets positif lebih baik dibandingkan dengan ingat, yaitu

82 persen. Hal ini menyebabkan positif palsu 18% untuk label positif. Setiap

tweet yang diidentifikasi sebagai negatif adalah 69% mungkin benar. Tapi

menciak apapun yang adalah negatif benar iidentifikasi sebagai tersebut dengan

87% ingat, yang berarti negatif palsu 13% di positif kelas. F-Skor tidak

memberikan informasi yang berguna atau wawasan lainnya. Mereka hanya

tertimbang rata-rata precision dan recall.

Kinerja analisis SVM linear menggunakan bag-of-word

Dalam skenario ini linear SVM digunakan pada yang sama Data set dan

ukuran sampel yang sama menggunakan simple bag-of-word metode seleksi

fitur. Hasilnya diilustrasikan dalam (Tabel 8). Hal ini dapat disimpulkan dari

Hasil yang akurasi telah ditingkatkan dengan 2%.

Tabel 10: Perbedaan nilai metric untuk SVM Linear menggunakan

Metode bag-of-word Metric Positive Negative Accuracy 76% Precision 77% 75% Recall 74% 78% F-score 76% 77%

Stochastic decent gradient classifier using bag-of-words

Stochastic Decent Gradient (SGD) classifier is merupakan teknik ML

lain yang cocok untuk data yang jarang. (Tab. 3) Menunjukkan bahwa akurasi

ditingkatkan dibandingkan dengan SVM linear dan Nave Bayes.

Tabel.11. Hasil SGD classifierStochastic classifier

Metric Positive Negative

Accuracy 77%

Precision 79% 75%

Recall 73% 80%

F-score 76% 78%

[16]

Gambar 5. menunjukkan kurva ROC untuk SVM Linear, dapat terlihat bahwa

daerah yang tertutup adalah 84% dibandingkan dengan 83% untuk

Naif Bayes.

Frequency analysis of corpus Setelah analisis dengan cermat dari corpus tweet, itu disadari bahwa

normalisasi lebih lanjut dari set data tak terelakkan. Sebelum normalisasi, fitur

set untuk 50 positif dan negatif istilah yang paling terjadi secara berkontribusi

1600000 dan 1800000 masing. Setelah normalisasi, fitur set kedua untuk jumlah

50 hal positif dan negatif yang paling sering dikurangi menjadi 500000 masing-

masing.

Analisis kinerja menggunakan Nave Bayes dan tertinggi IG features

Gambar.6. Sebuah perbandingan Nave Bayes, Linear SVM dan SGD

classifier mempertimbangkan metric yang berbeda

(Gambar 6) menunjukkan analisis komparatif di antara berbagai ukuran Nave

Bayes, Linear SVM dan SGD pengklasifikasi menggunakan sederhana kantong-

of-kata model.

Setelah menghilangkan fitur informasi rendah dan memanfaatkan fitur informasi

tertinggi gain, 35000 istilah yang diambil. Istilah ditempatkan dalam satu set dan

hanya kata-kata dari tweet yang diekstrak bahwa muncul di set ini.

[17]

Tabel.12. Hasil setelah menggunakan fitur informasi gain tinggi

Metric Positive Negative

Accuracy 79%

Precision 83% 75%

Recall 71% 86%

F-score 77% 80%

yang menunjukkan bahwa akurasi telah ditingkatkan sebagai dibandingkan

dengan percobaan sebelumnya. (Gbr. 5) menunjukkan ROC kurva untuk Nave

Bayes classifier setelah eliminasi

Gambar. 7.ROC kurva untuk Naive Bayes setelah

memperoleh IG tinggi fitur.

informasi yang rendah fitur dan menggunakan tinggi Informasi fitur keuntungan.

Hal ini dapat diamati dari mengetahui bahwa daerah yang tertutup di bawah kurva

adalah 87% yang juga merupakan perbaikan atas hasil sebelumnya.

E. KESIMPULAN Dari makalah dapat disimpulkan bahwa kami menyelidiki bidang alami

pengolahan bahasa (NLP) dan teknik ML serta menemukan keselarasan

untuksentiment dengan metode pembelajaran mesin learning yang dipakai adalah

SVM,Maximum Entropy dan Nave Bayes. Sedangkan untuk pengolahan fitur

yang lain menguji deteksi polaritas pesan twitter mereka menggunakan Bigram,

unigram, frekuensi panjang dan frekuensi dokumen invers (TF-IDF) dan metode

seleksi fitur lainnya. Untuk teknik Evaluasi digunakan metrik seperti akurasi,

presisi, recall, dan f-skor.

[18]

V. Ruang Lingkup dan Batasan masalah A. Ruang Lingkup

1) Data Input

Dalam penelitian ini semua data baik data training dan data input

yang di olah berasal dari twitter yang berisikan tetang semua opini

sentiment baik positif maupun negatif terhadap ektabilitas calon

Presiden Indonesia 2014 yang sering muncul di setiap opini public

pada Twitter seperti Aburizal Bakrie, Hatta Rajasa, Prabowo Subianto,

Wiranto, Joko Widodo dan itu merupakan pemfilteran yang dilakukan

diawal dengan rencana difokuskan pada nama-nama calon presiden

2014 yang memiliki elektabilitas tinggi dari setiap opini yang muncul

untuk mendapatkan tweet dan sewaktu-waktu mungkin dapat berubah

menyesuaikan kebutuhan tanpa mengurangi tujuan akhir penelitian ini

yang kemudian data yang diperoleh akan klasifikasi menjadi beberapa

opini yaitu:

a) Mendukung (Positif)

b) Tidak Mendukung (Negatif)

c) Biasa (Netral)

Data diambil selama 2 bulan mulai tanggal 1 Mei 2013 sampai

dengan 31 Juni 2013. Data set ini diambil menggunakan Stream API

yang disediakan oleh Twitter dengan menggunakan keyword nama-

nama calon presiden Indoesia 2014 beserta ekstabilitasnya.

Dalam penelitian ini menggunakan metode Support Vector

Machines yang rencananya akan digabung dengan metode lain untuk

melakukan ekstrasi fitur yang akan mencoba menggunakan unigram,

unigram+bigram, unigram+POS(JJ, RB, VB, NN), # of negation

words, positive words, negative words,# of extremely-pos., extremely-

neg., positive, negative emoticons,# of (+/-) hashtags, capitalized

words, exclamation Words, percentage of capitalized text dan Tf-Idf

sedangkan untuk pembatasan sebuah fitur menggunakan frequency

based selection.

Untuk tahap awal (preprosesing) terdapat beberapa fitur yang

perlu ditangani system seperti tokenasi, normalisasi, case folding,

convert negation, dan juga stopward removal.

AdministratorHighlight








[19]

Sebagai contoh data yang akan dipakai untuk data training sebagai

berikut :

Tabel 13. Contoh Data Training

No Opini Twitter

1 @aburizalbakrie @anuarsyahsh Selamat untuk Pak ARB atas naiknya

elektabilitas capres. Semoga terus membaik sampai 2014...

2 RT @KompasTV: Aburizal Bakrie - Jokowi, raih elektabilitas tertinggi dalam survei Capres-Cawapres 2014!

3 Elektabilitas Prabowo Paling Tinggi, MeskiTak Aman dan Tak Mudah untuk

Menang Capres 2014 http://dlvr.it/1qNx90 via:@yuliarachman

4 Survey dari SSS menempatkan Prabowo Subianto sbg Capres 2014 yg

mempunyai elektabilitas paling tinggi. Suara Partai Gerindra jg nai

5 JOKOWI FOR PRESIDENT RT @fadjroeL: SURVEI CAPRES 2014:

Elektabilitas JOKOWI teratas - http://Bisnis.com

http://web.bisnis.com/articles/survei-capres-2014-elektabilitas-jokowi-

teratas

6 "@inilahdotcom: Jika jadi Capres 2014, @hattarajasa Ingin Menang

http://bit.ly/sOPcOw " paling 15% spt Amien Rais, elektabilitas rendah

7 Jk anak pak hatta tdk diproses hukum, tingkat elektabilitas hatta rajasa

menjadi capres 2014 diprediksi menurun. Yg pntg msh diatas ARB :D

8 yang wulan tau sih ow wiranto juga pelanggar HAM RT @Beritasatu:

Elektabilitas Wiranto untuk Capres 2014 Meningkat http://brt.st/4Ye

8 Masa sih :p RT @Beritasatu: Elektabilitas Wiranto untuk Capres 2014

Meningkat http://brt.st/4Ye

9 Belum ningkat 2014 dah lewat.. RT @detikcom: Akbar: Tingkatkan

Elektabilitas Ical, Kita Ingin Capres Golkar Menang http://de.tk/Gg7hP

10 Elektabilitas Rendah, Aburizal Optimis Maju Capres 2014 - Jaring News

http://jaringnews.com/politik-peristiwa/umum/26353/elektabilitas-rendah-

aburizal-optimis-maju-capres- via @jaringnews

Dari data training yang diperoleh, selanjutnya dilakukan tahap Ekstraksi

data yaitu meliputi tahap:

1. Tokenasi merupakan proses untuk memisah misahkan kata atau word. Proses tokenizer dalam Twitter memiliki perbedaan dengan proses

tokenizer pada teks lain. Hal ini dikarenakan adanya emoticon yang sering

digunakan oleh pengguna Twitter dalam mengungkapkan perasaannya.

Tahapan tokenizer dimulai dari memisah-misah bagian tweet yang

dipisahkan dengan karakter spasi. Selanjutnya, bagian yang hanya

memiliki satu karakter non alfabet dan angka akan dibuang. Bagian yang

termasuk dalam daftar emotikon akan dikonversi menjadi sebuah ekspresi

seperti pada table berikut

[20]

Tabel 14. Daftar emoticon

Emoticon Konversi

>:] :-) :) :o) :] :3 :c) :> =] 8) =)

:} :^)

senang

>:D :-D :D 8-D 8D x-D xD XD

XD =-D =D =-3 =3

Tertawa

>:[ :-( :( :-c :c :-< :< :-[ :[ :{ >

.>

[21]

2) Data Output

Pada akhir periode penelitian, Sistem akan memunculkan nilai dari

klasifikasikan tiga kodisi output yaitu Mendukung (positif), tidak

mendukung (negative) dan netral sehingga diperoleh prosentase

tertinggi nama yang paling didukung oleh public karena memiliki

elektabilitas yang tinggi untuk calon presiden 2014.

3) Blok Diagram

Secara umum blok diagram system yang akan dibuat adalah :

Gambar 8. Rancangan Blok Diagram

Klasifikasi nama

calon presiden Preprocessing

Perhitungan data uji

dengan data training

Sub system Pengambilan Data

Streaming

Twitter API PreProsessing

Data Uji

Data Base

Sentimen Opini

Data Training

Opini user

Nama-nama

Calon Presiden

Hasil Sentimen

Analysis

Tokenasi

Normalisasi

case folding,

convert negation

stopward removal

[22]

Keterangan:

Pada system yang akan dirancang adalah dibagi menjadi dua proses dimana :

a. Tahap Pre Processing

Pada tahap ini dimulai dari pengambilan data mentah bersumber dari Twitter

Selanjutnya dilakukan tahap awal (preprosesing) terdapat beberapa fitur yang perlu ditangani system seperti tokenasi, normalisasi, case folding,

convert negation, dan juga stopward removal untuk mendapatkan sebuah

nilai probabilitas kata yang sering muncul yang kemudian akan dijadikan

data training dan disimpan pada data base.

b. Tahap proses Klasifikasi analisis sentiment

Sedangkan pada tahap ini akan dilakukan proses uji klasifikasi dengan data awal sama yaitu data mentah dari Twitter yang

selanjutnya akan dilakukan tahap preprocessing.

Selanjutnya dihitung nilai probabilitas yang disesuaikan dengan database dari data training dengan algoritma SVM.

Pengkalsifikasian hasil akhir periode penelitian, Sistem akan memunculkan nilai dari klasifikasikan tiga kodisi output yaitu

Mendukung (positif), tidak mendukung (negative) dan netral sehingga

diperoleh prosentase tertinggi nama yang paling didukung oleh public

karena memiliki elektabilitas yang tinggi untuk calon presiden 2014

4) Desain tampilan I/O

* Input

Gambar 9. Rencna Tampilan Input

Keterangan: Kita memasukkan opini terbaru pada kotak textbox kemudian kita klik

PROSES.

SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN

INDONESIA 2014

*Inputkan Opini

PROSES

[23]

* Rencana Tampilan Output

Gambar 10. Rencna Tampilan Output

* Keterangan:

Pemasukakan Opini akan memunculkan nilai apakah termasuk positif,

negative, ataukah netral sehingga di peroleh nilai prosentase reputasi

elektabilitas calon presiden yang paling diminati oleh public.

5) Testing

Sistem testing yang akan dilakukan adalah mencoba input sebuah

opini/sentiment yang berasal dari Twitter selanjutnya sistem akan secara

otomatis melakukan pengelompokan sesuai dengan parameter yang telah

ditentukan.

B. Batasan Masalah Pada tugas akhir ini masalah yang dibahas akan dibatasi pada :

1. System tidak menangani pengambilan tweet secara langsung 2. Opini/sentiment yang di ambil adalah dalam bentuk teks bahasa

Indonesia dan hanya difokuskan pada opini yang dituju pada penelitian

ini.

3. Penelitian Rencananya akan difokuskan pada sentiment/ opini tentang nama-nama calon presiden 2014 yang sering muncul dalam twitter dan

sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan tanpa

mengurangi tujuan akhir penelitian ini.

4. Algoritma yang dipakai klasifikasi menggunakan Support Vector Machine (SVM) dan dalam penelitian ini metode yang digunakan

sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan,

tanpa mengurangi tujuan akhir dari penelitian.

OUTPUT

SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN INDONESIA

2014

NO KEYWORD

HASIL TWEETER (%)

POSITIF NEGATIF NETRAL

1 Aburizal

Bakrie 20% 50% 30%

2 Hatta Rajasa 15% 40% 45%

3 Prabowo

Subianto 30% 20% 50%

4 Wiranto 20% 45% 35%

5 Joko Widodo 40% 25% 35%

[24]

No.

Kegiatan Bulan

1 2 3 4 5 6 1 Studi Literatur 2 Analisa 3 Implementasi 4 Pengujian 5 Dokumentasi

VI. Metedologi Penelitian

A. Studi Literatur Dengan mempelajari buku-buku referensi dan jurnal yang berkaitan

dengan permasalahan penelitian yang diangkat serta mencari solusi

yang terbaik. Topik bahasan utama yang dibutuhkan diantaranya adalah

Sentimen analisis dan SVM.

B. Analisa Melakukan uji coba secara teoritis terhadap masalah yang diangkat

guna menganalisa apakah rancangan algoritma yang

digunakan dapat menghasilkan solusi yang sesuai dengan tujuan

penelitian.

C. Implementasi Membuat program dari hasil rancangan algoritma yang telah dibuat

untuk mengimplementasikan serta membuktikan bahwa hasil

analisa secara teoritis yang telah dilakukan benar-benar sesuai yang

diharapkan.

D. Pengujian Pengujian dilakukan untuk melihat apakah data yang telah menjadi

input akan diproses sesuai dengan output yang d i harapankan. Hal ini

juga dilakukan untuk mengevaluasi apakah metode yang diusulkan

mampu menjawab tujuan yang ingin dicapai.

E. Dokumentasi Merupakan langkah akhir, penyusunan laporan mulai dari latar

belakang permasalahan sampai dengan pengambilan kesimpulan

akan dijelaskan dalam tahap dokumentasi ini.

VII. Jadwal Penelitian

[25]

VIII. Daftar pustaka

(1) Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca

Passonneau, (2011), Sentiment Analysis Of Twitter Data, Department of Computer Science, Columbia University, New York, USA

(2) Simon Tong. Dephne Koller. 2001. Stanford University.Support Vector Machine Active Learning with Application to Text Classification. Journal of Machine Learning Research.PP 45-66

(3) A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN(2012), Sentiment

Analysis of Enterprise Mashups Using Scikit and NLTK, Department of

Information Technology, Quaid-e-Awam University, Nawabshah, Pakistan

(4) Akhshi Kumar, Teeja Mary Sebast ian (2012), Sentiment Analissis on Twitter,Departemen of computer Engineering Delhi Technological University, Delhi,India

(5) Pang, B., Lee, L., & Vithyanathan, S. (2002). Thumbs Up ? Sentiment

Classification Using Machine Learning Techniques. Proceedings of

The ACL-02 conference on Empirical methods in natural language

processing (pp. 79-86). Stroudsburg: Association for Computational

Linguistic.

Propasal Ruli Widya Asmoro-211210255

Documents

Transcript of Propasal Ruli Widya Asmoro-211210255

eprints.umm.ac.ideprints.umm.ac.id/38935/1/PENDAHULUAN.pdf · 2018-10-31 · S.H, Ayu Nindy S.H, Munif, Ruli, Amung, Baitta terimakasih telah menjadi teaman, memberikan doa dan support

PENENTUAN KADAR GLUKOSAMIN DARI SUBSTRAT …digilib.unila.ac.id/24598/3/SKIRPSI TANPA BAB PEMBAHASAN.pdf · Febri Windi Asmoro Penelitian ini dilakukan untuk mengubah kitin dari substrat

repositori.unud.ac.id...Benedictus Ika Wahyudi Sri Asmoro Nunuk Sunaryati Ismanto Djumadi Vyria Agesti Sufivan Iwan Heru Purnomo Nana Suyana Prasetyo Chair Vice Chair Secretary Treasury

Cities 2010 Asmoro 1_Pengembangan Purwokerto 13.00-13.25 WIB-Ok

RENCANA KERJA ANGGARAN SATUAN KERJA PERANGKAT …sidrapkab.go.id/site/file/dokumen/RKA_DPMPTSP_2019260619.pdf · Pangkajene Sidenreng, 24 Juni 2019 KEPALA DINAS Ir. RULI, MT NIP.

INVESTIGASI KECELAKAAN KERJA PADA PERUSAHAAN …eprints.undip.ac.id/60896/1/01_SYAFIQ.pdf · 18. Teman-teman Ladang Amal, Din, Fiqih, Nurul, Ruli, Eka, dan Lila, yang selalu memberikan

2016 Bahasa..."Melodi" (2010, Indonesia) Apa yang didapat Ruli pada akhirnya? Ruli : Suzuki Kento Tokoh utama dalam cerita ini. Meskipun miskin, ia hidup dengan ternan-teman yang riang.

PENINGKATAN MUTU GULA MERAH TEBU - IPB Repositoryrepository.ipb.ac.id/bitstream/handle/123456789/14590/RIAN RULI... · PENINGKATAN MUTU GULA MERAH TEBU MELALUI PENERAPAN TEKNOLOGI

Oleh: ANDRIVA FINTRI ASMORO, S. Pd SMK ......PBL SECARA DARING DI SMK MUHAMMADIYAH KAJEN KABUPATEN PEKALONGAN PENELITIAN TINDAKAN KELAS Oleh: ANDRIVA FINTRI ASMORO, S. Pd SMK MUHAMMADIYAH

Presentasi Ke ITS Dr Asmoro UNSOOED

ASUHAN KEPERAWATAN PADA PASIEN CONGESTIVE …elib.stikesmuhgombong.ac.id/668/1/DIDIK AJI ASMORO NIM. A01502154.pdf · Tujuan : Mampu menggambarkan tentang pemberian Asuhan Keperawatan

Siklus Wilson, Pegunungan Himalaya, Gempa Nepal (Asmoro P.D.)

Struktur Data dan Algoritma - aren.cs.ui.ac.idaren.cs.ui.ac.id/sda/resources/sda2010/07_linkedlist.pdf · Struktur Data dan Algoritma Suryana Setiawan, Ruli Manurung & Ade Azurat

Cities 2010 Asmoro 2_Pengembangan Gumelar 13.50-14.15 WIB Ok

Analisis Kerusakan Bangunan Sekolah Dasar Negeri Oleh ... · analisis kerusakan bangunan sekolah dasar negeri oleh faktor biologis di kota bogor ruli herdiansyah departemen hasil

Propasal Tugas Akhir 264

Presentasi PIT IAGI Semarang Asmoro

SKRIPSIeprints.umm.ac.id/28224/1/jiptummpp-gdl-ernihandia-34643-1-pendahul-n.pdf2013 . KATA PENGANTAR ... pengarahan, motivasi serta doa yang ... 2. Bapak Ruli Inayah Ramadhoan, M.Si

% Dana - lp2m.unnes.ac.idlp2m.unnes.ac.id/wp-content/uploads/2018_tunggakan pm drpm 70...No Nama Perguruan Tinggi Judul Skema % Dana Terserap 13 RULI INAYAH RAMADHOAN Universitas Muhammadiyah

PENGENALAN ADOBE PHOTOSHOP - … · 111111 Pengenalan Adobe Photoshop – Riki Riki Riki Ruli SRuli SRuli S PENGENALAN ADOBE PHOTOSHOP Setelah mempelajari dan mempraktekkan sesi ini,