Propasal Ruli Widya Asmoro-211210255

26
[0] PROPOSAL TESIS SENTIMEN ANALYSIS ELEKTABILITAS CALON PRESIDEN INDONESIA 2014 DENGAN METODE SUPPORT VECTOR MACHINES RULI WIDYA ASMORO 211210255 PROGRAM PASCASARJANA MAGISTER TEKNOLOGI INFORMASI SEKOLAH TINGGI TEKNIK SURABAYA 2013

Transcript of Propasal Ruli Widya Asmoro-211210255

  • [0]

    PROPOSAL TESIS

    SENTIMEN ANALYSIS ELEKTABILITAS CALON PRESIDEN

    INDONESIA 2014 DENGAN METODE SUPPORT VECTOR

    MACHINES

    RULI WIDYA ASMORO

    211210255

    PROGRAM PASCASARJANA MAGISTER

    TEKNOLOGI INFORMASI SEKOLAH

    TINGGI TEKNIK SURABAYA

    2013

  • [1]

    PROPOSAL TESIS

    Judul Tesis : SENTIMEN ANALYSIS ELEKTABILITAS

    CALON PRESIDEN INDONESIA 2014 DENGAN

    METODE SUPPORT VECTOR MACHINES

    Nama : Ruli Widya Asmoro

    NRP : 211210255

    Jurusan/Program Studi : Teknologi Informasi/S2

    Dosen Pembimbing : Ir. Endang Setyati, MT. Jenis Tesis : Kontribusi Pemanfaatan

    I. Latar Belakang Sesuai dengan UUD 1945 yang menyatakan bahwa pemilu

    dilaksanakan secara langsung, umum, bebas, rahasia, jujur, dan adil setiap 5

    (lima) tahun. Pemilu diselenggarakan untuk memilih anggota Dewan

    Perwakilan Rakyat (DPR), Dewan Perwakilan Daerah (DPD), Presiden dan

    Wakil Presiden dan Dewan Perwakilan Rakyat Daerah (DPRD).

    Sebelumnya, pemilihan Presiden dan Wakil Presiden dilakukan

    secara tidak langsung oleh rakyat. Di awal kemerdekaan Presiden dan Wakil

    Presiden pertama yakni Presiden Ir. Soekarno dan Wakil Presiden Drs.

    Mohammad Hatta dipilih Badan Usaha Persiapan Kemerdekaan Indonesia

    (BPUPKI).

    Sesuai dengan Pasal 6 UUD 1945 sebelum diamandemen, disebutkan

    bahwa Presiden dan Wakil Presiden dipilih oleh Majelis Permusyawaratan

    Rakyat (MPR) dengan suara terbanyak. Pasca reformasi, Pasal 6 A sebagai

    hasil Perubahan ketiga UUD 1945 yang disahkan tanggal 10 November 2001

    mengamanatkan bahwa Presiden dan Wakil Presiden dipilih dalam satu

    pasangan secara langsung oleh rakyat. Sebagai tindak lanjut Pasal 6 A UUD

    1945, diberlakukan UU No. 23 tahun 2003 tentang Pemilihan Umum Presiden

    dan Wakil Presiden Pilpres pertama dilakukan pada tahun 2004.

    Pasal 5 UU No. 23 tahun 2003 mensyaratkan bahwa peserta Pemilu

    Presiden dan Wakil Presiden adalah Pasangan Calon yang diusulkan secara

    berpasangan oleh partai politik atau gabungan partai politik.Pasangan calon

    yang dimaksud hanya dapat diusulkan oleh partai politik atau gabungan partai

    politik yang memperoleh sekurang-kurangnya 15 % (lima belas persen) dari

    jumlah kursi DPR atau 20 % (dua puluh persen) dari perolehan suara sah

    secara nasional dalam Pemilu anggota DPR di tahun 2004.

    Untuk pemilihan Presiden dan Wakil Presiden (Pilpres) di tahun 2009

    ditetapkan UU No. 42 tahun 2008 tentang Pemilihan Umum Presiden dan

    Wakil Presiden Pilpres. Pasal 8 dan 9 UU No. 42 tahun 2008 mensyaratkan

    bahwa peserta Pemilu Presiden dan Wakil Presiden adalah Pasangan Calon

    yang diusulkan dalam 1 (satu) pasangan Partai Politik atau Gabungan Partai

    Politik.Pasangan calon yang dimaksud hanya dapat diusulkan oleh partai

    politik atau gabungan partai politik yang memperoleh paling sedikit 20 %

    (dua puluh persen) dari jumlah kursi DPR atau 25 % (dua puluh lima persen)

    dari perolehan suara sah secara nasional dalam Pemilu anggota DPR di tahun

    2009.

  • [2]

    Sebagai kegiatan kenegaraan yang terstruktur dan rutin,

    penyelenggaraan Pemilihan Presiden dan Wakil Presiden (Pilpres) telah

    membuka bagi seluruh rakyat Indonesia berpartisipasi secara langsung dalam

    menentukan pilihan pemimpinnya.

    Pemilihan langsung Presiden dan Wakil Presiden telah memberikan

    beberapa manfaat. Pertama, merupakan kesempatan dan tempat yang luas

    bagi tumbuhnya sistem perpolitikan nasional.Kedua, pasangan Presiden dan

    Wakil Presiden terpilih akan memiliki mandat dan legitimasi yang sangat kuat

    karena didukung oleh suara rakyat melalui pemilih. Diharapkan bahwa

    Presiden terpilih berada di posisi segala kepentingan sosial politik dan dapat

    menjembani berbagai kepentingan tersebut.

    Partisipasi rakyat secara langsung dalam Pemilu Presiden dan Wakil

    Presiden akan menjadi alat kontrol bagi pasangan Presiden dan Wakil

    Presiden terpilih selama masa pemerintahannya.Kontrol rakyat akan

    menjadikan Presiden dan Wakil Presiden terpilih mempunyai beban

    konstitusional dalam memenuhi janji-janji, visi dan misi serta program yang

    disampaikan dalam masa kampanye. Dengan demikian akan terbangun

    hubungan sinergis antara pasangan Presiden dan Wakil Presiden terpilih

    dengan rakyat pemilih yang dijembatani oleh pemenuhan janji-janji, visi dan

    misi serta program yang disampaikan dalam masa kampanye, memberi

    gambaran telah terwujudnya. Inilah aktualisasi nilai-nilai demokrasi dalam

    penyelenggaraan Pemilu Presiden dan Wakil Presiden .

    Hal terpenting juga adalah sistem Pemilu Presiden dan Wakil

    Presiden secara langsung melahirkan check and balance antara lembaga

    legislatif dan lembaga eksekutif yang lebih seimbang karena kedua lembaga

    ini sama kuatnya. Tidak ada satu lembaga yang dapat membubarkan lembaga

    lainnya. Sehingga dalam pengambilan kebijakan, masing-masing lembaga

    dapat saling bersinergi untuk menghasilkan keputusan yang terbaik bagi

    rakyat sebagai konstituennya.

    Menjelang pemilihan umum (pemilu) tahun 2014 yang makin dekat,

    partai-partai politik dan tokoh-tokoh yang berminat untuk maju dalam pemilu

    itu, sudah mulai bersiap-siap. Banyaknya tokoh-tokoh masyarakat yang akan

    mengajukan diri menjadi calon presiden. Dari kesemua calon presiden yang

    dikenal public biasanya sudah memiliki Elektabilitas tinggi yaitu orang yang

    dikenal baik secara meluas dalam masyarakat dan orang tersebut memiliki

    skill dan menguasai permasalahan Negara.

    Dalam memperkenalkan calon presiden banyak usaha yang dilakukan

    oleh juru kampanyae mereka dimana suatu publikasi dan kampanye memegag

    peranan yang sangat penting. Beberapa tahun terakhir, jejaring sosial telah tumbuh secara luar biasa cepatnya. Pertumbuhan mulai dari pengguna hingga

    fasilitas yang ditawarkan oleh jejaring sosial tersebut. Indonesia telah menjadi

    negara dengan pengguna Twitter terbesar di Asia dan ke enam di dunia

    (Sysmosos Inc., 2010) dengan banyak pengguna Twitter di tahun 2010

    adalah2.41% dari seluruh pengguna di dunia. Angka ini naik dari0.5% pada

    tahun 2009. Dalam Proposal tesis ini berusaha mencari informasi yang

    terkandung dalam Twitter ini tentang sentiment public mengenai elektabilitas

    calon presiden 2014 dimana informasi tersebut sangat harga sebagai alat penentu

    kebijakan siapa yang memiliki Elektabilitas tertinggi sebagai calon Presiden

    2014.

  • [3]

    Berdasarkan latar belakang di atas dan kajian pustaka yang sudah

    dilakukan, maka penulis tertarik untuk mempelajari lebih lanjut tentang

    sentiment analys elektabilitas calon presiden Indonesia 2014 dengan

    menggunakan metode support vector Machines untuk melakukan penelitian

    ini.

    II. Tujuan dan Manfaat

    Tujuan dan manfaat dari penelitian ini adalah :

    a. Melakukan analisa dan penilaian terhadap informasi dari pandangan public tentang elektabilitas calon presiden yang akan maju dalam pemilihan presiden

    2014.

    b. Dengan Elektabilitas calon presiden yang akan maju di pemilu 2014 benar-benar menjadi seorang pemimpin yang ideal bagi Indonesia.

    c. Dengan adanya informasi public dari twitter tentang calon Presiden yang akan maju pemilu 2014 dapat di ketahui opini public positif maupun negative dari

    tiap calon presiden.

    III. Hipotesis

    Metode yang diusulkan diharapkan dapat membantu proses penentuan

    Elektabilitas calon Presiden Indonesia 2014 dengan akurat melalui pandangan

    Publik sehingga diperoleh sesosok Presiden yang paling memiliki wibawa,

    kemampuan dalam mengelola dan menyelesaikan permasalahan dalam pemerintahan

    dengan tingkat keakuratan mencapai 82,9%1.

    IV. Tinjauan Pustaka

    A. Judul Paper : Sentiment Analysis of Twitter Data

    Penulis : Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca

    Passonneau

    Jurusan : Department of Computer Science, Columbia University, New York,

    USA

    Pada penelitian disini memiliki prinsip yang sama bahwa kita dapat memperoleh data

    sebanyak-banyaknya yang bersifat real-time karena dengan adanya twitter maka

    masyarakat dapa meluapkan apapun yang dirasakan sekita itu. Bahasa yang

    dipakai di twitter tidak beraturan maka pada preprocessing dilakukan beberapa teknik

    untuk melakukan ekstraksi data mentahnya diantaranya adalah 1). melabeli 170

    ekspresi yang sering muncul di tweet yaitu symbol emoticon. Contoh pelabelan secara

    manual yang dilakukan adalah untuk symbol dilabeli sebagai ekspresi positif. 2). Mengganti URL dengan tag ||U|| 3). Mengganti symbol target @ dengan tag ||d|| 4). Mengganti semua kalimat negasi seperti (e.g. not, no, never, nt, cannot) di ganti dengan tag NOT. 5). mengganti urutan karakter diulang oleh tiga karakter, misalnya, mengkonversi coooooooool ke coool.

    1

    Pang,B.,Lee,L.,&Vithyanathan,S (Referensi no 5)

  • [4]

    Dalam penelitian ini disediakan tabel statistic untuk setiap token yang tagset standar

    ditetapkan oleh Treebank Penn untuk mengidentifikasi tanda baca. Kami mencatat

    terjadinya tiga tag twitter standar: emoticon, dan URL target. Token yang tersisa

    baik kata-kata bahasa Inggris non (seperti coool, zzz dll) atau simbol lainnya

    Tabel 1 Data statistic yang digunakan experiment

    Number of Token 79.152

    Number of stop words 30.371

    Number of English words 23.837

    Number of punctuation marks 9.356

    Number of capitalized words 4.851

    Number of twitter tags 3.371

    Number of exclamation marks 2.228

    Number of negation 942

    Number of other tokens 9.047

    Dalam Tabel 1 kita melihat bahwa 38,3% dari token adalah kata-kata berhenti, 30,1%

    dari token ditemukan di WordNet dan token 1,2% adalah kata-kata negasi. 11,8% dari

    semua token tanda baca termasuk tanda seru yang menebus 2,8% dari semua token.

    Secara total, 84,1% dari semua token token yang kita harapkan untuk melihat dalam

    teks bahasa khas Inggris. Ada tag 4,2% yang khusus untuk Twitter yang meliputi

    emoticon, target, dan hastags "RT" (tweet). Token 11,7% sisanya adalah baik kata-

    kata yang tidak dapat ditemukan dalam WordNet (seperti Zzzzz, kewl) atau simbol

    khusus yang tidak termasuk dalam kategori tag Twitter.

    1. Hasil Eksperiment

    a. Positif Vs Negatif ini merupakan klasifikasi biner dimana dua polaritas sentiment negative

    positif. Dalam penelitian disediakan data yang seimbang dari 1709 dan

    kebetulan memiliki presentasi 50% setiap kelasnya.

    b. Perbandingan dari model Fitur yang disediakan untuk penelitian ini adalah model unigram dan

    menambahkan beberapa set sebagai fitur lainnya. Pertama penambahan fitur

    non polar (baris f5, f6, f7, f10, f11 pada Tabel) dan amati ada perbaikan

    dalam kinerja. Selanjutnya, kita menambahkan semua bagian-of-speech fitur

    berbasis (baris f1, f8) dan mengamati keuntungan sebesar di atas 3,49% .

    Tabel 2 pengelompokan fitur

    N Polar POS # of (+/-) POS (JJ, RB, VB, NN) F1

    Other # of negation words, positive words, negative words # of extremely-pos., extremely-neg., positive, negative emoticons # of (+/-) hashtags, capitalized words, exclamation Words

    F2

    F3

    F4

    Non-polar POS # of JJ, RB, VB, NN F5

    Other # of slangs, latin alphabets, dictionary words, words f6 # of hashtags, URLs, targets, newlines

    F6

    F7

    R Polar POS For POS JJ, RB, VB, NN, prior pol. scores of words of that POS

    F8

    Other prior polarity scores of all words F9

    Non-polar Other percentage of capitalized text F10

    B Non-polar Other exclamation, capitalized text F11

  • [5]

    Table 2 N mengacu pada set fitur yang nilainya adalah bilangan bulat positif.

    Mereka terutama menghitung fitur, misalnya, menghitung jumlah kata keterangan

    positif, negatif verba dll R mengacu pada fitur yang nilainya adalah bilangan real,

    misalnya, jumlah skor polaritas sebelum kata-kata dengan bagian-pidato-kata sifat/

    keterangan / kerja / kata benda, dan jumlah skor polaritas sebelum semua kata. B

    mengacu pada seperangkat fitur yang memiliki nilai boolean, misalnya, kehadiran

    tanda seru, kehadiran teks dikapitalisasi.

    Tabel 3 Nilai rata-rata standart deviasi pada 2 way

    Model Avg. Acc % Std.Dev %

    Unigram 71.35 1.95

    Senti-Fiture 71.27 0.65

    Kernel 73.93 1.50

    Unigram + Senti Fiture 75.39 1.29

    Kernel + Senti-Fiture 74.61 1.43

    Eksperimen ini menyimpulkan bahwa Tabel 3 menunjukkan fitur yang paling

    penting dalam Senti-fitur adalah model yang melibatkan polaritas sebelum part of

    speech. Semua fitur lainnya memainkan peran marginal dalam mencapai sistem

    yang paling tepat. Bahkan, penelitian ini bereksperimen dengan menggunakan

    unigrams hanya dengan fitur polaritas sebelum POS dan mencapai kinerja

    75,1%, yang hanya sedikit lebih rendah daripada menggunakan semua Senti-fitur.

    Table 4 hasil Akurasi untuk klasifikasi model 2-way

    Fetures Acc F1.Meansure

    Post Neg

    Unigram Baseline 71.35 71.13 71.50

    +F5,F6,F7,F10,F11 70.1 69.66 70.46

    + F1, F8 74.84 74.4 75.2

    + F2,F3,F4,F9 75.39 74.81 75.86

    Pada table 4 menunjukkan hasil terbaik untuk akurasi pada penambahan

    beberapa fitur terjadi ketika penambahan fitur F2,F3,F4,F9 mendapat akurasi

    hingga 75.39%.

    A. Positif vs negative vs Netral Dalam klasifikasi 3 kelas positif, negative dan netral ini sama dengan dataset

    1709 akan dibagi menjadi rata setiap kelasnya yaitu 33.33%.

    d. Perbandingan dari model Dalam penelitian ini model unigram mencapai keuntungan sebesar 23,25%.

    Tabel membandingkan kinerja tiga model. dilaporkan mean dan deviasi standar

    dari 5 kali lipat akurasi tes. Kami mengamati bahwa pohon kernel mengungguli

    unigram dan model Senti-fitur dengan 4,02% dan 4,29% mutlak, masing-masing.

    Kami mencatat bahwa perbedaan ini jauh lebih menonjol dibandingkan dengan

    tugas klasifikasi dua arah (positf dan negative). Sekali lagi, kami melakukan

    hampir 100 Senti-fitur serta dasar unigram yang memiliki sekitar 13.000 fitur.

    Kami juga bereksperimen dengan kombinasi model. Untuk klasifikasi kombinasi

  • [6]

    kernel dengan Senti-fitur melebihi kombinasi unigrams dengan Senti-fitur dengan

    margin kecil.

    Tabel 5 Nilai rata-rata standart deviasi pada 3-way

    Model Avg. Acc % Std.Dev %

    Unigram 50.58 1.52

    Senti-Fiture 56.31 0.69

    Kernel 60.60 1.00

    Unigram + Senti Fiture 60.50 2.27

    Kernel + Senti-Fiture 60.83 1.09

    Tabel 5 menyajikan akurasi classifier dan F1-mengukur ketika fitur yang

    ditambahkan secara bertahap. Di mulai dengan model unigram kemudian

    menambahkan set berbagai fitur. Pertama, ditambahkan semua non-polar fitur

    (baris f5, f6, f7, f10 pada Tabel 4) dan dapat diamati peningkatan kecil dalam

    kinerja. Selanjutnya, ditambahkan semua fitur berbasis part-of-speech dan dapat

    diamati keuntungan sebesar 3,28% di atas unigram baseline. Dapat dilihat

    peningkatan tambahan dalam akurasi dengan 0,64% ketika ditambahkan fitur

    polaritas lainnya sebelum (baris f2, f3, f4, f9 pada Tabel 4). Hasil ini sesuai

    dengan penelitian sebelumnya yaitu klasifikasi 2-arah. Sekali lagi, kontribusi

    utama berasal dari fitur yang melibatkan polaritas sebelum part-of-speech.

    Tabel 6 hasil akurasi untuk klasifikasi model 3-way

    Fetures Acc F1.Meansure

    Post Net Neg

    Unigram Baseline 56.58 56.86 56.58 56.20

    +F5,F6,F7,F10,F11 59.91 55.12 59.84 55

    + F1, F8 59.86 58.42 61.04 59.82

    + F2,F3,F4,F9 60.50 59.41 60.15 61.86

    Dari hasil yang telah diperoleh berdasarkan model 2-way (pos vs neg) dan 3-

    way (pos vs neg vs net) terlihat pada tabel 6 dan tabel 8 maka dapat disimpulkan

    hasil dari penelitian ini adalah hasil untuk analisis sentimen di Twitter. Telah

    digubakan model state-of-the-art model yang unigram sebagai baseline dan

    melaporkan keuntungan keseluruhan lebih dari 4% untuk dua tugas klasifikasi:

    biner, positif versus negatif dan 3-way yang positif versus negatif dibandingkan

    netral. Hasil yang diperoleh merupaka sample data acak pada twitter.

    Penelitian ini mencoba mempelajari kerja dari dua jenis model: tree kernel

    dan model fitur berbasis dan menunjukkan bahwa kedua model ini mengungguli

    dasar unigram. Untuk pendekatan berbasis fitur, penelitian ini melakukan

    analisis fitur yang mengungkapkan bahwa fitur yang paling penting adalah

    model yang menggabungkan polaritas sebelum kata-kata dan tag part-of-

    speech.

  • [7]

    B. Judul Jurnal : Support Vector Machine Active Learning with Applications to Text Classification

    Penulis : Simon Tong dan Daphne Koller

    Jurusan : Computer Science Department, Stanford University

    Dalam penelitian ini menggunakan klasifikasi teks sebagai teknik untuk

    mengatasi terjadinya ledakan data teks saat ini dengan menggunakan metode SVM

    (support vectore machine).

    Contoh kasus yang dapat menggunakan algoritma ini adalah :

    Pencarian web

    Penyaringan spam email.

    Relevansi umpan balik.

    2. SUPPORT VECTOR MACHINES

    Support vector Machines (Vapnik, 1982) memiliki dasar teoritis yang

    kuat dan sangat baik uji keberhasilannya dan telah diterapkan untuk tugas-tugas

    seperti pendeteksian tulisan tangan, Pengenalan obyek, dan klasifikasi teks.

    2.1 Pengenalan SVMs

    Dalam penelitian ini SVMs difungsikan dalam pengaturan klasifikasi

    biner. Data pelatihan {X 1... Xn} Yang vektor dalam beberapa ruang X Rd. Kami juga diberi label mereka {y 1 ..y.n} di mana yi {- 1, 1}. Dalam bentuk yang paling sederhana, adalah SVMs hyperplanes yang memisahkan Data

    dengan margin maksimal (lihat Gambar. 1a). Semua vektor berbaring pada satu

    sisi hyperplane ofthe diberi label sebagai - 1, dan semua vektor berbaring di

    sisi lain diberi label sebagai 1. Secara umum SVMs memungkinkan untuk

    memproyeksi data training pada ruang x untuk feature space F melalui

    operator Mercer kernel K. Dengan kata lain kita mempertimbangkan data set

    classification:

    f(x) = n iK(xi, x) . (1)

    i=1

    Ketika K memenuhi kondisi Mercer kernel (Burges, 1998) kita dapat menulis

    K(u, v) = (u) (v) where : X F dan menunjukkan dalam produk

    sehingga dapat ditulis f sebagai berikut:

    n

    f(x) = w (x), where w = i=1 i(xi). (2) Jadi, dengan menggunakan K implisit memproyeksikan data training menjadi

    berbeda (seringnya fitur yang lebih baik) ruang F. SVM kemudian

    menghitung yang i s yang sesuai ke hyperplane marjin maksimal dalam F.

  • [8]

    2.2 SVMs untukTransduction Ada belabelan pada data set training dan tugas untuk menciptakan

    sebuah classifier yang akan memiliki kinerja yang baik pada data uji tak

    terlihat. Selain induksi rutin, SVMs juga dapat digunakan untuk transduksi

    tion. Di sini kita pertama diberikan data ofboth set label dan unlabeled. Tugas

    belajar adalah untuk menetapkan label untuk data unlabeled seakurat

    mungkin. SVMs dapat melakukan trans- produksi dengan mencari hyperplane

    yang memaksimalkan relatif marjin untuk kedua berlabel dan data unlabeled.

    Lihat Gambar 1b untuk contoh. Baru-baru ini, transductive SVMs (TSVMs)

    telah digunakan untuk klasifikasi teks (Joachims, 1999b), mencapai beberapa

    perbaikan dalam presisi / recall impas kinerja selama SVMs induktif biasa.

    3. Version Space Mengingat data set training berlabel dan Mercer kernel K, ada hyperplanes yang

    memisahkan data dalam F ruang fitur diinduksi. Kami menyebutnya hipotesis of

    consistent ditetapkan version space (Mitchell, 1982). Dengan kata lain, hipotesis f

    dalam version space setiap x pelatihan misalnya i dengan y label i kita memiliki

    f (x i )> 0 jika y i = 1 dan f (x i ) 0}.

    Perhatikan bahwa karena H adalah seperangkat hyperplanes, ada bijection antar

    unit vektor w dan hipotesis f di H. Dengan demikian kita akan mengubah V

    sebagai:

    V = {w W | w = 1, yi(w (xi)) > 0, i = 1 . . . n}.

    4. Active Learning

    Di dalam pool-based active learning kita memiliki contoh data unlabeled.

    Hal ini diasumsikan bahwa x merupakan contoh yang independen dan

    terdistribusi secara identik yang mendasari distribusi F (x) dan label distribusi

    bersyarat P (y | x).

    Pemberian unlabeled U, merupakan sebuah pembelajaran dimana

    memiliki tiga komponen: (f, q, X). Itu Komponen pertama adalah sebuah

    classifier, f: X {- 1, 1}, dilatih pada set saat oflabeled Data X (Dan mungkin unlabeled kasus di U juga). Komponen kedua q (X) adalah query fungsi yang,

    diberi X set saat ini berlabel, yang memutuskan misalnya dalam U untuk query

    berikutnya.

    Definisi 2 Area (V) adalah luas permukaan yang versi V ruang menempati pada

    hyper- sphere, w = 1.

  • [9]

    Definisi 3 Diberi l pembelajar aktif, mari V i menunjukkan version space setelah

    query dibuat. Sekarang, mengingat (i + 1)th query x i +1 , Tentukan:

    Vi = Vi {w W | (w (xi+1)) > 0}, Vi

    + = Vi

    {w W | +(w (xi+1)) > 0}.

    jadi Vi and Vi

    + menunjukkan ruang resultingversion ketika next query xi+1

    diberi label sebagai 1 dan 1

    Dalam penelitian ini menyajikan three ways of approximating procedure

    yaitu:

    Simple Margin,Recall dari 3 bagian dari beberapa data {x1 . . . xi} dan label {y1 . . . yi}, dimana Yang SVM Unit vektor w i diperoleh dari data ini adalah

    pusat terbesar Hyper-sphere yang dapat ditampung di dalam ruang saat ini

    versi V i , Posisi w i di versi space V i jelas tergantung pada bentuk ofthe

    wilayah V i

    Margin MaxMin. Metode Margin sederhana dapat menjadi pendekatan yang agak kasar. Ini bergantung pada asumsi bahwa ruang versi cukup simetris dan

    bahwa w i adalah terpusat ditempatkan. Ini telah dibuktikan, baik dalam teori

    dan praktek, bahwa asumsi dapat gagal secara signifikan (Herbrich et al.,

    2001). Memang, jika kita tidak hati-hati kita benar-benar dapat permintaan

    sebuah contoh yang hyperplane bahkan tidak memotong Versi ruang.

    Pendekatan MaxMin dirancang untuk mengatasi masalah ini untuk beberapa

    derajat. Mengingat beberapa data {x 1 ... X i } Dan label {Y1 ... Yi }, Vektor

    satuan SVM w i mmerupakan metode yang sangat erupakan pusat

    hypersphere terbesar yang dapat ditampung dalam versi saat ini.

    Ratio Margin, Metode ini memiliki semangat yang sama dengan metode Margin MaxMin.. Kita menggunakan m

    - dan m

    + sebagai indikasi ofthe

    ukuran V - dan V

    + . Namun, kami akan mencoba untuk mempertimbangkan

    fakta bahwa versi saat ini space V memiliki ukuran besar dan untuk beberapa

    x pada pool both m - dan m

    + mungkin kecil memiliki bentuknya version

    space. Jadi kita malah akan melihat ukuran relatif m - dan m

    + dan memilih

    untuk query x untuk yang min(m

    m

    + , mm

    + ).

    Ketiga metode di atas merupakan komponen query yang selalu membagi

    dua version space. Setelah melakukan beberapa jumlah permintaan kemudian

    kita kembali ke sebuah classifier dengan mempelajari SVM dengan beberapa

    contoh label. Margin dapat digunakan sebagai indikasi version space size

    terlepas dari fitur vektor yang memiliki modulus konstan.

    5. Experiments

    Untuk uji evaluasi metode yang kami gunakan di terpkan pada dua dunia

    nyata klasifikasi teks domain: Reuters-21.578 kumpulan data dan Newsgroup

    kumpulan data.

  • [10]

    5.1 Reuters Data Collection Experiments

    Data set the Reuters-21.578 adalah koleksi umum digunakan dalam cerita

    newswire yang dikategorikan dalam label topik. Setiap berita telah dilabelkan

    sesuai dengan nomorpada topic tertentu seperti "jagung", "gandum" dan

    "akuisisi perusahaan". Perhatikan bahwa beberapa topik yang saling tumpang

    tindih sehingga beberapa artikel memiliki lebih dari satu kategori. Dalam

    penelitian ini menggunakan 12.902 artikel dari "ModApte" dan, untuk tetap

    sebanding dengan studi sebelumnya, kami menganggap ada sepuluh besar topik

    yang paling sering terjadi.

    Kami mempelajari sepuluh biner yang berbeda pada pengklasifikasian,

    salah satu untuk membedakan setiap topik. Maka dilakukan perhitungan dengan

    fitur TFIDF-weighted word frequency vector dimana Setiap vektor memiliki

    modulus unit.

    (a) (b) Gambar 1. (a) uji akurasi set rata-rata selama sepuluh topik yang paling sering

    terjadi ketika menggunakan of1000 ukuran kolam renang. (b) Uji Rata-rata set

    presisi / recall impas titik selama sepuluh topik yang paling sering terjadi bila

    menggunakan kolam ukuran 1000.

    Topic Simple MaxMin Ratio Equivalent

    Random size

    Earn 86.39 1.65 87.75 1.40 90.24 2.31 34 Acq 77.04 1.17 77.08 2.00 80.42 1.50 > 100 Money-fx 93.82 0.35 94.80 0.14 94.83 0.13 50 Grain 95.53 0.09 95.29 0.38 95.55 1.22 13 Crude 95.26 0.38 95.26 0.15 95.35 0.21 > 100 Trade 96.31 0.28 96.64 0.10 96.60 0.15 > 100 Interest 96.15 0.21 96.55 0.09 96.43 0.09 > 100 Ship 97.75 0.11 97.81 0.09 97.66 0.12 > 100 Wheat 98.10 0.24 98.48 0.09 98.13 0.20 > 100

    Corn 98.31 0.19 98.56 0.05 98.30 0.19 15

    Tabel 7: Uji akurasi set rata-rata selama sepuluh besar topik yang paling sering

    terjadi (kebanyakan topik yang sering pertama) ketika dilatih dengan sepuluh

    dokumen berlabel. Tebal menunjukkan signifikansi statistik.

  • [11]

    5.2 Newsgroups Experiments

    Pengumpulan data K. Lang Lang Newsgroup collection(1995). Kami

    menggunakan lima kelompok comp *, membuang header Usenet dan baris

    subjek.. Kami memproses teks dokumen persis seperti sebelumnya, sehingga

    vektor dari sekitar 10000 dimensi.

    Gambar 2: (a) Sebuah contoh sederhana ofquerying cluster unlabeled. (B)

    Makro-rata tes mengatur akurasi untuk comp. os ms-jendela.. misc dan comp sys..

    ibm. pc. hardware mana Hybrid menggunakan metode Rasio untuk sepuluh

    pertanyaan pertama dan sederhana untuk sisanya.

    Tabel 8: Dalam hitungan detik untuk metode Aktif pada dataset Newsgroup

  • [12]

    c. Judul Jurnal : Sentiment Analysis of Enterprise Mashups Using Scikit and NLTK Penulis : A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN

    Jurusan : Department of Information Technology, Quaid-e-Awam University,

    Nawabshah, Pakistan

    Studi yang dilakukan untuk menemukan sentimen rahasia dalam pesan status

    twitter yang berfungsi untuk membantu suatu perusahaan dan individu dalam

    mengambil keputusan yang lebih baik dalam bisnis mereka dengan penggunaan

    pesan status (tweet) yang diekstrak dari twitter dengan menggunakan twitter API.

    Sentimen analisis dapat dilakukan pada berbagai tingkat dokumen teks,

    kalimat atau frase dianalisis tingkat sentimen dilakukan di individu kalimat dari

    sebuah dokumen yaitu mendeteksi isi subjektivitas kalimat jika itu bukan Kalimat

    netral, maka polaritas kalimat tersebut terdeteksi untuk menemukan apakah itu

    positif atau negative yang bertujuan untuk menemukan polaritas kolektif dokumen

    yang dikenal sebagai klasifikasi dokumen tingkat sentimen (Liu 2011).

    Penulis telah menyarankan algoritma pembelajaran unsupervised pendekatan untuk

    memberikan rating thumps up jika review adalah positif atau thumps turun jika

    ditinjau dianggap sebagai negatif.

    Tujuan dari pendekatan ini adalah untuk menganalisis apakah skema

    pembelajaran mesin: Nave Bayes, Entropi Maksimum, dan SVM, bekerja sangat

    baik , untuk mengklasifikasikan dokumen berdasarkan topik.

    Dalam makalah ini, kami menganalisis menggunakan bidang alami

    pengolahan bahasa (NLP) dan Teknik pembelajaran mesin (ML) untuk menemukan

    keselarasan dengan sentiment. Selain itu kita mengembangkan crawler sederhana

    yang mengekstrak data dari twitter dan membangun corpus untuk sentiment

    classification dengan menggunakan NLTK (Bird et al,2009) dan (Pendregosa et al,

    2011). Selain itu penelitian ini membahasa kinerja teknik evaluasi yang berbeda

    berdasarkan berbagai metric seperti akurasi, presisi, recall dan f-skor.

    Framework yang diusulkan dalam penelitian ini diuji dengan deteksi polaritas

    pesan twitter. Bigram, unigram, frekuensi panjang dan frekuensi dokumen invers

    (TF-IDF) dan metode seleksi fitur serta tiga algoritma pembelajaran mesin yaitu

    support vector machines (SVM) ,Maximum Entropy, dan Nave Bayes. Pekerjaan

    juga mencakup kinerja perbandingan metode pembelajaran yang berbeda untuk

    menganalisis jenis teknik bekerja terbaik dengan twitter corpus.

    Dalam penelitian ini dilakukan dalam empat fase yaitu:

    Pengembangan crawler. Pengembangan mesin NLP. Pengembangan modul ML. Pengembangan model sentimen deteksi.

  • [13]

    A. Pengembangan crawler Langkah awal dalam sentimen analisis adalah untuk membangun sebuah

    korpus teksyang didasarkan pada tweets. Sehingga untuk mengumpulkan data maka

    kita mengunakan Crawler yang merupakan program komputer yang mencari situs

    web dan mengumpulkan data yang ada pada situs atau web yang dituju.Pada

    penelitian ini menggunakan stream API, untuk mengcrawler mengekstrak tweets

    dari Twitter sehingga korpus dapat dibuat untuk memanipulasi untuk Sentimen

    analisis (Gambar 3).

    Vector Machine NLP Learning

    World Engine

    Module Wide Web

    Extracts Feature

    Extraction & Tweets Normalizat Sentiment

    Crawl

    Creating Sentiment Corp

    Er

    us Detection

    Model

    Gambar 3. Usulan Framewok

    B. Pengembangan Mesin NLP NLP adalah studi komputasi linguistik(Jurafsky et al., 2009). Metode NLP

    diperlukan secara efektif untuk memproses teks dan memahami yang mendasari

    semantik tweet. Tujuan dari NLP yaitu mencoba untuk mengekstrak fitur yang

    relevan yang diperlukan untuk mendeteksi polaritas tweet, dan kedua adalah

    menormalkan set fitur. Proses normalisasi membantu untuk mengurangi fiture

    space. Namun, sebelum melakukan dua langkah tersebut, kita perlu melakukan pre-

    processing untuk input masukan. Pre-processing meliputi penentuan set kosakata

    inputan dimana hal ini berfungsi untuk menyederhanakan bahasa yang digunakan

    dalam input.

    C. Pengembangan Modul ML Pada penelitian ini menggunakan teknik ML dengan dataset yang berbeda

    dari parameter dan menggunakan metode seperti: bag-of-word, bigrams dan TF-

    IDF. Selain itu metode Nave Bayes classifier, Linear support vector machine

    (SVM) dan stochastic decent gradient (SDG) juga digunakan untuk menguji mana

    yang merupakan algoritma terbaik.

    Nave Bayes classifier adalah probabilistik sederhana berdasarkan pada

    penerapan Teorema Bayes 'dengan kuat kemerdekaan asumsi. Naif Bayes classifier

    mengkategorikan dokumen berdasarkan ketentuan bahwa dokumen berisi. Ini cepat

    dan akurat bila diterapkan dengan ekstraksi fitur kata Boolean.

    Support vector machines merupakan teknik klasifikasi yang digunakan

    untuk menemukan besar margin hyper-plane dimana hal tersebut merupakan teknik

    klasifikasi non-probabilistikdengan inputan berupa vector yang mana space vector

    merupakan teknik ML yang bertujuan untuk menemukan batas keputusan antara

    dua kelas yang maksimal jauh dari titik dalam data pelatihan.

  • [14]

    D. Pengembangan model Deteksi Sentiment Dalam konteks tulisan ini, banyak macam teknik normalisasi digunakan

    untuk mengurangi set fitur. Selain teknik ini ML berbeda dan Metode ekstraksi fitur

    dievaluasi. Dalam skenario pertama Nave Bayes assifier adalah dipilih

    menggunakan simple tas-of-kata ekstraksi fitur untuk melatih model kami.

    Tabel.9. Berbeda metrik nilai untuk Nave Bayes menggunakan

    Bag-of-word method

    Metrics Positive Negative

    Accuracy 74%

    Precision 82% 69%

    Recall 62% 87%

    F-score 71% 77%

    Kinerja analisis Nave Bayes menggunakan metode Bag-of-word

    Gambar.4. The Roc curve untuk Nave Bayes classifier

    (Gambar 4) menunjukkan kurva ROC untuk Nave Bayes menggunakan

    metode Bag-of-word dapat dilihat bahwa hasil dari kurva ROC dapat

    dirangkum dalam nilai tunggal yang merupakan daerah di bawah kurva. Daerah

    itu dalam kasus ini adalah 83% seperti yang ditunjukkan pada Gambar. 2. Nilai

    ini dapat digunakan untuk membandingkan model dengan model lain, nilai yang

    lebih besar adalah lebih baik Model akan. Keakuratan dicapai adalah 74% pada

    Data set yang terdiri dari 1 juta tweets. Hasil menunjukkan bahwa recall positif

    adalah 62%, ini berarti bahwa 38% dari negatif palsu berada di kelas yang

    positif.

  • [15]

    Presisi untuk tweets positif lebih baik dibandingkan dengan ingat, yaitu

    82 persen. Hal ini menyebabkan positif palsu 18% untuk label positif. Setiap

    tweet yang diidentifikasi sebagai negatif adalah 69% mungkin benar. Tapi

    menciak apapun yang adalah negatif benar iidentifikasi sebagai tersebut dengan

    87% ingat, yang berarti negatif palsu 13% di positif kelas. F-Skor tidak

    memberikan informasi yang berguna atau wawasan lainnya. Mereka hanya

    tertimbang rata-rata precision dan recall.

    Kinerja analisis SVM linear menggunakan bag-of-word

    Dalam skenario ini linear SVM digunakan pada yang sama Data set dan

    ukuran sampel yang sama menggunakan simple bag-of-word metode seleksi

    fitur. Hasilnya diilustrasikan dalam (Tabel 8). Hal ini dapat disimpulkan dari

    Hasil yang akurasi telah ditingkatkan dengan 2%.

    Tabel 10: Perbedaan nilai metric untuk SVM Linear menggunakan

    Metode bag-of-word Metric Positive Negative Accuracy 76% Precision 77% 75% Recall 74% 78% F-score 76% 77%

    Stochastic decent gradient classifier using bag-of-words

    Stochastic Decent Gradient (SGD) classifier is merupakan teknik ML

    lain yang cocok untuk data yang jarang. (Tab. 3) Menunjukkan bahwa akurasi

    ditingkatkan dibandingkan dengan SVM linear dan Nave Bayes.

    Tabel.11. Hasil SGD classifierStochastic classifier

    Metric Positive Negative

    Accuracy 77%

    Precision 79% 75%

    Recall 73% 80%

    F-score 76% 78%

  • [16]

    Gambar 5. menunjukkan kurva ROC untuk SVM Linear, dapat terlihat bahwa

    daerah yang tertutup adalah 84% dibandingkan dengan 83% untuk

    Naif Bayes.

    Frequency analysis of corpus Setelah analisis dengan cermat dari corpus tweet, itu disadari bahwa

    normalisasi lebih lanjut dari set data tak terelakkan. Sebelum normalisasi, fitur

    set untuk 50 positif dan negatif istilah yang paling terjadi secara berkontribusi

    1600000 dan 1800000 masing. Setelah normalisasi, fitur set kedua untuk jumlah

    50 hal positif dan negatif yang paling sering dikurangi menjadi 500000 masing-

    masing.

    Analisis kinerja menggunakan Nave Bayes dan tertinggi IG features

    Gambar.6. Sebuah perbandingan Nave Bayes, Linear SVM dan SGD

    classifier mempertimbangkan metric yang berbeda

    (Gambar 6) menunjukkan analisis komparatif di antara berbagai ukuran Nave

    Bayes, Linear SVM dan SGD pengklasifikasi menggunakan sederhana kantong-

    of-kata model.

    Setelah menghilangkan fitur informasi rendah dan memanfaatkan fitur informasi

    tertinggi gain, 35000 istilah yang diambil. Istilah ditempatkan dalam satu set dan

    hanya kata-kata dari tweet yang diekstrak bahwa muncul di set ini.

  • [17]

    Tabel.12. Hasil setelah menggunakan fitur informasi gain tinggi

    Metric Positive Negative

    Accuracy 79%

    Precision 83% 75%

    Recall 71% 86%

    F-score 77% 80%

    yang menunjukkan bahwa akurasi telah ditingkatkan sebagai dibandingkan

    dengan percobaan sebelumnya. (Gbr. 5) menunjukkan ROC kurva untuk Nave

    Bayes classifier setelah eliminasi

    Gambar. 7.ROC kurva untuk Naive Bayes setelah

    memperoleh IG tinggi fitur.

    informasi yang rendah fitur dan menggunakan tinggi Informasi fitur keuntungan.

    Hal ini dapat diamati dari mengetahui bahwa daerah yang tertutup di bawah kurva

    adalah 87% yang juga merupakan perbaikan atas hasil sebelumnya.

    E. KESIMPULAN Dari makalah dapat disimpulkan bahwa kami menyelidiki bidang alami

    pengolahan bahasa (NLP) dan teknik ML serta menemukan keselarasan

    untuksentiment dengan metode pembelajaran mesin learning yang dipakai adalah

    SVM,Maximum Entropy dan Nave Bayes. Sedangkan untuk pengolahan fitur

    yang lain menguji deteksi polaritas pesan twitter mereka menggunakan Bigram,

    unigram, frekuensi panjang dan frekuensi dokumen invers (TF-IDF) dan metode

    seleksi fitur lainnya. Untuk teknik Evaluasi digunakan metrik seperti akurasi,

    presisi, recall, dan f-skor.

  • [18]

    V. Ruang Lingkup dan Batasan masalah A. Ruang Lingkup

    1) Data Input

    Dalam penelitian ini semua data baik data training dan data input

    yang di olah berasal dari twitter yang berisikan tetang semua opini

    sentiment baik positif maupun negatif terhadap ektabilitas calon

    Presiden Indonesia 2014 yang sering muncul di setiap opini public

    pada Twitter seperti Aburizal Bakrie, Hatta Rajasa, Prabowo Subianto,

    Wiranto, Joko Widodo dan itu merupakan pemfilteran yang dilakukan

    diawal dengan rencana difokuskan pada nama-nama calon presiden

    2014 yang memiliki elektabilitas tinggi dari setiap opini yang muncul

    untuk mendapatkan tweet dan sewaktu-waktu mungkin dapat berubah

    menyesuaikan kebutuhan tanpa mengurangi tujuan akhir penelitian ini

    yang kemudian data yang diperoleh akan klasifikasi menjadi beberapa

    opini yaitu:

    a) Mendukung (Positif)

    b) Tidak Mendukung (Negatif)

    c) Biasa (Netral)

    Data diambil selama 2 bulan mulai tanggal 1 Mei 2013 sampai

    dengan 31 Juni 2013. Data set ini diambil menggunakan Stream API

    yang disediakan oleh Twitter dengan menggunakan keyword nama-

    nama calon presiden Indoesia 2014 beserta ekstabilitasnya.

    Dalam penelitian ini menggunakan metode Support Vector

    Machines yang rencananya akan digabung dengan metode lain untuk

    melakukan ekstrasi fitur yang akan mencoba menggunakan unigram,

    unigram+bigram, unigram+POS(JJ, RB, VB, NN), # of negation

    words, positive words, negative words,# of extremely-pos., extremely-

    neg., positive, negative emoticons,# of (+/-) hashtags, capitalized

    words, exclamation Words, percentage of capitalized text dan Tf-Idf

    sedangkan untuk pembatasan sebuah fitur menggunakan frequency

    based selection.

    Untuk tahap awal (preprosesing) terdapat beberapa fitur yang

    perlu ditangani system seperti tokenasi, normalisasi, case folding,

    convert negation, dan juga stopward removal.

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

    AdministratorHighlight

  • [19]

    Sebagai contoh data yang akan dipakai untuk data training sebagai

    berikut :

    Tabel 13. Contoh Data Training

    No Opini Twitter

    1 @aburizalbakrie @anuarsyahsh Selamat untuk Pak ARB atas naiknya

    elektabilitas capres. Semoga terus membaik sampai 2014...

    2 RT @KompasTV: Aburizal Bakrie - Jokowi, raih elektabilitas tertinggi dalam survei Capres-Cawapres 2014!

    3 Elektabilitas Prabowo Paling Tinggi, MeskiTak Aman dan Tak Mudah untuk

    Menang Capres 2014 http://dlvr.it/1qNx90 via:@yuliarachman

    4 Survey dari SSS menempatkan Prabowo Subianto sbg Capres 2014 yg

    mempunyai elektabilitas paling tinggi. Suara Partai Gerindra jg nai

    5 JOKOWI FOR PRESIDENT RT @fadjroeL: SURVEI CAPRES 2014:

    Elektabilitas JOKOWI teratas - http://Bisnis.com

    http://web.bisnis.com/articles/survei-capres-2014-elektabilitas-jokowi-

    teratas

    6 "@inilahdotcom: Jika jadi Capres 2014, @hattarajasa Ingin Menang

    http://bit.ly/sOPcOw " paling 15% spt Amien Rais, elektabilitas rendah

    7 Jk anak pak hatta tdk diproses hukum, tingkat elektabilitas hatta rajasa

    menjadi capres 2014 diprediksi menurun. Yg pntg msh diatas ARB :D

    8 yang wulan tau sih ow wiranto juga pelanggar HAM RT @Beritasatu:

    Elektabilitas Wiranto untuk Capres 2014 Meningkat http://brt.st/4Ye

    8 Masa sih :p RT @Beritasatu: Elektabilitas Wiranto untuk Capres 2014

    Meningkat http://brt.st/4Ye

    9 Belum ningkat 2014 dah lewat.. RT @detikcom: Akbar: Tingkatkan

    Elektabilitas Ical, Kita Ingin Capres Golkar Menang http://de.tk/Gg7hP

    10 Elektabilitas Rendah, Aburizal Optimis Maju Capres 2014 - Jaring News

    http://jaringnews.com/politik-peristiwa/umum/26353/elektabilitas-rendah-

    aburizal-optimis-maju-capres- via @jaringnews

    Dari data training yang diperoleh, selanjutnya dilakukan tahap Ekstraksi

    data yaitu meliputi tahap:

    1. Tokenasi merupakan proses untuk memisah misahkan kata atau word. Proses tokenizer dalam Twitter memiliki perbedaan dengan proses

    tokenizer pada teks lain. Hal ini dikarenakan adanya emoticon yang sering

    digunakan oleh pengguna Twitter dalam mengungkapkan perasaannya.

    Tahapan tokenizer dimulai dari memisah-misah bagian tweet yang

    dipisahkan dengan karakter spasi. Selanjutnya, bagian yang hanya

    memiliki satu karakter non alfabet dan angka akan dibuang. Bagian yang

    termasuk dalam daftar emotikon akan dikonversi menjadi sebuah ekspresi

    seperti pada table berikut

  • [20]

    Tabel 14. Daftar emoticon

    Emoticon Konversi

    >:] :-) :) :o) :] :3 :c) :> =] 8) =)

    :} :^)

    senang

    >:D :-D :D 8-D 8D x-D xD XD

    XD =-D =D =-3 =3

    Tertawa

    >:[ :-( :( :-c :c :-< :< :-[ :[ :{ >

    .>

  • [21]

    2) Data Output

    Pada akhir periode penelitian, Sistem akan memunculkan nilai dari

    klasifikasikan tiga kodisi output yaitu Mendukung (positif), tidak

    mendukung (negative) dan netral sehingga diperoleh prosentase

    tertinggi nama yang paling didukung oleh public karena memiliki

    elektabilitas yang tinggi untuk calon presiden 2014.

    3) Blok Diagram

    Secara umum blok diagram system yang akan dibuat adalah :

    Gambar 8. Rancangan Blok Diagram

    Klasifikasi nama

    calon presiden Preprocessing

    Perhitungan data uji

    dengan data training

    Sub system Pengambilan Data

    Streaming

    Twitter API PreProsessing

    Data Uji

    Data Base

    Sentimen Opini

    Data Training

    Opini user

    Nama-nama

    Calon Presiden

    Hasil Sentimen

    Analysis

    Tokenasi

    Normalisasi

    case folding,

    convert negation

    stopward removal

  • [22]

    Keterangan:

    Pada system yang akan dirancang adalah dibagi menjadi dua proses dimana :

    a. Tahap Pre Processing

    Pada tahap ini dimulai dari pengambilan data mentah bersumber dari Twitter

    Selanjutnya dilakukan tahap awal (preprosesing) terdapat beberapa fitur yang perlu ditangani system seperti tokenasi, normalisasi, case folding,

    convert negation, dan juga stopward removal untuk mendapatkan sebuah

    nilai probabilitas kata yang sering muncul yang kemudian akan dijadikan

    data training dan disimpan pada data base.

    b. Tahap proses Klasifikasi analisis sentiment

    Sedangkan pada tahap ini akan dilakukan proses uji klasifikasi dengan data awal sama yaitu data mentah dari Twitter yang

    selanjutnya akan dilakukan tahap preprocessing.

    Selanjutnya dihitung nilai probabilitas yang disesuaikan dengan database dari data training dengan algoritma SVM.

    Pengkalsifikasian hasil akhir periode penelitian, Sistem akan memunculkan nilai dari klasifikasikan tiga kodisi output yaitu

    Mendukung (positif), tidak mendukung (negative) dan netral sehingga

    diperoleh prosentase tertinggi nama yang paling didukung oleh public

    karena memiliki elektabilitas yang tinggi untuk calon presiden 2014

    4) Desain tampilan I/O

    * Input

    Gambar 9. Rencna Tampilan Input

    Keterangan: Kita memasukkan opini terbaru pada kotak textbox kemudian kita klik

    PROSES.

    SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN

    INDONESIA 2014

    *Inputkan Opini

    PROSES

  • [23]

    * Rencana Tampilan Output

    Gambar 10. Rencna Tampilan Output

    * Keterangan:

    Pemasukakan Opini akan memunculkan nilai apakah termasuk positif,

    negative, ataukah netral sehingga di peroleh nilai prosentase reputasi

    elektabilitas calon presiden yang paling diminati oleh public.

    5) Testing

    Sistem testing yang akan dilakukan adalah mencoba input sebuah

    opini/sentiment yang berasal dari Twitter selanjutnya sistem akan secara

    otomatis melakukan pengelompokan sesuai dengan parameter yang telah

    ditentukan.

    B. Batasan Masalah Pada tugas akhir ini masalah yang dibahas akan dibatasi pada :

    1. System tidak menangani pengambilan tweet secara langsung 2. Opini/sentiment yang di ambil adalah dalam bentuk teks bahasa

    Indonesia dan hanya difokuskan pada opini yang dituju pada penelitian

    ini.

    3. Penelitian Rencananya akan difokuskan pada sentiment/ opini tentang nama-nama calon presiden 2014 yang sering muncul dalam twitter dan

    sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan tanpa

    mengurangi tujuan akhir penelitian ini.

    4. Algoritma yang dipakai klasifikasi menggunakan Support Vector Machine (SVM) dan dalam penelitian ini metode yang digunakan

    sewaktu-waktu mungkin dapat berubah menyesuaikan kebutuhan,

    tanpa mengurangi tujuan akhir dari penelitian.

    OUTPUT

    SENTIMEN ANALYS ELEKTABILITAS CALON PRESIDEN INDONESIA

    2014

    NO KEYWORD

    HASIL TWEETER (%)

    POSITIF NEGATIF NETRAL

    1 Aburizal

    Bakrie 20% 50% 30%

    2 Hatta Rajasa 15% 40% 45%

    3 Prabowo

    Subianto 30% 20% 50%

    4 Wiranto 20% 45% 35%

    5 Joko Widodo 40% 25% 35%

  • [24]

    No.

    Kegiatan Bulan

    1 2 3 4 5 6 1 Studi Literatur 2 Analisa 3 Implementasi 4 Pengujian 5 Dokumentasi

    VI. Metedologi Penelitian

    A. Studi Literatur Dengan mempelajari buku-buku referensi dan jurnal yang berkaitan

    dengan permasalahan penelitian yang diangkat serta mencari solusi

    yang terbaik. Topik bahasan utama yang dibutuhkan diantaranya adalah

    Sentimen analisis dan SVM.

    B. Analisa Melakukan uji coba secara teoritis terhadap masalah yang diangkat

    guna menganalisa apakah rancangan algoritma yang

    digunakan dapat menghasilkan solusi yang sesuai dengan tujuan

    penelitian.

    C. Implementasi Membuat program dari hasil rancangan algoritma yang telah dibuat

    untuk mengimplementasikan serta membuktikan bahwa hasil

    analisa secara teoritis yang telah dilakukan benar-benar sesuai yang

    diharapkan.

    D. Pengujian Pengujian dilakukan untuk melihat apakah data yang telah menjadi

    input akan diproses sesuai dengan output yang d i harapankan. Hal ini

    juga dilakukan untuk mengevaluasi apakah metode yang diusulkan

    mampu menjawab tujuan yang ingin dicapai.

    E. Dokumentasi Merupakan langkah akhir, penyusunan laporan mulai dari latar

    belakang permasalahan sampai dengan pengambilan kesimpulan

    akan dijelaskan dalam tahap dokumentasi ini.

    VII. Jadwal Penelitian

  • [25]

    VIII. Daftar pustaka

    (1) Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, Rebecca

    Passonneau, (2011), Sentiment Analysis Of Twitter Data, Department of Computer Science, Columbia University, New York, USA

    (2) Simon Tong. Dephne Koller. 2001. Stanford University.Support Vector Machine Active Learning with Application to Text Classification. Journal of Machine Learning Research.PP 45-66

    (3) A. M. RAJPER, S. VIGHIO, Z. HUSSAIN, A. WAGAN(2012), Sentiment

    Analysis of Enterprise Mashups Using Scikit and NLTK, Department of

    Information Technology, Quaid-e-Awam University, Nawabshah, Pakistan

    (4) Akhshi Kumar, Teeja Mary Sebast ian (2012), Sentiment Analissis on Twitter,Departemen of computer Engineering Delhi Technological University, Delhi,India

    (5) Pang, B., Lee, L., & Vithyanathan, S. (2002). Thumbs Up ? Sentiment

    Classification Using Machine Learning Techniques. Proceedings of

    The ACL-02 conference on Empirical methods in natural language

    processing (pp. 79-86). Stroudsburg: Association for Computational

    Linguistic.