PENENTUAN EMOSI BERDASARKAN LIRIK LAGU … · mencari informasi yang relevan antara query dan...

PENENTUAN EMOSI BERDASARKAN LIRIK LAGU MENGGUNAKAN

SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT

SEMANTIC INDEXING (LSI)

Oleh :

Nama: Hagi Semara Putra

NIM: 1204505094

Dosen : I Putu Agus Eka Pratama, ST. MT

JURUSAN TEKNOLOGI INFORMASI

FAKULTAS TEKNIK

UNIVERSITAS UDAYANA

2015

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa/ Ida Sang

Hyang Widhi Wasa karena atas berkat-Nya makalah ini dapat penulis selesaikan tepat

pada waktunya.

Di dalam penyusunan makalah ini, penulis merasa bahwa banyak hambatan

yang penulis hadapi. Namun, berkat bimbingan dan dukungan dari berbagai pihak,

hambatan-hambatan tersebut dapat penulis atasi sedikit demi sedikit. Untuk itu, penulis

mengucapkan terima kasih kepada :

1. I Putu Agus Eka Pratama, ST., MT. selaku Dosen Mata Kuliah Sistem Temu

Kembali Informasi

2. Serta semua pihak yang turut serta memberikan uluran tangan dan motivasi.

Penulis mohon maaf apabila terdapat kesalahan-kesalahan di dalam penulisan

karya tulis ini. Penulis harapkan makalah ini mempunyai manfaat bagi pihak yang

membaca makalah ini.

Bukit Jimbaran, Mei 2015

Penulis

Abstrak

Lagu dapat menentukan perasaan seseorang yang menyanyikannya, dari lagu

dapat di simpulkan seseorang tersebut mengalami suatu emosi yang sedang dirasakan.

Maka dari itu lirik lagu merupakan salah satu elemen yang paling berpengaruh dalam

menentukan emosi. Jika dibandingkan dengan elemen yang bersifat audio, representasi

makna yang menggambarkan emosi, tampak lebih kuat dalam lirik lagu. Fokus

penelitian ini terletak pada lirik lagu yang sifatnya berupa teks, dan dapat diselesaikan

dengan proses text mining. Paper ini menggunakan sistem temu kembali informasi yang

untuk menentukan lirik lagu dengan metode Latent Semantic Indexing (LSI). Teknik

dalam LSI mengadopsi proses matematis reduksi dimensi Singular Value

Decomposition (SVD). Walaupun dimensi data direduksi, proses tersebut tidak

mengganggu keterkaitan makna antara lirik lagu pada corpus dan query. Pada masing-

masing lirik lagu dalam corpus dan query, diberi label emosi secara otomatis yaitu, label

religius, sedih, marah, semangat, takut, dan cinta. Sistem akan menentukan relevansi

berdasarkan kecocokan label emosi antara query dan corpus.

Kata kunci : Information Retrieval, Latent Semantic Indexing, Singular Value

Decomposition, Stemming, Text Mining

BAB I

PENDAHULUAN

1.1 Latar Belakang

Sistem temu kembali informasi merupakan salah satu teknik pencarian untuk

mencari informasi yang relevan antara query dan corpus. Kasus yang paling sering

banyak diteliti dalam proses sistem temu kembali adalah teks. Lirik lagu merupakan

salah satu betuk teks yang dapat digunakan sebagai objek dalam penelitian sistem temu

kembali berdasarkan emosi. Dalam penentuan emosi, lirik lagu merupakan elemen yang

memiliki makna yang paling kuat dalam menggambarkan emosi. Pada sebuah dimensi

data yang besar, dibutuhkan reduksi dimensi untuk mengurangi adanya proses

komputasi. Penelitian dilakukan oleh Kleedorfer, Knees, dan Pohle (2008)

menggunakan proses reduksi dimensi matriks Nonnegative Matrix Factorization

(NMF), dan penelitian Samat, Murad, Abdullah dan Atan (2005) menggunakan metode

reduksi matriks Singular Value Decomposition (SVD) untuk proses clustering data.

Pada penelitian Peter, Shivapratap, Dyva, dan Soman (2009) melakukan analisis

terhadap evaluasi SVD dan NMF untuk proses Latent Semantic Analysis (LSA) dan

menyebutkan rata-rata nilai interpolated average precission SVD memiliki nilai lebih

tinggi dibanding dengan menggunakan NMF dan Vector Space Model (VSM). Proses

temu kembali dengan menggunakan konsep SVD disebut dengan LSI. Pada penelitian

ini, digunakan proses temu kembali LSI yang memanfaatkan reduksi dimensi SVD

dengan menggunakan obyek lirik lagu berbahasa Indonesia dan mengabaikan bahasa

yang sifatnya tidak resmi. Proses pengolahan yang pertama dilakukan adalah

menggunakan teknik preprocessing pada text mining yang merupakan salah satu cabang

ilmu dari Natural Language Processing (NLP). Dalam proses prepocessing, stemming

yang digunakan menggunakan algoritma Nazief-Andriani, karena stemming tersebut

mempunyai hasil kebenaran sekitar 93%. Hasil numerik dari proses pembobotan setelah

di-prepocessing diolah menggunakan Latent Semantic Indexing (LSI). Hasil dari sistem

ini untuk mengetahui akurasi dari LSI dalam proses penentuan emosi berdasarkan lirik

lagu (Sari, Yuita Arum. 2012).

1.2 Rumusan Masalah

Permasalahan yang ingin diambil dari latar belakang diatas adalah sebagai

berikut:

1. Bagaimana penggunaan metode Latent Semantic Indexing (LSI) pada proses

menentukan emosi berdasarkan lirik lagu?

2. Bagaimana mengenali jenis emosi dari teks lagu berbahasa Indonesia?

1.3 Solusi

Solusi yang dapat digunakan dalam penerapan sistem ini agar berjalan sesuai

yang diharapkan yaitu :

1. Menggunakan lirik lagu berbahasa Indonesia yang resmi, agar mudah dalam

menerapkan metode Latent Semantic Indexing (LSI).

2. Jumlah kata dan lirik lagu yang digunakan tidak terlalu banyak, sehingga waktu

komputasi yang dihasilkan lebih cepat untuk menentukan emosi menggunakan

lirik lagu berbahasa Indonesia yang resmi.

BAB II

TINJAUAN PUSTAKA

2.1. Proses Sistem Temu Kembali Informasi

Proses temu kembali teks yang lebih dikenal dengan nama text information

retrieval, merupakan sebuah teknik pencarian dengan menggunakan algoritma tertentu

untuk mendapatkan hasil pencarian yang relevan berdasarkan kumpulan (corpus)

informasi yang besar. Sebagian besar penggunaan sistem temu kembali adalah pada

teks. Pengguna memasukkan kata kunci berupa teks, dan kemudian sistem mengolahnya

hingga mendapatkan informasi semantik yang diinginkan oleh pengguna (Sari, Yuita

Arum. 2012).

2.1.1 Lirik Lagu dalam Menentukan Emosi

Lirik Lagu merupakan ekspresi seseorang tentang suatu hal yang sudah dilihat,

didengar maupun dialaminya.Dalam mengekspresikan pengalamannya, penyair atau

pencipta Lagu melakukan permainan kata-kata dan bahasa untuk menciptakan daya

tarik dan kekhasan terhadap lirik atau syairnya. Permainan bahasa ini dapat berupa

permainan vokal, gaya bahasa maupun penyimpangan makna kata dan diperkuat dengan

penggunaan melodi dan notasi musik yang disesuaikan dengan lirik lagunya sehingga

pendengar semakin terbawa dengan apa yang dipikirkan pengarangnya (Sari, Yuita

Arum. 2012).

Definisi lirik atau syair lagu dapat dianggap sebagai puisi begitu pula

sebaliknya. Hal serupa juga dikatakan oleh Jan van Luxemburg (1989) yaitu definisi

mengenai teks-teks puisi tidak hanya mencakup jenis-jenis sastra melainkan juga

ungkapan yang bersifat pepatah, pesan iklan, semboyan-semboyan politik, syair-syair

lagu pop dan doa-doa. Jika definisi lirik lagu dianggap sama dengan puisi, maka harus

diketahui apa yang dimaksud dengan puisi.

Lagu yang terbentuk dari hubungan antara unsur musik dengan unsur syair atau

lirik lagu merupakan salah satu bentuk komunikasi massa. Pada kondisi ini, lagu

sekaligus merupakan media penyampaian pesan oleh komunikator kepada komunikan

dalam jumlah yang besar melalui media massa.Pesan dapat memiliki berbagai macam

bentuk, baik lisan maupun tulisan. Lirik lagu memiliki bentuk pesan berupa tulisan

kata-kata dan kalimat yang dapat digunakan untukmenciptakan suasana dan gambaran

imajinasi tertentu kepada pendengarnya sehingga dapat pula menciptakan makna-makna

yang beragam.

Dalam fungsinya sebagai media komunikasi, lagu juga sering digunakan sebagai

sarana untuk mengajak bersimpati tentang realitas yang sedang terjadi maupun atas

cerita-cerita imajinatif. Dengan demikian lagu juga dapat digunakan untuk bebagai

tujuan, misalnya menyatukan perbedaan, pengobar semangat seperti pada masa

perjuangan, bahkan lagu dapat digunakan untuk memprovokasi atau sarana propaganda

untuk mendapatkan dukungan serta mempermainkan emosi dan perasaan seseorang

dengan tujuan menanamkan sikap atau nilai yangkemudian dapat dirasakan orang

sebagai hal yang wajar, benar dan tepat.

Propaganda melalui maupun tidak melalui lirik lagu tetap memiliki efek yang

kompleks. Contohnya Jika pesan dalam lirik lagu oleh propagandis diketengahkan

tentang ketidakadilan dan ketimpangan-ketimpangan sosial dansecara tidak langsung

menempatkan pemerintah sebagai pihak yang harusnya bertanggung jawab pada

keadaan itu, bukan tidak mungkin hanya melalui lagu , khalayak menjadi marah,

menuntut bahkan melawan pemerintah sebagai pihak yang bertanggungjawab dengan

berbagai bentuk.Oleh karena bahasa dalam hal ini kata-kata, khususnya yang digunakan

dalam lirik lagu tidak seperti bahasa sehari-hari dan memiliki sifat yang ambigu dan

penuh ekspresi ini menyebabkan bahasa cenderung untuk mempengaruhi, membujuk

dan pada akhirnya mengubah sikap pembaca.

Maka untuk menemukan makna dari pesan yang ada pada lirik lagu,

digunakanlah metode semiotika yang notabene merupakan bidang ilmu yang

mempelajari tentang sistim tanda. Mulai dari bagaimana tanda itu diartikan, dipengaruhi

oleh persepsi dan budaya, serta bagaimana tanda membantu manusia memaknai

keadaan sekitarnya. Tanda atau sign menurut Littlejohn adalah basis dari seluruh

komunikasi. Sedangkan yang disebut tanda dapatberupa gambar atau tulisan.

Kata Emosi berasal dari dua bahasa yaitu bahasa perancis emotion yang

berartikegembiraan dan dari bahasa latin emovere yang berarti bergerak menjauh.

Emosi adalah perasaan intens yang ditujukan kepada seseorang atau sesuatu dalam arti

lain emosi adalah reaksi terhadap seseorang atau kejadian.

Arti kata emosi diatas menyiratkan bahwa kecenderungan bertindak merupakan hal

yang mutlak dalam emosi.Kebanyakan ahli yakin bahwa emosi lebih cepat berlalu

daripada suasana hati.Emosi merupakan reaksi terhadap rangsangan dari luar dan dalam

diri individu.Emosi dapat ditunjukkan ketika merasa senang mengenai sesuatu, marah

kepada seseorang, ataupun takut terhadap sesuatu (Amelia. Rahayu, Dwi. 2013)

Beberapa tokoh mengemukakan tentang macam – macam emosi antara lain

Descrates, JB Waston dan Daniel Goleman.

Menurut Descrates, emosi terbagi atas :

1. Desire = hasrat

2. Hate = benci

3. Sorrow = sedih / duka

4. Wonder = heran

5. Love = cinta

6. Joy = kegembiraan

Menutur JB Waston, emosi terbagi menjadi tiga yaitu :

1. Fear = ketakutan

2. Rage = kemarahan

3. Love = cinta

Dan menurut Daniel Goleman, dia mengemukakan bahwa emosi terdiri dari :

1. Amarah = beringas, mengamuk, benci, jengkel, kesal hati

2. Kesedihan = pedih, sedih, muram, suram, melankolis, mengasihi diri, putus

asa

3. Rasa takut = cemas, gugup, khawatir, was-was, waspada, tidak tenang, ngeri

4. Kenikmatan = bahagia, gembira, riang, puas, riang, senang, terhibur, bangga

5. Cinta = penerimaan, persahabatan, kepercayaan, bakti, hormat,

kemesraan

6. Terkejut = terkesiap

7. Jengkel = hina, jijik, muak, mual, tidak suka

8. Malu = malu hati, kesal

Dari uraian beberapa tokoh diatas, dapat disimpulkan bahwa pengertian emosi

adalah suatu perasaan yang mendorong individu untuk merespon atau bertingkah laku

terhadap stimulus, baik yang berasal dari dalam maupun dari luar dirinya (Amelia.

Rahayu, Dwi. 2013)

2.1.2 Metode Penentuan Lirik

Metode yang digunakan pada penentuan emosi berdasarkan lirik lagu, berikut

merupakan penjabaran metode yang digunakan pada sistem.

2.1.2.1 Singular Value Decomposition (SVD)

Singular Value Decomposition (SVD) merupakan model matematis yang

digunakan untuk reduksi dimensi data.

Proses SVD dilakukan dengan mendekomposisi matriks menjadi tiga bagian, seperti

pada gambar 2.1.

Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L

IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM

ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf

Matriks U dan V adalah matriks othonormal, dimana baris pada matriks U

menggambarkan banyaknya baris pada matriks A, sementara kolom pada matriks V

menggambarkan banyaknya kolom pada matriks A. k-rank digunakan untuk mereduksi

dimensi dari matriks A. Matriks S merupakan matriks simetris yang berisi nilai positif di

sepanjang diagonal, daerah selain diagonal berisi 0 (Sari, Yuita Arum. 2012).

2.1.2.2 Latent Semantic Indexing (LSI)

Penggunaan SVD digunakan dalam LSI. LSI merupakan salah satu bentuk

teknik proses temu kembali dengan menggunakan Vector Space Model (VSM), untuk

menemukan informasi yang relevan. Keterkaitan makna di dalam LSI sifatnya

Gambar 2.1. Ilustrasi matriks SVD

http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_LIRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORMASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf



tersembunyi. Fungsi matematis di dalam LSI mampu menemukan hubungan semantik

antar kata.

Representasi dari LSI adalah

𝒒′ = 𝒒𝑻. 𝑼𝒌. 𝑺−𝒌𝟏 (1)

dimana q’ adalah query vector representasi dari LSI, qT adalah transpose TDM dari

pembobotan ternormalisasi TFIDF query, Uk adalah reduksi dimensi k dari matriks U,

dan Sk1 adalah inverse dari reduksi dimensi k matriks S (Sari, Yuita Arum. 2012).

2.1.2.3 Vector Space Model (VSM)

VSM adalah cara konvensional yang biasa digunakan dalam proses temu

kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu

antara vektor dari corpus dan vektor dari query. Penghitungan kemiripan

dihitungdengan menggunakan rumus cosine similarity.

(2)

Dari persamaan 6 nilai q merupakan nilai matriks hasil query SVD. d merupakan

nilai dari matriks V, dimana nilai dimensi dari matriks V merupakan hasil input k sesuai

dengan nilai reduksi dengan k ≤ min(m x n), dimana m adalah banyaknya kata-kata dan

n adalah banyaknya dokumen lirik (Sari, Yuita Arum. 2012).

2.1.3 Teknik Pembobotan

Teknik pembobotan digunakan untuk mengumpulkan data yang berupa teks

yang kemudian digunakan untuk proses pengolahan teks menjadi bobot yang mudah

diolah oleh sistem. Berikut merupakan teknik pembobotan yang digunakan pada sistem.

2.1.3.1 Pembobotan TF-IDF Ternormalisasi

Terdapat tiga cara untuk menghitung nilai term frequency (TF), yaitu dengan

menghitung frekuensi sebagai bobot, menghitung peluang kemunculan sebagai bobot

(TF tanpa ternormalisasi), dan menghitung logaritma dari banyaknya kemunculan term

(TF ternormalisasi). Dari ketiga fungsi tersebut, menurut Garcia, TF dengan normalisasi

menghasilkan nilai pembobotan yang baik, karena dapat mengurangi efek panjang dari

dokumen. TF ternormalisasi dihitung sebagai berikut:

(3)

dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j,

max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Untuk normalisasi frekuensi

dalam query diberikan rumus :

(4)

dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j,

dan max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Sehingga, pembobotan

TF-IDF pada kata i dan dokumen j dapat ditulis sebagai berikut :

(5)

dimana Wi,j adalah bobot kata i pada dokumen j , fi,j adalah frekuensi ternormalisasi, tfi,j

adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi maksimum kata i

pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen

dalam corpus, dan dfi adalah banyaknya dokumen yang mengandung kata i.

Pembobotan tersebut digunakan untuk pembobotan pada corpus. Pembobotan

pada query dapat ditulis sebagai berikut :

(6)

dimana Wi,j adalah bobot kata i pada dokumen j, fi,j adalah frekuensi

ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi

maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/

banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang

mengandung kata i (Sari, Yuita Arum. 2012).

2.1.3.2 Text Mining

Teknik text mining merupakan sebuah teknik dimana data yang berupa teks

dikumpulkan dan diolah, untuk dapat diidentifikasi dengan pola-pola tertentu. Proses

text mining termasuk dalam salah satu bidang Natural Language Processing (NLP),

karena di dalam text mining, teks akan diolah sehingga dapat dikomputasi dan dapat

menghasilkan informasi yang relevan satu dengan yang lainnya. Pengolahan dalam teks

mining tahap awal dikenal dengan nama preprocessing. Teknik yang terdapat dalam

preprocessing yaitu case folding, stopword removal, tokenizing, dan stemming. Case

foding merupakan proses untuk membuat semua teks menjadi pola yang seragam

(uppercase atau lowercase). Stopword removal menghilangkan kata-kata yang dianggap

tidak mempunyai kata penting. Tokenizing atau teknik parsing digunakan untuk

memecah kalimat menjadi kata-kata. Selanjutnya, katakata tersebut diolah sehingga

hanya didapatkan kata-dasar saja. Teknik tersebut dinamakan dengan stemming.

Stemming yang digunakan pada penelitian ini adalah algoritma Nazief-Andriani (Sari,

Yuita Arum. 2012).

2.1.3.3 Stemming

Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah

kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan

(prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran

(confixes) pada kata turunan. Imbuhan pada Bahasa Indonesia lebih kompleks bila

dibandingkan dengan imbuhan pada Bahasa Inggris karena imbuhan pada Bahasa

Indonesia terdiri dari awalan, sisipan, akhiran bentuk perulangan, serta kombinasi dari

awalan dan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan

untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya. Salah satu masalah

yang ada adalah perbedaan tipe dari imbuhan-imbuhan, yang lain adalah bahwa awalan

dapat berubah tergantung dari huruf pertama pada kata dasar. Sebagai contoh ”me-”

dapat berubah menj adi ”mem-” ketika huruf pertama dari kata dasar tersebut adalah

”b”, misalnya ”membuat”, tetapi ”me-” juga dapat berubah menj adi ”meny-” ketika

huruf pertama dari kata dasar melekat adalah ”s”, misalnya ”menyapu” (Amelia.

Rahayu, Dwi. 2013)

Ada beberapa teknik pendekatan untuk melakukan stemming untuk teks

berbahasa Indonesia, yaitu :

1. Nazief and Andriani’s Algorithm

Algoritma ini berdasarkan pada aturan morfologi bahasa Indonesiayang luas dan

dikumpulkan menjadi satu grup serta dienkapsulasi pada imbuhan yang diperbolehkan

dan imbuhan yang tidak diperbolehkan.

Langkah-langkah Nazief and Andriani’s Algorithm :

a. Kata yang belum di stemming dicari pada kamus. Jika ditemukan, berarti kata

tersebut merupakan kata dasar sehingga kata tersebut dikembalikan dan

algoritma dihentikan.

b. Hilangkan Inflectional suffixes terlebih dahulu. Jika berhasil dan suffix adalah

partikel (“lah” atau “kah”), langkah ini dilakukan lagi untuk menghilangkan

Inflectional possessive pronoun suffixes (“ku”, “mu” atau “nya”)

c. Derivational suffix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek

apakah masih ada Derivational suffix yang tersisa, jika ada maka dihilangkan.

Jika tidak ada maka lakukan langkah selanjutnya.

d. Derivational prefix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek

apakah masih ada Derivational prefix yang tersisa, jika ada maka dihilangkan.

Jika tidak ada maka lakukan langkah selanjutnya.

e. Setelah tidak ada lagi imbuhan yang tersisa, algoritma dihentikan dan kata dasar

dicari pada kamus, jika kata dasar tersebut ditemukan berarti algoritma ini

berhasil tetapi jika tidak ketemu, maka dilakukan recoding.

f. Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak ditemukan

pada kamus juga maka algoritma ini mengembalikan kata yang asli sebelum

dilakukan stemming.

2. Arifin and Setiono’s Algorithm

Arifin and Setiono mengajukan skema algoritma yang sedikit lebih sederhana

dibandingkan Nazief and Adriani, tetapi terdapat kesamaan di antara kedua algoritma

tersebut yaitu menggunakan kamus dan menyediakan fungsi recoding.

Langkah-langkah penghilangan imbuhan-imbuhan yang diterapkan pada

algoritma ini adalah dengan menghilangkan awalan (prefix) terlebih dahulu baru

kemudian menghilangkan akhiran (suffix) pada kata turunan yang akan dilakukan

stemming. Jika kata turunan yang sudah dilakukan proses stemming telah berhasil

dilakukan, namun tidak dapat ditemukan kata dasarnya pada kamus maka semua

imbuhan yang telah dihilangkan tadi dikembalikan untuk kemudian dikombinasikan

dengan kata hasil stemming tadi guna mengurangi terjadinya overstemming.

Keuntungan Arifin and Setiono’s Algorithm adalah jika kata dasar dari sebuah

kata turunan tidak dapat ditemukan setelah menghilangkan awalan dan akhirannya maka

algoritma ini akan mencoba mengembalikan semua imbuhan yang telah dihilangkan tadi

untuk dikombinasikan dengan kata hasil stemming dari kata turunan yang kata dasarnya

tidak ditemukan pada kamus (Amelia. Rahayu, Dwi. 2013)

2.1.3.3 Term Weighting (Pemberian bobot terhadap term)

Setiap term diberikan bobot sesuai dengan model pembobotan yang dipilih,

apakah pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi yang

menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan

global inverse document frequency (Amelia. Rahayu, Dwi. 2013).

2.1.3.4 Inverted Index

Inverted Index merupakan struktur data berbentuk matriks, yang digunakan

untuk mempermudah dalam merepresentasikan banyaknya kata yang muncul dalam

dokumen teks.

Tabel 1. Contoh penerapan inverted index

Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L

IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM

ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf

2.1.4 Pemrosesan Teks

Teks merupakan deretan karakter yang bisa direkam ke dalam suatu

file/berkas/arsip.Pemrosesan Teks adalah suatu proses pengubahan bentuk data yang

belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan pengguna

untuk proses mining yang lebih lanjut (Amelia. Rahayu, Dwi. 2013).




Pemrosesan teks mencakup:

1. Information retrieval : tindakan, metode dan prosedur yang dilakukan untuk

menemukan kembali data yang tersimpan untuk menyediakan informasi

mengenai subyek yang dibutuhkan.

2. Klasifikasi dokumen : membagi dokumen ke dalam kelas-kelas yang telah

ditentukan sebelumnya.

3. Document Clustering : mirip dengan klasifikasi dokumen, hanya saja kelas

dokumen tidak ditentukan sebelumnya.

4. Peringkasan teks : Menghasilkan ringkasan suatu dokumen secara otomatis.

5. Ekstraksi informasi : Mengekstrak informasi yang dianggap penting dari suatu

dokumen.

Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai

indeks yang nantinya digunakan untuk membuat pemodelan Temu Kembali Informasi

(Amelia. Rahayu, Dwi. 2013).

2.1.5 Tipe Evaluasi

Precision, recall, dan F-Measure merupakan kumpulan evaluasi untuk

mengetahui keakuratan sistem temu kembali secara unranked retrieval, atau dengan

pengembalian dokumen tanpa perangkingan. Tipe evaluasi yang digunakan untuk

mengevaluasi sistem temu kembali dengan ranked retrieval pada penelitian ini

digunakan Mean Average Precission (MAP). Dalam konteks sistem temu kembali,

dokumen yang dikembalikan dengan memasukkan top-k dokumen yang retrieved.

Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang

relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan.

Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang

retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak

relevan nilainya adalah 0. Rumus dari Mean Average Precission adalah sebagai berikut:

(7)

dimana nilai Q merupakan kumpulan query atau menyatakan banyaknya query

yang diinputkan qj € Q {d1,……dmj} dan Rjk adalah nilai precission dari kumpulan file

lirik lagu retrieved dan relevan yang telah diranking. Nilai MAP mempunyai rentang

nilai 0 sampai 1, dan dalam sebuah sistem dikatakan baik jika nilai MAP mendekati 1

(Sari, Yuita Arum. 2012).

2.2 Desain Sistem

Perancangan desain sistem penentuan emosi berdasarkan lirik lagu

menggunakan sistem temu kembali informasi dengan metode latent semantic indexing

(LSI) menggunakan flowchart berikut.

2.2.1 Metode Penelitian

Kumpulan lirik lagu bahasa Indonesia didapatkan dari berbagai sumber yang ada

di internet dan kemudian ditentukan emosi-emosi apa saja yang terdapat di dalam

sebuah lirik lagu. Label emosi yang digunakan diantaranya religius, sedih, marah,

semangat, takut, dan cinta.

Penelitian dilakukan melalui langkahlangkah sebagai berikut:

1. Mengumpulkan lirik lagu berbahasa Indonesia. Kumpulan lirik lagu tersebut

disebut sebagai corpus. Inputan sistem terdiri atas corpus dan query yang berupa

lirik.

2. Preprocessing file corpus dan query.

3. Membentuk struktur data inverted index pada corpus.

4. Membentuk matriks pembobotan TF IDF ternormalisasi pada corpus dan query.

5. Mendekomposisi matriks pembobotan corpus dengan SVD.

6. Reduksi dimensi dari hasil dekomposisi matriks SVD.

7. Menghitung query vector yang merupakan representasi dari LSI.

8. Mencari kemiripan antara corpus dan query dengan cosine similarity.

9. Pengurutan nilai cosine similarity secara descending order.

10. Pengambilan top-n teratas nilai cosine similarity hasil pengurutan.

11. Melakukan evaluasi dari hasil penelitian dengan Mean Average Precission

(MAP). Hasil yang relevan antara query dan corpus adalah yang memiliki label

emosi yang sama (Sari, Yuita Arum. 2012).

2.2.2 Flowchart

Perancangan flowchart atau diagram alir akan memudahkan pengembang untuk

mengimplementasikan sistem ke dalam bahasa pemrograman, karena akan menjelaskan

bagaimana cara kerja sistem dari awal hingga akhir.

Mulai

Daftar filterTerm dalam tipe data vektor

Proses pencocokan filterTerm[index]

(filterTerm[index] == token)

Cek rule

false

Index + 1 Kata kunci

(Term== kata kuncu)

Proses reduksiAwalan()

Proses reduksiAkhiran()

true

(Term==kata kunci)

Sudah melalukan proses reduksiAwalan()

Proses loopPengembalianA

khiran()

Cek apakah term merupakan kata ulang

Proses ambil sub kata disebelah

kanan dan kiri tanda “-“

Lakukan proses stemming pada dua

sub kata

Proses simpan term ke varianel stemTerm

(index > filterTerm.size()

Daftar stemTerm dalam tipe data vektor

selesai

Sama ?

Proses pengembalian kata

ulang sebelum proses stemming

true

true false

true

true

Recording?

( Term == kata kunci)

false

false

true

false

false

Gambar 2.2. Flowchart Stemming

Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764

6&lt=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac

https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=1432037646&lt=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac


Proses stemming dilakukan berdasarkan input daftar filterTerm, proses stemming

ini menggunakan algoritma Enhanced Confix Stripping Stemmer seperti yang

disebutkan pada analisa permasalahan sebelumnya. Langkah pertama pada algoritma

stemmer ini adalah mencocokkan term pada elemen di index tertentu dengan daftar

“kata dasar” dalam database kamus. Jika cocok maka term tersebut langsung disimpan

dalam variable stemTerm, jika tidak maka dilakukan pengecekan rulePrecedence yakni

larangan kombinasi awalan dan akhiran. Jika rulePrecedence mengembalikan nilai true

proses reduksiAwalan dilakukan dan selanjutnya melakukan pencocokan kembali

terhadap database kamus, jika benar term disimpan jika tidak lakukan proses recording

bila perlu. Proses reduksiAkhiran dan proses loopPengembalianAkhiran dilakukan jika

proses reduksiAwalan sudah dilakukan dan term yang bersangkutan tidak cocok dengan

database kamus. Jika semua proses itu tidak berhasil, maka term yang ada langsung

disimpan dalam variable dan dianggap sebagai sebuah kata dasar. Proses ini terus

berulang pada setiap elemen yang mengandung term di variable filterTerm hingga akhir

elemen variable ini. Gambar 2.2. memaparkan diagram alir dari proses stemming.

Berikut proses berjalannya sistem (Amelia. Rahayu, Dwi. 2013).

Gambar 2.3 Klasifikasi Emosi berdasarkan lirik lagu dengan Naïve Bayes dan Logika Fuzzy

Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764

6&lt=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac

Teks Lirik

Lagu dengan

Emosi

Klasifikasi Teks

Lirik Lagu

Berdasarkan Jenis

Emosi

Nilai Peluang

Teks Lirik Lagu

terhadap Emosi

Latent Semantic

Indexing (LSI)

Nilai

Parameter

Pengelompokk

an Emosi



BAB III

ANALISA DAN KESIMPULAN

3.1 Analisa

Berdasarkan refrensi jurnal yang saya baca pada (Sari, Yuita Arum. 2012) dan

(Amelia. Rahayu, Dwi. 2013) tentang cara menentukan emosi berdasarkan lirik lagu

dapat dianalisa sebagai berikut. Untuk menerapkan sistem digunakan lirik lagu

berbahasa Indonesia, sehingga dalam proses stemming dapat dengan mudah sistem

mengabaikan penggunaan bahasa Indonesia yang kurang resmi (bahasa gaul), dengan

demikian kata yang dihasilkan pada proses tokenizing semakin banyak dan

memudahkan pemrosesan kata yang akan dijadikan sebagai acuan untuk menentukan

emosi. Jika dimensi antara jumlah kata dan banyaknya lirik lagu semakin besar maka

waktu komputasi yang dihasilkan juga cukup lama. Maka dari itu pemanfaatan metode

SVD digunakan disini. Metode SVD digunakan pada proses reduksi dimensi karena

dapat mengurangi jumlah dimensi. Proses LSI menggunakan SVD juga digunakan

untuk mencari keterkaitan makna antar kata yang tersembunyi. Sehingga kata yang

tersembunyi dapat diolah dan dijadikan tambahan dalam melakukan proses pengolahan

kata. Proses matematis dalam SVD mampu menunjukkan hubungan semantik antar

kata. Pemilihan k-rank yang optimal tidak dapat ditentukan secara pasti karena

banyaknya jumlah kata dan dokumen yang berbeda akan memungkinkan untuk

menghasilkan k-rank optimal yang berbeda pula.

Frasa yang ditimbulkan pada lirik lagu juga dapat dimanfaatkan dalam proses

pembobotan sehingga makna dari frasa akan lebih baik dan menghasilkan presisi yang

cukup baik jika penggunaan frasa dilibatkan. Tetapi pada penerapannya sistem belum

dapat mengenali frasa secara baik, sistem ini belum bisa mengenali frasa yang terdiri

dari dua buah kata. Sehingga hasil dari sistem belum cukup akurat. Maka dari itu dapat

menyebabkan dimensi data tidak dapat diminimalkan, sehingga dibutuhkan

pemangkasan frekuensi kata sebelum proses pembobotan dilakukan.

3.2 Kesimpulan

Beberapa kesimpulan yang dapat diambil dari sistem penentuan emosi

berdasarkan lirik lagu menggunakan sistem temu kembali informasi dengan metode

latent semantic indexing (LSI) antara lain adalah:

1. Banyaknya jumlah kata yang terdapat dalam file lirik lagu berpengaruh dalam

proses pembobotan TF-IDF.

2. Penggunaan frasa dalam penentuan makna sangat berpengaruh. Penggunaan

frasa dapat diletakkan sebelum menghitung pembobotan dengan menggunakan

TF-IDF ternormalisasi.

DAFTAR PUSTAKA

((Sari, Yuita Arum. 2012) Sari, Yuita Arum. Achmad Ridok, Marji. 2012. Penentuan

Emosi berdasarkan lirik lagu Menggunakan Sistem Temu Kembali Informasi

dengan Metode Latent Semantic Indexing (LSI). Teknik Informatika, Institut

Teknologi Sepuluh Nopember (ITS), Surabaya Program Teknik Informatika dan

Ilmu Komputer, Universitas Brawijaya (UB), Malang.

http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_P

ENENTUAN_LIRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN

_SISTEM_TEMU_KEMBALI_INFORMASI_DENGAN_METODE_LATENT

_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf diakses

tanggal 4 Mei 2015

(Amelia. Rahayu, Dwi. 2013) Amelia. Rahayu, Dwi. 2013. Klasifikasi Emosi Pada

Lirik Lagu Dengan Metode Naïve Bayes Classifier (NBC) dan Logika Fuzzy.

Program Studi Teknik Informatika Program Teknologi Informasi dan Ilmu

Komputer. Universitas Brawijaya, Malang.

https://www.scribd.com/document_downloads/direct/241289319?extension=doc

&ft=1432037646&lt=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp

9jMuY0sb8ZTTeac diakses tanggal 18 Mei 2015








PENENTUAN EMOSI BERDASARKAN LIRIK LAGU … · mencari informasi yang relevan antara query dan...

Documents

Transcript of PENENTUAN EMOSI BERDASARKAN LIRIK LAGU … · mencari informasi yang relevan antara query dan...