PENENTUAN EMOSI BERDASARKAN LIRIK LAGU … · mencari informasi yang relevan antara query dan...
Transcript of PENENTUAN EMOSI BERDASARKAN LIRIK LAGU … · mencari informasi yang relevan antara query dan...
PENENTUAN EMOSI BERDASARKAN LIRIK LAGU MENGGUNAKAN
SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT
SEMANTIC INDEXING (LSI)
Oleh :
Nama: Hagi Semara Putra
NIM: 1204505094
Dosen : I Putu Agus Eka Pratama, ST. MT
JURUSAN TEKNOLOGI INFORMASI
FAKULTAS TEKNIK
UNIVERSITAS UDAYANA
2015
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa/ Ida Sang
Hyang Widhi Wasa karena atas berkat-Nya makalah ini dapat penulis selesaikan tepat
pada waktunya.
Di dalam penyusunan makalah ini, penulis merasa bahwa banyak hambatan
yang penulis hadapi. Namun, berkat bimbingan dan dukungan dari berbagai pihak,
hambatan-hambatan tersebut dapat penulis atasi sedikit demi sedikit. Untuk itu, penulis
mengucapkan terima kasih kepada :
1. I Putu Agus Eka Pratama, ST., MT. selaku Dosen Mata Kuliah Sistem Temu
Kembali Informasi
2. Serta semua pihak yang turut serta memberikan uluran tangan dan motivasi.
Penulis mohon maaf apabila terdapat kesalahan-kesalahan di dalam penulisan
karya tulis ini. Penulis harapkan makalah ini mempunyai manfaat bagi pihak yang
membaca makalah ini.
Bukit Jimbaran, Mei 2015
Penulis
Abstrak
Lagu dapat menentukan perasaan seseorang yang menyanyikannya, dari lagu
dapat di simpulkan seseorang tersebut mengalami suatu emosi yang sedang dirasakan.
Maka dari itu lirik lagu merupakan salah satu elemen yang paling berpengaruh dalam
menentukan emosi. Jika dibandingkan dengan elemen yang bersifat audio, representasi
makna yang menggambarkan emosi, tampak lebih kuat dalam lirik lagu. Fokus
penelitian ini terletak pada lirik lagu yang sifatnya berupa teks, dan dapat diselesaikan
dengan proses text mining. Paper ini menggunakan sistem temu kembali informasi yang
untuk menentukan lirik lagu dengan metode Latent Semantic Indexing (LSI). Teknik
dalam LSI mengadopsi proses matematis reduksi dimensi Singular Value
Decomposition (SVD). Walaupun dimensi data direduksi, proses tersebut tidak
mengganggu keterkaitan makna antara lirik lagu pada corpus dan query. Pada masing-
masing lirik lagu dalam corpus dan query, diberi label emosi secara otomatis yaitu, label
religius, sedih, marah, semangat, takut, dan cinta. Sistem akan menentukan relevansi
berdasarkan kecocokan label emosi antara query dan corpus.
Kata kunci : Information Retrieval, Latent Semantic Indexing, Singular Value
Decomposition, Stemming, Text Mining
BAB I
PENDAHULUAN
1.1 Latar Belakang
Sistem temu kembali informasi merupakan salah satu teknik pencarian untuk
mencari informasi yang relevan antara query dan corpus. Kasus yang paling sering
banyak diteliti dalam proses sistem temu kembali adalah teks. Lirik lagu merupakan
salah satu betuk teks yang dapat digunakan sebagai objek dalam penelitian sistem temu
kembali berdasarkan emosi. Dalam penentuan emosi, lirik lagu merupakan elemen yang
memiliki makna yang paling kuat dalam menggambarkan emosi. Pada sebuah dimensi
data yang besar, dibutuhkan reduksi dimensi untuk mengurangi adanya proses
komputasi. Penelitian dilakukan oleh Kleedorfer, Knees, dan Pohle (2008)
menggunakan proses reduksi dimensi matriks Nonnegative Matrix Factorization
(NMF), dan penelitian Samat, Murad, Abdullah dan Atan (2005) menggunakan metode
reduksi matriks Singular Value Decomposition (SVD) untuk proses clustering data.
Pada penelitian Peter, Shivapratap, Dyva, dan Soman (2009) melakukan analisis
terhadap evaluasi SVD dan NMF untuk proses Latent Semantic Analysis (LSA) dan
menyebutkan rata-rata nilai interpolated average precission SVD memiliki nilai lebih
tinggi dibanding dengan menggunakan NMF dan Vector Space Model (VSM). Proses
temu kembali dengan menggunakan konsep SVD disebut dengan LSI. Pada penelitian
ini, digunakan proses temu kembali LSI yang memanfaatkan reduksi dimensi SVD
dengan menggunakan obyek lirik lagu berbahasa Indonesia dan mengabaikan bahasa
yang sifatnya tidak resmi. Proses pengolahan yang pertama dilakukan adalah
menggunakan teknik preprocessing pada text mining yang merupakan salah satu cabang
ilmu dari Natural Language Processing (NLP). Dalam proses prepocessing, stemming
yang digunakan menggunakan algoritma Nazief-Andriani, karena stemming tersebut
mempunyai hasil kebenaran sekitar 93%. Hasil numerik dari proses pembobotan setelah
di-prepocessing diolah menggunakan Latent Semantic Indexing (LSI). Hasil dari sistem
ini untuk mengetahui akurasi dari LSI dalam proses penentuan emosi berdasarkan lirik
lagu (Sari, Yuita Arum. 2012).
1.2 Rumusan Masalah
Permasalahan yang ingin diambil dari latar belakang diatas adalah sebagai
berikut:
1. Bagaimana penggunaan metode Latent Semantic Indexing (LSI) pada proses
menentukan emosi berdasarkan lirik lagu?
2. Bagaimana mengenali jenis emosi dari teks lagu berbahasa Indonesia?
1.3 Solusi
Solusi yang dapat digunakan dalam penerapan sistem ini agar berjalan sesuai
yang diharapkan yaitu :
1. Menggunakan lirik lagu berbahasa Indonesia yang resmi, agar mudah dalam
menerapkan metode Latent Semantic Indexing (LSI).
2. Jumlah kata dan lirik lagu yang digunakan tidak terlalu banyak, sehingga waktu
komputasi yang dihasilkan lebih cepat untuk menentukan emosi menggunakan
lirik lagu berbahasa Indonesia yang resmi.
BAB II
TINJAUAN PUSTAKA
2.1. Proses Sistem Temu Kembali Informasi
Proses temu kembali teks yang lebih dikenal dengan nama text information
retrieval, merupakan sebuah teknik pencarian dengan menggunakan algoritma tertentu
untuk mendapatkan hasil pencarian yang relevan berdasarkan kumpulan (corpus)
informasi yang besar. Sebagian besar penggunaan sistem temu kembali adalah pada
teks. Pengguna memasukkan kata kunci berupa teks, dan kemudian sistem mengolahnya
hingga mendapatkan informasi semantik yang diinginkan oleh pengguna (Sari, Yuita
Arum. 2012).
2.1.1 Lirik Lagu dalam Menentukan Emosi
Lirik Lagu merupakan ekspresi seseorang tentang suatu hal yang sudah dilihat,
didengar maupun dialaminya.Dalam mengekspresikan pengalamannya, penyair atau
pencipta Lagu melakukan permainan kata-kata dan bahasa untuk menciptakan daya
tarik dan kekhasan terhadap lirik atau syairnya. Permainan bahasa ini dapat berupa
permainan vokal, gaya bahasa maupun penyimpangan makna kata dan diperkuat dengan
penggunaan melodi dan notasi musik yang disesuaikan dengan lirik lagunya sehingga
pendengar semakin terbawa dengan apa yang dipikirkan pengarangnya (Sari, Yuita
Arum. 2012).
Definisi lirik atau syair lagu dapat dianggap sebagai puisi begitu pula
sebaliknya. Hal serupa juga dikatakan oleh Jan van Luxemburg (1989) yaitu definisi
mengenai teks-teks puisi tidak hanya mencakup jenis-jenis sastra melainkan juga
ungkapan yang bersifat pepatah, pesan iklan, semboyan-semboyan politik, syair-syair
lagu pop dan doa-doa. Jika definisi lirik lagu dianggap sama dengan puisi, maka harus
diketahui apa yang dimaksud dengan puisi.
Lagu yang terbentuk dari hubungan antara unsur musik dengan unsur syair atau
lirik lagu merupakan salah satu bentuk komunikasi massa. Pada kondisi ini, lagu
sekaligus merupakan media penyampaian pesan oleh komunikator kepada komunikan
dalam jumlah yang besar melalui media massa.Pesan dapat memiliki berbagai macam
bentuk, baik lisan maupun tulisan. Lirik lagu memiliki bentuk pesan berupa tulisan
kata-kata dan kalimat yang dapat digunakan untukmenciptakan suasana dan gambaran
imajinasi tertentu kepada pendengarnya sehingga dapat pula menciptakan makna-makna
yang beragam.
Dalam fungsinya sebagai media komunikasi, lagu juga sering digunakan sebagai
sarana untuk mengajak bersimpati tentang realitas yang sedang terjadi maupun atas
cerita-cerita imajinatif. Dengan demikian lagu juga dapat digunakan untuk bebagai
tujuan, misalnya menyatukan perbedaan, pengobar semangat seperti pada masa
perjuangan, bahkan lagu dapat digunakan untuk memprovokasi atau sarana propaganda
untuk mendapatkan dukungan serta mempermainkan emosi dan perasaan seseorang
dengan tujuan menanamkan sikap atau nilai yangkemudian dapat dirasakan orang
sebagai hal yang wajar, benar dan tepat.
Propaganda melalui maupun tidak melalui lirik lagu tetap memiliki efek yang
kompleks. Contohnya Jika pesan dalam lirik lagu oleh propagandis diketengahkan
tentang ketidakadilan dan ketimpangan-ketimpangan sosial dansecara tidak langsung
menempatkan pemerintah sebagai pihak yang harusnya bertanggung jawab pada
keadaan itu, bukan tidak mungkin hanya melalui lagu , khalayak menjadi marah,
menuntut bahkan melawan pemerintah sebagai pihak yang bertanggungjawab dengan
berbagai bentuk.Oleh karena bahasa dalam hal ini kata-kata, khususnya yang digunakan
dalam lirik lagu tidak seperti bahasa sehari-hari dan memiliki sifat yang ambigu dan
penuh ekspresi ini menyebabkan bahasa cenderung untuk mempengaruhi, membujuk
dan pada akhirnya mengubah sikap pembaca.
Maka untuk menemukan makna dari pesan yang ada pada lirik lagu,
digunakanlah metode semiotika yang notabene merupakan bidang ilmu yang
mempelajari tentang sistim tanda. Mulai dari bagaimana tanda itu diartikan, dipengaruhi
oleh persepsi dan budaya, serta bagaimana tanda membantu manusia memaknai
keadaan sekitarnya. Tanda atau sign menurut Littlejohn adalah basis dari seluruh
komunikasi. Sedangkan yang disebut tanda dapatberupa gambar atau tulisan.
Kata Emosi berasal dari dua bahasa yaitu bahasa perancis emotion yang
berartikegembiraan dan dari bahasa latin emovere yang berarti bergerak menjauh.
Emosi adalah perasaan intens yang ditujukan kepada seseorang atau sesuatu dalam arti
lain emosi adalah reaksi terhadap seseorang atau kejadian.
Arti kata emosi diatas menyiratkan bahwa kecenderungan bertindak merupakan hal
yang mutlak dalam emosi.Kebanyakan ahli yakin bahwa emosi lebih cepat berlalu
daripada suasana hati.Emosi merupakan reaksi terhadap rangsangan dari luar dan dalam
diri individu.Emosi dapat ditunjukkan ketika merasa senang mengenai sesuatu, marah
kepada seseorang, ataupun takut terhadap sesuatu (Amelia. Rahayu, Dwi. 2013)
Beberapa tokoh mengemukakan tentang macam – macam emosi antara lain
Descrates, JB Waston dan Daniel Goleman.
Menurut Descrates, emosi terbagi atas :
1. Desire = hasrat
2. Hate = benci
3. Sorrow = sedih / duka
4. Wonder = heran
5. Love = cinta
6. Joy = kegembiraan
Menutur JB Waston, emosi terbagi menjadi tiga yaitu :
1. Fear = ketakutan
2. Rage = kemarahan
3. Love = cinta
Dan menurut Daniel Goleman, dia mengemukakan bahwa emosi terdiri dari :
1. Amarah = beringas, mengamuk, benci, jengkel, kesal hati
2. Kesedihan = pedih, sedih, muram, suram, melankolis, mengasihi diri, putus
asa
3. Rasa takut = cemas, gugup, khawatir, was-was, waspada, tidak tenang, ngeri
4. Kenikmatan = bahagia, gembira, riang, puas, riang, senang, terhibur, bangga
5. Cinta = penerimaan, persahabatan, kepercayaan, bakti, hormat,
kemesraan
6. Terkejut = terkesiap
7. Jengkel = hina, jijik, muak, mual, tidak suka
8. Malu = malu hati, kesal
Dari uraian beberapa tokoh diatas, dapat disimpulkan bahwa pengertian emosi
adalah suatu perasaan yang mendorong individu untuk merespon atau bertingkah laku
terhadap stimulus, baik yang berasal dari dalam maupun dari luar dirinya (Amelia.
Rahayu, Dwi. 2013)
2.1.2 Metode Penentuan Lirik
Metode yang digunakan pada penentuan emosi berdasarkan lirik lagu, berikut
merupakan penjabaran metode yang digunakan pada sistem.
2.1.2.1 Singular Value Decomposition (SVD)
Singular Value Decomposition (SVD) merupakan model matematis yang
digunakan untuk reduksi dimensi data.
Proses SVD dilakukan dengan mendekomposisi matriks menjadi tiga bagian, seperti
pada gambar 2.1.
Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L
IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM
ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf
Matriks U dan V adalah matriks othonormal, dimana baris pada matriks U
menggambarkan banyaknya baris pada matriks A, sementara kolom pada matriks V
menggambarkan banyaknya kolom pada matriks A. k-rank digunakan untuk mereduksi
dimensi dari matriks A. Matriks S merupakan matriks simetris yang berisi nilai positif di
sepanjang diagonal, daerah selain diagonal berisi 0 (Sari, Yuita Arum. 2012).
2.1.2.2 Latent Semantic Indexing (LSI)
Penggunaan SVD digunakan dalam LSI. LSI merupakan salah satu bentuk
teknik proses temu kembali dengan menggunakan Vector Space Model (VSM), untuk
menemukan informasi yang relevan. Keterkaitan makna di dalam LSI sifatnya
Gambar 2.1. Ilustrasi matriks SVD
tersembunyi. Fungsi matematis di dalam LSI mampu menemukan hubungan semantik
antar kata.
Representasi dari LSI adalah
𝒒′ = 𝒒𝑻. 𝑼𝒌. 𝑺−𝒌𝟏 (1)
dimana q’ adalah query vector representasi dari LSI, qT adalah transpose TDM dari
pembobotan ternormalisasi TFIDF query, Uk adalah reduksi dimensi k dari matriks U,
dan Sk1 adalah inverse dari reduksi dimensi k matriks S (Sari, Yuita Arum. 2012).
2.1.2.3 Vector Space Model (VSM)
VSM adalah cara konvensional yang biasa digunakan dalam proses temu
kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu
antara vektor dari corpus dan vektor dari query. Penghitungan kemiripan
dihitungdengan menggunakan rumus cosine similarity.
(2)
Dari persamaan 6 nilai q merupakan nilai matriks hasil query SVD. d merupakan
nilai dari matriks V, dimana nilai dimensi dari matriks V merupakan hasil input k sesuai
dengan nilai reduksi dengan k ≤ min(m x n), dimana m adalah banyaknya kata-kata dan
n adalah banyaknya dokumen lirik (Sari, Yuita Arum. 2012).
2.1.3 Teknik Pembobotan
Teknik pembobotan digunakan untuk mengumpulkan data yang berupa teks
yang kemudian digunakan untuk proses pengolahan teks menjadi bobot yang mudah
diolah oleh sistem. Berikut merupakan teknik pembobotan yang digunakan pada sistem.
2.1.3.1 Pembobotan TF-IDF Ternormalisasi
Terdapat tiga cara untuk menghitung nilai term frequency (TF), yaitu dengan
menghitung frekuensi sebagai bobot, menghitung peluang kemunculan sebagai bobot
(TF tanpa ternormalisasi), dan menghitung logaritma dari banyaknya kemunculan term
(TF ternormalisasi). Dari ketiga fungsi tersebut, menurut Garcia, TF dengan normalisasi
menghasilkan nilai pembobotan yang baik, karena dapat mengurangi efek panjang dari
dokumen. TF ternormalisasi dihitung sebagai berikut:
(3)
dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j,
max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Untuk normalisasi frekuensi
dalam query diberikan rumus :
(4)
dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j,
dan max tfi,j adalah frekuensi maksimum kata i pada dokumen j. Sehingga, pembobotan
TF-IDF pada kata i dan dokumen j dapat ditulis sebagai berikut :
(5)
dimana Wi,j adalah bobot kata i pada dokumen j , fi,j adalah frekuensi ternormalisasi, tfi,j
adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi maksimum kata i
pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen
dalam corpus, dan dfi adalah banyaknya dokumen yang mengandung kata i.
Pembobotan tersebut digunakan untuk pembobotan pada corpus. Pembobotan
pada query dapat ditulis sebagai berikut :
(6)
dimana Wi,j adalah bobot kata i pada dokumen j, fi,j adalah frekuensi
ternormalisasi, tfi,j adalah frekuensi kata i pada dokumen j, max tfi,j adalah frekuensi
maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/
banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang
mengandung kata i (Sari, Yuita Arum. 2012).
2.1.3.2 Text Mining
Teknik text mining merupakan sebuah teknik dimana data yang berupa teks
dikumpulkan dan diolah, untuk dapat diidentifikasi dengan pola-pola tertentu. Proses
text mining termasuk dalam salah satu bidang Natural Language Processing (NLP),
karena di dalam text mining, teks akan diolah sehingga dapat dikomputasi dan dapat
menghasilkan informasi yang relevan satu dengan yang lainnya. Pengolahan dalam teks
mining tahap awal dikenal dengan nama preprocessing. Teknik yang terdapat dalam
preprocessing yaitu case folding, stopword removal, tokenizing, dan stemming. Case
foding merupakan proses untuk membuat semua teks menjadi pola yang seragam
(uppercase atau lowercase). Stopword removal menghilangkan kata-kata yang dianggap
tidak mempunyai kata penting. Tokenizing atau teknik parsing digunakan untuk
memecah kalimat menjadi kata-kata. Selanjutnya, katakata tersebut diolah sehingga
hanya didapatkan kata-dasar saja. Teknik tersebut dinamakan dengan stemming.
Stemming yang digunakan pada penelitian ini adalah algoritma Nazief-Andriani (Sari,
Yuita Arum. 2012).
2.1.3.3 Stemming
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah
kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan
(prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran
(confixes) pada kata turunan. Imbuhan pada Bahasa Indonesia lebih kompleks bila
dibandingkan dengan imbuhan pada Bahasa Inggris karena imbuhan pada Bahasa
Indonesia terdiri dari awalan, sisipan, akhiran bentuk perulangan, serta kombinasi dari
awalan dan akhiran. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan
untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya. Salah satu masalah
yang ada adalah perbedaan tipe dari imbuhan-imbuhan, yang lain adalah bahwa awalan
dapat berubah tergantung dari huruf pertama pada kata dasar. Sebagai contoh ”me-”
dapat berubah menj adi ”mem-” ketika huruf pertama dari kata dasar tersebut adalah
”b”, misalnya ”membuat”, tetapi ”me-” juga dapat berubah menj adi ”meny-” ketika
huruf pertama dari kata dasar melekat adalah ”s”, misalnya ”menyapu” (Amelia.
Rahayu, Dwi. 2013)
Ada beberapa teknik pendekatan untuk melakukan stemming untuk teks
berbahasa Indonesia, yaitu :
1. Nazief and Andriani’s Algorithm
Algoritma ini berdasarkan pada aturan morfologi bahasa Indonesiayang luas dan
dikumpulkan menjadi satu grup serta dienkapsulasi pada imbuhan yang diperbolehkan
dan imbuhan yang tidak diperbolehkan.
Langkah-langkah Nazief and Andriani’s Algorithm :
a. Kata yang belum di stemming dicari pada kamus. Jika ditemukan, berarti kata
tersebut merupakan kata dasar sehingga kata tersebut dikembalikan dan
algoritma dihentikan.
b. Hilangkan Inflectional suffixes terlebih dahulu. Jika berhasil dan suffix adalah
partikel (“lah” atau “kah”), langkah ini dilakukan lagi untuk menghilangkan
Inflectional possessive pronoun suffixes (“ku”, “mu” atau “nya”)
c. Derivational suffix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek
apakah masih ada Derivational suffix yang tersisa, jika ada maka dihilangkan.
Jika tidak ada maka lakukan langkah selanjutnya.
d. Derivational prefix kemudian dihilangkan. Langkah dilanjutkan untuk mengecek
apakah masih ada Derivational prefix yang tersisa, jika ada maka dihilangkan.
Jika tidak ada maka lakukan langkah selanjutnya.
e. Setelah tidak ada lagi imbuhan yang tersisa, algoritma dihentikan dan kata dasar
dicari pada kamus, jika kata dasar tersebut ditemukan berarti algoritma ini
berhasil tetapi jika tidak ketemu, maka dilakukan recoding.
f. Jika semua langkah telah dilakukan tetapi kata dasar tersebut tidak ditemukan
pada kamus juga maka algoritma ini mengembalikan kata yang asli sebelum
dilakukan stemming.
2. Arifin and Setiono’s Algorithm
Arifin and Setiono mengajukan skema algoritma yang sedikit lebih sederhana
dibandingkan Nazief and Adriani, tetapi terdapat kesamaan di antara kedua algoritma
tersebut yaitu menggunakan kamus dan menyediakan fungsi recoding.
Langkah-langkah penghilangan imbuhan-imbuhan yang diterapkan pada
algoritma ini adalah dengan menghilangkan awalan (prefix) terlebih dahulu baru
kemudian menghilangkan akhiran (suffix) pada kata turunan yang akan dilakukan
stemming. Jika kata turunan yang sudah dilakukan proses stemming telah berhasil
dilakukan, namun tidak dapat ditemukan kata dasarnya pada kamus maka semua
imbuhan yang telah dihilangkan tadi dikembalikan untuk kemudian dikombinasikan
dengan kata hasil stemming tadi guna mengurangi terjadinya overstemming.
Keuntungan Arifin and Setiono’s Algorithm adalah jika kata dasar dari sebuah
kata turunan tidak dapat ditemukan setelah menghilangkan awalan dan akhirannya maka
algoritma ini akan mencoba mengembalikan semua imbuhan yang telah dihilangkan tadi
untuk dikombinasikan dengan kata hasil stemming dari kata turunan yang kata dasarnya
tidak ditemukan pada kamus (Amelia. Rahayu, Dwi. 2013)
2.1.3.3 Term Weighting (Pemberian bobot terhadap term)
Setiap term diberikan bobot sesuai dengan model pembobotan yang dipilih,
apakah pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi yang
menerapkan pembobotan kombinasi berupa perkalian bobot local term frequency dan
global inverse document frequency (Amelia. Rahayu, Dwi. 2013).
2.1.3.4 Inverted Index
Inverted Index merupakan struktur data berbentuk matriks, yang digunakan
untuk mempermudah dalam merepresentasikan banyaknya kata yang muncul dalam
dokumen teks.
Tabel 1. Contoh penerapan inverted index
Sumber:http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_PENENTUAN_L
IRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN_SISTEM_TEMU_KEMBALI_INFORM
ASI_DENGAN_METODE_LATENT_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf
2.1.4 Pemrosesan Teks
Teks merupakan deretan karakter yang bisa direkam ke dalam suatu
file/berkas/arsip.Pemrosesan Teks adalah suatu proses pengubahan bentuk data yang
belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan pengguna
untuk proses mining yang lebih lanjut (Amelia. Rahayu, Dwi. 2013).
Pemrosesan teks mencakup:
1. Information retrieval : tindakan, metode dan prosedur yang dilakukan untuk
menemukan kembali data yang tersimpan untuk menyediakan informasi
mengenai subyek yang dibutuhkan.
2. Klasifikasi dokumen : membagi dokumen ke dalam kelas-kelas yang telah
ditentukan sebelumnya.
3. Document Clustering : mirip dengan klasifikasi dokumen, hanya saja kelas
dokumen tidak ditentukan sebelumnya.
4. Peringkasan teks : Menghasilkan ringkasan suatu dokumen secara otomatis.
5. Ekstraksi informasi : Mengekstrak informasi yang dianggap penting dari suatu
dokumen.
Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai
indeks yang nantinya digunakan untuk membuat pemodelan Temu Kembali Informasi
(Amelia. Rahayu, Dwi. 2013).
2.1.5 Tipe Evaluasi
Precision, recall, dan F-Measure merupakan kumpulan evaluasi untuk
mengetahui keakuratan sistem temu kembali secara unranked retrieval, atau dengan
pengembalian dokumen tanpa perangkingan. Tipe evaluasi yang digunakan untuk
mengevaluasi sistem temu kembali dengan ranked retrieval pada penelitian ini
digunakan Mean Average Precission (MAP). Dalam konteks sistem temu kembali,
dokumen yang dikembalikan dengan memasukkan top-k dokumen yang retrieved.
Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang
relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan.
Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang
retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak
relevan nilainya adalah 0. Rumus dari Mean Average Precission adalah sebagai berikut:
(7)
dimana nilai Q merupakan kumpulan query atau menyatakan banyaknya query
yang diinputkan qj € Q {d1,……dmj} dan Rjk adalah nilai precission dari kumpulan file
lirik lagu retrieved dan relevan yang telah diranking. Nilai MAP mempunyai rentang
nilai 0 sampai 1, dan dalam sebuah sistem dikatakan baik jika nilai MAP mendekati 1
(Sari, Yuita Arum. 2012).
2.2 Desain Sistem
Perancangan desain sistem penentuan emosi berdasarkan lirik lagu
menggunakan sistem temu kembali informasi dengan metode latent semantic indexing
(LSI) menggunakan flowchart berikut.
2.2.1 Metode Penelitian
Kumpulan lirik lagu bahasa Indonesia didapatkan dari berbagai sumber yang ada
di internet dan kemudian ditentukan emosi-emosi apa saja yang terdapat di dalam
sebuah lirik lagu. Label emosi yang digunakan diantaranya religius, sedih, marah,
semangat, takut, dan cinta.
Penelitian dilakukan melalui langkahlangkah sebagai berikut:
1. Mengumpulkan lirik lagu berbahasa Indonesia. Kumpulan lirik lagu tersebut
disebut sebagai corpus. Inputan sistem terdiri atas corpus dan query yang berupa
lirik.
2. Preprocessing file corpus dan query.
3. Membentuk struktur data inverted index pada corpus.
4. Membentuk matriks pembobotan TF IDF ternormalisasi pada corpus dan query.
5. Mendekomposisi matriks pembobotan corpus dengan SVD.
6. Reduksi dimensi dari hasil dekomposisi matriks SVD.
7. Menghitung query vector yang merupakan representasi dari LSI.
8. Mencari kemiripan antara corpus dan query dengan cosine similarity.
9. Pengurutan nilai cosine similarity secara descending order.
10. Pengambilan top-n teratas nilai cosine similarity hasil pengurutan.
11. Melakukan evaluasi dari hasil penelitian dengan Mean Average Precission
(MAP). Hasil yang relevan antara query dan corpus adalah yang memiliki label
emosi yang sama (Sari, Yuita Arum. 2012).
2.2.2 Flowchart
Perancangan flowchart atau diagram alir akan memudahkan pengembang untuk
mengimplementasikan sistem ke dalam bahasa pemrograman, karena akan menjelaskan
bagaimana cara kerja sistem dari awal hingga akhir.
Mulai
Daftar filterTerm dalam tipe data vektor
Proses pencocokan filterTerm[index]
(filterTerm[index] == token)
Cek rule
false
Index + 1 Kata kunci
(Term== kata kuncu)
Proses reduksiAwalan()
Proses reduksiAkhiran()
true
(Term==kata kunci)
Sudah melalukan proses reduksiAwalan()
Proses loopPengembalianA
khiran()
Cek apakah term merupakan kata ulang
Proses ambil sub kata disebelah
kanan dan kiri tanda “-“
Lakukan proses stemming pada dua
sub kata
Proses simpan term ke varianel stemTerm
(index > filterTerm.size()
Daftar stemTerm dalam tipe data vektor
selesai
Sama ?
Proses pengembalian kata
ulang sebelum proses stemming
true
true false
true
true
Recording?
( Term == kata kunci)
false
false
true
false
false
Gambar 2.2. Flowchart Stemming
Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764
6<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac
Proses stemming dilakukan berdasarkan input daftar filterTerm, proses stemming
ini menggunakan algoritma Enhanced Confix Stripping Stemmer seperti yang
disebutkan pada analisa permasalahan sebelumnya. Langkah pertama pada algoritma
stemmer ini adalah mencocokkan term pada elemen di index tertentu dengan daftar
“kata dasar” dalam database kamus. Jika cocok maka term tersebut langsung disimpan
dalam variable stemTerm, jika tidak maka dilakukan pengecekan rulePrecedence yakni
larangan kombinasi awalan dan akhiran. Jika rulePrecedence mengembalikan nilai true
proses reduksiAwalan dilakukan dan selanjutnya melakukan pencocokan kembali
terhadap database kamus, jika benar term disimpan jika tidak lakukan proses recording
bila perlu. Proses reduksiAkhiran dan proses loopPengembalianAkhiran dilakukan jika
proses reduksiAwalan sudah dilakukan dan term yang bersangkutan tidak cocok dengan
database kamus. Jika semua proses itu tidak berhasil, maka term yang ada langsung
disimpan dalam variable dan dianggap sebagai sebuah kata dasar. Proses ini terus
berulang pada setiap elemen yang mengandung term di variable filterTerm hingga akhir
elemen variable ini. Gambar 2.2. memaparkan diagram alir dari proses stemming.
Berikut proses berjalannya sistem (Amelia. Rahayu, Dwi. 2013).
Gambar 2.3 Klasifikasi Emosi berdasarkan lirik lagu dengan Naïve Bayes dan Logika Fuzzy
Sumber:https://www.scribd.com/document_downloads/direct/241289319?extension=doc&ft=143203764
6<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp9jMuY0sb8ZTTeac
Teks Lirik
Lagu dengan
Emosi
Klasifikasi Teks
Lirik Lagu
Berdasarkan Jenis
Emosi
Nilai Peluang
Teks Lirik Lagu
terhadap Emosi
Latent Semantic
Indexing (LSI)
Nilai
Parameter
Pengelompokk
an Emosi
BAB III
ANALISA DAN KESIMPULAN
3.1 Analisa
Berdasarkan refrensi jurnal yang saya baca pada (Sari, Yuita Arum. 2012) dan
(Amelia. Rahayu, Dwi. 2013) tentang cara menentukan emosi berdasarkan lirik lagu
dapat dianalisa sebagai berikut. Untuk menerapkan sistem digunakan lirik lagu
berbahasa Indonesia, sehingga dalam proses stemming dapat dengan mudah sistem
mengabaikan penggunaan bahasa Indonesia yang kurang resmi (bahasa gaul), dengan
demikian kata yang dihasilkan pada proses tokenizing semakin banyak dan
memudahkan pemrosesan kata yang akan dijadikan sebagai acuan untuk menentukan
emosi. Jika dimensi antara jumlah kata dan banyaknya lirik lagu semakin besar maka
waktu komputasi yang dihasilkan juga cukup lama. Maka dari itu pemanfaatan metode
SVD digunakan disini. Metode SVD digunakan pada proses reduksi dimensi karena
dapat mengurangi jumlah dimensi. Proses LSI menggunakan SVD juga digunakan
untuk mencari keterkaitan makna antar kata yang tersembunyi. Sehingga kata yang
tersembunyi dapat diolah dan dijadikan tambahan dalam melakukan proses pengolahan
kata. Proses matematis dalam SVD mampu menunjukkan hubungan semantik antar
kata. Pemilihan k-rank yang optimal tidak dapat ditentukan secara pasti karena
banyaknya jumlah kata dan dokumen yang berbeda akan memungkinkan untuk
menghasilkan k-rank optimal yang berbeda pula.
Frasa yang ditimbulkan pada lirik lagu juga dapat dimanfaatkan dalam proses
pembobotan sehingga makna dari frasa akan lebih baik dan menghasilkan presisi yang
cukup baik jika penggunaan frasa dilibatkan. Tetapi pada penerapannya sistem belum
dapat mengenali frasa secara baik, sistem ini belum bisa mengenali frasa yang terdiri
dari dua buah kata. Sehingga hasil dari sistem belum cukup akurat. Maka dari itu dapat
menyebabkan dimensi data tidak dapat diminimalkan, sehingga dibutuhkan
pemangkasan frekuensi kata sebelum proses pembobotan dilakukan.
3.2 Kesimpulan
Beberapa kesimpulan yang dapat diambil dari sistem penentuan emosi
berdasarkan lirik lagu menggunakan sistem temu kembali informasi dengan metode
latent semantic indexing (LSI) antara lain adalah:
1. Banyaknya jumlah kata yang terdapat dalam file lirik lagu berpengaruh dalam
proses pembobotan TF-IDF.
2. Penggunaan frasa dalam penentuan makna sangat berpengaruh. Penggunaan
frasa dapat diletakkan sebelum menghitung pembobotan dengan menggunakan
TF-IDF ternormalisasi.
DAFTAR PUSTAKA
((Sari, Yuita Arum. 2012) Sari, Yuita Arum. Achmad Ridok, Marji. 2012. Penentuan
Emosi berdasarkan lirik lagu Menggunakan Sistem Temu Kembali Informasi
dengan Metode Latent Semantic Indexing (LSI). Teknik Informatika, Institut
Teknologi Sepuluh Nopember (ITS), Surabaya Program Teknik Informatika dan
Ilmu Komputer, Universitas Brawijaya (UB), Malang.
http://www.researchgate.net/profile/Yuita_Arum_Sari/publication/258613287_P
ENENTUAN_LIRIK_LAGU_BERDASARKAN_EMOSI_MENGGUNAKAN
_SISTEM_TEMU_KEMBALI_INFORMASI_DENGAN_METODE_LATENT
_SEMANTIC_INDEXING/links/0deec52d0b538ea46e000000.pdf diakses
tanggal 4 Mei 2015
(Amelia. Rahayu, Dwi. 2013) Amelia. Rahayu, Dwi. 2013. Klasifikasi Emosi Pada
Lirik Lagu Dengan Metode Naïve Bayes Classifier (NBC) dan Logika Fuzzy.
Program Studi Teknik Informatika Program Teknologi Informasi dan Ilmu
Komputer. Universitas Brawijaya, Malang.
https://www.scribd.com/document_downloads/direct/241289319?extension=doc
&ft=1432037646<=1432041256&user_id=217809457&uahk=c2Sy4bLokDxp
9jMuY0sb8ZTTeac diakses tanggal 18 Mei 2015