Kesamaan dan Keterkaitan Semantik

Post on 15-Jan-2017

290 views 19 download

Transcript of Kesamaan dan Keterkaitan Semantik

1

Kesamaan dan keterkaitan semantik antar teks

Moch Arif BijaksanaTutorial di INACL, UIN Jkt

19 Mei 2016

2

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

3

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

4

Kesamaan dan keterkaitan semantik

• Kesamaan• Keterkaitan• Simetris, transitif• Pengertian kata (sense) • Interpretability

1. Kesamaan dan keterkaitan semantik

5

Kesamaan (similarity)

• Kesamaan = kemiripan ≈ keserupaan

1. Kesamaan dan keterkaitan semantik

resourceful-parenting.blogspot.com

6

Kesamaan1. Kesamaan dan keterkaitan semantik

7

Kesamaan (cont)1. Kesamaan dan keterkaitan semantik

8

Kesamaan (cont)

• Dari kesamaan tinggi hingga rendah– Sepeda (bike) – sepeda motor (motorbike)– Sepeda (bike) – mobil (car)– ...– Sepeda (bike) – helikopter (helicopter)– ...– Sepeda (bike) – polusi (pollution)

1. Kesamaan dan keterkaitan semantik

9

Kesamaan (cont)

• SimLex999

1. Kesamaan dan keterkaitan semantik

10

Keterkaitan (relatedness)1. Kesamaan dan keterkaitan semantik

11

Keterkaitan (cont)

• anak-anak – playground• rambut – shampo• mobil – bensin• kertas – printer• sepatu – kaki• ikan – air• Sopir – mobil• mulut (kata benda) – makan (kata kerja)

1. Kesamaan dan keterkaitan semantik

12

Kesamaan dan keterkaitan

• WordSim353, range skor 0-10– Keterkaitan tinggi, kesamaan rendah• soap - opera 7.94• law - lawyer 8.38• Maradona - football 8.62

– Kesamaan tinggi• midday - noon 9.03• journey - voyage 9.29• professor - cucumber 0.31

1. Kesamaan dan keterkaitan semantik

13

Kesamaan dan keterkaitan (cont)

• Istilah umum kesamaan dan keterkaitan: kedekatan/closeness (istilah yg blm populer). Yg kadang digunakan distance/jarak.

• Kesamaan merupakan bagian dari keterkaitan. • Sepasang kata yg sama/mirip pasti terkait erat.

1. Kesamaan dan keterkaitan semantik

14

Kesamaan dan keterkaitan (cont)

• Hubungan antar kata benda pada WordNet

• Kesamaan: hypernym & hyponym.Sumber: Stanford NLP course

1. Kesamaan dan keterkaitan semantik

Kesamaan dan keterkaitan (cont) • Contoh kesamaan yg lbh kompleks: kucing di

taman.

15

1. Kesamaan dan keterkaitan semantik

16

Kesamaan dan keterkaitan (cont)

• Contoh kesamaan teks yang lebih panjang: Persib menang melawan Bali United.– Persib Bandung Bungkam Bali United– Persib Rebut Kemenangan Pertama Usai Hajar Bali

United.– Tekuk Bali United, Persib Naik ke Posisi 3 Klasemen TSC

2016– Laporan Pertandingan: Persib Bandung 2–0 Bali United

FC.– Persib Bandung Raih Kemenangan atas Bali United.

1. Kesamaan dan keterkaitan semantik

17

Simetris

• rambut - shampoo = shampoo – rambut?– Shampoo is a hair care product, typically in the

form of a viscous liquid, that is used for cleaning hair. [wikipedia]

– Hair is a protein filament that grows from follicles found in the dermis, or skin [wikipedia]

• Unt kesamaan dan keterkaitan bisa asimetri.

1. Kesamaan dan keterkaitan semantik

18

Transitif

• sepeda motor - mobil: keterkaitan tinggi• mobil - sabuk pengaman: keterkaitan tinggi• sepeda motor - sabuk pengaman: keterkaitan

tinggi?

• Unt kesamaan dan keterkaitan bisa intransitif.

1. Kesamaan dan keterkaitan semantik

19

Simetris, transitif

• Contoh unt spatial (Goodwin, 2005)

• Unt penelitian kesamaan dan keterkaitan teks hingga saat ini, tdk memperhatikan kedua hal tsb.

1. Kesamaan dan keterkaitan semantik

20

Pengertian kata (word sense)

• Bat

1. Kesamaan dan keterkaitan semantik

21

Pengertian kata (cont)1. Kesamaan dan keterkaitan semantik

22

Pengertian kata (cont)

• Cat:

1. Kesamaan dan keterkaitan semantik

23

1. Kesamaan dan keterkaitan semantik

24

Pengertian kata (cont)

• Bat : kelelawar, pemukul, ....• Cat : kucing, ....

• Kesamaan(cat,bat)=?• Kesamaan(bat#n#1, bat#n#2)=?

• Mayoritas lexical gold standard tdk menuliskan sensenya.

1. Kesamaan dan keterkaitan semantik

25

Interpretability

• Disamping skor, dalam banyak hal perlu penjelasan tentang kesamaan dan keterkaitan antar sepadang teks.

• Salah satu rintisan di SemEval 2016. Contoh– 12 killed in bus accident in Pakistan dengan

10 killed in road accident in NW Pakistan

1. Kesamaan dan keterkaitan semantik

26

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

2. Jenis-jenis (granularity/panjang) teks

27

Granularity

• Kata, frase, term, leksikal, konsep, synset• Kalimat pendek• Teks lebih panjang: paragraf, dokumen pendek • Teks panjang: bab, dst

2. Jenis-jenis (granularity/panjang) teks

28

Granularity (cont)

• Dlm menghitung kedekatan semantik, unt teks pendek perlu bantuan informasi (background information) termasuk konsep semantik, (misal. info sinonim).

• Contoh, unt mengitung kesamaan antara– kuda dengan ikan, perlu info apa itu kuda dan ikan.– Persib Bandung Bungkam Bali United, dengan

Persib Bandung Raih Kemenangan atas Bali United.

2. Jenis-jenis (granularity/panjang) teks

29

Granularity (cont)

• Unt teks cukup panjang, misalnya artikel berita, informasi pada teks itu sendiri umumnya sdh cukup unt penghitungan kesamaan semantik.

2. Jenis-jenis (granularity/panjang) teks

30

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

31

Penerapan• Kesamaan dan keterkaitan semantik digunakan unt

berbagai jenis pemrosesan bahasa alami (NLP), al:– Pengelompokan/clustering teks. – Klasifikasi teks– Deteksi plagiat– Question answering– Pembangunan tesaurus– Peringkasan teks– Penilaian esai scr otomatis (automatic essay grading)> Kesamaan dan keterkaitan teks Al Qur’an

3. Penerapan

32

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

2. Proses penghitungan

33

Proses penghitungan

• Unt teks berupa konsep/leksikal, dpt dibedakan atas:– Memanfaatkan backgroud information resources

yang sdh disiapkan, khususnya lexical database (taksonomi, tesaurus, ontologi). Misalnya WordNet.

– Memanfaat korpus yang ada, misalnya basisdata artikel berita.

– Gabungan atas keduanya.• Unt teks pendek (kalimat pendek), salah satu

peran penting adalah pensejajaran/alignment.

34

WordNet

35

WordNet (cont)

36

Struktur pohon

• Menggunakan struktur pohon (is-a: hypernym hyponym)

• Path-based: kesamaan berbanding terbalik dengan panjang jalur

37

WordNet: Struktur pohon

38

WordNet: Struktur pohon (cont)

39

WordNet: Struktur pohon (cont)

• Relasi dlm WordNet (Miller, 1995)

40

Path-based

• Contoh: – car dan truck mempunyai kesamaan tinggi.

41

Path-based (cont)

– car dan bicycle lebih jauh shg kurang mirip dibandingkan car - truck

• wheeled_vehicle#n#1 < self-propelled_vehicle#n#1 < motor_vehicle#n#1 < car#n#1

• wheeled_vehicle#n#1 < bicycle#n#1

42

Path-based (cont)

• Kesamaan tandem vehicle-mountain bike lebih dekat dibandingkan dengan wheel vehicel-rocket.

Path-based: permasalahan

• Jarak hubungan dari konsep dengan hiponimnya tidak seragam.– Hiponim weapon lbh beragam

Path-based: permasalahan (cont)

Path-based: permasalahan (cont)Military vehicle Offroad car

Path-based: permasalahan (cont)Military vehicle Offroad car

Path-based: permasalahan (cont)Military vehicle Car

Permasalahan dg thesaurus-based

• Tidak setiap bahasa mempunyai tesaurus yg lengkap

• Jikapun ada, ada mempunyai permasalahan dg recall– Banyak kata, apalagi frase, yang belum ada– Hubungan antar kata, terutama antar POS blm lengkap

• Salah satu solusi dengan distributional similarity

49

Permasalahan dg thesaurus-based

• Ada kata (apalagi frase dan proper noun) yg tdk terdapat pada tesaurus; shg recall rendah. – Contoh di WordNet

• Ada: “day of judgment”, tidak ada: “the righteous” ([orang] yang bertakwa, قين (المت

• Di tesaurus spt WordNet hubungan antar POS tdk ada.– Misal: “dokter” (kb), dengan “mendiagnosa” (kk) tdk – Kata kerja, kata sifat, kata keterangan tdk mempunyai

taksonomi is-a.• Banyak bahasa, termasuk bahasa Indonesia yg blm

memiliki tesaurus yg lengkap.

50

Apa itu pendekatan distribusional?

• Input: – Korpus, misalnya korpus artikel berita.– Pasangan kata yang hendak diukur (w1, w2)– Unt pendekatan supervised learning: perlu data

latih berupa pasangan2 kata dan label kelasnya (misalnya sinonim/parafrase atau bukan).

• Output:– Skor atau kelas kedekatan

51

Distributional similarity

• Disebut juga “distributional model of meaning” atau “vector space model of meaning”.

52

Distributional similarity: Intuisi• Dari [ref]

A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.

• Apa itu tesgüino?• Dari konteks di atas, kita tebak bahwa tesgüino adalah

satu jenis minuman keras.• Dua benda (atau scr umum: konsep) mirip jika

mempunyai konteks yang mirip. Semakin mirip konteksnya, maka dua benda tsb semakin mirip.

53

Distributional similarity (cont)

• A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.

• A bottle of chicha is on the tableEverybody likes chichaChicha makes you drunkWe make chicha out of corn.

54

Distributional similarity

• A bottle of togwa is on the tableEverybody likes togwaWe make togwa out of corn.

55

Distributional similarity (cont)

• Zellig Harris (1954): “oculist (optometrist) dan dokter mata berada pada lingkungan yang hampir sama..”. Jika dua hal berada pada lingkungan yang sangat mirip, mereka dapat dikatakan sinonim.

• L. Wittgenstein (1953): “For a large class of cases — though not for all — in which we employ the word ‘meaning’ it can be defined thus: the meaning of a word is its use in the language “.

56

Distributional similarity (cont)

• Hipotesa distribusional: kata-kata yang berada pada konteks yang serupa mempunyai makna (secara semantik) sama.

57

Kelemahan pendekatan distribusional

• Presisi bisa lebih rendah (dibandingkan dengan pendekatan tesaurus). – Perlu

• Pengertian kata (word sense) harus ditanggulangi.

Mengapa perlu pendekatan distribusional?

58

Proses penghitungan pendekatan distribusional

• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks

– Penghitungan kedekatan (kesamaan, keterkaitan)• Proses bisa unsupervised atau supervised– Unsupervised lebih umum

59

Himpunan konteks

• Matriks /tabel kata-konteks– Analogi dengan matriks dokumen-fitur

60

• Kata sebagai sebuah vektor (vector semantics)

61

• Fitur disamping konteks ada kemungkinan ditambah jenis lain, misalnya kelas dokumen.

62

• Distributional models of meaning= vector-space models of meaning = vector semantics

63

Matriks kata-konteks

information storage clinical cancer ...

computation 2 1 0 0

algorithm 1 3 0 0

drug 0 0 2 3

tumor 0 0 3 1

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

• Dimensi bisa sangat tinggi (kosa kata untuk konteks sangat banyak)

• Matriks yang jarang (sparse matrix)

64

• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks

• Himpunan konteks/lingkungan, misal– Dokumen– Paragraf– Bbrp kata– Sintaktik

• Yang lebih populer sebagai konteks adalah kata.

65

Word context, concordance

66

Matriks kata-kata

information storage clinical cancer ...

computation

algorithm

drug

tumor

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

kata

kata (sbg konteks)

67

• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks

information storage clinical cancer ...

computation

algorithm

drug

tumor

68

Word context, concordance

69

• Bobot, al:– TF-IDF– Pointwise Mutual Information (PMI)

• PMI lebih populer dan dianggap lebih tepat krn berdasarkan co-occurrence antar kata.

70

word-word matrix

information storage clinical cancer ...

computation 2 1 0 0

algorithm 1 3 0 0

drug 0 0 2 3

tumor 0 0 3 1

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

71

Poinwise Mutual Information (PMI)

• Ada event x dan y. PMI menghitung tingkat seberapa lebih sering muncul bersama (co-occur) dibandingkan mereka muncul sendiri-sendiri (indepent).

• PMI antara dua kata w1 dan w2

72

Positive PMI

• PMI bisa bernilai -∞ hingga + ∞• Nilai PMI negatif, maka PMI = 0, krn nilai PMI

negatif mempunyai pengertian yg tdk jelas.

73

• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15

• P(computation,storage) = 1/15 = 0,067• P(computation) = 3/15 = 0,2• P (storage) = 4/15 = 0,267• PMI (computation,storage) = log2 (0,067 / (0,2 * 0,267) = 0,321

information storage clinical cancercomputation 2 1 0 0 3algorithm 1 3 0 0drug 0 0 2 3tumor 0 0 3 1

4 15

74

• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15

information storage clinical cancercomputation 0,321algorithmdrugtumor

75

Penghitungan kedekatan

• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks

– Penghitungan kedekatan (kesamaan, keterkaitan)• Penghitungan kedekatan antar dua vektor, yg

paling populer dg cosine similarity.

76

Cosine similarity

c1

c2

w1

w2

θ

1

1

77

Penghitungan kedekatan yg lain

• Antara lain,

78

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

Evaluasi

• Evaluasi intrinsik (in-vitro), dibandingkan dengan gold standard penilaian manusia.– Dilakukan dg menghitung korelasi (bila hasil skor) atau F1

(bila hasil kelas/kelompok).• Pearson (r): korelasi atas nilai skor.• Spearman (ρ): korelasi atas ranking.

– Zesch and Gurevych (2010) berpendapat Spearman lbh tepat krn Pearson punya kelemahan: sensitif thd outlier dan tdk tepat unt data non-linear.

• Evaluasi ekstrinsik (task-based, end-to-end, in-vivo), al:– WSD, Essay grading, TOEFL multiple-choice vocabulary tests.

• Unt spearman, nilai diganti dg ranking.

In-vitro (intrinsik) vs in-vivo (ekstrinsik)

Dataset

• Dataset kata bhs Inggris unt domain umum

Dataset (cont)

• Dataset kata bhs Inggris unt domain medis

• Dataset kata bhs Inggris unt domain keislaman

Similarity-relatedness?

• Dataset yang populer seperti WordSim353 menggunakan istilah “similarity”, meskipun banyak diantara bagian dataset tsb adalah relatedness.

• Demikian juga QurSim, yang utamanya merupakan pasangan keterkaitan ayat.

Contoh dataset

• Contoh pasangan kata keterangan Simlex999

Contoh dataset (cont)

• Contoh pasangan kata benda Simlex999

Contoh dataset (cont)

• Contoh pasangan kata kerja Simlex999

QurSim

• سر‌ابا فكانت الجبال ر‌ت وسيdan dijalankanlah gunung-gunung maka menjadi fatamorganalah ia. QS 78:20

• المنفوش كالعهن الجبال وتكونdan gunung-gunung adalah seperti bulu yang dihambur-hamburkan. QS 101:5

• Kedua ayat tentang gunung2 pada hari kiamat.

Hasil Evaluasi