Kesamaan dan Keterkaitan Semantik

89

Click here to load reader

Transcript of Kesamaan dan Keterkaitan Semantik

Page 1: Kesamaan dan Keterkaitan Semantik

1

Kesamaan dan keterkaitan semantik antar teks

Moch Arif BijaksanaTutorial di INACL, UIN Jkt

19 Mei 2016

Page 2: Kesamaan dan Keterkaitan Semantik

2

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

Page 3: Kesamaan dan Keterkaitan Semantik

3

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

Page 4: Kesamaan dan Keterkaitan Semantik

4

Kesamaan dan keterkaitan semantik

• Kesamaan• Keterkaitan• Simetris, transitif• Pengertian kata (sense) • Interpretability

1. Kesamaan dan keterkaitan semantik

Page 5: Kesamaan dan Keterkaitan Semantik

5

Kesamaan (similarity)

• Kesamaan = kemiripan ≈ keserupaan

1. Kesamaan dan keterkaitan semantik

resourceful-parenting.blogspot.com

Page 6: Kesamaan dan Keterkaitan Semantik

6

Kesamaan1. Kesamaan dan keterkaitan semantik

Page 7: Kesamaan dan Keterkaitan Semantik

7

Kesamaan (cont)1. Kesamaan dan keterkaitan semantik

Page 8: Kesamaan dan Keterkaitan Semantik

8

Kesamaan (cont)

• Dari kesamaan tinggi hingga rendah– Sepeda (bike) – sepeda motor (motorbike)– Sepeda (bike) – mobil (car)– ...– Sepeda (bike) – helikopter (helicopter)– ...– Sepeda (bike) – polusi (pollution)

1. Kesamaan dan keterkaitan semantik

Page 9: Kesamaan dan Keterkaitan Semantik

9

Kesamaan (cont)

• SimLex999

1. Kesamaan dan keterkaitan semantik

Page 10: Kesamaan dan Keterkaitan Semantik

10

Keterkaitan (relatedness)1. Kesamaan dan keterkaitan semantik

Page 11: Kesamaan dan Keterkaitan Semantik

11

Keterkaitan (cont)

• anak-anak – playground• rambut – shampo• mobil – bensin• kertas – printer• sepatu – kaki• ikan – air• Sopir – mobil• mulut (kata benda) – makan (kata kerja)

1. Kesamaan dan keterkaitan semantik

Page 12: Kesamaan dan Keterkaitan Semantik

12

Kesamaan dan keterkaitan

• WordSim353, range skor 0-10– Keterkaitan tinggi, kesamaan rendah• soap - opera 7.94• law - lawyer 8.38• Maradona - football 8.62

– Kesamaan tinggi• midday - noon 9.03• journey - voyage 9.29• professor - cucumber 0.31

1. Kesamaan dan keterkaitan semantik

Page 13: Kesamaan dan Keterkaitan Semantik

13

Kesamaan dan keterkaitan (cont)

• Istilah umum kesamaan dan keterkaitan: kedekatan/closeness (istilah yg blm populer). Yg kadang digunakan distance/jarak.

• Kesamaan merupakan bagian dari keterkaitan. • Sepasang kata yg sama/mirip pasti terkait erat.

1. Kesamaan dan keterkaitan semantik

Page 14: Kesamaan dan Keterkaitan Semantik

14

Kesamaan dan keterkaitan (cont)

• Hubungan antar kata benda pada WordNet

• Kesamaan: hypernym & hyponym.Sumber: Stanford NLP course

1. Kesamaan dan keterkaitan semantik

Page 15: Kesamaan dan Keterkaitan Semantik

Kesamaan dan keterkaitan (cont) • Contoh kesamaan yg lbh kompleks: kucing di

taman.

15

1. Kesamaan dan keterkaitan semantik

Page 16: Kesamaan dan Keterkaitan Semantik

16

Kesamaan dan keterkaitan (cont)

• Contoh kesamaan teks yang lebih panjang: Persib menang melawan Bali United.– Persib Bandung Bungkam Bali United– Persib Rebut Kemenangan Pertama Usai Hajar Bali

United.– Tekuk Bali United, Persib Naik ke Posisi 3 Klasemen TSC

2016– Laporan Pertandingan: Persib Bandung 2–0 Bali United

FC.– Persib Bandung Raih Kemenangan atas Bali United.

1. Kesamaan dan keterkaitan semantik

Page 17: Kesamaan dan Keterkaitan Semantik

17

Simetris

• rambut - shampoo = shampoo – rambut?– Shampoo is a hair care product, typically in the

form of a viscous liquid, that is used for cleaning hair. [wikipedia]

– Hair is a protein filament that grows from follicles found in the dermis, or skin [wikipedia]

• Unt kesamaan dan keterkaitan bisa asimetri.

1. Kesamaan dan keterkaitan semantik

Page 18: Kesamaan dan Keterkaitan Semantik

18

Transitif

• sepeda motor - mobil: keterkaitan tinggi• mobil - sabuk pengaman: keterkaitan tinggi• sepeda motor - sabuk pengaman: keterkaitan

tinggi?

• Unt kesamaan dan keterkaitan bisa intransitif.

1. Kesamaan dan keterkaitan semantik

Page 19: Kesamaan dan Keterkaitan Semantik

19

Simetris, transitif

• Contoh unt spatial (Goodwin, 2005)

• Unt penelitian kesamaan dan keterkaitan teks hingga saat ini, tdk memperhatikan kedua hal tsb.

1. Kesamaan dan keterkaitan semantik

Page 20: Kesamaan dan Keterkaitan Semantik

20

Pengertian kata (word sense)

• Bat

1. Kesamaan dan keterkaitan semantik

Page 21: Kesamaan dan Keterkaitan Semantik

21

Pengertian kata (cont)1. Kesamaan dan keterkaitan semantik

Page 22: Kesamaan dan Keterkaitan Semantik

22

Pengertian kata (cont)

• Cat:

1. Kesamaan dan keterkaitan semantik

Page 23: Kesamaan dan Keterkaitan Semantik

23

1. Kesamaan dan keterkaitan semantik

Page 24: Kesamaan dan Keterkaitan Semantik

24

Pengertian kata (cont)

• Bat : kelelawar, pemukul, ....• Cat : kucing, ....

• Kesamaan(cat,bat)=?• Kesamaan(bat#n#1, bat#n#2)=?

• Mayoritas lexical gold standard tdk menuliskan sensenya.

1. Kesamaan dan keterkaitan semantik

Page 25: Kesamaan dan Keterkaitan Semantik

25

Interpretability

• Disamping skor, dalam banyak hal perlu penjelasan tentang kesamaan dan keterkaitan antar sepadang teks.

• Salah satu rintisan di SemEval 2016. Contoh– 12 killed in bus accident in Pakistan dengan

10 killed in road accident in NW Pakistan

1. Kesamaan dan keterkaitan semantik

Page 26: Kesamaan dan Keterkaitan Semantik

26

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

2. Jenis-jenis (granularity/panjang) teks

Page 27: Kesamaan dan Keterkaitan Semantik

27

Granularity

• Kata, frase, term, leksikal, konsep, synset• Kalimat pendek• Teks lebih panjang: paragraf, dokumen pendek • Teks panjang: bab, dst

2. Jenis-jenis (granularity/panjang) teks

Page 28: Kesamaan dan Keterkaitan Semantik

28

Granularity (cont)

• Dlm menghitung kedekatan semantik, unt teks pendek perlu bantuan informasi (background information) termasuk konsep semantik, (misal. info sinonim).

• Contoh, unt mengitung kesamaan antara– kuda dengan ikan, perlu info apa itu kuda dan ikan.– Persib Bandung Bungkam Bali United, dengan

Persib Bandung Raih Kemenangan atas Bali United.

2. Jenis-jenis (granularity/panjang) teks

Page 29: Kesamaan dan Keterkaitan Semantik

29

Granularity (cont)

• Unt teks cukup panjang, misalnya artikel berita, informasi pada teks itu sendiri umumnya sdh cukup unt penghitungan kesamaan semantik.

2. Jenis-jenis (granularity/panjang) teks

Page 30: Kesamaan dan Keterkaitan Semantik

30

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

Page 31: Kesamaan dan Keterkaitan Semantik

31

Penerapan• Kesamaan dan keterkaitan semantik digunakan unt

berbagai jenis pemrosesan bahasa alami (NLP), al:– Pengelompokan/clustering teks. – Klasifikasi teks– Deteksi plagiat– Question answering– Pembangunan tesaurus– Peringkasan teks– Penilaian esai scr otomatis (automatic essay grading)> Kesamaan dan keterkaitan teks Al Qur’an

3. Penerapan

Page 32: Kesamaan dan Keterkaitan Semantik

32

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

2. Proses penghitungan

Page 33: Kesamaan dan Keterkaitan Semantik

33

Proses penghitungan

• Unt teks berupa konsep/leksikal, dpt dibedakan atas:– Memanfaatkan backgroud information resources

yang sdh disiapkan, khususnya lexical database (taksonomi, tesaurus, ontologi). Misalnya WordNet.

– Memanfaat korpus yang ada, misalnya basisdata artikel berita.

– Gabungan atas keduanya.• Unt teks pendek (kalimat pendek), salah satu

peran penting adalah pensejajaran/alignment.

Page 34: Kesamaan dan Keterkaitan Semantik

34

WordNet

Page 35: Kesamaan dan Keterkaitan Semantik

35

WordNet (cont)

Page 36: Kesamaan dan Keterkaitan Semantik

36

Struktur pohon

• Menggunakan struktur pohon (is-a: hypernym hyponym)

• Path-based: kesamaan berbanding terbalik dengan panjang jalur

Page 37: Kesamaan dan Keterkaitan Semantik

37

WordNet: Struktur pohon

Page 38: Kesamaan dan Keterkaitan Semantik

38

WordNet: Struktur pohon (cont)

Page 39: Kesamaan dan Keterkaitan Semantik

39

WordNet: Struktur pohon (cont)

• Relasi dlm WordNet (Miller, 1995)

Page 40: Kesamaan dan Keterkaitan Semantik

40

Path-based

• Contoh: – car dan truck mempunyai kesamaan tinggi.

Page 41: Kesamaan dan Keterkaitan Semantik

41

Path-based (cont)

– car dan bicycle lebih jauh shg kurang mirip dibandingkan car - truck

• wheeled_vehicle#n#1 < self-propelled_vehicle#n#1 < motor_vehicle#n#1 < car#n#1

• wheeled_vehicle#n#1 < bicycle#n#1

Page 42: Kesamaan dan Keterkaitan Semantik

42

Path-based (cont)

• Kesamaan tandem vehicle-mountain bike lebih dekat dibandingkan dengan wheel vehicel-rocket.

Page 43: Kesamaan dan Keterkaitan Semantik

Path-based: permasalahan

• Jarak hubungan dari konsep dengan hiponimnya tidak seragam.– Hiponim weapon lbh beragam

Page 44: Kesamaan dan Keterkaitan Semantik

Path-based: permasalahan (cont)

Page 45: Kesamaan dan Keterkaitan Semantik

Path-based: permasalahan (cont)Military vehicle Offroad car

Page 46: Kesamaan dan Keterkaitan Semantik

Path-based: permasalahan (cont)Military vehicle Offroad car

Page 47: Kesamaan dan Keterkaitan Semantik

Path-based: permasalahan (cont)Military vehicle Car

Page 48: Kesamaan dan Keterkaitan Semantik

Permasalahan dg thesaurus-based

• Tidak setiap bahasa mempunyai tesaurus yg lengkap

• Jikapun ada, ada mempunyai permasalahan dg recall– Banyak kata, apalagi frase, yang belum ada– Hubungan antar kata, terutama antar POS blm lengkap

• Salah satu solusi dengan distributional similarity

Page 49: Kesamaan dan Keterkaitan Semantik

49

Permasalahan dg thesaurus-based

• Ada kata (apalagi frase dan proper noun) yg tdk terdapat pada tesaurus; shg recall rendah. – Contoh di WordNet

• Ada: “day of judgment”, tidak ada: “the righteous” ([orang] yang bertakwa, قين (المت

• Di tesaurus spt WordNet hubungan antar POS tdk ada.– Misal: “dokter” (kb), dengan “mendiagnosa” (kk) tdk – Kata kerja, kata sifat, kata keterangan tdk mempunyai

taksonomi is-a.• Banyak bahasa, termasuk bahasa Indonesia yg blm

memiliki tesaurus yg lengkap.

Page 50: Kesamaan dan Keterkaitan Semantik

50

Apa itu pendekatan distribusional?

• Input: – Korpus, misalnya korpus artikel berita.– Pasangan kata yang hendak diukur (w1, w2)– Unt pendekatan supervised learning: perlu data

latih berupa pasangan2 kata dan label kelasnya (misalnya sinonim/parafrase atau bukan).

• Output:– Skor atau kelas kedekatan

Page 51: Kesamaan dan Keterkaitan Semantik

51

Distributional similarity

• Disebut juga “distributional model of meaning” atau “vector space model of meaning”.

Page 52: Kesamaan dan Keterkaitan Semantik

52

Distributional similarity: Intuisi• Dari [ref]

A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.

• Apa itu tesgüino?• Dari konteks di atas, kita tebak bahwa tesgüino adalah

satu jenis minuman keras.• Dua benda (atau scr umum: konsep) mirip jika

mempunyai konteks yang mirip. Semakin mirip konteksnya, maka dua benda tsb semakin mirip.

Page 53: Kesamaan dan Keterkaitan Semantik

53

Distributional similarity (cont)

• A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.

• A bottle of chicha is on the tableEverybody likes chichaChicha makes you drunkWe make chicha out of corn.

Page 54: Kesamaan dan Keterkaitan Semantik

54

Distributional similarity

• A bottle of togwa is on the tableEverybody likes togwaWe make togwa out of corn.

Page 55: Kesamaan dan Keterkaitan Semantik

55

Distributional similarity (cont)

• Zellig Harris (1954): “oculist (optometrist) dan dokter mata berada pada lingkungan yang hampir sama..”. Jika dua hal berada pada lingkungan yang sangat mirip, mereka dapat dikatakan sinonim.

• L. Wittgenstein (1953): “For a large class of cases — though not for all — in which we employ the word ‘meaning’ it can be defined thus: the meaning of a word is its use in the language “.

Page 56: Kesamaan dan Keterkaitan Semantik

56

Distributional similarity (cont)

• Hipotesa distribusional: kata-kata yang berada pada konteks yang serupa mempunyai makna (secara semantik) sama.

Page 57: Kesamaan dan Keterkaitan Semantik

57

Kelemahan pendekatan distribusional

• Presisi bisa lebih rendah (dibandingkan dengan pendekatan tesaurus). – Perlu

• Pengertian kata (word sense) harus ditanggulangi.

Mengapa perlu pendekatan distribusional?

Page 58: Kesamaan dan Keterkaitan Semantik

58

Proses penghitungan pendekatan distribusional

• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks

– Penghitungan kedekatan (kesamaan, keterkaitan)• Proses bisa unsupervised atau supervised– Unsupervised lebih umum

Page 59: Kesamaan dan Keterkaitan Semantik

59

Himpunan konteks

• Matriks /tabel kata-konteks– Analogi dengan matriks dokumen-fitur

Page 60: Kesamaan dan Keterkaitan Semantik

60

• Kata sebagai sebuah vektor (vector semantics)

Page 61: Kesamaan dan Keterkaitan Semantik

61

• Fitur disamping konteks ada kemungkinan ditambah jenis lain, misalnya kelas dokumen.

Page 62: Kesamaan dan Keterkaitan Semantik

62

• Distributional models of meaning= vector-space models of meaning = vector semantics

Page 63: Kesamaan dan Keterkaitan Semantik

63

Matriks kata-konteks

information storage clinical cancer ...

computation 2 1 0 0

algorithm 1 3 0 0

drug 0 0 2 3

tumor 0 0 3 1

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

• Dimensi bisa sangat tinggi (kosa kata untuk konteks sangat banyak)

• Matriks yang jarang (sparse matrix)

Page 64: Kesamaan dan Keterkaitan Semantik

64

• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks

• Himpunan konteks/lingkungan, misal– Dokumen– Paragraf– Bbrp kata– Sintaktik

• Yang lebih populer sebagai konteks adalah kata.

Page 65: Kesamaan dan Keterkaitan Semantik

65

Word context, concordance

Page 66: Kesamaan dan Keterkaitan Semantik

66

Matriks kata-kata

information storage clinical cancer ...

computation

algorithm

drug

tumor

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

kata

kata (sbg konteks)

Page 67: Kesamaan dan Keterkaitan Semantik

67

• Penggunaan/pemilihan konteks– Himpunan konteks/lingkungan– Bobot konteks

information storage clinical cancer ...

computation

algorithm

drug

tumor

Page 68: Kesamaan dan Keterkaitan Semantik

68

Word context, concordance

Page 69: Kesamaan dan Keterkaitan Semantik

69

• Bobot, al:– TF-IDF– Pointwise Mutual Information (PMI)

• PMI lebih populer dan dianggap lebih tepat krn berdasarkan co-occurrence antar kata.

Page 70: Kesamaan dan Keterkaitan Semantik

70

word-word matrix

information storage clinical cancer ...

computation 2 1 0 0

algorithm 1 3 0 0

drug 0 0 2 3

tumor 0 0 3 1

information and the computation are generally less intensivethis informational difference algorithms for perfect informationof transformative anticancer drugs including clinical investigators, institutional

Clinical activity, tumor associated lymphocytes, PD-L1

Page 71: Kesamaan dan Keterkaitan Semantik

71

Poinwise Mutual Information (PMI)

• Ada event x dan y. PMI menghitung tingkat seberapa lebih sering muncul bersama (co-occur) dibandingkan mereka muncul sendiri-sendiri (indepent).

• PMI antara dua kata w1 dan w2

Page 72: Kesamaan dan Keterkaitan Semantik

72

Positive PMI

• PMI bisa bernilai -∞ hingga + ∞• Nilai PMI negatif, maka PMI = 0, krn nilai PMI

negatif mempunyai pengertian yg tdk jelas.

Page 73: Kesamaan dan Keterkaitan Semantik

73

• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15

• P(computation,storage) = 1/15 = 0,067• P(computation) = 3/15 = 0,2• P (storage) = 4/15 = 0,267• PMI (computation,storage) = log2 (0,067 / (0,2 * 0,267) = 0,321

information storage clinical cancercomputation 2 1 0 0 3algorithm 1 3 0 0drug 0 0 2 3tumor 0 0 3 1

4 15

Page 74: Kesamaan dan Keterkaitan Semantik

74

• Misal, matriks dengan entri adalah jml kata.• Total jumlah kata dalam matrix = 15

information storage clinical cancercomputation 0,321algorithmdrugtumor

Page 75: Kesamaan dan Keterkaitan Semantik

75

Penghitungan kedekatan

• Ada 2 komponen utama:– Penggunaan/pemilihan konteks• Himpunan konteks/lingkungan• Bobot konteks

– Penghitungan kedekatan (kesamaan, keterkaitan)• Penghitungan kedekatan antar dua vektor, yg

paling populer dg cosine similarity.

Page 76: Kesamaan dan Keterkaitan Semantik

76

Cosine similarity

c1

c2

w1

w2

θ

1

1

Page 77: Kesamaan dan Keterkaitan Semantik

77

Penghitungan kedekatan yg lain

• Antara lain,

Page 78: Kesamaan dan Keterkaitan Semantik

78

Outline

1. Kesamaan dan keterkaitan semantik2. Jenis-jenis (granularity/panjang) teks3. Penerapan4. Proses penghitungan5. Evaluasi

Page 79: Kesamaan dan Keterkaitan Semantik

Evaluasi

• Evaluasi intrinsik (in-vitro), dibandingkan dengan gold standard penilaian manusia.– Dilakukan dg menghitung korelasi (bila hasil skor) atau F1

(bila hasil kelas/kelompok).• Pearson (r): korelasi atas nilai skor.• Spearman (ρ): korelasi atas ranking.

– Zesch and Gurevych (2010) berpendapat Spearman lbh tepat krn Pearson punya kelemahan: sensitif thd outlier dan tdk tepat unt data non-linear.

• Evaluasi ekstrinsik (task-based, end-to-end, in-vivo), al:– WSD, Essay grading, TOEFL multiple-choice vocabulary tests.

Page 80: Kesamaan dan Keterkaitan Semantik

• Unt spearman, nilai diganti dg ranking.

Page 81: Kesamaan dan Keterkaitan Semantik

In-vitro (intrinsik) vs in-vivo (ekstrinsik)

Page 82: Kesamaan dan Keterkaitan Semantik

Dataset

• Dataset kata bhs Inggris unt domain umum

Page 83: Kesamaan dan Keterkaitan Semantik

Dataset (cont)

• Dataset kata bhs Inggris unt domain medis

• Dataset kata bhs Inggris unt domain keislaman

Page 84: Kesamaan dan Keterkaitan Semantik

Similarity-relatedness?

• Dataset yang populer seperti WordSim353 menggunakan istilah “similarity”, meskipun banyak diantara bagian dataset tsb adalah relatedness.

• Demikian juga QurSim, yang utamanya merupakan pasangan keterkaitan ayat.

Page 85: Kesamaan dan Keterkaitan Semantik

Contoh dataset

• Contoh pasangan kata keterangan Simlex999

Page 86: Kesamaan dan Keterkaitan Semantik

Contoh dataset (cont)

• Contoh pasangan kata benda Simlex999

Page 87: Kesamaan dan Keterkaitan Semantik

Contoh dataset (cont)

• Contoh pasangan kata kerja Simlex999

Page 88: Kesamaan dan Keterkaitan Semantik

QurSim

• سر‌ابا فكانت الجبال ر‌ت وسيdan dijalankanlah gunung-gunung maka menjadi fatamorganalah ia. QS 78:20

• المنفوش كالعهن الجبال وتكونdan gunung-gunung adalah seperti bulu yang dihambur-hamburkan. QS 101:5

• Kedua ayat tentang gunung2 pada hari kiamat.

Page 89: Kesamaan dan Keterkaitan Semantik

Hasil Evaluasi