Chapter 5 Analisis Link ke Web Data

Chapter 5

Analisis Link ke Web Data

5.1 Pengenalan

Seperti yang terlihat pada Chapter 2, Jaringan data terdiri daridataset yang terhubung di dalam jaringan tersebut. Isi dari semuadataset dapat di ubah urutannya menjadi model graph, mewakilkanentitas dan relasi mereka. Karena Jaringan data sangatlah besar,menjaga miliyaran node dan garis, mengembangkan hubungan analisisalgoritma berskala pada entitas menjadi kebutuhan yang sangat penting.

Hubungan analisis algoritma yang sekarang [DPF+05b, HHD06] untukjaringan data sangat mempertimbangkan gambar (graph) dari entitas.Dengan tambahan kompleksitas perhitungannya yang sangat tinggi, merekaterancam dari ketidak bisaan untuk mengambil semantic dari dataset danmemproduksi hasil yang sub-optimal. Sebagai contoh, terdapat datasettentang pegawai, seseorang ingin mengetahui siapa pegawai yang palingberpengalaman dan yang paling tidak popular. Dalam suatu kasus, sangatdianjurkan untuk mengadaptasi sifat asli dari algoritma dari dataset.Dalam chapter ini, kita memperkenalkan 2 lapiis model untuk jaringandata dan menyediakan pembenaran untuk 2 lapis model ini. Dengan dasarmodel ini, kami menawarkan algoritma pengelompokkan yang diberi namaDING. DING berkerja melalui 3 tahap:

Pengelompokkan dataset dihitung dari performa hubungan analisispada graph yang terhubung oleh dataset dalam;

Untuk setiap dataset, kelompok entitas dihitung dengan melakukanhubungan analisis pada koleksi entitas local;

Gambar 5.1 : 2 lapus model jaringan data. Garis putus-putusmenggambarkan dataset yang terhubung yang diagregat ke linkset pada

lapisan dataset.

Popularitas dari dataset menyebar ke entitasnya dan bergabungdengan kelompok local mereka untuk merata-rata pengelompokkanentitas global

5.2 2 Lapis Model untuk Pengelompokkan Jaringan Data

Dalam bagian ini, kita memperkenalkan 2 lapis model untuk jaringandata yang digambarkan pada gambar 5.1. Model 2 layar ini didasari olehmodel formal yang diperkenalkan pada chaptar 2. Lapisan atas, ataulapisan dataset, terdiri dari koleksi dari dataset (lihat definisi2.1) dihubungkan oleh linkset. Lapisan bawar, atau lapisan entitasbersisi gambar dari entitas yang independen. Graph dari entitas iniberisi node internal (lihat definisi 2.2) dan garis intra-dataset(lihat definisi 2.4) dari dataset masing-masing.

5.2.1 Menghitung 2 lapis pada Jaringan Data

Dalam bagian ini. Kita menyediakan bukti dari 2 lapis dan sifatkomputasi yang diinginkan dengan menghitung kelokalan dari link danukuran distribusi dataset. Kita melakukan eksperimen berikut ini.Pertama kita ambil dataset yang dijabarkan di bawah dan hitung berapabanyak link yang ter intra-dataset dan berapa banyak yang ter inter-dataset. Lalu kita analisa ukuran distribusi datasetnya pada sebsetdari Jaringan data.

Dataset Intra Inter

DBpedia 88M (93.2%) 6.4M (6.8%)

Citeseer 12.9M (77.7%) 3.7M (22.3%)

Geonames 59M (98.3%) 1M (1.7%)

Sindice 287M (78.8%) 77M (21.2%)

Tabel 5.1.: Rasio antara intra-dataset denganinter-dataset

DBpedia adalah versi struktur semi dari Wikipedia dan berisikan17.7 juta entitas. Cityseer adalah versi struktu semi dariCityseer dari RKBExplorer initiative dan berisikan 2.48 jutaentitas.

Geonames adalah database geograpis dan berisikan 13.8 jutaentitas.

Sindice berisikan 60 juta entitas diantara 50.000 dataset(termasuk yang sebelumnya). Ini mewakilkan subet dari jaringandata. Ini terdiri dari Gudang Jaringan semantic online danhalaman dengan microformat atau RDFa markups tetap di bawahseperti biasa untuk lebih dari 2 tahun.

Tabel 5.1 menunjukan bahwa 78.8% link adalah intra-datasetlink. Hubungan statistic itu tidak jauh dari hasil sebelumnyadari [KHMG03] dimana 83.9% link berasal dari halaman web datasetdimana link dataset adalah intra-domain. Pada dataset individual,link inter-dataset dalam DBpedia hanya mewakili 6.8% dari totallink yang ada. Untuk Cityseer, banyaknya link inter-dataset lebihtinggi dari dataset yang lain tapi dataset ini menggunakanontology external untuk men-discribe datanya, karena itu banyaklink inter-dataset menunjuk hanya pada satu external dataset

(dataset ontologynya). Geonames adalah perwakilan dari “datasetsink (wadah dataset)”, dataset yang memiliki link (hubungan)bebas dengan dataset lainnya. Jumlah ini menegaskan tingginyalokaliti dari jaringan data, dan menyarankan untuk menggunakan 2lapis model seperti yang tertulis di paper ini.

Figur 5.2 meggambarkan distribusi dari ukuran untuk semuadataset yang ada pada Sindice data collection. Ditribusimengikuti aturan urutan dan mencocokkan distribusi dengan risetsebelumnya pada ukuran dari web sitenya [FLW+06]. Kitamengobservasi mayoritas dari dataset

Figure 5.2.: Probabilitas distribusi dari ukuran dataset.

Berisi kurang dari 1000 node yang mengindikasikan apakah penghitunganpengelompokan local pada graph ini bisa dilakukan dengan cara yangefisien di memori.

5.2.2 Graph Dataset

Lapisan bagian atas, atau graph dataset, bisa diliat sebagaiperikiraan dari graph data G (didefiniskan pada section 2.3.1). Daripada memikirkan entitas dan link antara entitas ini, kita akanmenggunakan informasi level atas seperti dataset dan linkset.

Hasil graph (50.000 node, 1.2M linkset) adalah urutan magnitudeyang lebih kecil dari original graph G (60M node, 364 link). Sebagaikonsekuensinya, itu bisa dengan mudah disimpan dalam memori (padakasus Sindice) dan popularitas dari dataset bisa dihitung sesukanya.

5.2.3 Graph Entitas

Lapisan bagian bawah, atau graph entitas, adalah kumpulan dari pemisahgraph D (lihat definisi 2.1) tiap pemisah adalah koleksi dari nodeinternal dan garis putus-putus intra-dataset. Konsekuensi langsungnyaadalah penghitungan dari pengelompokkan entitas local bisa dihitungdengan cara independen per basis dataset dan bisa dengan mudahdiparalelkan.

Sejak perhitungan dilakukan secara independen, kerumitan yangmenyelimuti dataset terbesar, sebagai contoh DBpedia. Tetapi,kebanyakan graoh memiliki sejumlah kecil node yang ditunjukkan padaFigure 5.2. Ini berarti mayoritas dari graph bisa disimpan dalammemori dan perhitungan pengelompokkan bisa dilakukan tanpa penaltydari pengaksesan IO yang biasanya dialami saat pemprosesan graph yangsangat besar.

5.3 DING Model

Dalam section ini, kita mulai dengan mengenalkan method yang tidakdiawasi untuk memberi beban atau diisi ke links dan linkset.Selanjutnya, algoritma dari DING akan dijelaskan. Pertama kitamenghitung formula dari algoritma PageRank original (lihat section3.2.1) untuk penghitungan pengelompokkan dataset. Kita menggambarkan 2algoritma pengelompokkan entitas local dan juga daftar dari algoritmadependen dataset yang diketahui digunakan untuk meggantikan algoritma

standaruntuk beberapa tipe dataset. Akhirnya kita bisa menjelaskancara menggabungkan rangking dataset dengan rangking entitas localuntuk mengira-ngira pengelompokkan global entitas.

5.3.1 Pembebanan/Pengisian Link yang tidak diawasi

Dalam figure 5.1 probabilitas dari user pergi dari D3 ke D1 biasanyaakan mengakibatkan perbedaan probabilitas saat D3 pergi ke D2 karenalabel dan angka dari link berasosiasi ke La,3,1 , adalah tidak samadengan yang berasosiasi dengan Lb,3,2. Tujuannya adalah untukmendefinisikan linkset dari pengisian fungsi ωδ,i,j.

Pengisian bisa ditempatkan berdasarkan kardinalitas (jumlah darilinks) dari linkset dan berdasarkan penetapan dari labelnya.Pendekatan kita, yang dimanakan “Link Frequency – Inverse DatasetFrequency” (LF-IDF), adalah diambil dari TF-IDF untuk mengukurrelevansi dari linkset. Link Frequency mengukur seberapa pentingnyalinkset antara 2 dataset, dan didefinisikan dibawah:

Dimana |Lδ,i,j| adalah kardinalitas yang dianggap sebagai linkset antaraDi dan Dj, dan denomitor adalah kardinalitas dari semua linkset yangmemiliki Di sebagai sumbernya.

Inverse Dataset Frequency mengukur kepentingan yang umum dari linkyang diberi label dan didefinisikan sebagai berikut:

http://en.wiktionary.org/wiki/%CF%89

Dimana N menunjukan total angka dari dataset dan freq(δ) adalah jumlahdari label δ dalam koleksi dataset.

Kita mendefinisikan fungsi pengisian linkset ω sebagai produkantaralink frequency dan inverse dataset frequency.

Link frequency dan inverse dataset frequency bisa dihitung secaradinamis yang menghasilkan informasi statistika yang terakumulasi padadatabase. LF-IDF membuat derajat yang lebih tinggi tentang kepentinganke link dengan frekuensi tinggi antara 2 dataset dan sebuah frekuensidataset rendah. Hasil [TUD+09] telah menunjukkan peningkatanpengelompokkan pengisian link dari dataset.

5.3.2 Algoritma DING

Algoritma DING adalah ekstensi dari PageRank (lihat Equation 3.1)untuk 2 lapis model graph yang diperlihatkan pada section 5.2. Daripada membuka web page, gunakannlah random surfer untuk mencaridataset. Model random walk adalah sebagai berikut:

1. Pada awal dari setiap sesi browsing, pilih secara acak sebuahdataset.

2. Lalu, pilih salah satu dari aksi di bawah:a. Memilih secara acak sebuah entitas dari dataset yang dipilih

tadib. Lompat ke dataset lain yang terhubung dengan dataset yang

dipilih tadic. Akhiri pencarian

Menurut model hirarki random walk, kita bisa menggunakan 2-stagekomputasi. Pada stage pertama, kita hitung kepentingan dari node levelatas dataset yang akan dijelaskan pada sesi berikutnya. Stage keduamenghitung kepentingan dari entitas di dalam dataset seperti yangdijelaskan pada section 5.3.4.


5.3.3. Menghitung DatasetRank

Karena behavior dataset surfing sama dengan yang ada di dalamPageRank, kita bisa mendapatkan kepentingan dari node dataset denganmengadaptasi equation 3.1 untuk weighted dataset graph (graph datasetyang diberi beban/isi).

Hasil rank r(Dj) dari dataset terdiri dari bagian pertama yang meng-correspond ke kontribusi rank dari penghubungan dataset ke Dj danbagian kedua yang meng-correspond ke pobabilitas dari lompatan randomke Dj dari koleksi semua database. Probabilitas dari penghitungandataset saat random jump ialah proporsional dari ukuranya, sebagai

contoh: jumlah dari entitas node internal atau |V EDj|, dinormalisasikan

dengan jumlah ukuran dari data graph contoh ∑D⊂G|V EDj|.

Pendistribusian factor ωδ,i,j didefinisikan dengan equation 5.3. Duabagian ini digabungkan menggunakan dumping factor α = 0.85, kerenakita sudah mengetahui kalau nilai ini memberi hasil yang baik dalamevaluasi eksperimen ini.

5.3.4 Menghitung Ranking Entitas Lokal

Method yang digunakan dalam pelapisan algoritma digunakan untukmenunjuk halaman importance of the supernode (pentingnya supernode)[EAT04]. Dalam kasus ini akan meng-correspind untuk menempatkan HasilDatasetRank ke semua entitasnya. Dalam dataset yang besat, sepertiDBpedia, pendekatan ini tidak cocok karena querynya akan mengembalikanterlalu banyak entitas ke dataset yang sama. Ini akan membuat masalah


dalam pengelompokkan quert-time. Kita bisa menempatkan hasil daripenggabungan kedua pentingnya dataset (importance of dataset) danpentingnya entitas (importance of entity) kedalam dataset.

Selanjutnya, kita merepresentasikan 2 algoritma generic,EntityRank yang sudah diisi dan LinkCount yang terisi, yang menghitungpengelompokkan entitas pada semua tipe graph. Tetapi, pengelompokansangat bergantung pada semantic dari dataset. Daftar dari dataset-dependent yang sudah ada akan dibahas nanti.

Weighted Entity Rank (rank entitas yangdiisi/dibebankan)

Adalah method untuk menghitung importance of entity (pentinganyaentitas) ke node entitas dalam dataset. Ia mengadaptasi formulaPageRank dari equation 3.1 dan diterapkan pada graph yang berisikanentitas internal dan intra-link dari dataset. Kita menggunakan LF-IDFweighting scheme dari equation 5.3 sebagai faktor pendistribusian.Pada lapisan entitas, link frequency pada equation 5.1 selalu samadengan yang dibagi oleh jumlah node dari link.

Menggunakan kembali weighting scheme selama 2 lapis masihmengzinkan untuk mempertahankan ke konsistenan dari preference pemakaidalam penggunaan links. Tetapi, kita juga dapat menghitung link weigth(isi link) menggunakan contoh dari versi yang dilokalkan dari inversedataset frequency dari equation 5.2, dimana freq(δ) akan menjadifrequency dari label dari dataset. Seperti layaknya PageRank,ketahanan terhadap spam pada method EntityRank membuat pilihan yangbaik untuk membuat dataset untuk non-controlled user inputs.

Weighted LinkCount

Adalah alternative untuk EntityRank dimana dataset bisa diasumsikandeduplicated dan spam-free. Ini sering terjadi pada dataset sepertiDBpedia. Rank r(j) dari node entitas j yang didapat dari

Dimana ω(lσ,i,j) adalah weight dari link LF-IDF dari i menuju j.LinkCount lebih efisien untuk menghitung dari EntityRank karenaLinkCount hanya membutuhkan satu “iterasi” dari koleksi data.

Dataset-Dependent Entity Ranking

Dataset pada jaringan data mungkin mempunyai sematik mereka masin-masing dam bisa membuat variase struktur graph. Sebagai contoh, kitadapat mendapatkan graph generic dari inputan user, hirarki graph,graph biparte dan lain-lain. Taxonomy yang sudah jadi dari strukturgraph yang lain tidak termasuk pembahasan ini, tapi beberapa contohada pada Tabel 5.2.

EntityRank dan LinkCount mewakili solusi generic yang bagus untukpengelompokan entitas local, seperti yang terlihat pada section 5.5.2,sebuah pendekatan yang melirik properties yang ganjil dari setiapdataset akan memberi hasil yang lebih baik. Dengan mempertimbangkankeberadaan banyaknya algoritma pengelompokan yang domain-dependentatau spesifik untuk struktur graph tertentu, seperti [SG09, WXYM06]

untuk mengkutip network atau Dissipative Heat Conductance [XYZ+05]untuk dataset hirarki kuat seperti taxonomy atau geo-database, DINGtelah didesain untuk mengeluarkan alternative yang lebih baik untukLinkCount dan EntityRank. Kita juga bisa mendefinisikan algoritma kitasendiri dengan menggunakan criteria pengelompokan dataset-dependent.Sebagai contoh, kita bisa me mengelompokan produk dari database e-commerce berdasarkan costumer rating dan review.

5.3.5 Menggabungkan DatasetRank dan EntityRank

Pendekatan yang terang-terangan untuk menggabungkan dataset dankelompok entitas local adalah dengan mengadopsi point probabilitasdari view dengan meninterpretasikan rank dataset r (D) sebagai manaprobabilitas memilih dataset dan kelompok entitas local r(e)sebagaimana probabilitas memilih entitas dalam dataset ini. Denganbegitu kita akan mendapatkan global score rg(e) yang didefinisikan

Tetapi pendekatan ini lebih cocok untuk dataset yang lebih kecil.Dalam model probabilitas semua kelompok di dalam dataset disatukanmenjadi satu. Karena itu, kelompok entitas local menjadi lebih tinggidalam dataset yang kecil ketimbang dataset yang besar. Dengankonsekuensi jika ada dataset kecil menerima bahkan hanya satu link,maka kemungkinan besar akan terjadi dimana score entitas yang palingatas akan lebih banyak score dibandingkan dengan entitas yang palingatas pada dataset yang lebih besar. Solusinya adalah untukmenormalisasi kelompok local menjadi sama dengan rata-rata ukurandataset. Dalam eksperimen kita kali ini kita akan menggunakan formuladi bawah untuk menggabungkan kelompok dari entitas e dengan kelompokdari dataset D:

5.4 Penskalaan dari pendekatan DING

Evaluasi yang tepat pada penskalaan dari pendekatan kita bukanlahtujuan dari paper ini. Terlebih, [KHMG03] telah memperlihatkan bahwaalgoritma pengelompokan hirarki menyediakan percepatan dalampenghitungan daripada pendekatan biasa. Tetapi, kita memiliki beberapahasil performa dari method DING saat diterapkan pada scenario use-casesungguhan, contoh Sindice seach engine.

Ukuran kecil dari graph dataset ditunjukkan pada section 5.2.2,graph bisa diletakkan di dalam memory dan perhitungan kelompok bisadilakukan pada saat yang diinginkan. Satu iterasi dari perhitunganDatasetRank memakan 200ms untuk memproses 50k dataset pada hardware(intel Xeon E5410 QuadCore), sebuah kualitas kelompok yang bagus bisadidapatkan dalam sekian detik. Jika kita mendefenisikan cara untukmenkonversi algoritma dalam interasi k+1 seperti equation 5.5,algoritma akan dikonversi ke 0.1% dalam 32 iterasi, yang berarti 5detik.

Karena ukuran dari mayoritas dataset berjumlah ribuan node,entitas graph juga bisa menampung semua perhitungan yang membuatanmemori menjadi lebih efektif. Terlebih lagi, karena perhitungankelompok entitas dalam satu dataset adalah independen daripengelompokan entity dari dataset yang lain, perhitungan bisa denganmudah didistribusi melaui kumpulan mesin.

Di sisi lain, perhitungan dari seluruh kelompok entitas dalamdataset yang besar bisa menjadi operasi yang berat karena dataset yangpaling besar contoh: DBpedia berisi lebih dari 10 juta entitas danlink. Untuk dataset seperti itu, kita akan mundur ke method standaruntuk memparalelkan perhitungan seperti model programming Map-Reduce.Perhitungan kelompok entitas local dari DBpedia dengan 0.1% ketepatanmembutuhkan 55 iterasi dalam satu menit dengan Map-Reduce Cluster yangberisikan 3 Intel Xeon quadCore. Untuk kasus LinkCount, perhitunganhanya membutuhkan satu iterasi.

Sebagai tambahan, memisah kumpulan dataset dan entitas localmeminalisir banyak nya perhitungan yang dibutuhkan saat mengupdatekoleksi data. Sebagai contoh, sebuah dataset baru Di yang memiliki linkke beberapa dataset yang lain harus di index terlebih dahulu olehSindice. Dengan standar model pengelompokan non-hirarki, semuakumpulan entitas akan dihitung ulang. Sedangkan, dengan model DINGhanya beberapa kumpulan yang dihitung (1), yang dihitung adalahentitas dalam dataset Di; dan kumpulan dataset yang dihitung ulangadalah dataset yang bisa dihitung ulang dalam hanya beberapa detik.Ini mengurangi beban dari update yang harus mengukur ukuran dariJaringan data menjadi hanya seukuran graph dari dataset saja.

5.5 Eksperimen dan Hasil

Kita telah memperkenalkan sebuah novel ranking model, iamemperlihatkan kalau ia bisa mengadaptasi menjadi dataset semantic danmemberi bukti bahwa ia adalah property perhitungan yang diinginkan.Tetapi masih belum jelas apaka DING model memebrikan yang terburuk,sama atau bahkan performa yang lebih baik daripada pendekatan standar.Untuk melihat performa dari DING, kita melakukan 3 eksperimen.Algoritma n yang kita gunakan untuk membandingkannya adalah versiglobab EntityRank (GER). Algoritma ini mirip dengan yangdideskripsikan pada section 5.3.4 dengan perbedaan hanya padapengoperasian pada graph H full data. Kita menggunakan dataset yangdiberikan pada section 5.2.1 untuk dua eksperimen pertama.

Eksperimen pertama menginvestigasi dampak dari link local padagraph data dengan membandingkan performa dari 2 algoritma generiklocal, EntityRank local dan LinkCount lokal. Eksperimen selesai tanpaintervensi dari user dengan menghitung kolerasi dari pembuatanpengelompokan oleh algoritma yang berbeda. Eksperimen keduamengevaluasi keefektifitasan dari algoritma lokal dan dari pendekatanDING dengan pemikiran user untuk menilai apakai ia memberi hasil yanglebih buruk, sama atau lebih baik dari pendekatan standar. Eksperimenketiga adalah pembanding antara keefektifitasan dari algoritma dalamhal presisi dan kecepatan pemanggilan ulang (pengaksesan).

5.5.2. User Study

Biasanya, di dalam pengambilan informasi terdapat evaluasi darikeefektivisan dari taksiran system, dalam bentuk presisi dankecepatan. Koleksi data seperti yang disediakan oleh TREC atau INEXdigunakan untuk menilai kerelevansian dari hasil yang dihasilkan olehsistem. Taksiran entitas TREC dan INEX adalah makalah yang secarakhusus diciptakan untuk pengevaluasian dari pencarian yang berhubungandengan entitas. Tetapi, evaluasi makalah didesain untuk pencariankeyword pada satu dataset. Ini tidak cocok untuk kasus kita karenatujuan kita adalah untuk mengukur keefektivan dari pengelompokandataset saat query dari berbagai macam kompleksitas digunakan diantaradataset inter-linked. Oleh karena itu, untuk mengevaluasi kualitasmetode DING, kami memutuskan untuk melalukan user study dimanan userakan menyediakan penilaian untuk setiap algoritma.

Design

User study dibagi menjadi 2 eksperimen: (1) yang pertama (Exp-A)menaksirkan performa dari pengelompokkan entitas lokal pada datasetDBpedia; (2) yang kedua (Exp-B) menaksirkan performa dari pendekatanDING pada halaman penyimpanan Sindice. Setiap eksperimenmengikutsertakan 10 query, bervariasi dari query keyword sederhana kequery yang memiliki struktur yang lebih kompleks (SPARQL). Setiappartisipan mendapatkan kuesioner, seperti yang ada pada Appendix A,yang terdapat deskripsi dari query dalam bahasa manusia, dan 3 daftarhasil top 10. Setiap hasil akan dijabarkan oleh lebel yang bisa dibacamanusia dan URI dari entitas. Daftar pertama menjabarkan hasilpengelompokkan GER. Untuk Exp-!, yang kedua dan ketiga menjabarkanhasil pengelompokkan dari LER dan LLC sedangkan untuk Exp-B hasilpengelompokkan didapat dari DatasetRank yang digabungkan dengan LERdan LLC (DR-LER dan DR-LLC). Daftar yang kedua dan ketiga dinamakansecara random seperti “Ranking A” atau “Ranking B” jadi tidak adainformasi tentang algoritma ranking dan tidak ada korelasi antarakeduanya. Daftar ketiga diurutkan menggunakan kedua bukti query-

dependent , seperti relevansi score dari deskripsi entitas denganmematuhi query yang ada dan bukti query-dependent seperti score statisyang diproduksi oleh link analisis algoritma. Dibandingkan keeksperimen selanjutnya, bukti-bukti tersebut digabungkan secaralinier.

Partisipan

Evaluasi Exp-A dilakukan pada 31 partisipan dan Exp-B dilakukan ke 58partisipan. Partisipan terdiri dari peneliti, doctor dan mahasiswa danteknisi. Semua partisipan sudah familiar dengan search engine, tapibeberapa dari mereka familiar dengan search engine untuk entitas.

Task (Tugas)

Tugasnya adalah me-rating “Ranking A” dalam relasi ke dataset standarmenggunakan variable kategorial, lalu untuk me-rate “Ranking B” dalamrelasi ke dataset standar. Pastisipan harus memilih antara 5 kategori:Better (B), Slightly Better (SB), Similar (S), Slighty Worse (SW),Worse (W).

Measure (Tindakan)

Kita menggunakan chi-square buatan Pearson untuk melakukan test“Goodness of fit” antara O dan frequency distribusi yang diobservasidari kategori sebelumnya dan E, teori yang digunakan untuk distribusidari kategori ini, untuk mengetahui apakah distribusi yang diobservasiberbeda dari teori distribusi. Hipotesis kosong kita adalah frequencydistribusi menyatakan apakah distribusi itu sama atau tidak. Kita lalumengartikan hasil dari perbandingan tersebut ke dalam chi-square.

Hasil Exp-A

Tabel 5.4a dan 5.4b adalah hasil dari tes chi-square untuk LER danLLC. Tes disebut signifikan apabila terdapat pada level 1%, dengan 4

derajat kebebasan, nilai dari chi-square harus setidaknya 13.3. Karenachi-square memberi nilai 49.48 untuk LER dan 14 untuk LLC, kita bisamenolak hipotesis kosong untuk kedua tes. Itu mengeluarkan proporsibesar dari populasi (+71% untuk kontribusi chi-square) LER memilikikeadaan yang mirip dengan GER. Untuk LLC, mayoritas populasi (+53%dari konstribusi chi-square) mirip dengan GER juga dan ditambah denganfakta kalau sebuah minoritas (-31% dari kontribusi chi-square)dianggap worse.

Kesimpulannya, pada level signifikan 1%, LER dan LLC memberihasil yang mirip dari pada GER. Tetapi, ada proporsi signifikan yanglebih banyak lagi dari populasi yang menganggap LER lebih mirip GER.

Hasil Exp-B

Tabel 5.5a dan 5.5b adalah hasil dari tes chi-square untuk DR-LER danDR-LLC. Tes signifikan pada level 1%, dengan derajar bebas 4, nilaidari chi-square harus setidaknya 13.3. Karena chi-square memberi nilai16.31 untuk DR-LER dan 20.45 untuk DR-LLC, kita bisa menolak hipotesiskosong untuk kedua tes. Itu mengeluarkan proporsi besar dari populasi(+57% untuk kontribusi chi-square) DR-LER memiliki keadaan yang miripdengan GER, dikuatkan dengan fakta kalau minoritas (-39% darikontribusi ke chi-square) dianggap worse. Untuk DR-LLC, mayoritaspopulasi (+65% dari konstribusi chi-square) dianggap Slighty Betterdari GER juga dan ditamabah dengan fakta kalau sebuah minoritas (-31%dari kontribusi chi-square) dianggap worse.

Tabel 5.4.: tes chi-square untuk Exp-A. Kolom %X2 memberi setiapmodality kontribusinya ke X2.

Tabel 5.4.: tes chi-square untuk Exp-B. Kolom %X2 memberi setiapmodality kontribusinya ke X2

Sebagai kesimpulan, pada level signifikan 1%, kedua algoritmamemberi preferensi yang cukup berbeda. Sepertiya DR-LLC memberi ke-efektifan yang lebih baik. Proporsi yang besar dari populasi memilikihasil yang Slighty better dari GER, dan ini ditambah lagi beberapaorang menemukannya worse.

5.5.3. Trek Pencarian Entitas pada SemSearch 2010

Untuk memferifikasi penemuan sebelumnya, eksperimen ketiga dilakukandengan berpartisipasi pada evaluasi untuk entitas semantic yangdiadakan oleh Sematic Search Workshop. Evaluasi pencarian semanticmemfokuskan kepada menyamaan dan pengelompokkan entitas dalam scenariopencarian data semantic. GER, DR-LER dan DR-LLC dibandingkan dalamevaluasi ini.

Query

Track pencarian entitas menyediakan 92 query yang difokuskan pada tuadentitas untuk mengambil menggunakan pencarian berbasis keyword. Queryini mewakili sebuah sampel yang diambil dari log query pencarianYahoo! Wend an Microsoft Live. Setiap query adalah daftar dari keywordyang merujuk pada satu entitas. Dengan kata lain, query mengambilsatu entitas.

Makalah

Dataset didasrkan pada Dataset Billion Triple Challenge, yangmerepresentasikan sample data web dari sumber public yang ada. Dataserdipublikasikan dengan menggunakan sintaks N-Quad, sintaks yang miripdengan N-Triple tapi dengan ke-4 elemen yang menspesifikasikan URIdari dokumen RDF yang berisi triple. Karena itu, tripe juga mungkinberisikan beberapa dokumen yang sama.

Penilaian Relevan

Didasarkan dengan pada hasil top 10 dari setiap query. Hasildievaluasi dengan 3 poin skala (0) not relevan, (1) relevant dan (3)perfect match. Perfect match adalah deskripsi dari deskripsi sumberyang berhubungan dengan entitas. Seperti entitas diisi dengandeskripsi sumber. Sebaliknya deskripsi sumber tidak relevan.Pentaksiran hasil didasarkan pada kecepatan pemanggilan ulang

(recall), presisi, f-measure dan rata-rata presisi. Penilaian relevandan pentaksiran dari hasil didapat dari komite program workshop.

Extraksi Deskripsi Entitas

Langkah sebelum pemprosesan dari data diperlukan sebelum mengindexkanuntuk mengekstrak deskripsi, seperti star graph, dari dataset.Pertama, n-quad dipanggil ke dataset oleh konteks dan subjek. Lalu,lakukan scan kepada n-quad yang sudah diurutkan dan ekstraks semua n-quad yang memiliki konteks dan subjek yang sama. Subset yang diekstrakakan membentuk form dari deskripsi entitas. Kita hanya mengekstrakrelasi yang keluar dari node entitas. Terlebih ladi, kita menyaringsemua deskripsi antitas yang beriskan satu atau dua triple untukmengurangi ukuran indeks.

Praproses Deskripsi Entitas

Setiap deskriptas entitas di indekskan oleh SIREn, mesin pengambilinformasi dipresentasikan di chapter 6. SIREn, sebelum diindekskan,melakukan pra proses untuk menormalisasikan data. URI juga di bulatkandengan berbagai aturan. Membulatkan URI sangatlah berguna karena akanmengizinkan kita untuk melakukan pancarian keyword pada bagian URI.Setiap token berhuruf kecil. Kita juga menyaring kata berhenti dankata dengan hanya satu karakter. Tidak perlu di stem.

Pengelompokkan Query-Independen

Dataset dan pengelompokkan entitas dihitung dengan menggunakan gudangdata Sindice bukan dari Dataset BTC. Sementara itu gudang dataSindice dan BTC sangatlah bertentangan, data yang keluar dari Sindiceakan tetap up to date dan terhubung dengan baik. Koleksi data Sindicelebih merepresentasikan subset dari Jaringan data, dan menyediakandataset yang lebih presisi dan lebih banyak pengelompokkan.

Kita menggabungkan query-independent dan query dependent untukmenghitung score akhir entitas. Kita mengadopsi salah satu dari methodyang dipresentasikan [CRZT05].

Pada eksperimen kita, kita mengambil daftar penuh dari penyamaanentitas untuk setiap query. Kita mengintegrasikan score statis Ss,dengan query score Sq untuk mendapatkan entitas akhir dari score sf.Kita akhirnya akan mengelompokkan ulang daftar entitas berdasarkanscore akhir.

Score query dihitung oleh SIREn. Query score dinormalisasikanmenggunakan algoritma log(Sq) dan score statis menggunakan fungsisigmoid dengan parameter ω=1.8,k=1dana=0.6. Formula akhir adalah

Sf=log (Sq)+w∗Ss

a

ka+Ssa.

Hasil

Penaksiran dari hasil untuk setiap teknik pengelompokan, seperti GER,DR-LER dan DR-LLC. Hasil mengindikasikan kalau DR-LER dan DR-LLCmemberi hasil yang sedikit lebih baik daripada GER. Hasil inimenguatkan penemuan dari user study. Tetapi, dibandingkan hasil dariuser study, DR-LLC sepertinya tidak memberi hasil yang lebih baik dariDR-LER. Ini mungkin disebabkan oleh query yang berbeda tipe. Dalameksperimen ini, query bervariasi dari keyword yang simple danditargetkan untuk menemukan entitas yang spesifik. Dalam user study,query bervariasi dari keyword simple ke yang lebih sulit dan beberapaquery ditargetkan untuk menemukan set dari entitas seperti “Berikanaku daftar projek yang berhubungan dengan semantic”.

5.6. Kesimpulan dan Perkerjaan Esok

Kami mempresentasikan DING, model pengelompokan 2 lapis untuk Jaringandata. DING dikhususkan untuk mengalamatkan scenario Jaringan fata,sperti Score popularitas dari entitas pada graph berskala web. Kamimenjelaskan perbandingan property perhitungan yang diinginkan padapendekatan alternative dan memperlihatkan bukti eksperimen dari

kualitas pengelompokkan yang lebih baik. Terlebih lagi, DINGmemperkenalkan ide untuk menggunakan algoritma pengelompokkan spesifikdataset untuk meningkatkan pengelompokkan. Terlebih lagi perkerjaanbutuh diselesaikan pada area otomatisasi dari pengenal struktur graph.Ini akan membuat penyamaan yang lebih baik dalam algoritmapengelompokkan spesifik ke struktur graph atau semantic, danmemperbagus kualitas dari pengelompokkan pada Web heterogen.

Chapter 5 Analisis Link ke Web Data

Documents

Transcript of Chapter 5 Analisis Link ke Web Data