Laporan Text Mining
-
Upload
nanikulfatun -
Category
Documents
-
view
325 -
download
0
Transcript of Laporan Text Mining
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 1/14
Oleh :
APRILIANA DHARMA S.{ 0710963025}
SAPTO BAGUS P. { 0710960045}
GURITNO YUDHO W. {105090609111001}
ELHAM AKHIRU K {105090609111002}
PROGRAM STUDI ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BRAWIJAYA
2011
TEXT MINING
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 2/14
Pengertian
Text mining yaitu menggali informasi yang berupa text, dimana sumber data
diambil dari dokumen, tujuannya yaitu menggali informasi tentang data – data pada dokumen
sehingga dapat dicari keterkaitan data pada dokumen-dokumen yang dicari menggunakan
keyword. Dimana keterkaitan antar dokumen biasanya berhubungan dengan adanya key yang
sama antar dokumen-dokumen tersebut.
Batasan Masalah
Pada pembuatan aplikasi ini batasan masalah sesuai dengan yang ditugaskan,
yaitu :
1. Pembuatan aplikasi maksimal untuk analisis data sebanyak 5 buah data.
2. Data – data harus berekstensi .doc atau .docx
3. Tidak dilakukan filterisasi pada token.
4. Dilakukan penghitungan nilai D, df, IDF, dan banyaknya token dalam text dan
keseluruhan, nilai bobot per dokumen (W) dan space vektor
5. Hasil analisa akhir ditampilkan sorting berdasarkan judul .doc
Tujuan
Tujuan dari diimplementasikan text mining yaitu untuk mengetahui keterkaitan
antar data, untuk kemudian diketahui data mana yang memiliki keterhubungan paling besar,
dan yang paling rendah, data hasil ditunjukkan dalam bentuk sorting
Implementasi
Dalam mengerjakan text mining ini kami membuat aplikasi menggunakan
teknologi .NET dimana bahasa yang digunakan adalah bahasa pemrograman C#.
Pertama aplikasi akan menampilkan text box dan browse data yang akan di analisis
yang berekstensi .doc atau .docx, dalam analisis ini disediakan 5 buah text box (maksimal
analisis 5 text). Setelah data di buka kemudian dimasukkan keyword kata, aplikasi nantinya
akan menganalisis tentang ke-5 text tersebut, antara lain banyaknya token pada text-text,
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 3/14
keterhubungan data dengan keyword (df), setelah itu hitung D, untuk kemudian dapat dihitung
bobot w dimana didapat dari nilai kata kunci (tf) * IDF, oleh karena jika bobot w antar
dokumen bernilai sama, maka digunakan metode space vector untuk langkah selanjutnya, dan
dari hasil akhir perhitungan space vector ini, maka nanti akan di sorting nilainya, untuk
kemudian didapat urutan tingkat similiritas antar dokumen.
a. Tampilan Aplikasi
1. Menu Pembuka
Tampilan splash
2. Menu Utama
a. Menu Utama
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 4/14
Tampilan text box untuk menampilkan isi dokumen
b. Browse File
Tampilan browse file default windows
c. Keluaran File
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 5/14
Tampilan .doc pada text box
3. Hasil Analisa Text
a. Token Penyusun text
Akan ditampilkan token-token penyusun dari text yang di load oleh
program, masing-masing token dikelompokkan berdasarkan .doc-nya untuk
nilai yang berulang pada token per artikel, maka token ditampilkan 1 kali, dan
nantinya pada proses selanjutnya token-token ini dihitung berdasarkan tingkat
kemunculan pada dokumen, untuk kemudian dijadikan dalam satu susunan
token penyusun semua dokumen.
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 6/14
Token penyusun kalimat
b. Analisa
Misalnya untuk analisa ini dimasukkan key buku (untuk mencari keterkaitan
antar data).
Hasil Analisa text
Pada hasil analisa text ini dapat diketahui, jumlah token masing – masing
dokumen, jumlah df, D, dan perhitungan IDF, dan bobot w masing – masing
dokumen, semakin besar nilai w berarti semakin besar similaritasnya, dan
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 7/14
jikanantinya nilai w antar dokumen ini terdapat kesamaan maka langkah
selanjutnya adalah menggunakan space vector model.
c. Vector Space Model
Digunakan untuk menghitung nilai hasil, jika bobot w untuk dokumen
sama, maka proses sorting yang akan dilakukan tidak akan maksimal, oleh
karena itu untuk memaksimalkan proses digunakan vector space model ini.
Yaitu menghitung cosine sudut antara dua vector, yaitu w dari tiap dokumen
dan w dari kata kunci.
Analisis token dan vector space model
Setelah nilai cosine untuk masing – masing data diketahui, maka
langkah selanjutnya adalah sorting, dimana nilai cosine terbesar memiliki
tingkat similiritas tertinggi. Pada sorting di atas, sorting dilakukan secara asc,
dimana urutan yang ditunjukkan dari similiritas tertinggi ke terendah
pembacaan dilakukan dari kanan.
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 8/14
4. Menu About
Pada menu ini akan menampilakn informasi tentang aplikasi ini.
Tampilan menu about
5. Menu Develop
Pada menu ini akan menampilkan nama kelompok.
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 9/14
Tampilan Develop
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 10/14
Kesimpulan
Kesimpulan yang dapat kami peroleh adalah :
1. Setiap kalimat disusun atas token – token penyusunnya, yang dapat mencerminkan
kesamaan atau perbedaan dengan data – data lain.
2. Tingkat similiritas dokumen dihitung melalui bobot W, yaitu dimana bobot ini
diperoleh dari perhitungan W = tf * IDF.
3. Untuk tingkat bobot yang memiliki nilai sama dengan dokumen / data lain, maka
langkah selanjutnya menggunakan vector space mode.
4. Data di urutkan, dimana akan diketahui data dari nilai similaritas terendah ke
tingkat similaritas tertinggi atau sebaliknya.
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 11/14
Lampiran
//Ambil Token Data
#region TampilToken1
string s = this.RTB_1.Text; string k = "", k1 = "", k2 = "", k3 = "", k4 = "" ;
s = s.ToLower();
string[] words1 = s.Split(' ');
string diFilter4 = ""; foreach (string word in words1)
{ if (diFilter4.Contains(word) == false)
{diFilter4 += word + " ";
}}
string[] filter4 = diFilter4.Split(' '); foreach (string word in filter4)
{k += word + "\n";
}RTB_Token1.Text = k;
#endregion TampilToken1
//Hitung nilai W, df, D, IDF
public void Hitung(){
double w1 = 0, w2 = 0, w3 = 0, w4 = 0, w5 = 0;
pp.Artikel_1 = this.RTB_1.Text;pp.Artikel_2 = this.RTB_2.Text;pp.Artikel_3 = this.RTB_3.Text;pp.Artikel_4 = this.RTB_4.Text;pp.Artikel_5 = this.RTB_5.Text;
pp.Key = this.TB_Key.Text;word1 = Regex.Matches(pp.Artikel_1, @"[\S]+");sama1 = Regex.Matches(pp.Artikel_1, pp.Key);word2 = Regex.Matches(pp.Artikel_2, @"[\S]+");sama2 = Regex.Matches(pp.Artikel_2, pp.Key);word3 = Regex.Matches(pp.Artikel_3, @"[\S]+");sama3 = Regex.Matches(pp.Artikel_3, pp.Key);word4 = Regex.Matches(pp.Artikel_4, @"[\S]+");sama4 = Regex.Matches(pp.Artikel_4, pp.Key);word5 = Regex.Matches(pp.Artikel_5, @"[\S]+");sama5 = Regex.Matches(pp.Artikel_5, pp.Key);
nn.Kalimat1 = word1.Count;nn.Kata1 = sama1.Count;
nn.Kalimat2 = word2.Count;nn.Kata2 = sama2.Count;
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 12/14
nn.Kalimat3 = word3.Count;nn.Kata3 = sama3.Count;nn.Kalimat4 = word4.Count;nn.Kata4 = sama4.Count;nn.Kalimat5 = word5.Count;nn.Kata5 = sama5.Count;
double df = 0; if (nn.Kata1 != 0)
df++; if (nn.Kata2 != 0)
df++; if (nn.Kata3 != 0)
df++; if (nn.Kata4 != 0)
df++; if (nn.Kata5 != 0)
df++;
LB_df.Text = df.ToString();
double D = 0; if (RTB_1.Text != "")
D++; if (RTB_2.Text != "")
D++; if (RTB_3.Text != "")
D++; if (RTB_4.Text != "")
D++; if (RTB_5.Text != "")
D++;
LB_D.Text = D.ToString();LB_DD.Text = D.ToString();LB_Dff.Text = df.ToString();
double DF = Math.Log(5.0f/df, 10);LB_IDF.Text = DF.ToString();
w1 = nn.Kata1 * DF;w2 = nn.Kata2 * DF;w3 = nn.Kata3 * DF;w4 = nn.Kata4 * DF;w5 = nn.Kata5 * DF;
W1.Text = w1.ToString();W2.Text = w2.ToString();W3.Text = w3.ToString();W4.Text = w4.ToString();W5.Text = w5.ToString();
}
//cosinus
public void HitungCosinus(){
double ww1;ww1 = Convert.ToDouble(this.W1.Text);
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 13/14
#region kk double kkD1 = Math.Sqrt(nn.Kata1);
#endregion kk
double cosineD1 = (kkD1 * ww1) / Math.Sqrt(kkD1 * ww1);
Cos1.Text = cosineD1.ToString();
}
//class nilai
class Nilai{
private int _kalimat1; private int _kalimat2; private int _kalimat3; private int _kalimat4; private int _kalimat5; private int _kata1; private int _kata2; private int _kata3; private int _kata4; private int _kata5;
public int Kalimat1{
get { return _kalimat1; } set { _kalimat1 = value; }
} public int Kalimat2
{ get { return _kalimat2; } set { _kalimat2 = value; }
} public int Kalimat3
{ get { return _kalimat3; } set { _kalimat3 = value; }
}
public int Kalimat4{
get { return _kalimat4; } set { _kalimat4 = value; }
} public int Kalimat5
{ get { return _kalimat5; } set { _kalimat5 = value; }
} public int Kata1
{ get { return _kata1; }
set { _kata1 = value; }} public int Kata2
5/16/2018 Laporan Text Mining - slidepdf.com
http://slidepdf.com/reader/full/laporan-text-mining 14/14
{ get { return _kata2; } set { _kata2 = value; }
} public int Kata3
{
get { return _kata3; } set { _kata3 = value; }
} public int Kata4
{ get { return _kata4; } set { _kata4 = value; }
} public int Kata5
{ get { return _kata5; } set { _kata5 = value; }
}