Data mining

16

BAB 2LANDASAN TEORI

2.1 DatabaseDatabase (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan dari masing-masing data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah organisasi. Database system adalah kumpulan program aplikasi yang berinteraksi dengan basis data bersama dengan Database Management System (DBMS) dan basis data itu sendiri, sedangkan Database Management System (DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses database.Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data berbasis komputer pada suatu perusahaan. Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh perusahaan.

2.2 Data Mining2.2.1 Definisi Data MiningData mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting.Data mining (Segall et.all, 2008) biasa juga disebut dengan Data atau knowledge discovery atau menemukan pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam informasi yang berguna.Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai proses mengekstrak atau menambang pengetahuan yang dibutuhkan dari sejumlah data besar.Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System, Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image Database, Signal Processing.Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, Data mining digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas sejarah, deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah proses model data mining(Mariscal, Marban dan Fernandes, 2010)Karakteristik data mining sebagai berikut:a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dapat dipercaya.c. Data mining berguna untuk membuat keputusan kritis.Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.2.2.2 Fungsi Data MiningTeknik teknik data mining telah digunakan untuk menemukan pola yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All, 2012)Data mining dibagi menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:A. PrediktifTujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas.B. DeskriptifTujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil.Fungsi dari data mining juga ada dalam dunia kesehatan, dimana data mining telah digunakan untuk untuk meningkatkan diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien. (Sandra et all, 2009)Data mining juga memiliki beberapa fungsionalitas yaitu Concept/Class Description: Characterization and Discrimination, Mining Frequent Patterns, Associations, and Correlations, Classification and Prediction, Cluster Analysis, Outlier analysis, dan Evolution analysis. (Han dan Kamber, 2006 : 21 27)Berikut adalah penjelasan dari masing-masing fungsi diatas:1. Concept/Class Description: Characterization and DiscriminationData characterization adalah ringkasan dari semua karakteristik atau fitur dari data yang telah diperoleh dari target kelas. Data yang sesuai dengan kelas yang telah ditentukan oleh pengguna biasanya dikumpulkan di dalam database. Misalnya, untuk mempelajari karakteristik produk perangkat lunak dimana pada tahun lalu seluruh penjualan telah meningkat sebesar 10%, data yang terkait dengan produk-produk tersebut dapat dikumpulkan dengan menjalankan sebuah query SQL. Sedangkan, data discrimination adalah perbandingan antara fitur umum objek data target kelas dengan fitur umum objek dari satu atau satu set kelas lainnya. target diambil melalui query database. Misalnya, pengguna mungkin ingin membandingkan fitur umum dari produk perangkat lunak yang pada tahun lalu penjualannya meningkat sebesar 10% tetapi selama periode yang sama seluruh penjualan juga menurun setidaknya 30%.2. Mining Frequent Patterns, Associations, and CorrelationsFrequent Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang sering muncul bersama-sama dalam suatu kumpulan data transaksional, misalnya seperti susu dan roti.Associations Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket Analysis dan data transaksi.3. Classification and PredictionKlasifikasi adalah proses untuk menemukan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep dengan tujuan memprediksikan kelas untuk data yang tidak diketahui kelasnya. Model yang diturunkan didasarkan pada analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti If-then klasifikasi, decision tree, dan sebagainya.Teknik classification bekerja dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome. (Mewati Ayub, 2007 : 7).Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini nilai data yang akan diprediksi merupakan data numeric. Disamping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan data yang tersedia.4. Cluster AnalysisCluster adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau Analisis Custer adalah proses pengelompokkan satu set benda-benda fisik atau abstrak kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.Dari tugas tugas data mining yang telah di jelaskan , perbandingan antara Classification dan Clustering menurut Han dan Kamber (2006) lebih spesifik digambarkan sebagai berikut :Tabel 2.1 Perbandingan Classification dan ClusteringClassificationClustering

1. Menganalisis label kelas dari data objek.1. menganalisis data objek tanpa ada label kelas.

2. Label kelas ada atau terlihat jelas pada training data.2.label kelas tidak ada atau tidak terlihat pada training data.

3. Bertujuan untuk mengelompokan pada kelas kelas yang telah ditentukan.3.bertujuan untuk mengelompokan dan menentukan label kelas dari tiap cluster yang telah terbentuk

4. Proses klasifikasi berdasarkan pada menemukan sebuah model atau fungsi yang menggambarkan dan membedakan data kelas atau konsep, dengan tujuan untuk dapat menggunakan model untuk memprediksi objek kelas yang kelas label nya blm diketahui. Model tersebut berdasarkan pada analisis dari training data (data objek yang kelas label nya telah diketahui.)4. Proses Clustering berdasarkan pada prinsip: objek yang ada di dalam satu cluster memiliki kemiripan yang tinggi dari pada yang lainnya, tetapi sangat berbeda dengan objek yang ada pada cluster lainnya.

5. Outlier analysisOutlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dianggap sebagai noise atau pengecualian. Analisis data outlier dapat dianggap sebagai noise atau pengecualian. Analisis data outlier dinamakan Outlier Mining. Teknik ini berguna dalam fraud detection dan rare events analysis.6. Evolution analysisAnalisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.2.2.3 Tujuan Data MiningTujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:1. ExplanatoryUntuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado.2. ConfirmatoryUntuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali pendapatan keluarga.3. ExploratoryUntuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.

2.2.4 Arsitektur Data MiningData mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber, 2006) yaitu:a. Database, data warehouse, World Wide Web, atau tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database, data warehouse, spreadsheet, ataupun tempat penyimpanan informasi lainnya. Data Cleaning, Data Integration dan Data Selection dapat dijalankan pada data tersebut.b. Database dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan permintaan pengguna.c. Knowledge Based. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh.d. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.e. Ghrapical user interface (GUI). Modul ini berkomunikasi dengan pengguna dan data mining. Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.

Gambar 2.1Arsitektur sistem data mining

2.2.5 Klasifikasi Sistem Data MiningData Mining (Han dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam pemecahan masalah dengan menggunakan tinjauan berbagai sudut pandang ilmu secara terpadu yaitu, database system, statistics, machine learning, visualization, dan information system. (Gambar 2.2)

Gambar 2.2 Data mining merupakan irisan dari berbagai disiplin2.2.6 Knowledge Discovery In DatabasesHan dan Kamber (2006 : 7), lebih spesifik menyatakan istilah Data Mining dan Knowledge Discovery in Databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain dan salah satu tahap dalam proses KDD adalah data mining.Data mining adalah salah satu langkah dalam proses KDD secara keseluruhan. Secara umum, data mining digunakan oleh banyak peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining dan knowledge discovery telah diusulkan sebagai nama yang paling memadai untuk keseluruhan proses KDD. Knowledge Discovery in Databases berkaitan dengan proses penemuan pengetahuan yang diterapkan pada database. Hal ini juga didefinisikan sebagai proses non-trivial untuk identifikasi data yang valid, baru, berpotensi bermanfaat, dan akhirnya memiliki pola yang dapat dimengerti. (Kurgan dan Musilek, 2006)Knowledge discovery sering terhalang karena tantangan dalam integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah dimensi di dalam data meningkat, pendekatan baru untuk penemuan pola sangat diperlukan. (Zhiyuan Chen, 2007).Berdasarkan pengertian beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD) adalah proses yang bertujuan untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi serta pengetahuan yang berguna.Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3 yang terdiri dari tahapan-tahapan sebagai berikut:1) Data cleaningData cleaning merupakan proses membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan penulisan. Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data cleaning juga akan mempengaruhi hasil informasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.2) Data integrationProses menambah data yang sudah ada dengan data atau informasi lain yang relevan atau bisa disebut juga merupakan penggabungan data dari berbagai database kedalam satu database baru yang dibutuhkan oleh KDD.Tahapan cleaning dan integration pada KDD mengasumsikan bahwa integrator data harus menghapus noise dari data awal secara paralel dengan mengintegrasikan beberapa data set. (M. Brian Blake, 2009)

Gambar 2.3 Data mining sebagai tahapan dalam proses KDD3) Data selectionPemilihan data yang relevan dan dapat dilakukan analisis dari data operasional. Data hasil pemilihan disimpan dalam database yang terpisah.4) Data transformationProses tranformasi data kedalam bentuk format tertentu sehingga data tersebut sesuai untuk proses data mining. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.5) Data miningProses mencari pola atau informasi menarik dengan menggunakan teknik, metode atau algoritma tertentu.6) Pattern evaluationMengidentifikasi pola-pola yang benar-benar menarik dari hasil data mining. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai atau tidak.7) Knowledge presentationMenampilkan pola informasi yang dihasilkan dari proses data mining, visualisasi ini membantu mengkomunikasikan hasil data mining dalam bentuk yang mudah dimengerti.2.2.7 Teori Khusus Classification and PredictionClassification (Han dan Kamber, 2006 : 285) adalah sebuah model dalam data mining dimana, classifier dikonstruksi untuk memprediksi categorical label, seperti aman atau beresiko untuk data aplikasi peminjaman uang; ya atau tidak untuk data marketing; atau treatment A, treatment B atau treatment C untuk data medis. Kategori tersebut dapat direpresentasikan dengan nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai tersbut tidak memiliki arti tertentu.Classification dan Association rule discovery merupakan tugas yang sama dalam data mining, dengan pengecualian bahwa tujuan utama dari klasifikasi adalah prediksi label kelas, sedangkan asosiasi aturan penemuan menggambarkan korelasi antara item dalam database transaksional. (Fadi Thabtah, 2007)Proses data klasifikasi memiliki dua tahapan, yang pertama adalah Learning: dimana training data dianalisa dengan menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah Classification: dimana pada tahap ini test data digunakan untuk mengestimasi ketepatan dari classification rules. Jika keakuratan yang dikondisikan dan yang diperkirakan dapat diterima, rule tersebut dapat diaplikasikan pada klasifikasi lainya dari tuple data yang baru.Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa, classification hanya bisa diterapkan pada data training yang sangat kuat di mana diasumsikan bahwa kelas "positif" sudah mewakili minoritas tanpa kehilangan atribut umum.Klasifikasi dalam data mining memiliki 3 (tiga) metode yaitu, Classification by decision tree induction, Bayes Classification, dan Rule-based Classification.1. Classification by Decision Tree InductionDecision Tree Induction adalah pengetahuan dalam bentuk pohon keputusan yang training tuple nya telah diberi label kelas. Decision Tree bisa disebut juga alat non-parametrik analisis diskriminan, yang dirancang untuk mewakili aturan keputusan dalam bentuk yang disebut pohon biner (Vladimir Nikulin, 2008). Sebuah Decision Tree seperti sebuah flowchart dengan berstruktur pohon, dimana setiap internal node (non-leaf node) mendenotasikan sebuah tes pada sebuah atribut, setiap cabang merepresentasikan sebuah hasil dari tes, dan setiap leaf node (atau terminal node) memegang sebuah label kelas.Namsik dan Olivia (2008) lebih spesifik mengatakan bahwa, Decision tree adalah struktur rekursif sederhana untuk mewakili prosedur keputusan di mana sebuah instance ditugaskan untuk salah satu dari serangkaian kelas hasil yang telah ditentukan sebelumnya. Attribute Selection Measures Sebuah attribute selection measure adalah sebuah heuristis untuk memilih dari pembelahan kriteria yang terbaik dipisahkan dengan menggunakan data partition, D, dari training tuple yang kelas-nya telah diberi label ke dalam kelas individual.Information GainInformation Gain digunakan sebagai atribut pemilih ukuran. Atribut dengan information gain tertinggi dipilih sebagai atribut pemisah untuk node N. Atribut ini meminimalisasi informasi yang dibutuhkan untuk mengklasifikasi tuple dalam memberikan hasil pembelahan dan menrefleksikan nilai acak yang paling sedikt kesalahannya pada kelas partisi tersebut.Dan rumus pecarian information gain adalah:Dimana Info D adalah:Informasi yang diperkirakan (entropy) yang dibutuhkan untuk mengklasifikasikan sebuah tuple pada D.Dan Info A adalah:Informasi yang dibutukan (setelah menggunakan A untuk membagi D kedalam partisi V) untuk mengklasifikasi D. Gain RatioPengukuran Information Gain berat sebelah terhadap tes dengan berbagai hasil. Sehinga hasilnya lebih memilih atribut yang memiliki sebuah angka dengan nilai besar.2. Bayesian ClassificationBayesian Classifier adalah pengklasifikasi statistik. Bayesian Classfier dapat memperkirakan probabilitas keanggotaan kelas, seperti kemungkinan bahwa sebuah tuple yang diberikan telah dimiliki oleh sebuah kelas tertentu lainnya.Nave Bayesian ClassificationNave Bayesian classifer, atau Simple Bayesian classifier, bekerja seperti dibawah:1. Biarkan X menjadi sampel data ("bukti"): label kelas tidak diketahui2. Biarkan H menjadi hipotesis bahwa X milik kelas C3. Klasifikasi adalah untuk menentukan P (H | X), (posteriori probabilitas), probabilitas bahwa hipotesis memegang data sampel yang diberikan dan diamati X4. P (H) (prior), probabilitas awala. Misalnya, X akan membeli komputer, tanpa memandang usia dan pendapatan5. P (X): probabilitas bahwa data sampel yang diamati6. P (X | H) (kelemahan berupa), probabilitas mengamati sampel X, memberikan data yang dipegang hipotesisa. Misalnya, Mengingat bahwa X akan membeli komputer, probabilitas bahwa X adalah 31 .. 40, pendapatan menengah7. Data pelatihan yang diberikan X, posteriori probabilitas hipotesis H, P (H | X), mengikuti teorema Bayes

8. Secara informal, hal ini dapat ditulis sebagaiposteriori = kemungkinan x sebelum / bukti9. Prediksi X milik C2 IFF probabilitas P (Ci | X) adalah yang tertinggi di antara semua P (Ck | X) untuk semua kelas K10. Kesulitan praktis: memerlukan pengetahuan awal dengan probabilitas yang banyak, biaya komputasi yang signifikan.3. Rule-Based ClassficationMenggunakan IF-THEN Rules untuk KlasifikasiSebuah rule-based classifier digunakan sebagai sekumpulan dari rule IF-THEN untuk klasifikasi. Sebuah aturan IF-THEN dengan form,IF kondisi THEN hasil.Contoh dari Rule IF-THEN (R1).R1: IF umur = muda AND pelajar = ya THEN beli_komputer = ya.a. Assessment dari sebuah rule: coverage and accuracy ncovers = # tuple yang di-cover oleh R ncorrect = # tuple yang secara tepat diklasifikasikan oleh Rcoverage(R) = ncovers /|D| /* D: kumpulan training data */accuracy(R) = ncorrect / ncoversoperator logika (AND), (OR), (NOT).b. Jika lebih dari satu aturan yang dipicu, maka diperlukan sebuahresolusi konflikc. Ukuran pemesanan: menetapkan prioritas tertinggi dengan aturan memicu yang memiliki"terberat"persyaratan (yaitu, dengan tesatribut yangpaling)d. Kelas berbasis memesan: urutan penurunanbiaya prevalensi atau kesalahan klasifikasi per kelasPeraturan-berbasis memesan(daftar keputusan):aturan akan disusun dalam satu daftar prioritas jangka, menurut beberapa ukuran kualitas peraturan atau oleh para ahli.2.3 Classifier Accuracy MeasurablesClassifier Accuracy Measures (Han dan Kamber, 2006 : 360) adalah metode klasifikasi yang dilakukan berdasarkan tingkat akurasi model dalam melakukan prediksi. Hal ini dilakukan karena keakuratan dalam mengolah data merupakan salah satu hal yang penting.Metode yang digunakan untuk menguji tingkat akurasi model klasifikasi ini adalah metode hold out. Dalam metode ini, data asli dipartisi menjadi dua himpunan yang saling terpisah yang dinamakan training set dan test set. Model klasifikasi kemudian dibangun berdasarkan training set dan hasilnya kemudian dievaluasi dengan menggunakan testing set. Akurasi dari masing-masing metode klasifikasi dapat diestimasi berdasarkan akurasi yang diperoleh dari test set. Proporsi antara training set dan test set tidak mengikat tetapi agar variansi dalam model tidak terlalu besar maka dapat ditentukan bahwa proporsi training set lebih besar daripada test set-nya. Biasanya 2/3 dari data dijadikan training set dan 1/3 lagi dijadikan testing set.Ukuran dari tingkat akurasi sebuah classifier dapat ditentukan dengan menggunakan perhitungan-perhitungan Classifier Accuracy Measurables, yaitu sebagai berikut:Sensivity = Specificity = Precision = Accuracy = sensivity + specifity t_pos adalah jumlah true positive yaitu jumlah data yang berhasil di prediksi oleh classifier dengan benar (misalkan jumlah data kelas yes dari sampel yang secara benar dapat di prediksi sebagaimana mestinya oleh model klasifikasi), pos adalah jumlah sampel data positives (yes), t_neg adalah jumlah true negatives yaitu adalah kebalikan dari true positive (misalkan jumlah data kelas no dari sampel yang benar dapat diprediksi sebagaimana mestinya oleh model klasifikasi), neg adalah jumlah total sampel negatives (no ), dan f_pos adalah false positives yaitu jumlah data yang salah di prediksi oleh classifier (no diprediksi sebagai yes).Sensivity adalah ukuran tingkatan derajat classifier dapat mengenal positives samples (yes) berdasarkan jumlah true positives yang dapat diprediksi secara benar jika yang diberikan adalah sampel positives. Specificity adalah ukuran tingkatan derajat classifier dapat mengenal negatives samples (no) berdasarkan true negatives yang dapat diprediksi secara benar jika yang diberikan adalah sampel negatives.Precision adalah besarnya presentase classifier dalam menebak dengan tepat kelas true positives (yes) dengan melihat perbandingan true positive yang dapat diprediksi dengan penjumlahan true positive dan false positive.Accuracy adalah derajat ukuran yang merupakan fungsi dari Sensivity dan Specificity model klasifikasi dalam melakukan prediksi.

8

Data mining

Documents

Transcript of Data mining