Data Mining Gerry

download Data Mining Gerry

of 30

description

Pengertian Data Mining

Transcript of Data Mining Gerry

DAFTAR ISI

DAFTAR ISI i1. Data Mining 1 Bahasan Umum Data Mining 2 Definisi Data Mining 2 Tugas Utama Data Mining 3 Proses Data Mining 5 Cara Kerja Data Mining 6 Metodologi Data Mining yang Populer 82. Pengertian Data Mining dan Contoh Kasus yang Terjadi 13 Data, Informasi, Pengetahuan dan Gudang Data 14 Apa yang bisa dilakukan Data Mining ?15 Bagaimana Data Pekerjaan Penambangan ? 173. Pengertian Data Mining, Text Mining dan Web Mining 21 Latar Belakangan Terbentuknya Data Mining 22 Fungsi Fungsi Umum Data Mining 22 Manfaat Data Mining 244. Pengertian dan Konsep Data Mining 28 Konsep Data Mining 28

1. i

2. Data MiningKemudahan penyimpanan dan pengaksesan data oleh suatu aplikasi menyebabkan membengkaknya jumlah data yang tersedia. Sudah banyak orang yang menyadari bahwa data yang berukuran besar tersebut sebenarnya mengandung berbagai jenis pengetahuan tersembunyi yang berguna untuk proses pengambilan keputusan. Akan tetapi, pengetahuan akan sangat sulit ditemukan dengan cara menganalisis data secara manual. Oleh karena itu, dilakukan data mining untuk mengekstraksi pengetahuan secara otomatis dari data berukuran besar dengan cara mencari pola pola menarik yang terkandung di dalam data tersebut.

Data mining memiliki banyak fungsionalitas, antara lain pembuatan ringkasan data, analisis asosiasi antar data, klasifikasi data, prediksi, dan pengelompokan data. Setiap fungsionalitas akan menghasilkan pengetahuan atau pola yang berbeda satu sama lain.

Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas atau kategori dari objek objek di dalam basis data. Sebagai contoh, klasifikasi dapat digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman, oleh manajer pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan membeli komputer baru, atau oleh periset di bidang medis untuk memprediksi j menis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu. Pada kasus-kasus tersebut, model klasifikasi dibuat untuk memprediksi kelas aman atau beresiko untuk data permohonan pinjaman; beli atau tidak untuk data pemasaran; dan pengobatan-1, pengobatan-2, atau pengobatan-3 untuk data medis. Model klasifikasi dibuat dengan cara menganalisis training data (terdiri dari objek-objek yang kelasnya sudah diketahui). Model yang dihasilkan kemudian akan digunakan untuk memprediksi kelas dari unknown data (terdiri dari objek-objek yang kelasnya belum diketahui). Model klasifikasi dapat digambarkan dalam beberapa bentuk, seperti aturan klasifikasi (IF-THEN), pohon keputusan, rumus matematika, atau jaringan saraf tiruan. Pohon keputusan banyak digunakan karena mudah dipahami oleh manusia serta mampu menangani data beratribut banyak.

Bahasan Umum Data MiningData Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka.

Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Definisi Data MiningData mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar.

Data mining dapat juga didefinisikan sebagai pemodelan dan penemuan pola pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar. Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi.

Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Ruang Lingkup Data Mining Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai.

Tugas Utama Data MiningTelah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar.

Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan (yang telah dibahas pada butir 3).

Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan.

Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll. Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori ataucluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).

Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabel variabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numeric. Pendeteksian Perubahan dan Deviasi berfokus pada penemuanperubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

Teknologi data mining memiliki kemampuan-kemampuan sebagai berikut:1. Mengotomatisasi prediksi tren dan sifat-sifat bisnis.Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaanpertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.

2. Mengotomatisasi penemuan polapola yang tidak diketahui sebelumnya.Kakas data mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produkproduk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomali yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).

Proses Data MiningTujuan dari data mining itu sendiri adalah mencari data pada sebuah database / data warehouse, yang dapat meramalkan prosepek masa depan. Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan :1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)2. Integrasi data (penggabungan data dari beberapa sumber)3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)4. Aplikasi teknik DM5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap diatas, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Knowledge Discovery and Data Mining (KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan.

Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka.

Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut:1. Data cleaning, menghilangkan noise dan data yang inkonsisten.2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda3. Data selection, mengambil data yang relevan dengan tugas analisis dari database4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures.7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.

Cara Kerja Data MiningTeknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui jawabannya dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya. Sebagai contoh di sini diambil pencarian solusi bisnis di bidang telekomunikasi.

Ada beberapa perusahaan telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan langsung jarak jauh (SLJJ). Pihak manajemen dapat menghubungi calon-calon kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon khusus, dengan hasil yang kemungkinan besar kurang menggemberikan, atau dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di basis data perusahaan untuk membangun sebuah model. Perusahaan ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah penggunaan fasilitas kredit, dll.

Masalahnya adalah penggunaan SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan membangun sebuah model.

Tabel 1. Data Mining untuk Menentukan Prospek

StatusKostumerProspek

Informasi Umum (Contoh : Data Demografis)DiketahuiDiketahui

Informasi Khusus (Contoh : Transaksi Kustomer)DiketahuiTarget

Gol dari pemodelan ini adalah untuk membuat perkiraan yang didasari kalkulasi untuk mengisi informasi di kuadran kanan bawah pada Tabel 1, berdasar pada informasi umum dan khusus yang sudah ada (dimiliki oleh perusahaan itu). Misalnya, sebuah model sederhana untuk perusahaan telekomunikasi itu adalah: 98% kustomer milik perusahaan itu yang berpenghasilan $60.000/tahun membelanjakan lebih dari $80/bulan untuk penggunaan SLJJ. Model ini kemudian dapat diterapkan untuk menarik kesimpulan dari informasi khusus (sebagai data prospek), dimana saat ini informasi khusus tersebut tidak dimiliki oleh perusahaan. Dengan model ini, calon-calon kustomer baru dapat ditarget secara selektif.

Metodologi Data Mining Yang PopulerAda banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

a. Aturan dan Pohon KeputusanMetodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana.. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model. Memberikan ilustrasi mengenai efek penerapan pemisahan, yang didasarkan pada nilai ambang tertentu, pada variable penghasilan (income) di himpunan data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan.

Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum (misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai.

Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan regresi4. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan RegresiNon-linier Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. menunjukkan tipe boundary keputusan non-linier yang mungkin dihasilkan oleh jaringan saraf. Metodologi regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk diinterpretasikan Contoh boundary klasifikasi yang dipelajari pengklasifikasi non-linier.

c. Metodologi Berbasis-sampelRepresentasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang mirip di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetangga terdekat, algoritma regresi dan system reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil. Boundary klasifikasi untuk pengklasifikasi tetangga-terdekat pada himpunan data peminjaman. Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-titik data.

d. Model Kebergantungan Grafik ProbabilistikModel grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain. Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik dipelajari secara langsung dari basis data.

e. Model Belajar RelasionalJika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik.

Beberapa contoh bidang-bidang bisnis yang telah berhasil menerapkan aplikasi data mining adalah:a) Perusahaan farmasi dapat menganalisis aktivitas penjualan terkininya dan menggunakan hasilnya untuk mentargetkan dokterdokter yang berpotensi menggunakan produknya dan menentukan aktifitas pemasaran yang paling efektif untuk beberapa bulan mendatang.b) Perusahaan kartu kredit dapat memanfaatkan data transaksi kustomer-kustomernya untuk merancang produk kredit baru yang akan menarik minat para kustomer tersebut.c) Perusahaan transportasi yang menyediakan berbagai jenis pelayanan. Data mining dapat digunakan untuk mengidentifikasi prospek-prospek pelayanan yang menjanjikan keuntungan.d) Perusahaan produk makanan atau kebutuhan sehari-hari. Data mining dapat dimanfaatkan untuk meningkatkan penjualan produk ke para pengecer (retailer). Data kustomer, pengiriman, aktivitas kompetitor dapat digunakan untuk menganalisis sebab-sebab kustomer berpindah ke produk merek lain. Kemudian, hasilnya dapat digunakan untuk menyusun strategi pemasaran yang lebih efektif.

Walaupun telah banyak diaplikasikan di dunia bisnis dan mendatangkan profit, teknologi KDD dan Data Mining masih memiliki tantangan-tantangan yang harus diatasi. Riset untuk menyempurnakan KDD diperlukan antar lain untuk mengatasi:a) Basisdata yang berukuran besar, dengan ratusan tabel, jutaan record dan berukuran sampai dengan multigigabyte.b) Dimensi yang besar, basisdata tidak hanya memiliki jutaan rekord tetapi juga jumlah field (atribut, variabel) yang besar.c) Data dan pengetahuan yang berubah terus sehingga pola-pola yang telah ditemukan sebelumnya menjadi tidak berlaku lagi.d) Data yang hilang dan banyak salah, hal ini banyak terjadi pada basisdata.e) Relasi antar-field basisdata yang kompleks. Saat ini data miningmasih dirancang untuk relasi yang cukup sederhana.f) Integrasi dengan sistem lain. Sistem KDD standalone bisa jadi agak kurang bermanfaat. Integrasi yang dimaksud bisa terjadi dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta pencatat sensor waktu-nyata.

Sumber : http://pobersonaibaho.wordpress.com/2011/05/15/definisi-data-mining-tugas-utama-data-mining-proses-dan-cara-kerja-data-miningmetodologi-data-mining/

3. Pengertian Data Mining Dan Contoh Kasus Yang TerjadiUmumnya, data mining dapat disebut data atau penemuan pengetahuan yang artinya proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna, informasi yang dapat digunakan untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya.

Software Data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola antara puluhan field dalam database relasional besar.

Meskipun data mining adalah istilah yang relatif baru, teknologi ini tidak. Perusahaan telah menggunakan komputer kuat untuk menyaring volume data scanner supermarket dan menganalisa laporan riset pasar selama bertahun-tahun. Namun, inovasi terus menerus dalam kekuatan pemrosesan komputer, penyimpanan disk, dan perangkat lunak statistik secara dramatis meningkatkan akurasi analisis saat mengemudi menurunkan biaya.

Sebagai contoh, salah satu jaringan toko Midwest menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih lanjut menunjukkan bahwa pembeli ini biasanya melakukan belanja mingguan mereka pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item. Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk akhir pekan mendatang. Rantai kelontong bisa menggunakan ini baru ditemukan informasi dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka bisa memindahkan layar bir lebih dekat ke layar popok. Dan, mereka bisa memastikan bir dan popok yang dijual dengan harga penuh pada hari Kamis.

Data, Informasi, Pengetahuan, dan Gudang Data

DataData setiap fakta, angka, atau teks yang dapat diproses oleh komputer. Hari ini, organisasi yang mengumpulkan sejumlah besar dan berkembang dari data dalam format yang berbeda dan database yang berbeda. Ini termasuk:1. Data operasional atau transaksional yaitu seperti, penjualan, biaya, persediaan, penggajian, dan akuntansi.2. Data nonoperational, seperti penjualan industri, data perkiraan, dan data ekonomi makro.3. Meta data, data tentang data itu sendiri, seperti desain database logis atau definisi kamus data.

InformasiPola, asosiasi, atau hubungan antar semua data ini dapat memberikan informasi. Sebagai contoh, analisis titik ritel data transaksi penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.

PengetahuanInformasi dapat diubah menjadi pengetahuan tentang pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan pengetahuan tentang perilaku pembelian konsumen. Dengan demikian, produsen atau pengecer dapat menentukan item mana yang paling rentan terhadap upaya promosi.

Gudang DataKemajuan dramatis dalam data capture, kekuatan pemrosesan, transmisi data, dan kemampuan penyimpanan yang memungkinkan organisasi untuk mengintegrasikan berbagai database mereka ke dalam gudang data. Data pergudangan didefinisikan sebagai proses manajemen data terpusat dan pengambilan. Data pergudangan, seperti data mining, adalah istilah yang relatif baru meskipun konsep itu sendiri telah ada selama bertahun-tahun. Data pergudangan merupakan visi ideal mempertahankan repositori pusat dari semua data organisasi. Sentralisasi data yang diperlukan untuk memaksimalkan akses pengguna dan analisis. Kemajuan teknologi dramatis membuat visi ini menjadi kenyataan bagi banyak perusahaan. Dan, kemajuan sama dramatis dalam perangkat lunak analisis data yang memungkinkan pengguna untuk mengakses data ini secara bebas. Perangkat lunak analisis data yang mendukung data mining.

Apa yang bisa dilakukan data mining?Data mining terutama digunakan hari ini oleh perusahaan dengan fokus konsumen yang kuat - ritel, keuangan, komunikasi, dan pemasaran organisasi. Hal ini memungkinkan perusahaan-perusahaan untuk menentukan hubungan antara faktor-faktor "internal" seperti harga, positioning produk, atau staf keterampilan, dan faktor "eksternal" seperti indikator ekonomi, persaingan, dan demografi pelanggan. Dan, hal itu memungkinkan mereka untuk menentukan dampak pada penjualan, kepuasan pelanggan, dan keuntungan perusahaan. Akhirnya, memungkinkan mereka untuk "drill down" menjadi informasi ringkasan untuk melihat data transaksional detail.

Dengan data mining, pengecer bisa menggunakan catatan point-of-penjualan pembelian pelanggan untuk mengirim promosi ditargetkan berdasarkan sejarah pembelian individu. Dengan pertambangan data demografis dari komentar atau jaminan kartu, pengecer bisa mengembangkan produk dan promosi untuk menarik segmen pelanggan tertentu. Sebagai contoh, tambang Hiburan Blockbuster penyewaan video sejarah database-nya untuk merekomendasikan sewa kepada pelanggan individu. American Express dapat menyarankan produk kepada pemegang kartu berdasarkan analisis pengeluaran bulanan mereka.

WalMart adalah perintis data mining besar untuk mengubah hubungan pemasok nya. WalMart menangkap transaksi point-of-sale dari lebih dari 2.900 toko di 6 negara dan terus menerus mengirimkan data ini menjadi 7,5 terabyte Teradata gudang besar-besaran data. WalMart memungkinkan lebih dari 3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian pelanggan pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk mengelola persediaan toko lokal dan mengidentifikasi peluang merchandise baru. Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang kompleks.

National Basketball Association (NBA) sedang mengeksplorasi aplikasi data mining yang dapat digunakan bersama dengan rekaman gambar permainan basket. Perangkat lunak Pramuka Lanjutan menganalisis gerakan pemain untuk membantu pelatih mengorganisir drama dan strategi. Misalnya, analisis play-by-play lembar pertandingan dimainkan antara New York Knicks dan Cleveland Cavaliers pada 6 Januari 1995 mengungkapkan bahwa ketika Mark Price memainkan posisi Guard, John Williams mencoba empat tembakan melompat dan membuat masing-masing satu! Pramuka canggih tidak hanya menemukan pola ini, tetapi menjelaskan bahwa itu adalah menarik karena berbeda jauh dari rata-rata persentase menembak 49.30% untuk Cavaliers selama pertandingan itu.

Dengan menggunakan jam yang universal NBA, pelatih secara otomatis dapat membuka klip video yang menunjukkan setiap tembakan melompat dicoba oleh Williams dengan Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka menunjukkan klip sangat sukses bermain pick-and-roll di mana harga menarik pertahanan Pernak dan kemudian menemukan Williams untuk tembakan melompat terbuka.

Bagaimana Data pekerjaan penambangan?Sementara teknologi informasi berskala besar telah berkembang transaksi terpisah dan sistem analitis, data mining menyediakan link antara keduanya. Software Data mining menganalisis hubungan dan pola dalam data transaksi disimpan berdasarkan permintaan pengguna terbuka. Beberapa jenis perangkat lunak analitis yang tersedia: statistik, pembelajaran mesin, dan jaringan saraf.

Umumnya, salah satu dari empat jenis hubungan yang dicari:Classes: Data yang tersimpan digunakan untuk mencari data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai restoran bisa menambang Data pembelian pelanggan untuk menentukan kapan pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.

Cluster: Data item dikelompokkan menurut hubungan logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi segmen pasar atau afinitas konsumen.

Asosiasi: Data dapat ditambang untuk mengidentifikasi asosiasi. Bir-popok contoh adalah contoh pertambangan asosiatif.

Pola sekuensial: Data ditambang untuk mengantisipasi pola perilaku dan tren. Sebagai contoh, pengecer peralatan outdoor dapat memprediksi kemungkinan ransel yang dibeli berdasarkan pembelian konsumen tidur tas dan sepatu hiking.

Data mining terdiri dari lima elemen utama: Ekstrak, transformasi, dan data transaksi beban ke sistem data warehouse. Menyimpan dan mengelola data dalam sistem database multidimensi. Menyediakan akses ke analis bisnis dan profesional teknologi informasi data. Menganalisis data dengan perangkat lunak aplikasi. Menyajikan data dalam format yang berguna, seperti grafik atau tabel.

Berbagai tingkat analisis yang tersedia: Jaringan syaraf tiruan: model prediksi Non-linear yang belajar melalui pelatihan dan menyerupai jaringan syaraf biologis dalam struktur. Algoritma genetik: Optimasi teknik yang menggunakan proses seperti kombinasi genetik, mutasi, dan seleksi alam dalam desain berdasarkan konsep evolusi alam. Pohon keputusan: struktur pohon berbentuk yang mewakili set keputusan. Keputusan ini menghasilkan aturan untuk klasifikasi dataset. Metode pohon keputusan spesifik termasuk Klasifikasi dan Pohon Regresi (CART) dan Chi Square, Automatic Interaction Detection (CHAID). CART dan CHAID teknik pohon keputusan digunakan untuk klasifikasi dataset. Mereka menyediakan seperangkat aturan yang dapat Anda terapkan untuk yang baru (unclassified) dataset untuk memprediksi catatan akan memiliki hasil yang diberikan.

Segmen CART dataset dengan menciptakan 2-way split sementara segmen CHAID menggunakan tes chi square untuk menciptakan multi-arah perpecahan. Kereta biasanya membutuhkan persiapan data kurang dari CHAID. Metode tetangga terdekat: Sebuah teknik yang mengklasifikasikan setiap record dalam dataset berdasarkan pada kombinasi kelas dari catatan k (s) yang paling mirip dengan itu dalam dataset sejarah (di mana k 1). Kadang-kadang disebut teknik tetangga k-terdekat. Aturan induksi: Ekstraksi berguna jika-maka aturan dari data berdasarkan signifikansi statistik. Data visualisasi: Interpretasi visual hubungan yang kompleks dalam data multidimensi. Alat grafis yang digunakan untuk menggambarkan hubungan data. Infrastruktur Teknologi Apa Yang Dibutuhkan?Saat ini, aplikasi data mining yang tersedia pada semua sistem ukuran untuk mainframe, client / server, dan platform PC. Sistem harga berkisar dari beberapa ribu dolar untuk aplikasi terkecil hingga $ 1 juta per terabyte untuk terbesar. Aplikasi enterprise-wide umumnya berkisar dalam ukuran dari 10 gigabyte untuk lebih dari 11 terabyte. NCR memiliki kapasitas untuk memberikan aplikasi melebihi 100 terabyte.

Ada dua driver teknologi penting: Ukuran database: semakin banyak data yang sedang diproses dan dipelihara, semakin kuat sistem yang diperlukan. Permintaan kompleksitas: semakin kompleks pertanyaan dan semakin besar jumlah permintaan sedang diproses, semakin kuat sistem yang diperlukan.

Penyimpanan database relasional dan teknologi manajemen memadai untuk banyak aplikasi data mining kurang dari 50 gigabyte. Namun, infrastruktur ini perlu ditingkatkan secara signifikan untuk mendukung aplikasi yang lebih besar. Beberapa vendor telah menambahkan kemampuan pengindeksan luas untuk meningkatkan kinerja query. Lainnya menggunakan arsitektur hardware baru seperti Prosesor Massively Paralel (MPP) untuk mencapai perbaikan order-of-besarnya dalam waktu query. Sebagai contoh, sistem MPP dari ratusan tautan NCR prosesor Pentium berkecepatan tinggi untuk mencapai tingkat kinerja yang lebih besar dari super komputer terbesar.

Sumber : http://wisatapikiran.blogspot.com/2013/06/pengertian-data-mining-dan-contoh-kasus.html

3. Pengertian Data Mining, Text Mining Dan Web Mining

1. Data MiningData Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

Latar Belakang Terbentuknya Data MiningMelimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi. Melimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.. Datadata tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing).

Fungsi - Fungsi Umum Data Mining Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu Sequence, proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu dan diterapkan lebih dari satu periode Clustering, adalah proses pengelompokan seumlah data/obyek ke dalam kelompok data sehingga setiap kelompok berisi data yang mirip Classification, proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Regretion, adalah proses pemetaan data dalam suatu nilai prediksi Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data. Solution, adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam pengambilan keputusan.

Proses Data Mining1. Pembersihan data dan integritas data (Cleaning & Integration)Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian dinintegrasikan dalam satu database datawarehouse2. Seleksi dan transformasi data (selection and transformation)Data yang ada dalam database datawarehouse kemudian direduksi untuk mendapatkan hasil yang akurat. Beberapa cara seleksi, antara lain :

Metode seleksi pada data Mining Sampling, adalah seleksi subset representatif dari populasi data yang besar. Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu.

Metode transformasi pada Data Mining Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada. Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari atribut bersangkutan. Scaling, mengubah data sehingga berada dalam skala tertentu.

3. Penambangan data (data mining)Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.

4. Evaluasi pola dan presentasi pengetahuanTahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna.

Manfaat Data MiningDari sudut pandang komersialPemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya :1. Bagaimana mengetahui hilangnya pelanggan karena pesaing2. Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik3. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain4. Bagaimana memprediski tingkat penjualan5. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.6. Bagaimana memprediksi prilaku bisnis di masa yang akan datang

Dari Sudut Pandang Keilmuan Data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misal :1. Remote sensor yang ditempatkan pada suatu satelit.2. Teleskop yang digunakan untuk memindai langit.3. Simulasi saintifik yang membangkitkan data dalam ukuran terabytes. 2. Text MiningText mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antardokumen.

Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk penambangan teksini disebut data takter struktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan.

Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevandari data teks terstrukturini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.

Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering).

Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.

Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

3. Web MiningWeb mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.

Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine.

Web struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank pada suatu halaman web.

Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.

Sumber :http://analisis-proses-bisnis-koperasi.blogspot.com/2013/04/pengertian-data-mining-text-mining-dan.html

4. Pengertian dan Konsep Data MiningData MiningadalahSerangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.

Data miningbiasa juga dikenal nama lain seperti : Knowledge discovery (mining) in databases (KDD), ekstraksi pengetahuan (knowledge extraction) Analisa data/pola dan kecerdasan bisnis (business intelligence) dan merupakan alat yang penting untuk memanipulasi data untuk penyajian informasi sesuai kebutuhan user dengan tujuan untuk membantu dalam analisis koleksi pengamatan perilaku, secara umum definisi data-mining dapat diartikan sebagai berikut Proses penemuan pola yang menarik dari data yang tersimpan dalam jumlah besar. Ekstraksi dari suatu informasi yang berguna atau menarik (non-trivial, implisit, sebefumnya belum diketahui potensial kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumfah besar. Ekplorasi dari analisa secara otomatis atau semiotomatis terhadap data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti.

Konsep Data MiningData miningsangat perlu dilakukan terutama dalam mengelola Data yang sangat besar untuk memudahkan aktifitas recording suatu transaksi dan untuk proses data warehousing agar dapat memberikan informasi yang akurat bagi penggunanya

Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. berikut langkah-langkahnya :

1. Data cleaning(untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)2. Data selection(di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)3. Data transformation(di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)4. Knowledge Discovery(proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)5. Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)6. Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).

Sumber :http://gsbipb.com/?p=821

29