Review Paper Data Preprocessing

6
REVIEW PAPER DATA PRE-PROCESSING CONTOH KASUS FORECASTING DAN PENYELESAIAN DALAM MS EXCEL Oleh : SONALITA WIGUNA 5302413052 DATA MINING ROMBEL 2 Dosen Pengampu : Aryo Baskoro U, S.T, M.T Ahmad Najibullah, S.T, M.IT Kuntoro Adi Nugroho, S.T, M.Eng PENDIDIKAN TEKNIK INFORMATIKA DAN KOMPUTER JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK

description

data preprocessing

Transcript of Review Paper Data Preprocessing

Page 1: Review Paper Data Preprocessing

REVIEW PAPER DATA PRE-PROCESSINGCONTOH KASUS FORECASTING DAN PENYELESAIAN

DALAM MS EXCEL

Oleh :SONALITA WIGUNA

5302413052DATA MINING ROMBEL 2

Dosen Pengampu : Aryo Baskoro U, S.T, M.T Ahmad Najibullah, S.T, M.IT Kuntoro Adi Nugroho, S.T, M.Eng

PENDIDIKAN TEKNIK INFORMATIKA DAN KOMPUTERJURUSAN TEKNIK ELEKTRO

FAKULTAS TEKNIKUNIVERSITAS NEGERI SEMARANG

September, 2015

Page 2: Review Paper Data Preprocessing

REVIEW PAPERPreprocessing Data Web Log Untuk Kluster Pengguna Web Menggunakan

Algoritma K-MeansYuhefizar, Yoyon K Suprapto, Mochamad Hariadi, I Ketut Eddy P.

Prodi Manajemen Informatika, Jurusan Teknologi Informasi, Politeknik Negeri Padang,

Pada paper “Preprocessing Data Web Log Untuk Kluster Pengguna Web

Menggunakan Algoritma K-Means” penulis menjelaskan bahwa telah dilakukan

perancangan sistem untuk mendapatkan pola tingkah laku pengunjung website agar

pengguna website dapat dikelompokan dan digunakan untuk berbagai aplikasi website.

Pre-processing Web Log menggunakan Web Minning, Web Usage Mining,

Algoritma K-Means. Yang dimaksud Web mining merupakan topik khusus dari ranah

data mining untuk menemukan ‘knowledge’ dari data web. Web mining terdiri atas tiga

kategori, yaitu

1. Web Content Mining

2. Web Structure Mining

3. Web Usage Mining

Web Content Mining adalah proses untuk menemukan ‘knowledge’ dari konten

sebuah website, yaitu dari teks, gambar, data audio, data video maupun data lainnya.

Area web content mining ini sering juga disebut dengan text mining karena konten

berupa teks yang paling banyak di teliti. Web Structure Mining adalah kegiatan untuk

menemukan ‘knowledge’ dari data link (hyperlink) sebuah website. Kajian web

structure mining banyak ke arah web graph sehingga menghasilkan semacam ringkasan

terstruktur tentang informasi dari sebuah halaman web. Web Usage Mining merupakan

kegiatan untuk memperoleh “knowledge” dari data web log sebuah website. Data web

log ini berisi informasi transaksi dari pengguna sebuah website. Data transaksi ini

tersimpan secara otomatis pada web server, proxy server atau browser log.

K-Means merupakan salah satu metode data clustering dengan mempartisi data

yang ada menjadi beberapa cluster/kelompok, sehingga data yang memiliki karakteristik

yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai

karakteristik yang berbeda dikelompokkan ke dalam cluster yang lain.

Page 3: Review Paper Data Preprocessing

Data web log yang dibahas pada paper ini adalah data web log yang berasal dari

web server. Format standar data web log dari apache web server. Data web log dari web

server yang berbentuk single file di ekstrak dan di konversi menjadi field -field

database. Proses konversi dilakukan dengan memanfaatkan software pengolah data

spreadsheet dan aplikasi PHPMyAdmin. Data log diakses menggunakan software

spreadsheet, kemudian dilakukan proses memisahkan data menjadi kolom. Data ini

kemudian di impor ke aplikasi PHPMyAdmin menjadi sebuah database. Data cleaning

adalah proses membersihkan data dari item data yang tidak memberikan informasi

berguna dalam analisis selanjutnya. Item data yang dihapus adalah file style (.css, .js),

file gambar (.jpg, .gif, .jpeg, dll), file audio video (.wav, .avi, .wmf, dll). Item data

tersebut tidak memberikan informasi yang bermanfaat terhadap analisa pola tingkah

laku dari pengguna website. Pageview identification adalah proses dalam menentukan

halaman web mana saja yang diakses dan siapa saja yang mengakses halaman web

tersebut. User identification adalah proses menentukan interaksi user pada website serta

membedakan interaksi antar user. Untuk keperluan cluster pengguna web, dilakukan

user identification dengan menghitung hits kunjungan user pada halaman website

dengan algoritma.

Dari paper “Preprocessing Data Web Log Untuk Kluster Pengguna Web

Menggunakan Algoritma K-Means” dapat disimpulkan bahwa data preprocessing

merupakan bagian yang sangat penting dalam proses website usage mining. Kualitas

dari proses website usage mining sangat ditentukan oleh ketersediaan data yang valid

dan akurat. Oleh karena itu proses ini membutuhkan waktu yang lama.

Page 4: Review Paper Data Preprocessing

CONTOH KASUS FORECASTING DAN PENYELESAIANNYA

SOAL : Sebuah ikatan mahasiswa derah mengadakan pendataan mahasiswa

daerahnya.berikut peramalan yang diadapatkan dari berbagai metode forecasting

DATA JUMLAH MAHASISWA CIAYUMAJAKUNING UNNES (E.COM)tahu

n periode jumlah mahasiswa perkiraan tahun depan2007 1 652008 2 762009 3 452010 4 672011 5 892012 6 792013 7 862014 8 702015 9 932016 10

Exponentian Smothing

Moving Average