Eksplorasi Data

25
BAB 3 EKSPLORASI DATA Pendahuluan Eksplorasi data dilakukan sebagai langkah awal untuk mengetahui karakteristik dari data. Tahapan ini bertujuan untuk menyeleksi teknik pemrosesan dan analisis data yang sesuai. Bagian ini membahas tiga topik utama dalam eksplorasi data yaitu statistika ringkasan, visualisasi, dan On-Line Analytical Processing (OLAP). Statistika ringkasan. Seperti rataan dan deviasi standar dari sekumpulan nilai, dan teknik visualisasi, seperti histogram, dan scatter plot, merupakan metode standar yang banyak digunakan dalam mengeksplorasi data. OLAP, yang baru-baru ini dikembangkan, terdiri dari sekumpulan teknik untuk mengeksplorasi array multidimensi. Fungsi analisis yang berkaitan dengan OLAP memfokuskan pada berbagai cara untuk membuat tabel data ringkasan dari array data multidimensi. Teknik ini melibatkan penentuan agregasi data melalui berbagai dimensi dan berbagai nilai atribut. Sebagai contoh, teknik OLAP dapat digunakan untuk membuat sebuah ringkasan yang menjelaskan aktivitas penjualan pada berbagai lokasi berdasarkan bulan dan katerogi produk. 3.1 Data Set Iris Dalam pembahasan berikutnya data set yang banyak digunakan adalah data set Iris yang teresedia dari Universitas California pada Irvine (UCI) Machine Learning Repository. Data set ini mengandung informasi dari 150 bunga Iris, sebanyak 50 bunga masing-masing berasal dari spesies: Setosa, Versicolour, dan Virginica. Setiap bunga dicirikan oleh 5 atribut, yaitu: Panjang sepal dalam cm. Lebar sepal dalam cm. Panjang petal dalam cm. Lebar petal dalam cm. Kelas (Setosa, Versicolour, dan Virginica). Sepal dari bunga adalah struktur terluar yang menjaga bagian bunga yang paling mudah rusak seperti petal. Dalam kebanyakan bunga, sepal berwarna hijau dan hanya petal yang berwarna-warni. Untuk Iris, sepal juga berwarna-warni. 3.2 Statistika Ringkasan Statsitika ringkasan adalah kuantitas seperti rataan dan simpangan baku yang menyatakan berbagai karakteristik dari kumpulan nilai data berukuran besar dengan sebuah bilangan atau sekumpulan kecil bilangan. Modul Kuliah Data Mining 38

description

Bab 3

Transcript of Eksplorasi Data

  • BAB 3 EKSPLORASI DATA

    Pendahuluan Eksplorasi data dilakukan sebagai langkah awal untuk mengetahui

    karakteristik dari data. Tahapan ini bertujuan untuk menyeleksi teknik pemrosesan dan analisis data yang sesuai.

    Bagian ini membahas tiga topik utama dalam eksplorasi data yaitu statistika ringkasan, visualisasi, dan On-Line Analytical Processing (OLAP). Statistika ringkasan. Seperti rataan dan deviasi standar dari sekumpulan nilai, dan teknik visualisasi, seperti histogram, dan scatter plot, merupakan metode standar yang banyak digunakan dalam mengeksplorasi data. OLAP, yang baru-baru ini dikembangkan, terdiri dari sekumpulan teknik untuk mengeksplorasi array multidimensi. Fungsi analisis yang berkaitan dengan OLAP memfokuskan pada berbagai cara untuk membuat tabel data ringkasan dari array data multidimensi. Teknik ini melibatkan penentuan agregasi data melalui berbagai dimensi dan berbagai nilai atribut. Sebagai contoh, teknik OLAP dapat digunakan untuk membuat sebuah ringkasan yang menjelaskan aktivitas penjualan pada berbagai lokasi berdasarkan bulan dan katerogi produk.

    3.1 Data Set Iris Dalam pembahasan berikutnya data set yang banyak digunakan adalah

    data set Iris yang teresedia dari Universitas California pada Irvine (UCI) Machine Learning Repository. Data set ini mengandung informasi dari 150 bunga Iris, sebanyak 50 bunga masing-masing berasal dari spesies: Setosa, Versicolour, dan Virginica. Setiap bunga dicirikan oleh 5 atribut, yaitu:

    Panjang sepal dalam cm.

    Lebar sepal dalam cm.

    Panjang petal dalam cm.

    Lebar petal dalam cm.

    Kelas (Setosa, Versicolour, dan Virginica).

    Sepal dari bunga adalah struktur terluar yang menjaga bagian bunga yang paling mudah rusak seperti petal. Dalam kebanyakan bunga, sepal berwarna hijau dan hanya petal yang berwarna-warni. Untuk Iris, sepal juga berwarna-warni.

    3.2 Statistika Ringkasan Statsitika ringkasan adalah kuantitas seperti rataan dan simpangan baku

    yang menyatakan berbagai karakteristik dari kumpulan nilai data berukuran besar dengan sebuah bilangan atau sekumpulan kecil bilangan.

    Modul Kuliah Data Mining 38

  • a. Frekuensi dan Modus Diberikan himpunan nilai kategori yang tidak terurut, kuantitas yang dapat dihitung untuk menentukan karakteristik dari data adalah frekuensi. Diberikan atribut kategori x, nilai-nilai {v1, v2, , vi, , vk} dan himpunan dari m objek, frekuensi dari nilai vi didefinisikan sebagai:

    mviatributnilaidenganobjekbanyaknya)vi(frekuensi = (3.1)

    Modus dari atribut kategori adalah nilai yang memiliki frekuensi tertinggi.

    Contoh 3.1:

    Diberikan himpunan mahasiswa yang memiliki sebuah atribut kelas, yang dapat memiliki nilai salah satu dari himpunan {freshman, sophomore, junior, senior}. Tabel 3.1 menunjukkan banyaknya mahasiswa untuk setiap nilai dari atribut kelas. Modus dari atribut kelas adalah freshman, dengan frekuensi 0.33. Tabel 3.1 Ukuran kelas untuk mahasiswa

    Kelas Ukuran Frekuensi freshman 140 0.33 sophomore 160 0.27 junior 130 0.22 senior 170 0.18

    Atribut kategori umumnya memiliki sejumlah kecil nilai, sehingga modus dan frekuensi dari nilai-nilai tersebut dapat menarik dan berguna. Untuk data Iris dan atribut kelas, ketiga bentuk dari bunga semuanya memiliki frekuensi yang sama, dengan demikian modus tidak menarik lagi.

    Untuk data kontinu, modus seringkali tidak berguna karena sebuah nilai mungkin tidak muncul lebih dari satu kali. Meskipun demikian, dalam banyak kasus, modus dapat memberikan informasi yang penting tentang sifat dasar nilai atau tentang adanya nilai-nilai yang hilang. Sebagai contoh, tinggi badan dari 20 orang diukur ke milimeter terdekat nilainya tidak akan berulang. Tapi jika tinggi tersebut diukur ke persepuluh dari meter terdekat, maka beberapa orang dapat memiliki tinggi yang sama. Demikian halnya jika sebuah nilai digunakan untuk menunjukkan nilai yang hilang, maka nilai-nilai ini sering kali muncul sebagai modus.

    b. Persentil Untuk data yang terurut, persentil dari sebuah data set sering digunakan. Misalkan diberikan atribut x, x dapat berupa atribut kontinu atau ordinal, dan misalkan pula sebuah nilai p diantara 0 sampai dengan 100, persentil ke-p, xp, adalah nilai dari x sedemikian sehingga p% dari nilai-nilai observasi dari x lebih kecil dari xp. Sebagai contoh, persentil ke-50 adalah nilai x50% sedemikian sehingga 50% dari semua nilai-nilai dari x lebih kecil dari x50%. Tabel 3.2 menunjukkan persentil untuk keempat atribut kuantitatif dari data set Iris.

    Modul Kuliah Data Mining 39

  • Tabel 3.2 Persentil untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm).

    Persentil panjang sepal lebar sepal panjang petal lebar petal 0 4.3 2.0 1.0 0.1

    10 4.8 2.5 1.4 0.2 20 5.0 2.7 1.5 0.2 30 5.2 2.8 1.7 0.4 40 5.6 3.0 3.9 1.2 50 5.8 3.0 4.4 1.3 60 6.1 3.1 4.6 1.5 70 6.3 3.2 5.0 1.8 80 6.6 3.4 5.4 1.9 90 6.9 3.6 5.8 2.2

    100 7.9 4.4 6.9 2.5

    Contoh 3.2:

    Persentil x0%, x10%, ... , x90% dari integer dari 1 sampai 10, beturut-turut adalah 1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0. Min(x) = x0%, dan max(x) = x100%.

    c. Ukuran lokasi: rata-rata dan median Untuk data kontinu, statistika ringkasan yang banyak digunakan adalah

    rataan dan median. Keduanya mengukur lokasi dari himpunan nilai. Perhatikan sebuah himpunan dari m objek dan sebuah nilai atribut x. Misalkan {x1, x2, ..., xm} adalah nilai-nilai atribut dari x untuk objek-objek tersebut. Misalkan nilai-nilai ini adalah tinggi badan m siswa. Misalkan {x(1), x(2), ..., x(m)} menyatakan nilai-nilai dari x setelah diurut dalam urutan tidak menurun. Dengan demikian, x(1) = min(x) dan x(m) = max(x). Maka rataan dan median didefinisikan sebagai berikut:

    =

    ==m

    1iixm

    1x)x(rataan (3.2)

    =++==

    ++

    r2myaitu,genapadalahmjika),xx(1r2myaitu,ganjiladalahmjikax

    )x(median)1r()r(2

    1),1r(

    (3.3)

    Median adalah nilai tengah jika jumlah nilai adalah ganjil dan rata-rata dari dua nilai tengah jika jumlah nilai adalah genap. Untuk tujuh nilai, median adalah x(4), sedangkan untuk sepuluh nilai, median adalah )xx( )6()5(2

    1 + . Walaupun rataan sering diinterpretasikan sebagai nilai tengah dari

    sekumpulan nilai, interpretasi ini adalah benar jika nilai terdistribusi secara simetris. Jika distribusi nilai adalah tidak simetris, maka median adalah indikator yang lebih baik. Di samping itu, rataan bersifat sensitif terhadap adanya outlier. Untuk data yang mengandung outlier, median merupakan dugaan yang baik untuk nilai tengah dari sekumpulan nilai.

    Modul Kuliah Data Mining 40

  • Untuk mengatasi masalah yang muncul dari definisi rataan, notasi trimmed mean sering digunakan. Ditentukan persentase p di antara 0 sampai dengan 100, sebagai (p/2)% dari data bagian atas dan bagian bawah dibuang, dan selanjutnya rataan dihitung dengan cara yang sama menggunakan persamaan (3.2). Median adalah trimmed mean dengan p = 100%, sedangkan pada rataan biaya nilai p = 0%.

    Contoh 3.3:

    Perhatikan himpunan nilai {1, 2, 3, 4, 5, 90}. Rataan dari nilai-nilai ini adalah 17.5, sedangkan mediannya adalah 3.5. Nilai trimmed mean dengan p = 40% adalah 3.5.

    Contoh 3.4:

    Nilai rataan, median dan trimmed mean (p = 20%) dari keempat atribut kuantitatif dari data set Iris diberikan dalam Tabel 3.3. Ketiga ukuran lokasi tersebut memiliki nilai yang mirip, kecuali untuk atribut panjang petal.

    Tabel 3.3 Nilai rataan dan median untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm)

    Ukuran Panjang sepal Lebar sepal

    Panjang petal

    Lebar petal

    Rataan 5.84 3.05 3.76 1.20 Median 5.80 3.00 4.35 1.30

    Trimmed mean (20%) 5.79 3.02 3.72 1.12

    d. Ukuran Penyebaran: Range dan Variance Statistik ringkasan lain yang digunakan pada data kontinu adalah ukuran penyebaran dari sekumpulan nilai. Ukuran demikian menunjukkan jika nilai atribut menyebar secara luas atau jika nilai-nilai tersebut secara relatif terkonsentrasi pada sebuah titik seperti rataan.

    Ukuran paling sederhana dari penyebaran adalah range. Diberikan sebuah atribut x dengan sekumpulan m nilai {x1, x2, ..., xm}, range didefinisikan sebagai

    range(x) = max(x) min(x) = x(m) x(1) (3.4) Walaupun range menunjukkan sebaran maksimum, nilai ini dapat menimbulkan kesalahan jika kebanyakan data terkonsentrasi dalam sebuah pita data yang sempit, tetapi juga terdapat sejumlah kecil nilai-nilai ekstrim. Dengan demikian digunakan variance sebagai ukuran penyebaran. Variance dari nilai atribut x dituliskan dan didefinisikan sebagai berikut. 2xs

    =

    ==m

    1i

    2i

    2x )xx(1m

    1s)x(iancevar (3.5)

    Standard deviation, yang merupakan akar kuadrat dari variance, ditulis sx dan memiliki unit yang sama seperti x.

    Nilai rataan dapat menyimpang karena adanya outlier, dan karena variance dihitung dengan menggunakan rataan, maka variance juga sensitif terhadap

    Modul Kuliah Data Mining 41

  • outlier. Untuk itu seringkali digunakan ukuran sebaran yang lain, yaitu absolute average deviation (AAD), median absolute deviation (MAD) dan interquartile range (IQR). Formula untuk ukuran-ukuran tersebut adalah

    AAD(x) = =

    m

    1ii xxm

    1 (3.6)

    MAD(x) = ( }xx,...,xx{median m1 ) (3.7) interquartile range(x) = x75% x25% (3.8)

    Tabel 3.4 menunjukkan nilai-nilai ukuran ini untuk data set Iris.

    Tabel 3.4 Nilai Range, Standard Deviation (std), AAD, MAD dan IQR untuk panjang sepal, lebar sepal, panjang petal, dan lebar petal (dalam cm)

    Ukuran Panjang sepal Lebar sepal

    Panjang petal

    Lebar petal

    Range 3.6 2.4 5.9 2.4 Std 0.8 0.4 1.8 0.8

    AAD 0.7 0.3 1.6 0.6 MAD 0.7 0.3 1.2 0.7 IQR 1.3 0.5 3.5 1.5

    e. Statistik Ringkasan Multivariate Ukuran lokasi untuk data yang mengandung beberapa atribut (data

    multivariabel) dapat diperoleh dengan menghitung nilai rataan dan median secara terpisah untuk setiap atribut. Dengan demikian, untuk data set yang diberikan, rataan dari objek-objek data, x , diberikan oleh

    x = ( )n1 x,..,x (3.9) dimana ix adalah nilai rataan dari atribut ke-i, xi.

    Untuk data multivariabel, sebaran dari setiap atribut dapat dihitung secara bebas dari atribut-atribut lain dengan menggunakan pendekatan yang diberikan pada bagian d. Walaupun demikian, untuk data dengan variabel kontinu, sebaran dari data umumnya ditentukan oleh matriks covariance S, yang memiliki entri ke-ij, sij, adalah covariance dari nilai atribut ke-i dan nilai atribut ke-j. Dengan demikian, jika xi dan xj berturut-turut adalah atribut ke-i dan ke-j, maka

    sij = covariance(xi, xj) (3.10) Nilai covariance(xi, xj) diberikan oleh

    covariance(xi, xj) = )xx()xx(1m1

    jkjm

    1kiki = (3.11)

    dimana nilai dan adalah nilai-nilai dari atribut ke-i dan ke-j untuk objek ke-k. Perhatikan bahwa covariance(x

    kix kjx

    i, xi) = variance(xi). Dengan demikian, matrik covariance memiliki variance-variance dari atribut sepanjang diagonalnya.

    Modul Kuliah Data Mining 42

  • Covariance dari dua atribut adalah ukuran dari derajat dimana dua atribut berbeda dan tergantung pada besaran dari variabel. Nilai covariance yang dekat ke 0 menunjukkan bahwa dua atribut tidak memiliki hubungan linier, tetapi tidak mungkin menentukan derajat hubungan antara dua variabel dengan hanya melihat nilai dari covariance. Korelasi antar dua atribut memberikan secara langsung indikasi seberapa kuat dua atribut tersebut berhubungan secara linier. Entri ke-ij dari matriks korelasi (correlation), R, adalah korelasi antara atribut ke-i dan atribut ke-j. Jika xi dan xj adalah nilai-nilai dari atribut ke-i dan ke-j, maka

    rij = correlation(xi, xj) = ji

    jiss

    )x,x(ariancecov (3.12)

    dimana si dan sj berturut-turut adalah variance dari xi dan xj. Entri diagonal dari R adalah correlation(xi, xi) = 1, sedangkan untuk nilai untuk entri lainnya berada antara 1 sampai dengan 1. 3.3 Visualisasi

    Visualisasi data adalah menampilkan informasi dalam format grafik atau tabular. Visualisasi yang baik memerlukan data (informasi) dikonversi ke dalam format visual sedemikian sehingga karakteristik dari data dan hubungan diantara item data atau atribut dapat dianalisa. Teknik visualisasi dalam data mining dinyatakan sebagai visual data mining. 3.3.1 Motivasi untuk Visualisasi

    Motivasi untuk menggunaan visualisasi adalah bahwa pengguna dapat dengan cepat menyerap sejumlah besar informasi visual dan menemukan pola dalam informasi tersebut. Perhatikan Gambar 3.2, yang menunjukkan Sea Surface Termperature (SST) dalam derajat Celcius untuk Juli 1982.

    Gambar 3.1 Sea Surface Termperature (SST) untuk Juli 1982

    Gambar tersebut meringkas infromasi dari sekitar 250.000 angka dan dapat dengan mudah diinterpretasikan dalam beberapa detik. Sebagai contoh, dapat dilihat dengan mudah temperatur laut adalah paling tinggi pada garis katulistiwa dan paling rendah di kutub.

    Modul Kuliah Data Mining 43

  • Motivasi lainnya untuk visualisasi adalah membuat penggunaan domain knowledge. Walaupun penggunaan domain knowledge adalah pekerjaan yang penting dalam data mining, seringkali sulit dan tidak mungkin mengunakan seluruh pengetahuan tersebut dalam alat statistik atau algoritmik. Dalam beberapa kasus, analisa dapat dilakukan dengan menggunakan alat non-visual dan kemudian hasilnya dipresentasikan secara visual untuk dievaluasi oleh domain expert. Dalam kasus lain, setelah menemukan pola yang diinginkan, karena dengan menggunakan domain knowledge, pengguna dapat dengan cepat membuang beberapa pola yang tidak menarik dan langsung terfokus pada pola yang penting.

    3.3.2 Konsep Umum Berikut adalah pendekatan-pendekatan yang umum untuk visualisasi data

    dan atributnya.

    a. Representasi: Pemetaan Data ke Elemen Grafik Langkah pertama dalam visualisasi adalah pemetaan informasi ke format visual; yaitu pemetaan objek, atribut, dan hubungan antar objek dalam sekumpulan informasi ke objek, atribut dan hubungan visual. Bahwa objek data, atributnya, dan hubungan antar objek data dinyatakan dalam elemen-elemen grafis seperti titik, garis, bentuk dan warna.

    Objek biasanya direpresentasikan dalam salah satu dari tiga cara berikut. Pertama, jika hanya sebuah atribut kategori dari objek yang diperhatikan, maka objek seringkali disatukan ke dalam kategori-kategori berdasarkan pada nilai atribut tersebut, dan kategori-kategori ini ditampilkan sebagai sebuah entri dalam tabel atau area di layar. Kedua, jika sebuah objek memiliki banyak atribut, maka objek dapat ditampilkan sebagai baris (atau kolom) dari sebuah tabel atau sebuah garis pada sebuah grafik. Ketiga, sebuah objek serngkali diinterpretasikan sebagai sebuah titik dalam ruang 2 atau 3 dimensi, dimana secara grafis, titik dapat direpresentasikan oleh gambar geometri seperti lingkaran dan kotak.

    Untuk atribut, representasi tergantung pada tipe atribut, apakah nominal, ordinal, atau kontinu (interval atau ratio). Atribut ordinal dan kontinu dapat dipetakan ke dalam fitur grafis terurut dan kontinu seperti lokasi sepanjang sumbu x, y dan z; intensitas; warna; atau ukuran (diameter, tinggi dan lain-lain). Untuk atribut kategori, setiap kategori dapat dipetakan ke dalam posisi, warna, bentuk, orientasi yang berbeda atau kolom dalam tabel. Untuk atribut nominal, yang memiliki nilai terurut, penggunaan fitur-fitur grafik, seperti warna dan posisi yang memiliki urutan terkait dengan nilai-nilainya, harus dilakukan secara hati-hati.

    Representasi hubungan melalui elemen-elemen grafis terjadi baik secara eksplisit maupun implisit. Untuk data graf, digunakan representasi graf biasa, sekumpulan node dengan link diantara node. Jika node (objek data) atau link (hubungan) memiliki atribut atau karakteristik dari dirinya sendiri, maka atribut dan karakteristik tersebut direpresentasikan secara grafis. Sebagai ilustrasi, jika node adalah kota dan link adalah jalan raya, maka diameter dari node dapat menyatakan populasi, sedangkan lebar dari link dapat merepresentasikan volume lalu lintas.

    Dalam banyak kasus, pemetaan objek dan atribut ke elemen grafis secara implisit memetakan hubungan dalam data ke hubungan antara elemen-elemen grafis.

    Modul Kuliah Data Mining 44

  • Sebagai ilustrasi, jika objek data merepresentasikan objek fisik yang memiliki lokasi, seperti kota, maka posisi relatif dari objek grafis yang berhubungan dengan objek data cenderung mempertahankan posisi relatif aktual dari data.

    b. Penyusunan Pemilihan yang tepat dari representasi visual dari objek dan atribut adalah penting untuk visualisasi yang baik. Penyusuan kembali item dalam penampilan visual juga merupakan hal yang penting.

    Contoh 3.5:

    Tabel 3.5 menunjukkan sembilan objek dengan enam atribut biner. Dari tabel tersebut dapat dilihat bahwa hubungan antara objek dan atribut tidak jelas. Jika baris dan kolom dipermutasikan seperti dalam Tabel 3.6, makan kita dapat dengan jelas melihat dua tipe objek dalam tabel, tipe yang pertama adalah objek-objek yang memiliki nilai 1 untuk tiga atribut pertama, dan tipe yang kedua adalah objek-objek yang memiliki nilai 1 untuk tiga atribut terakhir.

    Tabel 3.5 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut biner (kolom)

    Tabel 3.6 Tabel yang terdiri dari 9 objek (baris) dan 6 atribut (kolom) yang dipermutasikan sedemikian sehingga hubungan antara baris dan kolom telihat jelas.

    c. Seleksi Konsep penting lainnya dalam visualisasi adalah seleksi, yang

    mengeliminasi objek atau atribut tertentu. Jika terlalu banyak objek data, maka

    Modul Kuliah Data Mining 45

  • memvi

    ensionalitas, dan terdapat banyak teknik yang dapat digunakan, salah satunya

    isualisasi seringkali ditentukan berdasarkan tipe dari data yang , berdasarkan banyaknya atribut yang terlibat, berdasarkan tipe

    atribut

    unakan untuk visualisasi data dengan a teknik tersebut, seperti histogram,

    tau kontinu satu dimensi. Untuk bentuk sederhana

    istribusi dari niai untuk atribut-atribut dengan membagi nilai-

    lai (objek)

    sualisasikan semua objek akan menghasilkan tampilan yang penuh sesak. Pendekatan yang paling umum untuk menangani atribut yang banyak adalah dengan memilih sebuah subset dari atribut. Jika dimensi terlalu tinggi, matriks plot untuk dua atribut dapat dibuat untuk menggambarkan objek data secara simultan.

    Teknik memilih sepasang (atau sejumlah kecil) atribut adalah bentuk dari reduksi dim

    adalah PCA (Principal Components Analysis).

    3.3.3. Metode Teknik v

    sedang dianalisisatau berdasarkan karakteristik khusus dari data seperti struktur hirarki atau

    graf.

    a. Visualisasi Sejumlah Kecil Atribut Terdapat beberapa teknik yang dapat digjumlah atribut yang sedikit. Beberapmemberikan distribusi nilai yang diobservasi untuk satu atribut. Sedangkan teknik yang lain seperti scatter plot digunakan untuk menampilkan hubungan antara nilai dari dua atribut.

    Stem and Leaf Plot. Stem and leaf plot dapat digunakan untuk mendapatkan distribusi dari data integer adari stem and leaf plot, kita bagi nilai-nilai ke dalam dua grup, dimana setiap grup mengandung nilai-nilai yang sama kecuali untuk digit terakhirnya. Dengan demikian, jika nilai-nilai tersebut adalah integer dua digit, contoh 35, 36, 42, dan 51, maka stem adalah digit pada ordo tertinggi, yaitu 3, 4, 5, sedangkan leaf adalah digit dengan ordo rendah, yaitu 1, 2, 5, dan 6. Dengan memplotkan stem secara vertikal dan leaf secara horizontal, maka dapat diperoleh representasi visual dari distribusi data.

    Histogram. Stem and leaf adalah salah satu bentuk dari histogram, sebuah plot yang menampilkan dnilai yang mungkin ke dalam bin dan menunjukkan banyaknya objek yang masuk ke dalam setiap bin. Untuk data kategori, setiap nilai adalah bin. Jika nilai atribut kategori terlalu banyak, maka nilai tersebut dikombinasikan dengan mengunakan cara-cara tertentu. Untuk atribut kontinu, range dari nilai dibagi ke dalam bin, lebar range tidak harus sama, dan nilai-nilai dalam setiap bin dihitung. Bar plot dikonstruksi sedemikian sehingga setiap bin direpresentasikan oleh satu bar, dan area dari setiap bar adalah proposional dengan banyaknya niyang masuk ke dalam range yang sesuai. Jika semua interval memiliki lebar yang sama, maka semua bar memiliki lebar yang sama dan tinggi bar adalah proposional ke banyaknya nilai yang sesuai dengan bin.

    Contoh 3.6:

    Gambar 3.2 dari histogram

    menunjukkan histogram dengan 10 bin untuk lebar petal. Bentuk dapat tergantung pada banyaknya bin. Histogram untuk data yang

    sama, tetapi dengan 20 bin ditunjukkan pada Gambar 3.3.

    Modul Kuliah Data Mining 46

  • isto atif enggantikan count dengan frekuensi relatif. D dalam

    umbu y berubah, dan bentuk dari histogram tidak berubah. Variasi lainnya,

    nterval dan dua himpunan interval mendefinisikan persegi empat dua-imensi dari nilai-nilai.

    T t herdapat variasi dari plo gram. rel Histogram (frekuensi)

    alam histogram ini skala mskhususnya untuk data kategori yang tidak terurut, adalah histogram Pareto. Histogram Pareto sama seperti histogram biasa, hanya saja dalam histogram Pareto kategori diurut oleh count sedemikian sehingga count menurun dari kiri ke kanan. Histogram Dua-dimensi. Dalam histogram dua-dimensi, setiap atribut dibagi ke dalam id

    Contoh 3.7:

    Gambar 3.4 menunjukkan histogram dua-dimensi dari panjang petal dan lebar tripetal. Karena setiap a

    dua-dimensi.but dibagi ke dalam 3 bin, terdapat 9 bin persegi empat

    Tinggi dari setiap bar persegi empat menunjukkan banyaknya objek

    ox Plot. Meterik adalah x plot berlabel

    (dalam hal ini adalah bunga) yang masuk ke dalam setiap bin. Kebanyakan bunga berada dalam 3 bin di sepanjang diagonal.

    Gambar 3.2 Histogram untuk lebar petal dengan 10 bin

    Gambar 3.3 Histogram untuk lebar petal dengan 20 bin

    Gambar 3.4 Histogram dua-dimensi dari panjang petal dan lebar petal

    Bnum

    ode lain untuk menunjukkan distribusi nilai dari sebuah atribut box pl kkan sebuah boot. Gambar 3.5 menunju

    Modul Kuliah Data Mining 47

  • untuk panjang sepal. Ujung paling bawah dan paling atas berturut-turut

    menunjukkan persentil ke 25 dan ke 75, sedangkan garis di dalam kotak menunjukkan nilai persentil ke 50. Garis bawah dan atas dari ekor menunjukkan persentil ke 10 dan ke 90. Outlier ditunjukkan dengan tanda +.

    outlier

    90th percentile

    th percentile 75

    Contoh 3.8:

    ox plot untuk empat atribut B dari da

    ie chart mirip dengan histogram, tapi pie chart khususnya digunakan art

    ta set Iris ditunjukkan dalam Gambar 3.6. Pie Chart. Puntuk atribut kategori yang memiliki nilai yang relatif kecil. Pie ch

    enggunakan area relatif dari lingkaran untuk menujukkan frekuensi relatif. m

    Scatter Plot. Dalam scatter plot, setiap objek data diplot sebagai titik dalam bidang dengan menggunakan nilai-nilai dari dua atribut sebagai koordinat x dan y. Diasumsikan bahwa atribut adalah bernilai integer atau real.

    Contoh 3.9:

    Gambar 3.7 menunjukkan scatter plot untuk setiap pasang atribut dari data set Iris. Spesies yang berbeda dari Iris ditunjukkan dengan tanda yang berbeda.

    scatter plot dari pasangan atribut dalam format tabular ini, yang Penyusunan dikenal sebagai scatter plot matrix, memberikan cara yang teroganisasi untuk mengevaluasi sejumlah scatter plot secara simultan.

    10th percentile

    25th percentile

    th percentile 50

    Gambar 3.5 Deskripsi box plot untuk panjang sepal

    Gambar 3.6 Box plot untuk atribut-atribut data set Iris

    Modul Kuliah Data Mining 48

  • Gambar 3.7 Matriks dari scatter plot untuk data set Iris

    Terdapat dua cara menggunakan scatter plot. Pertama, secara grafis scatter plot menunjukkan hubungan antara dua atribut. Scatter plot juga dapat digunakan untuk mendeteksi hubungan non-linier. Kedua, ketika label dari kelas tersedia, scatter plot dapat digunakan untuk menyelidiki derajat dimana kedua atribut memisahkan kelas.

    Contour Plot. Untuk data 3-dimensi, dua atribut menentukan sebuah posisi dalam bidang, sedangkan atribut yang ketiga memiliki nilai kontinu, seperti temperatur atau elevasi. Visualisasi untuk data demikian adalah contour plot yang memecah bidang ke dalam daerah yang terpisah dimana nilai dari atribut ketiga (temperatur, elevasi) kira-kira sama. Contoh umum dari contour plot adalah contour map yang menunjukkan elevasi dari lokasi lahan.

    Contoh 3.10:

    Gambar 3.8 menunjukkan contour plot dari temperatur rataan permukaan laut (STT) untuk bulan Desember 1998. Temperatur daratan di-set ke 0C. Dalam kebanyakan contour map, seperti dalam Gambar 3.8, contour line yang memisahkan dua daerah dapat diberi label dengan nilai yang digunakan untuk memisahkan daerah.

    Modul Kuliah Data Mining 49

  • Celsius Gambar 3.8 Contour plot dari SST untuk bulan Desember 1998

    3.3.4 Visualisasi Data Berdimensi Tinggi Teknik yang akan dijelaskan berikut dapat menampilkan data dengan dimensi yang lebih tinggi dibandingkan dengan teknik-teknik yang dibahas sebelumnya. Teknik-teknik ini keterbatasan karena hanya menampilkan beberapa aspek dari data.

    Matriks. Sebuah citra dapat dipandang sebagai array persegi empat dari pixel, dimana setiap pixel ditentukan oleh warnanya dan kecerahannya. Matriks data adalah sebuah array persegi empat dari nilai. Dengan demikian, matriks data dapat divisualisasikan sebagai sebuah citra dengan mengasosiasikan setiap entri dari matris data dengan sebuah pixel dalam citra. Kecerahan atau warna dari pixel ditentukan oleh nilai dari entri matriks yang sesuai.

    Jika label kelas diketahui, maka pengurutan kembali matriks data dapat dilakukan sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama. Hal ini dapat memberikan kemudahan dalam mendeteksi jika semua objek dalam sebuah kelas memiliki nilai-nilai atribut yang mirip untuk beberapa atribut. Jika atribut yang berbeda memiliki range yang berbeda, maka atribut seringkali distandarkan sehingga memiliki rataan adalah 0 dan standard deviation adalah 1. Hal ini dilakukan agar atribut yang memiliki nilai yang besar tidak mendominasi plot secara visual.

    Contoh 3.11:

    Gambar 3.9 menunjukkan matriks data dari data set Iris yang telah distandarisasi. 50 puluh baris yang pertama merepresentasikan spesies Setosa dari bunga Iris, 50 baris selanjutnya merepresentasikan spesies Versicolour, dan 50 baris terakhir merepresentasikan spesies Virginica. Spesies Setosa memiliki lebar dan panjang petal di bawah rata-rata, sedangkan Versicolour memiliki lebar dan panjang petal di sekitar rata-rata. Virginica memiliki lebar dan panjang petal di atas rata-rata.

    Modul Kuliah Data Mining 50

  • standard deviation

    Gambar 3.9 Plot dari matriks data Iris dimana kolom-kolom telah distandarisasi, sehingga rataan adalah 0 dan standard deviation adalah 1.

    Data objek juga dapat divisualisasikan dalam plot matriks poximity. Baris dan kolom dari matriks kemiripan (ketika label kelas diketahui) diurutkan sedemikian sehingga semua objek dari sebuah kelas dikelompokan bersama-sama. Visualisasi ini memungkinkan kita untuk melihat kepaduan dari setiap kelas dan keterpisahannya dari kelas yang lain.

    Contoh 3.12:

    Gambar 3.10 menunjukkan matriks korelasi untuk data set Iris. Baris dan kolom diorganisasikan sedemikian sehingga semua bunga dengan spesies tertentu dikelompokkan bersama-sama.

    Gambar 3.10 Plot dari matriks korelasi dari data set Iris

    Modul Kuliah Data Mining 51

  • Jika label kelas tidak diketahui, beberapa teknik (matrix reordering dan seriation) dapat digunakan untuk menyusun ulang baris dan kolom dari matriks kemiripan sedemikian sehingga objek dan atribut dengan paling mirip dikelompokan bersama-sama dan dapat diidentifikasi secara visual.

    Koordinat Paralel. Koordinat paralel memiliki satu sumbu koordinat untuk setiap atribut, tetapi sumbu-sumbu yang berbeda adalah paralel ke sumbu lainnya (bukan tegak lurus). Sebuah objek direpresentasikan sebagai sebuah baris (bukan sebuah titik). Secara khusus, nilai dari setiap atribut dari sebuah objek dipetakan ke sebuah titik pada sumbu koordinat yang sesuai dengan atribut tersebut, dan titik-titik ini kemudian dihubungkan untuk membentuk garis yang merepresentasikan objek.

    Dalam banyak kasus, objek-objek berada dalam sejumlah kecil grup, dimana titik-titik dalam setiap grup memiliki nilai yang mirip untuk atribut-atributnya. Jika demikian, dan jika banyaknya objek data tida terlalu besar, maka hasil plot koordinat paralel dapat mengungkapkan pola yang menarik.

    Contoh 3.13:

    Gambar 3.11 menunjukkan plot koordinat paralel dari keempat atribut numerik dari data set Iris. Garis yang merepresentasikan objek dari kelas yang berbeda dibedakan dengan menggunakan tiga bentuk garis yang berbeda yaitu solid, dot, dash. Plot koordinat paralel menunjukkan bahwa kelas terpisah dengan baik untuk panjang dan lebar petal, tetapi kurang terpisah dengan baik untuk panjang dan lebar sepal. Gambar 3.14 menunjukkan plot koordinat paralel lain untuk data yang sama, tetapi dengan pengurutan sumbu yang berbeda.

    Gambar 3.12 Plot koordinat paralel dari keempat atribut Iris dimana atribut diurutkan untuk menunjukkan kemiripan dan ketakmiripan grup.

    Gambar 3.11 Plot koordinat paralel dari keempat atribut Iris

    Salah satu kekurangan dari plot koordinat paralel adalah bahwa deteksi dari pola dapat tergantung pada urutan. Sebagai contoh, jika garis bersilangan terlalu banyak, plot yang dihasilkan akan membingungkan, dan dengan demikian pengurutan sumbu koordinat perlu dipertimbangkan untuk mendapatkan urutan sumbu dengan persilangan paling sedikit. Bandingkan Gambar 3.12 dengan lebar

    Modul Kuliah Data Mining 52

  • sepal pada bagian kiri gambar dengan Gambar 3.11. dengan lebar sepal berada di tengah-tengah.

    Koordinat Bintang dan Chernoff Face Pendekatan lain untuk menampilkan data berdimensi banyak adalah dengan mengkodekan objek sebagai simbol glyph atau ikon, yaitu simbol yang memberikan informasi secara non-verbal. Setiap atribut dari objek dipetakan ke fitur tertentu dari glyph, sedemikian sehingga nilai dari atribut menentukan sifat eksak dari fitur. Dengan demikian, kita dapat melihat bagaimana dua objek berbeda.

    Koordinat bintang adalah salah satu dari pendekatan ini. Teknik ini menggunakan satu sumbu untuk setiap atributnya. Semua sumbu ini terpancar dari titik pusat, seperti jari-jari dari sebuah roda. Secara khusus, semua nilai atribut dipetakan ke dalam range [0, 1]. Sebuah objek dipetakan ke dalam kumpulan sumbu berbentuk bintang dengan menggunakan proses berikut: setiap nilai atribut dari objek dikonversikan ke sebuah fraksi yang merepresentasikan jaraknya antara nilai atribut yang minimum dan maksimum. Fraksi ini dipetakan ke sebuah titik pada sumbu yang sesuai dengan atribut ini. Setiap titik dihubungkan dengan sebuah segmen garis ke titik pada sumbu sebelumnya atau yang mengikuti sumbu tersebut, sehingga terbentuklah sebuah poligon. Ukuran dan bentuk dari poligon memberikan deskripsi visual dari nilai atribut. Untuk kemudahan interpretasi, himpunan sumbu yang terpisah digunakan untuk setiap objek. Dengan kata lain, setiap objek dipetakan ke sebuah poligon. Sebuah contoh plot koordinat bintang untuk Iris 150 diberikan dalam Gambar 3.13.

    Gambar 3.14 Chernoff face dari Iris 150 Gambar 3.13 Grafik star dari Iris 150

    Nilai-nilai fitur juga dapat dipetakan ke objek lain seperti wajah. Teknik ini dinamakan Chernoff face (pembuatnya bernama Herman Chernoff). Dalam teknik ini, setiap atribut diasosiasikan dengan fitur wajah yang spesifik, dan nilai atribut digunakan untuk menentukan cara bagaimana fitur wajah diekspresikan. Dengan demikian, bentuk dari wajah dapat lebih memanjang sebagaimana nilai dari fitur data yang sesuai meningkat. Sebagai contoh, Chernoff face untuk Iris 150 diberikan dalam Gambar 3.14.

    Bentuk wajah dari Chernoff face ditentukan sebagai berikut:

    Modul Kuliah Data Mining 53

  • Fitur Data Fitur Wajah Panjang sepal Ukuran wajah Lebar sepal Dahi/ panjang busur relatif dari rahang Panjang petal Bentuk dahi Lebar petal Bentuk rahang

    Fitur wajah yang lain, seperti lebar antar mata dan panjang mulut diberikan nilai default.

    Contoh 3.14:

    Ilustrasi dari kedua pendekatan ini dalam merepresentasikan data multidimensional diberikan dalam Gambar 3.15 dan 3 16. Kedua gambar tersebut menunjukkan plot star dan wajah untuk 15 bunga dari data set Iris. Dari ke-15 bunga tersebut, 5 bunga termasuk spesies Setosa, 5 bunga termasuk spesies Versicolour dan 5 bunga termasuk spesies Virginica.

    Versicolour

    Virginica

    Setosa

    Gambar 3.15 Plot 15 bunga Iris menggunakan koordinat star

    Setosa

    Versicolour

    Virginica

    Gambar 3.16 Plot 15 bunga Iris menggunakan Chernoff face

    3.4 OLAP dan Analisis Data Multidimensi Sistem On-Line Analytical Processing (OLAP) terdiri dari sejumlah sistem

    basis data. Sistem OLAP memiliki fokus pada analisis interaktif dari data dan menyediakan kemampuan visualisasi data dan membangun statistik ringkasan.

    Modul Kuliah Data Mining 54

  • Oleh karena itu dalam pembahasan ini, analisis data multidimensi akan berdasarkan pada terminologi dan konsep untuk sistem OLAP.

    3.4.1 Representasi Data Set Iris sebagai Array Multidimensi Dalam banyak kasus, data tidak hanya dinyatakan dalam bentuk tabel

    tetapi sebagai array multidimensi. Tabel 3.7 dibuat dengan cara mendiskretkan atribut panjang petal dan lebar petal ke dalam nilai low, medium, dan high dan kemudian menghitung banyaknya bunga Iris yang memiliki kombinasi lebar petal, panjang petal dan tipe spesies. Untuk panjang petal, kategori low, medium, dan high berturut-turut berkaitan dengan interval [0, 0.75), [0.75, 1.75), [1.75, ). Sedangkan untuk panjang petal, kategori low, medium, dan high berturut-turut berkaitan dengan interval [0, 2.5), [2.5, 5), [5, ).

    Tabel 3.7 Banyaknya bunga Iris yang memiliki kombinasi dari lebar petal, panjang petal dan spesies.

    Kombinasi yang kosong, yaitu kombinasi yang tidak terkait dengan satu bungapun, tidak ditunjukkan.

    Data dapat diorganisasikan sebagai array tiga dimensi. Dimensi-dimensi tersebut menyatakan lebar petal, panjang petal, dan tipe spesies, seperti diilustrasikan dalam Gambar 3.17.

    Untuk memperjelas, potongan dari array ditunjukkan sebagai himpunan tabel dua dimensi, masing-masing untuk setiap spesies-lihat Tabel 3.8 sampai dengan 3.10. Informasi yang terkandung dalam Tabel 3.7 dan Gambar 3.17 adalah sama. Dalam representasi multidimesi seperti ditunjukkan dalam Gambar 3.17, nilai atribut (lebar petal, panjang petal dan tipe spesies) adalah indeks dari array.

    Gambar 3.17 Representasi data multidimensi untuk data set Iris

    Modul Kuliah Data Mining 55

  • Tabel 3.8 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Setosa

    Tabel 3.9 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Versicolour

    Tabel 3.10 Tabulasi silang dari data bunga berdasarkan panjang dan lebar petal untuk spesies Virginica

    Tabel 3.8, 3.9 dan 3.10 menunjukkan bahwa setiap spesies Iris ditentukan oleh kombinasi yang berbeda dari nilai panjang dan lebar petal. Bunga Setosa memiliki panjang dan lebar petal yang rendah (low), bunga Versicolour memiliki panjang dan lebar petal medium, dan bunga Virginica memiliki panjang dan lebar petal yang tinggi (high). 3.4.2 Data Multidimensi: Kasus Umum

    Representasi tabular dari data seperti diberikan dalam Tabel 3.7 dinamakan tabel fakta. Terdapat dua langkah yang dapat dilakukan dalam merepresentasikan data sebagai array multidimensi, yaitu identifikasi dimensi dan identifikasi sebuah atribut yang merupakan fokus dari analisis. Dimensi adalah atribut kategori atau seperti dalam contoh sebelumnya atribut kontinu yang telah dikonversi ke dalam atribut kategori. Nilai dari atribut memberikan indeks pada array untuk dimensi yang sesuai dengan atribut tersebut, dan banyaknya nilai atribut merupakan ukuran dari dimensi tersebut. Dalam contoh sebelumnya, setiap atribut memiliki tiga kemungkinan nilai dan dengan demikian setiap dimensi memiliki ukuran tiga dan dapat diberi indeks oleh ketiga nilai tersebut. Sehingga dihasilkan array multidimensi 333.

    Setiap kombinasi dari nilai atribut (satu nilai untuk setiap atribut yang berbeda) mendefinisikan sebuah sel dari array multidimensi. Sebagai ilustrasi, jika panjang petal = low, lebar petal = medium dan spesies = Setosa, sel yang mengandung nilai 2 diidentifikasi. Bahwa terdapat dua bunga dalam data set yang memiliki nilai atribut demikian. Perhatikan bahwa setiap baris (objek) dari data set dalam Tabel 3.7 berkaitan dengan sebuah sel dalam array multidimensi.

    Isi dari setiap sel menyatakan nilai dari kuantitas target (variabel target atau atribut) yang menarik dalam analisis. Dalam contoh Iris, kuantitas target adalah banyaknya bunga yang memiliki panjang dan lebar petal dalam batas tertentu. Atribut target adalah kuantitatif karena tujuan utama dari analisis data multidimensi adalah untuk melihat kuantitas agregat seperti total atau rataan.

    Berikut adalah ringkasan prosedur untuk membuat representasi data multidimensi dari data set yang dinyatakan dalam bentuk tabular. Pertama,

    Modul Kuliah Data Mining 56

  • identifikasi atribut kategori yang akan digunakan sebagai dimensi dan atribut kuantitatif yang akan digunakan sebagai target analisis. Setiap baris (objek) dalam tabel dipetakan ke sebuah sel dalam array multidimensi. Indeks dari sel ditentukan oleh nilai dari atribut yang dipilih sebagai dimensi, sedangkan nilai dari sel adalah nilai dari atribut target. Sel yang tidak didefinisikan oleh data disumsikan memiliki nilai 0.

    Contoh 3.15:

    Diberikan contoh penjualan produk. Tabel fakta untuk contoh ini diberikan dalam Tabel 3.11.

    Tabel 3.11 Hasil penjualan produk (dalam Dollar) untuk berbagai lokasi dan waktu.

    Product ID Location Date Revenue 1 Minneapolis Oct. 18, 2004 $250 1 Chicago Oct. 18, 2004 $79 1 Paris Oct. 18, 2004 $301 27 Minneapolis Oct. 18 $2,321 27 Chicago Oct. 18 $3,278 27 Paris Oct. 18, 2004 $1,325

    Dimensi dari representasi multidimensi ini adalah atribut product ID, location dan date, sedangkan atribut target adalah revenue. Gambar 3.18 menunjukkan representasi multidimensi dari data set ini.

    Gambar 3.18 Representasi data multidimensi untuk data penjualan

    Modul Kuliah Data Mining 57

  • 3.4.3 Analisis Data Multidimensi Terdapat bebebara teknik dalam analisis multidimensi. Teknik tersebut diantaranya pembuatan kubus data dan operasinya seperti slicing, dicing, reduksi dimensi, roll-up dan drill down. Kubus Data: Komputasi Kuantitas Agregat Motivasi utama untuk menentukan data multidimensi adalah pentingnya membuat agregasi data dalam berbagai cara. Dalam contoh penjualan, kita dapat menemukan pendapatan penjualan total untuk tahun tertentu dan untuk produk tertentu. Atau mungkin ingin dilihat pendapatan penjualan tahunan untuk setiap lokasi untuk semua produk. Perhitungan agregasi total melibatkan penetapan nilai tertentu untuk beberapa atribut yang digunakan sebagai dimensi dan menjumlahkannya semua nilai yang mungkin untuk atribut-atribut yang membentuk dimensi-dimensi sisanya. Tabel 3.13 menunjukkan total marginal dari Tabel 3.12.

    Tabel 3.12 Total yang dihasilkan dari penjumlahan semua lokasi untuk waktu dan produk tertentu

    Date Jan 1, 2004 Jan 2, 2004 Dec 31, 2004

    1 $1,001 $987 $891 27 $10,265 $10,225 $9,325 Pr

    oduc

    t ID

    Tabel 3.13 Tabel 3.12 dengan total marginal

    Date Jan 1, 2004 Jan 2, 2004 Dec 31, 2004 Total

    1 $1,001 $987 $891 $370,000 27 $10,265 $10,225 $9,325 $3,800,020 P

    rodu

    ct ID

    Total $527,362 $532,953 $631,221 $227,352,127

    Untuk penyederhanaan, diasumsikan bahwa semua tanggal dalam tahun yang sama. Jika terdapat 365 hari dalam satu tahun dan 1000 produk, maka Tabel 3.12 memiliki entri sebanyak 365,000 (nilai total), untuk setiap pasangan data produk. Kita juga dapat menentukan lokasi toko dan tanggal dan menjumlahkan nilai pada semua produk, atau menentukan lokasi dan produk dan menjumlahan nilai pada seluruh tanggal.

    Tabel 3.13 menunjukkan total marginal dari Tabel 3.12. Nilai-nilai total ini dihasilkan dari penjumlahan pada tanggal dan produk. Dalam Tabel 3.13, pendapatan penjualan total untuk produk 1, yang diperoleh dengan menjumlahkan seluruh nilai pada baris 1 (seluruh tanggal), adalah $370,000. Pendapatan penjualan total pada 1 Januari 2004, yang diperoleh dengan menjumlahkan seluruh nilai pada kolom 1 (seluruh produk), adalah $527,362. Pendapatan

    Modul Kuliah Data Mining 58

  • penjualan total, yang diperoleh dengan menjumlahkan semua baris dan semua kolom (semua tanggal dan produk) adalah $227,352,127.

    Hal yang penting dalam contoh ini adalah bahwa terdapat sejumlah total-total (agregat) yang berbeda yang dapat dihitung untuk sebuah array multidimensi, tergantung kepada berapa banyak atribut yang kita jumlahkan. Diasumsikan bahwa terdapat n dimensi dan bahwa dimensi (atribut) ke-i memiliki si nilai yang mungkin. Terdapat n cara yang berbeda untuk menjumlahkan hanya pada sebuah atribut. Jika kita menjumlahkan pada dimensi j, maka diperoleh s1*...* sj-1*sj+1*...* sn total, masing-masing untuk setiap kombinasi nilai atribut yang mungkin dari n1 atribut (dimensi) lainnya. Total yang dihasilkan dari penjumlahan satu atribut dari array multidimensi dengan n1 dimensi dan terdapat n array dari total. Dalam contoh penjualan, terdapat tiga himpunan total yang dihasilkan dari pejumlahan hanya pada satu atribut dan masing-masing total dapat ditampilkan sebagai tabel dua dimensi.

    Jika kita menjumlahkan pada dua dimensi (mungkin dimulai dengan salah satu dari array total yang diperoleh dengan penjumlahan pada satu dimensi), maka kita akan memperoleh sebuah array multidimensi total dengan n2 dimensi. Terdapat

    array yang berbeda untuk total. Untuk contoh penjualan, terdapat = 3

    array total yang dihasilkan dari penjumlahan pada lokasi dan produk, lokasi dan waktu, atau produk dan waktu. Secara umum, penjumlahan pada k dimensi

    menghasilkan array total, masing-masing dengan nk dimensi.

    2n

    23

    kn

    Representasi data multidimensi, bersama dengan semua total (agregat) yang mungkin, dikenal sebagai kubus data. Selain nama, ukuran dari setiap dimensi, yaitu banyaknya nilai atribut, tidak harus sama. Di samping itu, sebuah kubus data dapat memiliki dimensi kurang atau lebih dari 3. Sebuah kubus data adalah generalisasi dari tabulasi silang yang dikenal dalam statistika. Jika marginal total ditambahkan, Tabel 3.8, 3.9, dan 3.10 merupakan contoh dari tabulasi silang.

    Reduksi Dimensionalitas dan Pivoting Agregasi yang dijelaskan sebelumnya dapat dipandang sebagai bentuk reduksi dimensionalitas. Secara khusus, dimensi ke-j dieliminasi dengan penjumlahan pada dimensi tersebut. Secara konseptual, hal ini meringkas setiap kolom dari sel dalam dimensi ke-j ke dalam sebuah sel. Untuk contoh data penjualan dan data Iris, agregasi pada satu dimensi mengurangi dimensi data dari 3 ke 2. Jika sj adalah banyaknya nilai yang mungkin dari dimensi ke-j, banyaknya sel direduksi oleh faktor dari sj.

    Pivoting merujuk kepada agregasi pada semua dimensi kecuali 2. Hasilnya adalah tabulasi silang dua dimensi dengan dua dimensi yang ditentukan sebagai dimensi-dimensi sisanya. Tabel 3.13 adalah contoh pivoting pada tanggal (date) dan produk.

    Modul Kuliah Data Mining 59

  • Slicing dan Dicing Slicing adalah pemilihan sekelompok sel dari seluruh array multidimensi dengan menentukan nilai tertentu untuk satu atau lebih dimensi. Tabel 3.8, 3.9 dan 3.10 adalah tiga slice dari data set Iris yang diperoleh dengan menentukan tiga nilai terpisah untuk dimensi spesies. Dicing merupakan pemilihan sebuah subset dari sel dengan menentukan range nilai atribut. Hal ini ekuivalen dengan mendefinisikan sebuah subarray dari array yang lengkap. Dalam praktis, kedua operasi ini dapat disertai oleh agregasi pada beberapa dimensi.

    Roll-up dan Drill-down Nilai atribut seperti tanggal memiliki nilai yang menyatakan tahun, bulan dan minggu. Sebuah lokasi juga dapat memiliki beberapa ciri seperti country, state (province) dan city. Product dapat dibagi ke dalam berbagai kategori seperti elektronik dan furniture.

    Seringkali kategori ini dapat diorganisasikan sebagai pohon hirarki atau lattice. Sebagai contoh, tahun berisi bulan dan minggu, keduanya berisi hari. Lokasi dapat dibagi ke dalam negara, yang terdiri dari negara bagian, dan negara bagian terdiri dari kota. Contoh lain adalah kategori produk, furniture, dapat dibagi ke dalam sub kategori kursi, meja, sofa dan lain-lain.

    Struktur hirarki memunculkan operasi roll-up dan drill-down. Sebagai ilustrasi, pada data penjualan, yang merupakan data multidimensi dengan entri-entri untuk setiap tanggal, kita dapat menentukan agregat (roll-up) penjualan untuk semua tanggal dalam satu bulan. Sebaliknya, diberikan representasi data dimana dimensi waktu dipecah ke dalam bulan, kita ingin memisahkan total penjualan bulanan (drill down) ke dalam total penjualan harian.

    Dengan demikian operasi roll-up dan drill-down berkaitan dengan agregasi. Akan tetapi kedua ini berbeda dengan operasi agregasi yang telah dibahas, bahwa operasi roll-up dan drill-down mengagregasi sel dalam sebuah dimensi, bukan pada seluruh dimensi.

    Gambar 3.19 menunjukkan ilustrasi untuk operasi-operasi pada data multidimensi.

    Modul Kuliah Data Mining 60

  • Varitas A B C D

    Wak

    tu

    Kuartal-1Kuartal-2Kuartal-3

    Lokasi

    BogorSukabumiSubang

    Karawang

    Varitas A B C D

    Roll-up On Lokasi

    Wak

    tu Kuartal-1

    Kuartal-2 Kuartal-3

    Lokasi

    Wilayah-1 Wilayah-2

    Dice for (Lokasi = Sukabumi atau Bogor) dan (Waktu = Kuartal-1 atau Kuartal-2) dan (Varitas) = A atau B

    Varitas A B

    Wak

    tu

    Kuartal-1 Kuartal-2

    Lokasi

    Bogor Sukabumi

    Lokasi

    Bogor

    Sukabumi

    KarawangSubang

    Varitas A B C D

    Slice for Waktu =Kuartal-1

    Lokasi

    Varitas

    Pivot

    Drill-down on Waktu

    Varitas

    Wak

    tu

    JanuariFebruari

    Maret

    Lokasi

    BogorSukabumiSubang

    Karawang

    OktoberNovemberDesember

    A B C D

    Gambar 3.19 Ilustrasi untuk operasi-operasi pada data multidimensi.

    Penutup Soal Latihan Tugas Individu Jawablah pertanyaan berikut secara singkat dan jelas.

    1. Jelaskan keuntungan dan kerugian steam and plot dan histogram.

    Modul Kuliah Data Mining 61

  • 2. Jelaskan secara singkat bagaimana visualisasi dibuat untuk menampilkan informasi yang menjelaskan bentuk sistem berikut:

    a. Jaringan komputer, meliputi aspek statis dari jaringan seperti konektivitas, dan aspek dinamik seperti traffic.

    b. Distribusi spesies tanaman dan binatang di seluruh dunia untuk kurun waktu tertentu.

    c. Penggunaan resource komputer seperti processor time, main memory, dan disk, untuk sebuah program basisdata.

    Tugas Kelompok Diskusikan dengan kelompok anda penyelesaian atas permasalahan berikut.

    1. Carilah sebuah contoh data set dan aplikasikan teknik-teknik visualisasi yang telah dijelaskan dalam bab ini.

    2. Diberikan data hasil tangkapan ikan dan produk lainnya tahun 2000 dalam ton. KELOMPOK JENIS IKAN NO. KABUPATEN/ KOTA

    Tanggal Penangkapan Tongkol Cucut Demesal

    KRUSTASE RUMPUT LAUT

    1 Kab.Sukabumi 12/1/2000 10,0 8,0 2.5 1,0 1,0

    2 Kab.Cianjur 13/1/2000 5,0 4,0 2,0 0.5 2,0

    3 Kab.Garut 16/01/2000 7.5 3,0 4,0 1,0 2,0

    4 Kab. Kulon Progo 25/01/2000 2.5 3,0 6,0 1.5 3,0

    5 Kab. Bantul 27/01/2000 4.5 2,0 3,0 3,0 4,0

    6 Kab.Sukabumi 25/2/2000 12,0 10,0 7,0 2,0 1,0

    7 Kab.Cianjur 1/2/2000 15,0 14,0 8,0 3,0 2,0

    8 Kab.Garut 5/2/2000 10,0 9,0 2,0 1,0 5,0

    9 Kab.Sukabumi 4/3/2000 0,0 2,0 3,0 4,0 2,0

    10 Kab.Cianjur 5/3/2000 0,0 3,0 4,0 2,0 1,0

    11 Kab.Garut 12/3/2000 3,0 2,0 5,0 1,0 3,0

    12 Kab. Trenggalek 7/3/2000 3,0 2,0 8,0 1.5 2,0

    13 Kab. Blitar 8/3/2000 2,0 2.5 1,0 3,0 4,0

    14 Kab. Tulungagung 9/3/2000 6,0 5,0 1,0 2,0 1,0

    15 Kab. Malang 10/3/2000 9,0 8,0 1,0 1,0 1,0

    JUMLAH 75,0 75,0 55,0 24,0 34,0

    a. Buatlah tabel fakta dari data tersebut. Lakukan diskretisasi data jika

    diperlukan. b. Tentukan representasi data multidimensi untuk data tersebut. c. Berilah contoh operasi slicing, dicing, reduksi dimensi, roll-up dan drill

    down dengan menggunakan kubus data yang dihasilkan dari soal nomor b.

    Modul Kuliah Data Mining 62