TSA-2013-0031 BAB 2

34
7 BAB II LANDASAN TEORI 2.1 Business Intelligence Business Intelligence (BI) is an umbrella term that combines architectures, tools, databases, analytical tools, applications, and methodologies (Turban et al, 2007, p.24). BI meliputi semua proses mengumpulkan dan menganalis data menggunakan teknologi yang bertujuan untuk mendapatkan informasi yang membantu sebuah institusi dalam mengambil keputusan (Connoly & Begg, 2010, p.1195), membantu organisasi mengelola dan menyaring informasi dalam membuat keputusan yang lebih efektif (Lonnqvist & Pirttimaki, 2006). BI menyediakan informasi yang bersifat historical, current dan predictive. Adapun fungsi-fungsi BI antara lain reporting, online analytical processing, analytics, data mining, process mining, complex event processing, business performance management, benchmarking, text mining, predictive analytics dan prescriptive analytics (http://en.wikipedia.org/wiki/Business_intelligence). 2.2 Data Mining Data mining adalah sebuah istilah yang digunakan untuk menggambarkan penemuan ilmu pengetahuan dalam bidang database, sebuah bidang analisis informasi yang mencari pola tersembunyi dalam sekelompok data yang dapat digunakan untuk memprediksi perilaku masa depan (Turban et al, 2007, p.202).

description

sadsadsa

Transcript of TSA-2013-0031 BAB 2

7  

BAB II

LANDASAN TEORI

2.1 Business Intelligence

Business Intelligence (BI) is an umbrella term that combines architectures,

tools, databases, analytical tools, applications, and methodologies (Turban et al,

2007, p.24). BI meliputi semua proses mengumpulkan dan menganalis data

menggunakan teknologi yang bertujuan untuk mendapatkan informasi yang

membantu sebuah institusi dalam mengambil keputusan (Connoly & Begg, 2010,

p.1195), membantu organisasi mengelola dan menyaring informasi dalam

membuat keputusan yang lebih efektif (Lonnqvist & Pirttimaki, 2006). BI

menyediakan informasi yang bersifat historical, current dan predictive. Adapun

fungsi-fungsi BI antara lain reporting, online analytical processing, analytics,

data mining, process mining, complex event processing, business performance

management, benchmarking, text mining, predictive analytics dan prescriptive

analytics (http://en.wikipedia.org/wiki/Business_intelligence).

2.2 Data Mining

Data mining adalah sebuah istilah yang digunakan untuk menggambarkan

penemuan ilmu pengetahuan dalam bidang database, sebuah bidang analisis

informasi yang mencari pola tersembunyi dalam sekelompok data yang dapat

digunakan untuk memprediksi perilaku masa depan (Turban et al, 2007, p.202).

8  

Data mining adalah suatu proses yang menggunakan statistical,

mathematical, artificial intelligence, dan machine-learning techniques untuk

mengekstrak dan mengindentifikasi informasi penting dan subsequent knowledge

dari databases yang besar (Turban et al, 2007, p.305), dimana informasi yang

diektrak digunakan dalam mengambil keputusan bisnis yang cukup krusial

(crucial business decision) (Connoly & Begg, 2010, p.1280).

Data mining juga merupakan proses penemuan pengetahun (knowledge

discovery) dengan mencari pola dan struktur pada sekumpulan data (Kifer at el,

2006, p.730). Data mining adalah teknologi baru yang powerful dengan

kemampuan penemuan useful knowledge, yang semuanya itu diperoleh dari

sumber data yang besar dan cukup kompleks untuk diketahui (Delavari et al,

2008).

Teknik data mining dapat diaplikasikan dalam berbagai bidang bisnis

seperti bidang medicine, statistical analysis, engineering, education, banking,

marketing, sale, etc (ZhaoHui & Maclennan, 2005). Menurut Delavari dkk

(2008), data mining dikenal sebagai teknologi yang sangat tepat dalam

menemukan pengetahuan (insight) bagi entitas lembaga pendidikan seperti

pengetahuan seputar mahasiswa, dosen, karyawan, alumni dan perilaku

managerial.

Pada Gambar 2.1 berikut adalah gambaran dari posisi data mining dalam

konteksi Business Intelligence. Data mining merupakan tahapan data analysis

yang bertujuan pada penemuan pengetahuan (knowledge discovery).

9  

Gambar 2.1 Data Mining in the BI Context

(Sumber: http://www.cs.jyu.fi/~mpechen/TIES443)

2.3 Data Mining Function

Data mining memiliki kemampuan cepat dalam melakukan analisis dan

sangat fokus pada variabel-variabel penting. Patterns (pola) dan rules (aturan,

kaidah) yang dapat digunakan dalam membuat keputusan dan forecast

(meramalkan) dampak dari keputusan tersebut. Intelligent data mining meliputi

informasi dalam data warehouse dimana query dan laporan biasa tidak bisa

mengungkapkan informasi secara efektif. Data mining tools mampu menemukan

pola dalam data dan memberi dugaan berupa rules. Dalam bukunya Turban (2007,

p.307), ada tiga metode yang digunakan dalam mengidentifikasi pola dalam data

(Nemati & Barko, 2001), yaitu: simple models (contoh, SQL berbasis query yang

merupakan cara sederhana dalam menarik data, online analytical processing

(OLAP), human judgment); Intermediate models (contoh, regression, decision

trees, clustering); Complex models (contoh, neural networks, other rule

10  

induction). Algoritma data mining tradisional juga membagi empat kategori besar,

yakni classification, clustering, association, dan sequence discovery.

Pada Tabel 2.1 di bawah ini mengklasifikasikan model data mining

berdasarkan fungsi dan algoritma yang digunakan.

Tabel 2.1 Data mining Functions, Algorithms, and Application Examples

Data mining function Algorithm Application Examples

Association Statistics, set theory Market basket analysis

Classification Decision trees, neural

networks, control, risk assessment, rules

Target marketing quality

Clustering Neural network, statistics,

optimization, discriminate analysis

Market segmentation

Sequence discovery Statistics, set theory Market basket analysis

over time, customer life cycle analysis

Modeling

Linear and nonlinear regression, curve fitting, neural networks

Sales forecasting, interest rate, prediction, inventory control

Drill-down and aggregate view of data

Visualization, using many different approaches.

Virtually all the preceding application

Sumber: Adapted from J.P. Bigus, Data mining with Neural Networks,

McGraw-Hill, New York, 1996 (Turban et al, 2007, p.309).

2.4 Data Mining Model

Ada berbagai model dalam data mining atau sering disebut teknik data

mining, secara umum model data mining dibagi dalam tiga kelompok berdasarkan

pada tugas atau fungsi yang terdiri dari classification, clustering, dan association.

11  

2.4.1 Classification

Classification melakukan analisa pada data historikal yang tersimpan

dalam database dan mengenerate otomatis model yang dapat memprediksi

perilaku masa depan. Dengan melakuan redefined class, model dapat

memprediksi sebuah kelas atau membuat kelas pada rekord-rekord data yang

terklasifikasi. Classification menemukan pola data yang digunakan untuk

mengklasifikasi dalam kategori tertentu (Kifer et al, 2006, p.730), contohnya pada

aplikasi email yang dapat mengklasifikasi email yang bukan spam dan email spam

(http://en.wikipedia.org/wiki/Data_mining#Data_mining). Contoh lain, klasifikasi

antara pelanggan yang membeli produk terbanyak dengan pelanggan yang

membeli produk dalam jumlah sedikit. Informasi ini misalnya bisa digunakan

dalam melakukan iklan, tentu iklan akan difokuskan kepada pelanggan yang

memiliki jumlah pembelian paling banyak, karena besar peluang pelanggan

tersebut untuk membeli kembali. Algoritma yang biasa digunakan dalam

classification adalah neural network, decision trees, naïve bayes dan if-then-else

rules (Turban et al, 2007, p.307).  

 

2.4.1.1 Decision Trees

Decision trees adalah algoritma yang paling banyak digunakan untuk

masalah pengklasifikasian. Decision trees break down problems into increasingly

discrete subsets by working from generalizations to increasingly more specific

information. A decision tree can be define as a root followed by internal nodes

(Turban, 2007, p.313). Pola data yang menggunakan banyak variabel yang sangat

berdampak pada klasifikasi sebuah pola. Variabel ini disebut sebagai atribut dan

12  

hasilnya disebut class label. Contoh, ketika mencari pola mahasiswa yang lulus

tidak tepat waktu, klasifikasi yang digunakan seperti lama studi, jumlah SKS dan

GPA, inilah yang disebut atribut. Setiap tree terdiri dari branch dan nodes.

Branch merepresentasikan sebuah hasil dari sebuah test klasifikasi sebuah pola,

berdasarkan pada sebuah test, …a branch represents the outcomes of a test to

classify a pattern on the basis of a test, using an attribute (Turban et al, 2007,

p.315). Leaf node adalah representasi akhir dari sebuah pilihan klasifikasi pada

sebuah pola. Sedangkan intermediate node mereprentasikan test atas suatu atribut.

Decision trees merupakan teknik yang umum digunakan dalam melakukan

prediksi. Berikut adalah contoh dari penerapan decision trees.

Gambar 2.2 Sample Decision Tree For Predicting Academic Failure/Success

(Sumber: Bresfelean, 2009)

13  

Dari contoh pada Gambar 2.2 di atas dapat diterjemahkan sebagai berikut:

• “If students’ admittance grade was above 8, then they would pass all their

exams”

• “If students’ admittance grade was in the (7,8] interval, were neutral that

their expectations regarding the present specialization were fulfilled,

believed the financial support from their parents was normal, then they

would fail one or more exams”

• “If students’ admittance grade was in the (7,8] interval, did not agree that

their expectations regarding the present specialization were fulfilled, then

they would fail one or more exams”

2.4.1.2 Neural Network

Suatu representatif dari brain methapor dalam pengolahan informasi,

sebuah model yang secara biologi meniru fungsi kerja otak. Neural network

mengacu kepada metode pengenalan terhadap pola. Sudah banyak digunakan

dalam aplikasi bisnis untuk pattern recognition, forecasting, prediction, dan

classification (Turban et al, 2007, p.346).

Hecht-Nielsend (1988) mendefinisikan Artificial Neural Network (ANN)

atau diterjemahkan menjadi jaringan saraf tiruan adalah suatu struktur pemroses

informasi yang terdistribusi dan bekerja secara paralel, terdiri atas elemen

pemroses (yang memiliki memori lokal dan beroperasi dengan informasi lokal)

yang diinterkoneksi bersama dengan alur sinyal searah yang disebut koneksi.

Setiap elemen pemroses memiliki koneksi keluaran tunggal yang bercabang (fan

out) ke sejumlah koneksi kolateral yang diinginkan (setiap koneksi membawa

14  

sinyal yang sama dari keluaran elemen pemroses tersebut). Keluaran dari elemen

pemroses tersebut dapat merupakan sebarang jenis persamaan matematis yang

diinginkan. Seluruh proses yang berlangsung pada setiap elemen pemroses harus

benar-benar dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai

masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang tersimpan

dalam memori lokal. Sebuah ANN adalah sebuah prosesor yang terdistribusi

paralel dan mempuyai kecenderungan untuk menyimpan pengetahuan yang

didapatkannya dari pengalaman dan membuatnya tetap tersedia untuk digunakan.

Jenis ANN yang paling dikenal adalah ANN multilayer feedforward. Sel-

sel saraf diurutkan berdasarkan pada layer-layer, diawali oleh layer input dan

diakhiri dengan layer output sedangkan di antaranya terdapat layer hidden.

Hubungan dalam ANN jenis ini terjadi hanya satu arah, dari layer input ke layer

hidden pertama lalu ke layer hidden kedua dan seterusnya. Jenis ANN ini bukan

merupakan satu-satunya, namun jenis ANN ini adalah yang paling mudah untuk

dipelajari. Struktur Neural Network dapat dibagi dalam tiga layar seperti pada

Gambar 2.3 berikut.

Gambar 2.3 Neural Network Structure

(Source: SPSS Manual)

15  

2.4.1.3 Naive Bayes

Algoritma Naïve Bayes akan mengevaluasi setiap atribut yang

mengkontribusi prediksi pada atribut target. Naïve Bayes tidak memperhitungkan

relasi antar atribut-atribut kontributor prediksi, tidak seperti Decision Tree yang

memperhitungkan relasi antara atribut. Bentuk tugas dasar yang dilakukan oleh

algoritma Naïve Bayes adalah hanyalah klasifikasi (ZhaoHui & MacLennan, 2005,

p.132). Naïve Bayes merupakan teknik data mining dengan pendekatan teori

probabilitas untuk membangun sebuah model klasifikasi berdasarkan pada

kejadian masa lalu yang mempunyai potensi membentuk sebuah objek baru yang

dikategorikan sebagai kelas yang memiliki probabilitas terbaik (Turban et all,

2011, p.220).

Naïve Bayes memiliki kemampuan yang cepat dalam membuat model,

mempunyai kemampuan memprediksi dan juga menyediakan metode baru dalam

mengeksplor dan memahami data. Algoritma Naïve Bayes hanya mendukung pada

atribut yang bertipe data discrete atau discretized, atau tidak mendukung atribut

yang bernilai continuous (numerik) dan semua atribut dapat menjadi independen,

menjadi atribut yang memberi kontribusi kepada atribut yang diprediksi.

Klasifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi

probabilitas sebuah kelas. Klasifikasi Bayesian ini dihitung berdasarkan Teorema

Bayes berikut ini:

Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan

X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh

16  

dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X)

merupakan prior probability X, contoh untuk probabilitas sebuah atribut

protocol_type. P(H|X) adalah posterior probability yang merefleksikan

probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H)

menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada kelas

normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas ke-

empat kelas lainnya.

Sebagai contoh kasus Naïve Bayes seperti pada Tabel 2.2. Bertujuan

menemukan pola yang digunakan dalam mendeteksi permohonan kredit yang

beresiko tinggi.

Tabel 2.2 Contoh Data Set Naïve Bayes

Name Debt Income Married? Risk

Joe High High Yes Good Sue Low High Yes Good John Low High No Poor Mary High Low Yes Poor Fred Low Low Yes Poor

1. Membuat model berdasarkan pada kasus

Tabel 2.3 Tabel Perhitungan Contoh Kasus Naïve Bayes

Counts Counts Probabilities Probabilities Independent Variables

Value Good Risk

Poor Risk Good Risk Poor Risk

Debt High 1 1 0.50 0.33 Debt Low 1 2 0.50 0.67 Income High 2 1 1.00 0.33 Income Low 0 2 0.00 0.67 Married Yes 2 2 1.00 0.67 Married No 0 1 0.00 0.33 Total by Risk 2 3

17  

- Hitunglah Counts berdasarkan jumlah data

- Hitunglah pula Total by Risk berdasarkan data set

- Hitung Probabilities = Counts / Total by Risk

Cara membaca: Peluang Good Risk Customer jika diketahui Debt-nya High

adalah 0.5=50%

2. Prediksi resiko berdasarkan model yang telah dibuat

Tabel 2.4 Tabel Hasil Contoh Kasus Naïve Bayes

Name Debt Income Married? Risk Actual

Good Risk Score

Poor Risk Score

Risk Predicted

Joe High High Yes Good 0.200 0.044 Good Sue Low High Yes Good 0.077 0.034 Good John Low High No Poor 0 0.086 Poor Mary High Low Yes Poor 0 0.096 Poor Fred Low Low Yes Poor 0 0.137 Poor

- Score = (Total by Risk / Total Record) * Probabilities of Debt * Probabilities

of Income * Probabilities of Married

- Jika Good Risk Score > Poor Risk Score maka Risk Predicted = Good, dan

sebaliknya jika Good Risk Score < Poor Risk Score maka Risk Predicted =

Bad

18  

2.5 Data Mining Dalam Lembaga Pendidikan

Berbagai keuntungan dalam penerapan data mining khususnya dalam

bidang pendidikan seperti increasing student’s promotion rate, retention rate,

transition rate, increasing educational improvement ratio, increasing student’s

success, increasing student’s learning outcome, maximizing educational system

efficiency, decreasing student’s drop-out rate, and reducing the cost of system

processes (Baradwaj & Pal, 2011). Data mining mampu menemukan pola seperti

membuat target mahasiswa yang membutuhkan perhatian khusus, memantau

mahasiswa yang mempunyai nilai tertinggi, memantau kehadiran, kejadian yang

berhubungan dengan kedisiplinan dan berbagai hal yang mempengaruhi kinerja

atau prestasi mahasiswa. Cara seperti ini dapat menghemat waktu, mengurangi

pekerjaan para karyawan dan dapat melakukan perbaikan terhadap layanan

akademik (Jayanthi & Kamna, 2007).

Pengembangan data mining pada lembaga pendidikan lebih kepada

pengembangan model baru dalam menemukan pengetahuan (discover knowledge)

dari database akademik (Galit, 2007; Erdogan & Timor 2005) dan untuk

menganalisa tren dan perilaku akademik mahasiswa. Lembaga pendidikan yang

semakin berkembang, tentu memiliki informasi akademik yang semakin banyak

pula. Potensi data hilang dan tidak tersedianya informasi penting pada saat

dibutuhkan, menjadi hal yang krusial. Salah satu solusi untuk mengatasi masalah

ini adalah dengan menerapkan data mining dalam sistem informasi manajemen di

lembaga pendidikan (Ayesha et al, 2010). Ada berbagai teknik data mining yang

dapat diterapkan dalam lingkungan pendidikan, seperti diuraikan oleh Jayanthi &

Raju (2010) pada Tabel 2.5 berikut ini.

19  

Tabel 2.5 Contoh Penerapan Data Mining pada Lembaga Pendidikan

Major Data mining Techniques Patterns

Clustering

• Students having similar characteristics • Grouping top performers • Groups of students most likely to drop

Classification & Prediction

• Predicting students learning outcome in an institute

• Predicting the percentage accuracy in students’ performance

• Classifying the admission process • Prediction of what type of students most

likely to drop • Predicting students’ behavior, attitude • Predicting the performance progress

throughout the semester • Identifying the best profile for different

students • Prediction to find what factors will attract

meritorious students • Scores of students in risk category predicted

to voluntarily leave

Association

• Association of training undertaken with various types of students and performance scores, individually and in teams.

• Association of students’ work profiles to the most appropriate project

• Association of students’ team building and leadership approaches.

• Association of students’ attitude with performance.

Data mining using other inter-disciplinary methods

• Standardizing teaching methods, performance monitoring in career management

• Use historical data to build models of students’ indecent behavior and use Data mining to help identify similar instances.

Sumber: Application Of Data Mining Techniques In Higher Education In

India (Jayanthi & Raju, 2010)

20  

2.6 Data Mining Methodology

CRISP-DM adalah data mining methodology yang pada awalnya

dikembangkan oleh tiga perusahaan, yakni SPSS (ISL by then), NCR, dan

DaimlerChrysler pada tahun 1996 dan baru pada bulan Agustus 2000, version 1.0

CRISP-DM dipublikasikan. Kemudian tahun 2009 CRISP-DM dikenal dengan

SEMMA (sample, explore, modify, model dan assess) yang dikembangkan oleh

SAS Institute, dan CRISP-DM merupakan metodologi data mining yang paling

banyak digunakan (Turban et al, 2011, p214). CRISP-DM merupakan metodologi

yang dikhususkan pada pengembangan data mining, yang terdiri dari enam fase

seperti pada Gambar 2.4 berikut.

Gambar 2.4 Fase CRISP-DM

(Sumber: ZhaoHui & MacLennan, 2005, p.29)

21  

Setiap fase dalam CRISP-DM terdiri dari beberapa proses tahapan di

dalamnya, berikut penjelasan setiap fase (Connoly & Begg, 2010, p.1286), yaitu:

1. Business Understanding

Tahapan ini fokus pada tujuan bisnis (business goal) yang ingin dicapai

dan mendefinisikan poin-poin penting yang menjadi kebutuhan bisnis dan

kemudian menerjemahkannya dalam data mining goal.

2. Data Understanding

Mendefinisikan data yang dibutuhkan, keterangan dari setiap data, data

tersebut dapat diambil dari sumber data mana. Kemudian menentukan jenis data

yang dijadikan variabel yang merupakan data yang paling berpengaruh pada

model data mining yang dikembangkan.

3. Data Preparation

Membuat data set yang dapat digunakan dalam modeling. Adapun tugas

dalam tahapan ini yaitu: select data, clean data, construct data, integrated data

dan format data.

4. Modeling

Melakukan proses data mining dengan men-generate struktur data mining

dan kemudian memilih teknik data mining dalam membuat model dan menguji

keakuratan setiap model untuk memperoleh model data mining yang memiliki

akurasi paling tepat.

22  

5. Evaluation

Menganalisa hasil dari analisis yang diperoleh dari modelling,

mengevaluasi dan meninjau semua proses untuk memastikan apakah sesuai

dengan tujuan bisnis.

6. Deployment

Tapahan dimana dilakukan implementasi, rencana pengawasan,

pemeliharaan dan laporan akhir.

2.7 Data Mining Tools

2.7.1 ETL

ETL merupakan singkatan dari extract, transform dan load yang berfungsi

melakukan ekstraksi data dari sumber data dan kemudian melakukan transformasi

data, sebelum mengirimkannya ke database tujuan. ETL adalah sebuah alat yang

melakukan 3 fungsi utama data warehouse (Connoly & Begg, 2010, p.1208),

yaitu:

• Extraction. Fase dimana data diektrak dari sumber data yang tersedia baik dari

internal dan external.

• Transformation. Fase cleaning dan transformation yang bertujuan untuk

membersihkan data yang telah diekstrak yang diperoleh dari sumber yang

berbeda, dengan memperbaiki data yang belum inconsistencies, inaccuracies

dan missing value.

• Loading. Fase akhir, dimana setelah data diekstrak dan dipindahkan, data

kemudian dimasukkan ke dalam tabel data warehouse, kemudian data ini

yang digunakan oleh analytics application dan decision support application.

23  

2.7.2 Microsoft SQL Server Analysis Services

Microsoft menyediakan tools yang berguna dalam membangun, mengelola

dan menggunakan solusi BI pada suatu perusahaan. Microsoft SQL Server 2008

merupakan platform untuk data warehouse maupun data mart. Ada 3 fitur utama

BI pada SQL Server 2008, yaitu:

1. SQL Server 2008 Integration Services (SSIS)

SQL Server Integration Services adalah tools yang digunakan untuk

melakukan proses ETL (Extract, Transform, Load). Dalam kaitannya dengan

BI, SSIS adalah fitur yang digunakan untuk menarik data dari relational

database, kemudian hasilnya disimpan dalam data warehouse.

2. SQL Server 2008 Analysis Services (SSAS)

SQL Server Analysis Services adalah teknologi untuk OLAP (Online

Analytical Processing) dan data mining. Proses OLAP administration

dilakukan di SQL Server Management Studio berupa viewing data, membuat

Multidimensional Expression (MDX), Data Mining Extension (DMX) dan

XML for Analysis (XML/A) dan mendefenisikan role akses security.

Menurut Connoly (2010, p1101), OLAP adalah perpaduan dinamis, analisis,

dan konsolidasi dari suatu multi-dimensional database yang besar. OLAP

merupakan sebuah istilah yang menggambarkan sebuah teknologi yang

menggunakan sebuah kumpulan data multidimensi untuk menyediakan akses

yang cepat kepada informasi strategi untuk keperluan analisis secara

mendetail. OLAP adalah sebuah kumpulan dari alat-alat yang menganalisa

dan mengumpulkan data untuk menggambarkan kebutuhan bisnis dari suatu

perusahaan (Turban et al, 2006, p423).

24  

3. SQL Server 2008 Reporting Services (SSRS)

SQL Server Reporting Services adalah platform laporan berbasis server yang

menyediakan fungsi pembuatan laporan dengan berbagai sumber data. SSRS

terdiri dari kumpulan tools yang digunakan untuk membuat, mengatur dan

mengirim laporan. Dengan SSRS, laporan dapat dibuat dalam bentuk tabular,

grafikal dari sumber data relational (OLTP), multidimensional (OLAP) atau

bahkan XML. 

Microsoft SQL Server 2005 Analysis Services (SSAS) menyediakan fungsi

OLAP dan data mining yang digunakan dalam pengembangan aplikasi business

intelligence. Pada aplikasi data mining, SSAS menyediakan berbagai fitur untuk

design, create, visualize model data mining dimana memungkinkan data berasal

dari berbagai sumber data. SSAS memiliki 9 algoritma data mining yaitu: 1.

Microsoft Decision Tree; 2. Microsoft Linear Regression; 3. Microsoft Naïve

Bayes; 4. Microsoft Clustering; 5. Microsoft Association Rules; 6. Microsoft

Sequence Clustering; 7. Microsoft Time Series; 8. Microsoft Neutral Network; dan

9. Microsoft Logistic Regression Algorithm. SSAS ini mempunyai kemampuan

yang luar biasa dalam melakukan identifikasi pola data, memunculkan berbagai

pola yang menjadi informasi penting bagi para pengambil keputusan, mengetahui

apa yang akan terjadi pada masa yang akan datang dan mengapa. Pola inilah yang

disebut insight knowledge yang sangat berguna bagi yang mengambil keputusan.

Menggunakan Analysis Services tidak selalu menggunakan data warehouse, tetapi

cukup dengan tabulasi data yang diambil dari sumber lain seperti file excel dan

proses data mining sudah bisa dilakukan. Bila menggunakan data warehouse atau

25  

sumber data berasal dari beberapa sumber data, misalnya dari data mart atau

database operasional, maka Ms SQL Server sudah menyedikan tools BI yang

disebut Integration Services yang berfungsi dalam melakukan proses ETL

(http://msdn.microsoft.com/en-us/library/ms175609%28v=sql.90%29.aspx).

2.7.3 Data Mining Extensions to SQL (DMX)

DMX merupakan suatu query yang digunakan untuk membuat dan

memanipulasi model-model data mining pada SQL Server. Data mining memiliki

bentuk SQL tersendiri yang dinamakan DMX (Data Mining Extension). Lewat

DMX, prediksi dapat dilakukan terhadap algoritma mining model yang tersedia.

2.7.4 Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007

Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 adalah

data mining engine yang disediakan oleh Microsoft, dimana engine ini bisa

dijalankan dalam aplikasi Ms Office 2007. Data mining tools tidak hanya terdapat

pada Ms SQL Server 2005 yang disebut SSAS, dimana di dalamnya tersedia

berbagai fitur data mining. Fitur ini sudah embedded (add-ins) dalam aplikasi

Office. Data mining Add-Ins ini sudah disediakan mulai pada Ms Office versi

2007 ke atas. Data mining Add-Ins khususnya digunakan dalam aplikasi Excel dan

Visio. Lewat Excel, user sangat dimudahkan untuk melakukan proses analisis

dengan menggunakan teknik data mining, tanpa harus memiliki pengetahuan

lebih dalam di dalam penggunaan Analysis Services. Jadi proses data mining bisa

dilakukan oleh siapapun yang sudah terbiasa menggunakan program Ms Office.

Dengan Add-Ins ini sangat memudahkan untuk deploy model di komputer klien

26  

manapun, tidak mengharuskan adanya database server, friendly interface dan

memudahkan untuk diakses oleh komputer lain, misalnya dengan menggunakan

web services. Add-Ins ini merupakan aplikasi tambahan, bukan merupakan

program default Ms Office, untuk menggunakannya harus di-install terlebih

dahulu, dimana software ini dapat di-download secara gratis dari situs

http://www.microsoft.com/en-us/download/details.aspx?id=8569. Tersedia tiga

paket yaitu: Table Analysis Tools for Excel, Table Analysis Tools for Excel dan

Data mining Templates for Visio (http://dataminingtools.net/wiki/dm_excel.php).

2.8 Web Application

Web application adalah aplikasi yang dibuat berbasis web dan dapat

diakses melalui jaringan seperti Internet atau intranet. Merupakan suatu aplikasi

perangkat lunak komputer yang dikodekan dalam bahasa yang didukung

penjelajah web (seperti HTML, JavaScript, AJAX, Java, dll). Aplikasi web sangat

populer digunakan dalam pengembangan aplikasi khususnya aplikasi sistem

informasi karena kemudahan dalam mengakses dan kemampuan untuk

memperbarui dan memelihara aplikasi web tanpa harus mendistribusikan di

masing-masing komputer klien.

2.8.1 Apache HTTP Server

Apache HTTP Server adalah web server yang merupakan perangkat lunak

yang menyediakan layanan akses kepada pengguna melalui protokol komunikasi

HTTP atau HTTPS atas dokumen yang terdapat pada situs web dalam layanan ke

pengguna dengan menggunakan aplikasi tertentu seperti web browser. Apache

27  

HTTP Server atau server web/www apache merupakan web server yang dapat

dijalankan di berbagai sistem operasi seperti Linux, Windows, dan OS lainnya

yang berguna untuk melayani dan memfungsikan situs web. Apache HTTP Server

merupakan perangkat lunak open source yang dapat digunakan oleh siapapun,

dapat diunduh dari http://www.apache.org.

2.8.2 PHP

PHP: Hypertext Preprocessor adalah bahasa skrip server yang dapat

disisipkan ke dalam halaman HTML. PHP merupakan server client script yang

banyak digunakan dalam pemrograman situs web dinamis, merupakan perangkat

lunak open source yang dapat diunduh dari php.net/downloads.php. Beberapa

kelebihan PHP dari bahasa pemrograman web lainnya

(http://id.wikipedia.org/wiki/PHP), antara lain:

• Bahasa pemrograman PHP adalah sebuah bahasa pemrograman yang tidak

melakukan kompilasi dalam penggunaanya;

• Web Server yang mendukung PHP dapat ditemukan dimana-mana dari apache,

IIS, Lighttpd, hingga Xitami dengan konfigurasi yang relatif mudah;

• Dalam sisi pengembangan lebih mudah, karena banyaknya milis-milis dan

developer yang siap membantu dalam pengembangan;

• Dalam sisi pemahamanan, PHP adalah bahasa pemrograman yang paling

mudah karena memiliki referensi yang banyak;

• PHP adalah bahasa open source yang dapat digunakan di berbagai mesin

(Linux, Unix, Macintosh, Windows) dan dapat dijalankan secara runtime

melalui console serta juga dapat menjalankan perintah-perintah sistem.

28  

2.9 Prestasi Akademik Mahasiswa

Lembaga pendidikan pada dasarnya mengutamakan pencapaian prestasi

mahasiswa (student performance) yang setinggi-tingginya. Prestasi atau kinerja

mahasiswa diukur dari berbagai komponen kompetensi akademik. Prestasi

mahasiswa diukur dari nilai akhir pada setiap kelas matakuliah yang diambil dan

secara keseluruhannya dapat diukur dari GPA yang merupakan indeks prestasi

yang diperoleh dari setiap nilai pada tiap komponen kompetensi.

Universitas Bina Nusantara memiliki visi “A World-class university”.

Kualitas pendidikan menjadi hal paling utama dan sudah menjadi tanggungjawab

para manajemen di Universtas Bina Nusantara. Universitas Bina Nusantara

membuat target minimal 90% mahasiswa lulus tepat waktu

(http://binus.ac.id/delivered-ontime-graduation). Improve student’s timely

graduation & high student performance adalah misi Universitas Bina Nusantara

khususnya di program BINUS INTERNATIONAL. Manajemen di BINUS

INTERNATIONAL mempunyai misi untuk mendorong para mahasiswa

mencapai kinerja akademik yang setinggi-tingginya, seperti tertuang pada Dean’s

Goals & Objectives berikut ini:

Goals

To ensure that consistent standards of excellence are applied to and across all

high-achieving students

• To ensure that students who achieve exceptionally high academic

performance are suitably recognized

• To highlight the quality reputation of BINUS INTERNATIONAL

29  

Objectives

• To identify all students who achieve an exceptionally high level of

academic performance

• To ensure that those students receive timely recognition of their efforts

and talent

• To enhance the quality reputation of BINUS by identifying and tracking

honour roll students following graduation

BINUS INTERNATIONAL mempunyai syarat kelulusan dan pengukuran

kinerja mahasiswa berdasarkan pada BINUS INTERNATIONAL Student Guideline

– Binusian 2016 6 September 2012.

2.9.1 GPA

BINUS INTERNATIONAL mengukur prestasi mahasiswa dengan GPA

atau grade point average dengan indeks 0,00 sampai 4,00. GPA diperoleh dari

rata-rata poin matakuliah yang diambil. GPA diukur pada setiap semester dan

kumulatif.

• Semestral GPA (GPS) merupakan GPA yang dihitung pada setiap semester

berdasarkan pada nilai akhir dari matakuliah pada semester tersebut.

• Cumulative GPA merupakan GPA yang dihitung dari keseluruhan nilai

matakuliah.

GPA diukur dengan menggunakan formula seperti berikut:

30  

Mahasiswa BINUS INTERNATIONAL diwajibkan memiliki GPA

minimum 2,00. Bila GPA mahasiswa di bawah 2,00 berturut-turut selama dua

semester maka mahasiswa tersebut dipertimbangkan untuk diberikan peringatan

yang memungkinkan bisa sampai drop out.

2.9.2 Grade

Untuk nilai akhir setiap matakuliah menggunakan grade seperti Tabel 2.6

berikut. Score merupakan nilai angka yang diberikan oleh dosen untuk satu

matakuliah tertentu. Score ini merupakan kumulatif dari nilai pada setiap bobot

pada matakuliah, setiap matakuliah mempunyai bobot nilai seperti nilai tugas,

nilai ujian tengah semester, nilai akhir semester, dan seterusnya. Nilai dari setiap

bobot dalam matakuliah mempunyai persentase bobot masing-masing sehingga

menghasilkan score akhir. Dari score inilah bisa diperoleh grade berdasarkan

pada score range yang telah ditentukan pada Tabel 2.6. Setiap grade mempunyai

weigth (bobot) yang digunakan dalam perhitungan GPA mahasiswa.

31  

Tabel 2.6 Grade Matakuliah

Grade Weight Score A : Excellent A- B+ B : Good B- C+ C : Fair D : Low Pass E : Failed F : Non-attendance

4,00 3,67 3,33 3,00 2,67 2,33 2,00 1,00 0,00 0,00

91 - 100 86 - 90 81 - 85 76 - 80 71 - 75 66 - 70 61 - 65 50 - 60

< 50 0

Adapun yang menjadi syarat akademik kelulusan mahasiswa, antaralain:

• Sudah lulus semua matakuliah pokok minimum grade C

• Sudah lulus matakuliah Characater Building I minimum grade B-

• GPA kumulatif harus lebih besar dari 2,75

Kehadiran mahasiswa pada sesi perkuliahan juga menjadi faktor kelulusan

mahasiswa pada suatu kelas matakuliah. Syarat minimum kehadiran mahasiswa

adalah 80% bila kurang maka tidak layak mengikuti ujian akhir, dimana hal ini

sudah bisa dipastikan mahasiswa yang bersangkutan gagal pada matakuliah

tersebut.

2.10 Literature Review

Penerapan data mining dalam lembaga pendidikan ternyata semakin

banyak dilakukan oleh peneliti saat ini. Data mining merupakan teknologi yang

tepat dalam meningkatkan kualitas pendidikan dan prestasi akademik mahasiswa.

Di bawah ini adalah beberapa penelitian di bidang pendidikan yang bertujuan

untuk melakukan improvement terhadap prestasi akademik mahasiswa.

32  

1. Effective Educational Process: A Data-Mining Approach (Jayanthi &

Kamna, 2007)

Dalam studi ini mengembangkan holistic model untuk tujuan pendidikan

menggunakan teknik data mining dengan mengeksplorasi dampak dari perubahan

dalam proses admisi, course delivery dan recruitments. Mengusulkan sebuah

framework proses edukasi yang efektif menggunakan teknik data mining untuk

menemukan tren dan pola. Teknik data mining yang digunakan adalah decision

trees, bayesian models dan forecasting. Studi ini bertujuan untuk melakukan

improvement dalam proses penelitian dan pengambilan keputusan yang

berhubungan dengan akademik melalui penemuan tren dan pola yang

menggunakan kombinasi antara explicit knowledge base, sophisticated analytical

skills dan academic domain knowledge. Dengan harapan kualitas dan prestasi

akademik mahasiswa dapat menjadi lebih baik secara efisien dan efektif.

2. Using Data Mining To Predict Secondary School Student Performance

(Cortez & Silva, 2008)

Studi ini dilakukan di Portugal, dilatarbelakangi oleh tingginya angka

kegagalan para siswa khususnya dalam matapelajaran Matematika dan Bahasa

Portugal. Cortez dan Silva dalam studinya menggunakan data mining dengan

beberapa teknik seperti Decision Tree, Random Forest, Neural Network, dan

Support Vector Machines. Adapun variabel yang digunakan seperti grade

matakuliah siswa, demographic, sosial dan atribut yang berhubungan dengan

akademik siswa itu sendiri. Tujuan studi ini untuk memprediksi grade para siswa

pada periode pertama dan kedua, dalam meningkatkan kualitas pendidikan.

33  

3. Data Mining Model for Higher Education System (Ayesha et al, 2010)

Dalam studi ini melakukan analisis terhadap perilaku belajar mahasiswa

(student's learning behaviour). Menganalisa bagaimana perbedaan dampak antar

faktor student's learning behaviour dan performance during academic dengan

menggunakan k-mean dan decision tree. Menggunakan teknik data mining K-

means clustering. Clustering analysis membuat segmen mahasiswa ke dalam

beberapa kelompok berdasarkan karakteristik. Kinerja mahasiswa ditentukan oleh

internal assessment dan external assessment. Internal assessment berdasarkan

pada nilai tugas, kuis, tugas lab, grade kehadiran pada semester sebelumnya, dan

keaktifan pada ekstra kurikulum. Sedangkan external assessment didapatkan dari

nilai ujian akhir. Studi ini bertujuan membantu para dosen untuk mengurangi

jumlah mahasiswa yang drop out secara signifikan dan meningkatkan prestasi

akademik mahasiswa itu sendiri.

4. Use Data Mining To Improve Student Retention In Higher Education – A

Case Study (Kim et al, 2010)

Salah satu tantangan lain pada lembaga pendidikan adalah meningkatkan

student retention (National Audition Office, 2007). Student retention ini sudah

menjadi indikator penting dalam mengukur kinerja lembaga pendidikan. Studi ini

mengembangkan data mining untuk memonitor para siswa, menganalisa perilaku

akademik siswa dan menyediakan informasi penting yang bisa mendukung

strategi yang akan dilakukan untuk tujuan dalam melakukan improvement

terhadap student retention. Informasi yang dibutuhkan antara lain student

enrolment, student result, course/module, learning skills dan student activities.

34  

Menggunakan teknik data mining association, classification dan clustering.

Model yang dikembangkan yaitu: Student behavior patterns; Course behavior

patterns; Predict student retention; Predict Course suitability dan Personalized

intervention strategy.

5. Web Usage Mining for Improving Students Performance in Learning

Management Systems (Zafra & Ventura, 2010)

Studi ini bertujuan untuk mendeteksi aktivitas mahasiswa yang sangat

relevan atau mempengaruhi kelulusan mahasiswa pada matakuliahnya,

berdasarkan pada data-data yang diperoleh dari log data pada education web-

based system. Hasil dari penelitian ini adalah memberikan informasi yang

mengklasifikasi mahasiswa dalam dua kelompok:

- high performance: mahasiswa yang mempunyai probabilitas tertinggi akan

lulus

- low performance: mahasiswa memiliki probabilitas tertinggi akan gagal (drop

out).

Secara umum data set yang digunakan yakni: number of students, number

of assignments, number of forums, dan number of quizzes. Beberapa algoritma

yang diuji, MOG3P-MI adalah algorima yang digunakan karena mempunyai

tingkat akurasi model paling tinggi.

35  

6. Mining Educational Data to Analyze Students Performance (Baradwaj &

Pal, 2011)

Menurut Baradwaj dan Saurabh Pal dalam studinya, salah satu cara dalam

mencapai kualitas pendidikan terbaik adalah dengan menemukan knowledge yang

dimulai dari enrollment, cara mengajar di kelas, mengetahui siapa yang curang

pada saat ujian online, memprediksi kinerja mahasiswa dan lain sebagainya.

Knowledge ini sudah ada dalam sekumpulan data edukasi yang besar, sehingga

diperlukanlah data mining untuk mengekstrak knowledge tersebut. Dalam studi ini

menggunakan classification model untuk menemukan pola dalam mengevaluasi

kinerja mahasiswa. Teknik yang digunakan antara lain termasuk Decision Trees,

Neural Networks, Naïve Bayes, K- Nearest neighbor, dan lain sebagainya. Studi

ini bertujuan untuk memprediksi prestas akademik seorang mahasiswa pada akhir

semester. Ini sangat membantu dalam mengidentifikasi dengan lebih dini, siapa

siswa yang akan drop out dan mahasiswa yang memerlukan perhatian khusus dan

memungkinkan dosen memberikan konseling secara khusus.

7. A Data Mining Approach To Guide Students Through The Enrollment

Process Based On Academic Performance (Vialardi et al, 2011)

Tujuan dari studi ini adalah membuat model yang memberikan

rekomendasi kepada mahasiswa dalam menentukan matakuliah mana yang lebih

tepat akan diambil. Model data mining dibuat berdasarkan prestasi akademik

mahasiswa itu sendiri. Atribut yang diprediksi pertama adalah matakuliah yang

memiliki tingkat kesulitan yang tinggi dan yang kedua memprediksi kemampuan

atau grade yang akan diperoleh mahasiswa tersebut terhadap matakuliah yang

36  

akan diambil. Dalam pengembangan data mining menggunakan CRISP-DM

methodology. Menggunakan teknik C4.5, KNN (K-nearest neighbor), Naïve

Bayes, Bagging dan Boosting. Bagging adalah model yang paling akurat yang

digunakan dalam studi ini.

8. Data Mining: A Prediction For Performance Improvement Using

Classification (Bhardwaj & Pal, 2011).

Tujuan studi ini adalah memprediksi mahasiswa yang memiliki motivasi

belajar yang tinggi dan rendah. Menggunakan teknik Bayesian Classification

dalam memprediksi yang dasarkan pada data setahun sebelumnya.

9. Improving Academic Performance of Students of Defence University Based

on Data Warehousing and Data Mining (Sreenivasarao & Yohannes, 2012)

Studi ini dilakukan oleh Defence University College jurusan Teknik,

berkonsentrasi terhadap faktor-faktor yang mempengaruhi kinerja mahasiswa.

Prestasi akademik mahasiswa jurusan Teknik kebanyakan relatif rendah, diukur

dari GPA setiap mahasiswa. Sehingga manajemen membutuhkan analisis terhadap

pencapaian prestasi mahasiswa. Oleh karena itu, dalam studi ini menerapkan data

mining untuk mengekstrak informasi dan variabel penting yang signifikan

berpengaruh terhadap prestasi akademik mahasiswa. Teknik data mining yang

digunakan adalah k-Means clustering dan Decision tree. Studi ini bertujuan

membantu para guru mengurangi angka mahasiswa yang di drop out dan

memperbaiki prestasi akademik para mahasiswa.

37  

10. Mining Educational Data to Improve Students’ Performance: A Case Study

(Tair & El-Halees, 2012)

Dalam studi ini menggunakan data akademik terdiri dari atribut: Gender,

Speciality, City, Matriculation GPA, Secondary School Type dan Grade. Tujuan

studi ini dilakukan untuk meningkatkan prestasi akademik mahasiswa.

Menggunakan teknik data mining association, classification, clustering dan

outlier detection rules untuk memprediksi grade mahasiswa.

11. Educational Data Mining for Improving Educational Quality (Gulati &

Sharma, 2012)

Tujuan dari studi ini adalah meningkatkan kualitas pendidikan berdasarkan

pada aktivitas atau operasional akademik mulai dari jadwal kelas, siswa dan guru.

Bagaimana mengoptimalkan operasional akademik sehingga dapat menjadi faktor

pendukung dalam meningkatkan prestasi mahasiswa. Menggunakan Knowledge

Discovery Database dalam pengembangan data mining. Penerapan data mining

dapat membantu institusi pendidikan dalam mengarahkan mahasiswa, dosen dan

manajemen untuk memperbaiki prestasi institusi. Selain itu dapat membantu para

dosen untuk me-manage kelas dengan baik dan membantu manajemen dalam

membuat aturan akademik dengan baik.

38  

Tabel 2.7 berikut adalah rangkuman dari literatur yang berhubungan

dengan penelitian yang akan dilakukan di BINUS INTERNATIONAL. Penelitian

ini diurutkan berdasarkan tahun penelitian. Variabel dan teknik yang ditulis hitam

tebal (bold) merupakan variabel atau teknik yang juga digunakan dalam penelitian

ini.

Tabel 2.7 Rangkuman Literatur

No Tahun Judul Teknik/Agoritma

1. 2007 Effective Educational Process: A Data-Mining Approach (Jayanthi & Kamna)

Decision Trees, Bayesian & Forecasting

2. 2008 Using Data Mining To Predict Secondary School Student Performance (Cortez & Silva). Variabel: sex, age, school, address, Pstatus, Medu, Mjob, Fedu, Fjob, guardian, famsize, famrel, reason, traveltime, studytime, failures, schoolsup, famsup, activities, paidclass, internet, nursery, higher, romantic, freetime, goout, Walc, Dalc, health, absences, G1 (first period grade), G2(second period grade), G3 (final grade)

Decision Tree, Random Forest, Neural Network, & Support Vector Machines.

3. 2010 Data Mining Model for Higher Education System (Ayesha et al). Variabel: prev-sem-grade, class-quiz, assignment, practical-wok, mid-term, attendance, final-grade

k-Mean & Decision Tree

4. 2010 Use Data Mining To Improve Student Retention In Higher Education – A Case Study (Kim et al). Variabel: Average mark, online learning systems information, library information, nationality, university entry certificate, course award, current study level, study mode, postgraduate

Naïve Bayes, Support Vector Machine, Decision Tree

39  

No Tahun Judul Teknik/Agoritma

or undergraduate, resit number, current year, age, gender, race

5. 2010 Web Usage Mining for Improving Students Performance in Learning Management Systems (Zafra & Ventura, 2010). Variabel: Number of students, number of assignments, number of forums, dan number of quizzes

PART, AdaBoostM1&PART, Bagging&PART, daBoostM1&PART, PART, NaiveBayes, SMO, MIOptimalBall, CitationKNN, DecisionStump, RepTree, MILR, MIDD, MIEMDD, MDD, G3P-MI, MOG3P-MI

6. 2011 Mining Educational Data to Analyze Students Performance (Baradwaj & Pal). Variabel: Previous Semester Marks, Class Test Grade, Seminar Performance, Assignment, General Proficiency, Attendance, Lab Work, End Semester Marks

Decision Trees, Neural Networks, Naïve Bayes, K- Nearest Neighbor

7. 2011 A Data Mining Approach To Guide Students Through The Enrollment Process Based On Academic Performance (Vialardi et al). Variabel: Course name, Attempt number, Cumulative average, Difficulty, Potential, Course credits, Number of credits, Final grade (class)

Bagging , C4.5, KNN (K-nearest neighbor), Naïve Bayes, and Boosting

8. 2011 Data Mining: A Prediction For Performance Improvement Using Classification (Bhardwaj & Pal, 2011)

Bayesian

9. 2012 Improving Academic Performance of Students of Defence University Based on Data Warehousing and Data mining (Sreenivasarao & Yohannes). Variabel: Student ID, Student Name, Course, Professor, Marks, Grade, Result

K-Means clustering & Decision Tree

10. 2012 Mining Educational Data to Improve Students’ Performance: A Case Study (Tair &

Association, Classification,

40  

No Tahun Judul Teknik/Agoritma

El-Halees). Variabel: Student ID, student name, gender, date of birth, place of birth, speciality, enrollment year, graduation year, city, location, address, telephone number, matriculation GPA, secondary school type, matriculation obtained place, matriculation year, college GPA & GPA

Clustering & Outlier Detection Rules

11. 2012 Educational Data Mining for Improving Educational Quality (Gulati & Sharma). Variabel: Menggunakan informasi dari courses assignments, marks, student background

Classification