FRAUD DETECTION PADA TRANSAKSI PERBANKAN …repository.usd.ac.id/37899/2/165314116_full.pdf ·...

FRAUD DETECTION PADA TRANSAKSI PERBANKAN

MENGGUNAKAN METODE NAÏVE BAYES

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Informatika

Oleh:

Hananto Widigdo

165314116

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

i

FRAUD DETECTION ON BANKING TRANSACTIONS USING THE

NAÏVE BAYES METHOD

THESIS

Presented as Partial Fulfillment of the Requirements

For the Degree of Sarjana Komputer

In Informatics Study Program

By:

Hananto Widigdo

165314116

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020


viii

ABSTRAK

Fraud merupakan suatu perbuatan yang melanggar hukum, yang

dilakukan oleh orang – orang dari dalam atau luar organisasi dengan tujuan untuk

mendapatkan keuntungan secara pribadi yang secara langsung merugikan pihak

lain. Dalam dunia perbankan, fraud dapat terjadi dalam berbagai transaksi, oleh

karena itu dibutuhkan suatu pengklasifikasian yang dapat mempermudah untuk

mendeteksi fraud.

Pada penelitian ini akan digunakan metode Naïve Bayes untuk

mengklasifikasikan data transaksi. Proses perangkingan atribut dalam penelitian

ini menggunakan Principal Component Analysis dan untuk mengatasi

ketidakseimbangan antara data mayor dan data minor, akan dilakukan variasi

Nearest Neighbors dan percentage data minor menggunakan Synthetic Minority

Oversampling Technique. Penelitian ini memakai 14 atribut dan 1 label. Dari

hasil pengujian data menggunakan 3-fold cross validation menghasilkan akurasi

sebesar 86,083% dengan nearest neighbors : 5 dan percentage data minor: 100%,

dengan 4 atributnya adalah Rata Nilai Transaksi, Maksimum Nilai Transaksi,

Nilai Transaksi dan Kepemilikan Kartu.

Kata Kunci : Fraud Detection, Naïve Bayes


ix

ABSTRACT

Fraud is an unlawful act, which is carried out by people from within or

outside the organization with the aim of obtaining personal benefits that directly

harm other parties. In the banking world, fraud can occur in a variety of

transactions, therefore we need a classification that can make it easier to detect

fraud.

In this study the Naïve Bayes method will be used to classify transaction

data. The attribute ranking process in this study uses Principal Component Analysis

and to overcome the imbalance between major and minor data, Nearest Neighbors

and percentage of events will be used using Synthetic Minority Oversampling

Technique. This study uses 14 attributes and 1 label fraud category. From the results

of testing the data using 3-fold cross validation produces an accuracy of 86,083%

with nearest neighbors: 5 and percentage minor data: 100%, with atribut are

Average Transaction Value, Maximum Transaction Value, Transaction Value and

Card Ownership.

Keyword : Fraud Detection, Naïve Bayes


x

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING ................................................. ii

HALAMAN PENGESAHAN .............................................................................. iii

PERNYATAAN KEASLIAN KARYA .............................................................. iv

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ............................................................ v

KATA PENGANTAR .......................................................................................... vi

ABSTRAK .......................................................................................................... viii

ABSTRACT .......................................................................................................... ix

DAFTAR ISI .......................................................................................................... x

DAFTAR GAMBAR ........................................................................................... xii

DAFTAR TABEL .............................................................................................. xiii

BAB I PENDAHULUAN ..................................................................................... 1

1.1 Latar Belakang ....................................................................................... 1

1.2 Rumusan Masalah .................................................................................. 2

1.3 Tujuan ..................................................................................................... 2

1.4 Manfaat ................................................................................................... 2

1.5 Batasan Masalah ..................................................................................... 3

1.6 Sistematika Penulisan ............................................................................ 3

BAB II LANDASAN TEORI .............................................................................. 4

2.1 Fraud ........................................................................................................ 4

2.1.1 Definisi Kecurangan ........................................................................... 4

2.1.2 Jenis – Jenis Kecurangan ................................................................... 5

2.1.3 Faktor Pemicu Fraud ......................................................................... 5

2.2 Knowledge Discovery in Database (KDD) ............................................. 7

2.2.1 Penjelasan proses Knowledge discovery in databases (KDD) : ....... 8

2.2.2 Data Mining ......................................................................................... 8

2.2.3 Naïve Bayes .......................................................................................... 9

2.2.4 Evaluasi .............................................................................................. 12

2.3 Normalisasi Min – Max ......................................................................... 14

2.4 Principle Component Analisis (PCA) .................................................... 14


xi

2.5 Synthetic Minority Over-Sampling Technique................................... 19

BAB III METODOLOGI PENELITIAN ........................................................ 23

3.1 Data ........................................................................................................ 23

3.2 Kebutuhan Sistem ................................................................................ 24

3.3 Desain Alat Uji ...................................................................................... 25

3.4 Prepocessing .......................................................................................... 26

3.5 Modelling Naïve Bayes .......................................................................... 32

3.6 Akurasi .................................................................................................. 36

3.7 Desain Interface .................................................................................... 37

BAB IV ANALISA HASIL PERCOBAAN ..................................................... 38

4.1 Hasil Percobaan .................................................................................... 38

4.1.1 Uji Data Kelompok ............................................................................. 38

4.1.2 Uji Data Tunggal ................................................................................. 51

BAB V KESIMPULAN ..................................................................................... 52

5.1 Kesimpulan ........................................................................................... 52

5.2 Saran ...................................................................................................... 52

Daftar Pustaka ..................................................................................................... 53

LAMPIRAN ......................................................................................................... 55


xii

DAFTAR GAMBAR

Gambar 2.1 Segitiga Kecurangan .......................................................................... 6

Gambar 2.2 Proses KDD ....................................................................................... 7

Gambar 2.3 Cross Fold Validation...................................................................... 12

Gambar 2.4 Grafik ketidakseimbangan SMOTE ................................................ 20

Gambar 3.1 Gambaran Umum Penelitian ........................................................... 25

Gambar 3.2 Tahap Prepocessing ......................................................................... 26

Gambar 3.3 Source Code Mean dan Standar Deviasi ......................................... 32

Gambar 3.4 Source Code Densitas Gauss ........................................................... 34

Gambar 3.5 Interface ........................................................................................... 37

Gambar 4.1 Percentage Data Minor ke - 1 ......................................................... 40





Gambar 4.6 Grafik Hasil Akurasi Tertinggi ........................................................ 50


xiii

DAFTAR TABEL

Tabel 2.1 Confusion Matrix .................................................................................. 13

Tabel 3.1 Keterangan Atribut ............................................................................... 23

Tabel 3.2 Interval atribut tanggal_transaksi_awal ............................................... 30

Tabel 3.3 Data Setelah Prepocessing ................................................................... 31

Tabel 3.4 Data Testing .......................................................................................... 32

Tabel 3.5 Mean dan Standar Deviasi No Fraud................................................... 33

Tabel 3.6 Mean dan Standar Deviasi Fraud ........................................................ 33

Tabel 3.7 Densitas Gauss ..................................................................................... 34

Tabel 3.8 Contoh Confusion Matrix ..................................................................... 36

Tabel 4.1 Hasil Perangkingan Atribut ................................................................. 38

Tabel 4.2 Jumlah Atribut .................................................................................... 39

Tabel 4.3 Hasil Percobaan ke - 1 ........................................................................ 40









Tabel 4.12 Hasil Percobaan ke - 10 ...................................................................... 46


Tabel 4.14 Hasil Percobaan ke - 12 ..................................................................... 47




Tabel 4.18 Uji Data Tunggal ............................................................................... 51


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perbankan adalah segala sesuatu yang menyangkut tentang bank,

mencakup kelembagaan, kegiatan usaha, serta cara dan proses dalam

melaksanakan kegiatan usahanya. Sedangkan bank adalah badan usaha yang

menghimpun dana dari masyarakat dalam bentuk simpanan dan

menyalurkannya kepada masyarakat dalam bentuk kredit atau bentuk-bentuk

lainnya dalam rangka meningkatkan taraf hidup rakyat. (Undang-Undang No

10 Tahun 1998 tentang Perbankan).

Kegiatan transaksi keuangan biasanya dilakukan oleh pihak nasabah

dan pihak bank yang berisi kesepakatan. Kesepakatan tersebut dapat berupa

penyimpanan dana ataupun peminjaman dana (debitur).

Kegiatan dalam pelaksanaan perjanjian antara pihak bank dengan pihak

nasabah dapat memicu suatu tindakan fraud, baik yang dilakukan oleh pihak

internal bank maupun yang dilakukan oleh pihak luar. Menurut Karyono

(2014), fraud adalah penyimpangan dan perbuatan melanggar hukum (illegal

act), yang dilakukan dengan sengaja untuk tujuan tertentu misalnya menipu

atau memberikan gambaran keliru (mislead) kepada pihak – pihak lain, yang

dilakukan oleh orang – orang, baik dari dalam maupun dari luar organisasi.

Dalam berbagai organisasi perusahaan maupun pemerintahan fraud dapat

terjadi di berbagai lapisan kerja organisasi manapun.

Untuk menangani fraud dibutuhkan fraud audit yang bertujuan untuk

menemukan kecurangan (Soejono, 2000). Pada dasarnya sulit untuk

mendeteksi fraud, banyaknya transaksi yang dilakukan membutuhkan waktu

yang lama. Salah satu metode yang dapat digunakan untuk melakukan

pengklasifikasian adalah Naïve Bayes. Adapun penelitian terkait fraud

detection dengan metode klasifikasi yang berbeda menggunakan Jaringan

Syaraf Tiruan Backpropagation. Dari hasil penelitian tersebut menghasilkan


2

akurasi sebesar 77,5 % (Manurung, 2019) dan Fraud Detection pada transaksi

perbankan menggunakan algoritma C4.5 menghasilkan akurasi 78,68 %

(Taek, 2019).

Berdasarkan uraian di atas, penelitian ini mencoba membangun sistem

fraud detection menggunakan teknik data mining dengan metode Naïve

Bayes. Hasil implementasi sistem akan membuktikan seberapa efektif dan

akurat penggunaan algoritma Naïve Bayes dalam mendeteksi fraud dalam

sebuah transaksi.

1.2 Rumusan Masalah

Berdasarkan paparan latar belakang di atas, masalah yang dipecahkan

dalam penelitian ini adalah :

a. Bagaimana metode Naïve Bayes mampu mendeteksi dengan tepat

fraud detection pada transaksi perbankan ?

b. Bagaimana akurasi algoritma Naïve Bayes classifier jika diterapkan

pada fraud detection ?

1.3 Tujuan

Tujuan yang ingin dicapai dalam tugas akhir ini, yaitu :

a. Membangun sistem fraud detection menggunakan Naïve Bayes

classifier.

b. Mengetahui akurasi algoritma Naïve Bayes untuk sistem fraud

detection

1.4 Manfaat

Penelitian ini diharapkan mampu membantu pihak bank mendeteksi

fraud dalam transasksi. Selain itu, penelitian ini diharapkan dapat

memberikan gambaran bagi pembaca mengenai pendeteksian fraud dalam

transaksi dengan menggunakan algoritma Naïve Bayes.


3

1.5 Batasan Masalah

a. Penelitian dilakukan dengan menggunakan data transaksi pada salah

satu bank swasta di Indonesia. Data transaksi yang digunakan

sebanyak 13.125 data dengan 27 atribut.

b. Format file yang digunakan berupa .xlsx atau xls.

c. Penelitian menggunakan algoritma Naïve Bayes dengan

menggunakan aplikasi Matlab.

1.6 Sistematika Penulisan

Bagian ini berisi mengenai sistematika penulisan tugas akhir.

a. BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan,

manfaat dan batasan masalah yang digunakan dalam penelitian.

b. BAB II LANDASAN TEORI

Bab ini berisi tentang teori yang akan digunakan untuk mendukung

penelitian meliputi pengertian Fraud, Data Mining, Principal

Component Analysis, Naïve Bayes dan tahap Evaluasi.

c. BAB III METODOLOGI PENELITIAN

Bab ini menjelaskan tentang gambaran umum penelitian, tahap –

tahap penyelesaian preprocessing dan penerapan konsep dasar yang

telah diuraikan menggunakan metode Naïve Bayes.

d. BAB IV ANALISA HASIL PERCOBAAN

Bab ini berisi tentang hasil percobaan sistem dengan berbagai

kombinasi Smote (Nearest Neighbors dan percentage data minor).

e. BAB V KESIMPULAN

Bab ini berisi tentang kesimpulan dan saran yang didapatkan dari

hasil percobaan sistem fraud detection dengan algoritma Naïve

Bayes secara keseluruhan.


4

BAB II

LANDASAN TEORI

Bagian ini menjelaskan mengenai dasar teori yang akan mendukung

penelitian meliputi konsep fraud (definisi, jenis – jenis, faktor pemicu) dan

konsep Knowledge Discovery in Database (KDD).

2.1 Fraud

Standar-standar audit mendefinisikan kecurangan (fraud) sebagai

tindakan yang disengaja oleh suatu atau lebih individu antara manajemen,

karyawan, atau pihak-pihak ketiga yang melakukan penipuan untuk

memperoleh keuntungan yang tidak adil atau ilegal (Hayes, Wallage, &

Gortemaker, 2017). Berikut akan dijelaskan secara detail definisi kecurangan

menurut para ahli, jenis – jenis faktor pendukung kecurangan dan faktor

pemicu fraud.

2.1.1 Definisi Kecurangan

Menurut the Association of Certified Fraud Examiners (ACFE), fraud

adalah perbuatan-perbuatan yang melawan hukum yang dilakukan dengan

sengaja untuk tujuan tertentu (manipulasi atau memberikan laporan keliru

terhadap pihak lain) yang dilakukan oleh orang dari dalam atau luar

organisasi untuk mendapatkan keuntungan pribadi atau kelompok secara

langsung dan tidak langsung.

Kecurangan adalah perbuatan yang disengaja oleh satu atau beberapa

orang dalam manajemen, those charged with governance (TCWG), pegawai,

atau pihak ketiga. Kecurangan yang melibatkan anggota manajemen atau

TCWG disebut “management fraud”. Kecurangan yang hanya melibatkan

pegawai dari entitas tersebut “employee fraud”. Dalam management fraud

dan employee fraud bisa terjadi persekongkolan (collusion) di dalam entitas

atau dengan pihak ketiga di luar entitas. (Tuanakotta, 2013:319)

Sedangkan menurut Ikatan Akuntan Indonesia (IAI, 2012) menjelaskan

kecurangan akutansi sebagai: Salah saji atau penghilangan secara sengaja


5

untuk mengelabui pemakai laporan keuangan. Salah satu yang timbul dari

perlakuan tidak semestinya terhadap aktiva (seringkali disebut dengan

penyalahgunaan atau penggelapan) berkaitan dengan pencurian aktiva entitas

yang berakibat laporan keuangan tidak disajikan sesuai dengan prinsip

akuntansi yang berlaku secara umum di Indonesia.

2.1.2 Jenis – Jenis Kecurangan

Menurut Karyono (2013:17-25) ada berbagai jenis kecurangan (fraud)

yaitu:

1. Kecurangan Laporan Keuangan (Fraudulent Financial Statement)

Kecurangan laporan keuangan dapat terjadi dengan menyajikan laporan

keuangan lebih menarik dibandingkan dengan yang sebenarnya terjadi

(over statement). Begitupun dengan sebaliknya yang dinamakan dengan

(under statement), dengan cara sebagai berikut:

a. Penghasilan atau pendapatan fiktif (Fictious Revenue).

b. Penilaian akhir atas aset tidak tepat.

2. Kecurangan Melalui Komputer (Computer Fraud)

a. Salah memposting atau memposting sebagian transaksi saja.

b. Memproduksi keluaran palsu, menahan, menghancurkan, atau

mencuri keluaran.

2.1.3 Faktor Pemicu Fraud

Fraud triangle theory merupakan suatu gagasan yang digunakan

auditor untuk meneliti penyebab terjadinya kecurangan. Menurut Donald

Cressey dalam (Hayes, Wallage, & Gortemaker, 2017:232-233) kecurangan

melibatkan dorongan (incentive) atau tekanan (pressure) untuk melakukan

kecurangan, yang mana terdapat kesempatan (opportunity) yang dirasakan

untuk melakukan hal tersebut dan beberapa tindakan rasionalisasi

(rationalisation). Ketiga ‘elemen’ dari Segitiga Kecurangan merupakan

faktor-faktor yang menyebabkan terjadinya kecurangan.


6

Gambar 2.1 Segitiga Kecurangan

Sumber: (Hayes, Wallage, & Gortemaker, 2017:233)

Menurut (Hayes, Wallage, & Gortemaker, 2017:232) Segitiga Kecurangan

terdiri dari tiga elemen yang menyebabkan terjadinya kecurangan, yaitu:

1. Dorongan atau tekanan (Pressure)

Tekanan, seperti kebutuhan keuangan merupakan “motif” untuk

melakukan kecurangan. Individu-individu dapat berada di bawah

tekanan untuk menyalahgunakan aset karena masalah perjudian

atau karena individu-individu tersebut memiliki gaya hidup di luar

kemampuannya.

2. Kesempatan (Opportunity)

Seseorang yang melakukan kecurangan mengetahui adanya

kelemahan pengendalian internal dan yakin bahwa pengendalian

internal dapat diabaikan. Misalnya, karena individu berada dalam

posisi yang percaya atau memiliki pengetahuan terkait kelemahan

pengendalian internal secara khusus.

3. Rasionalisasi (Rationalisation)

Seseorang yang melakukan kecurangan sering kali merasionalisasi

kecurangan tersebut. Rasionalisasi dapat termasuk, “Saya akan

mengembalikan uang tersebut” “Mereka tidak akan pernah merasa

kehilangan dana-dananya” atau “Mereka tidak menggaji saya

dengan jumlah yang cukup.”


7

2.2 Knowledge Discovery in Database (KDD)

Knowledge discovery in databases (KDD) sering kali digunakan secara

bergantian untuk menjelaskan proses penggalian informasi tersembunyi

dalam suatu basis data yang besar. Salah satu tahapan dalam keseluruhan

proses KDD adalah data mining. Tahapan proses KDD dapat diliat gambar

2.2:

Gambar 2.2 Proses KDD (Han, 2006)


8

2.2.1 Penjelasan proses Knowledge discovery in databases (KDD) :

a. Data Cleaning

Tahap data cleaning dilakukan untuk membersihkan noise, data

yang inkonsisten serta missing values. Dataset yang digunakan pada

penelitian ini mengandung nilai atribut unknown, sehingga perlu dilakukan

input missing values. Input missing values ini menggunakan nilai rata –

rata pada setiap atribut yang mengandung nilai unknown.

b. Data Integration

Pada tahap ini, akan dilakukan penggabungan data dari berbagai

macam sumber data. Data ini akan digabungkan ke dalam penyimpanan

data yang koheren. Macam – macam penyimpanan termasuk multiple

databases, data cubes, atau flat files. Hal – hal yang perlu diperhatikan

dalam integrasi data, yaitu integrasi skema, pencocokan objek, dan

redudansi data.

c. Data Selection

Pada tahap ini, akan dilakukan analisis korelasi untuk analisis

atribut. Atribut – atribut data akan dicek apakah relevan dilakukan

penambangan data. Atribut yang tidak relevan tidak akan digunakan.

d. Data Transformation

Metode yang digunakan dalam penelitian ini adalah transformasi

data menggunakan normalisasi. Normalisasi adalah proses penskalaan

nilai atribut dari data sehingga bisa terletak pada rentang tertentu.

2.2.2 Data Mining

Data Mining merupakan suatu proses menggali sekumpulan data dan

mengubahnya dalam bentuk informasi yang bermanfaat bagi pengguna. Data

mining memilki beberapa teknik yang terkenal dan sering digunakan oleh

peneliti, diantaranya seperti clustering, classification, association dan


9

beberapa perkembangan teknik sesuai dengan perubahan kecendrungan data

pada saat ini.

Menurut Fayyad et al. (1996) di dalam buku yang ditulis Suyanto

(2017), tugas-tugas data mining dapat dikelompokkan ke dalam enam

kelompok berikut ini:

1. Klasifikasi (classification): men-generalisasi struktur yang

diketahui untuk diaplikasikan pada data-data baru. Misalkan :

Transaksi terebut tergolong fraud atau no fraud.

2. Klasterisasi (clustering): mengelompokkan data, yang tidak

diketahui label kelasnya, ke dalam sejumlah kelompok tertentu

sesuai dengan ukuran kemiripannya.

3. Regresi (regression): menemukan suatu fungsi yang memodelkan

data dengan galat (kesalahan prediksi) seminimal mungkin.

4. Deteksi anomali (anomaly detection): mengidentifikasi data yang

tidak umum, bisa berupa outlier, perubahan atau deviasi yang

mungkin sangat penting dan perlu investigasi lebih lanjut.

5. Pembelajaran aturan asosiasi (association rule mining) atau

pemodelan kebergantungan (dependency modeling): mencari relasi

antar variabel.

6. Perangkuman (summarization): menyediakan representasi data

yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.

2.2.3 Naïve Bayes

Dalam data mining terdapat tugas klasifikasi yang berguna untuk

mencari model atau fungsi yang menjelaskan dan membedakan kelas atau

konsep dari data, dengan tujuan untuk menggunakan model dan melakukan

prediksi dari kelas suatu objek dimana tidak diketaui label dari kelas tersebut.

Model yang ada berasal dari analisis kumpulan training data (Han dan

kamber, 2006). Naïve Bayes merupakan pengklasifikasian dengan metode

probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas

Bayes. Menurut Kusumadewi (2003) teorema bayes dikenal dengan rumus


10

dasar untuk peluang bersyarat yang tidak bebas. Teorema bayes diadopsi dari

nama penemunya yaitu Thomas Bayes sekitar tahun 1950. Metode teorema

bayes merupakan teknik yang digunakan untuk melakukan analisis dalam

pengambilan keputusan terbaik dari sejumlah alternatif. Pada dasarnya,

teorema tersebut merupakan bahwa suatu kejadian yang terjadi di masa depan

atau yang belum terjadi dapat diprediksi dengan syarat kejadian sebelumnya

yang telah terjadi.

Secara umum teorema bayes dapat ditulis dalam bentuk seperti Rumus 2.1.

P( C | X) = 𝑃( 𝑋 |𝐶).𝑃(C)

𝑃(X)……………………..…………..…………(2.1)

Keterangan :

X : Data dengan class yang belum diketaui

C : Hipotesis data merupakan suatu class spesifik

P(C|X) : Probabilitas hipotesis C berdasarkan kondisi X (posterior

probabilitas)

P(X|C) : Probabilitas berdasarkan kondisi pada hipotesis

P(C) : Probabilitas hipotesis C (Prior probabilitas)

P(X) : Probabilitas X (Predictor prior probabilitas)

Rumus diatas menjelaskan bahwa peluang masuknya sampel

karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya

kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali

dengan peluang kemunculan karakteristik-karakteristik sampel pada kelas C

(disebut juga likelihood), dibagi dengan peluang kemunculan

karakteristik sampel secara global ( disebut juga evidence). Karena itu, rumus

diatas dapat pula ditulis sebagai berikut :

Posterior = 𝑃𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒. . . . . . . . . . . . . . . . . . . . . . . . . .(2.2)

Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai

dari posterior tersebut nantinya akan dibandingkan dengan nilai nilai

posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan


11

diklasifikasikan. Penjabaran lebih lanjut rumus bayes tersebut dilakukan

dengan menjabarkan (C|X1,…,Xn) menggunakan aturan perkalian sebagai

berikut :

P(C|X1, . . ., Xn) = P(C)P(X1, … , Xn|C)

= P(C)P(X1|C)(X2, … , Xn|C,X1)

= P(C) P(X1|C) P(X2|C, X1)P(Xn|C,X1,X2,Xn-1) ... (2.3)

Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin

banyak dan semakin kompleksnya factor- faktor syarat yang mempengaruhi

nilai probabilitas, yang hampir mustahil untuk dianalisa satu persatu.

Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah

digunakan asumsi independensi yang sangat tinggi (naif), bahwa masing

masing petunjuk saling bebas (independen) satu sama lain. Dengan asumsi

tersebut, maka berlaku suatu kesamaan sebagai berikut:

P(C|X) = P (X1|C)P(X2|C) . . .P(Xn|C)P(C)……………………….(2.4)

Persamaan diatas merupakan model dari teorema Naïve Bayes yang

selanjutnya akan digunakan dalam proses klasifikasi. Untuk klasifikasi

dengan data kontinyu digunakan rumus Densitas Gauss:

P(X|Y) = 1

√2𝜋𝜎exp

−(X− μ)2

2𝜎2 …………………...…………………(2.5)

Dimana :

P : Peluang

X : Atribut

Y : Kelas yang dicari

µ : Mean, rata – rata dari seluruh atribut

σ : Deviasi Standar, Varian dari seluruh atribut


12

2.2.4 Evaluasi

Evaluasi merupakan tahap akhir yang bertujuan untuk menguji tingkat

keberhasilan dari sistem. Untuk menguji keberhasilan dari sistem, dapat

digunakan metode K-Fold Cross Validation. Pada gambar 2.3 adalah contoh

dari K-Fold Cross Validation dengan nilai k : 3.

Fold I Fold II Fold III

Testing Training Training

Training Testing Training

Training Training Testing

Gambar 2.3 Cross Fold Validation

Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama

untuk pelatihan dan tepat satu kali untuk pengujian. Bentuk umum

pendekatan ini disebut dengan k-fold cross- validation, yang memecah set

data menjadi k bagian set data dengan ukuran yang sama. Setiap kali berjalan,

satu pecahan berperan sebagai data set data latih sedangkan pecahan lainnya

menjadi set data uji. Prosedur tersebut dilakukan sebanyak k kali sehingga

setiap data, kesempatan menjadi data uji tepat satu kali dan menjadi data latih

sebanyak k - 1 kali. Total error didapatkan dengan menjumlahkan semua error

yang didapatkan dari k kali proses (Prasetyo,2014)


13

Untuk mengetahui seberapa besar tingkat akurasi dari hasil evaluasi

masing – masing fold. Maka digunakan perhitungan Confusion Matrix. Pada

tabel 2.1 merupakan perhitungan Confusion Matrix yang digunakan.

Tabel 2.1 Confusion Matrix

Nilai akurasi dapat dihitung dengan persamaan :

Akurasi = 𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 × 100%............................................................(2.6)

Keterangan :

a. TP (True Positive) merupakan banyaknya data yang kelas aktualnya adalah

kelas positif dengan kelas prediksinya merupakan kelas positif.

b. FN (False Negative) merupakan banyaknya data yang kelas aktualnya

adalah kelas positif dengan kelas prediksinya merupakan kelas negatif.

c. FP (False Positive) merupakan banyaknya data yang kelas aktualnya

adalah kelas negatif dengan kelas prediksinya merupakan kelas positif.

d. TN (True Negative) merupakan banyaknya data yang kelas aktualnya

adalah kelas negatif dengan kelas prediksinya merupakan kelas negatif.

Prediksi

Positif Negatif A

ktu

al P

osi

tif

TP FN N

egat

if

FP TN


14

2.3 Normalisasi Min – Max

Proses transformasi yang terdapat di Knowledge discovery in

databases (KDD) pada penelitian ini menggunakan normalisasi Min – Max.

Normalisasi data mencoba untuk memberikan semua atribut dengan bobot

yang sama. Misalkan bahwa minA dan maxA adalah nilai minimum dan

maksimum atribut , normalisasi Min – Max memetakan nilai V0 ke V1 dalam

kisaran [minBaru, maxBaru] (Han et.,2012)

𝑋𝐵 = 𝑋−𝑀𝑖𝑛 (𝑋)

𝑀𝑎𝑥(𝑋)−𝑀𝑖𝑛 (𝑋) (𝑀𝑎𝑥_𝑛𝑒𝑤𝐴 - 𝑀𝑖𝑛_𝑛𝑒𝑤𝑨)+ 𝑀𝑖𝑛_𝑛𝑒𝑤𝑨………(2.7)

Keterangan :

X = data yang dinormalisasi

Min (x) = jumlah minimum data

Max(x) = jumlah maksimum data

𝑀𝑖𝑛_𝑛𝑒𝑤𝑨 = range minimum data

𝑀𝑎𝑥_𝑛𝑒𝑤𝑨 = range maksimum data

2.4 Principle Component Analisis (PCA)

PCA adalah kombinasi linear dari variabel awal yang secara

geometris merupakan sistem koordinat baru yang diperoleh dari rotasi

sistem semula. Proses perangkingan atribut ini menggunakan aplikasi Weka

Tool 3.8. Metode PCA sangat berguna digunakan jika data yang ada

memiliki jumlah variabel yang besar dan memiliki korelasi antar

variabelnya. Perhitungan dan Principal Component Analysis didasarkan

pada perhitungan nilai eigen dan vector eigen yang menyatakan penyebaran

data dari suatu dataset.

Tujuan dari analisa PCA adalah untuk melakukan seleksi variabel yang

ada tanpa harus kehilangan informasi yang termuat dalam data asli. Dengan

menggunakan PCA, variabel yang tadinya sebanyak n variabel akan di


15

seleksi menjad k variabel baru yang disebut principal component, dengan

jumlah k lebih sedikit dari n. Dengan hanya menggunakan k principal

component akan menghasilkan nilai yang sama dengan menggunakan n

variabel. Variabel hasil dari seleksi disebut principal component. Sifat dari

variabel baru yang terbentuk dengan analisa PCA nantinya selain memiliki

jumlah variabel yang berjumlah lebih sedikit tetapi juga menghasilkan

korelasi antar variabel yang terbentuk.

Secara Teknik, PCA merupakan suatu teknik seleksi data multivariat

(multivariable) yang mengubah atau mentransformasi suatu matriks data

asli menjadi suatu set kombinasi linear yang lebih sedikit namun menyerap

sebagian besar jumlah varian dari data awal. Tujuan utamanya ialah

menjelaskan sebanyak mungkin jumlah varian data asli dengan sedikit

mungkin principal component.

PCA digunakan untuk menjelaskan struktur matriks varians –

kovarians dari suatu set variabel melalui kombinasi liniear dari variabel –

variabel tersebut. Secara umum Principal Component dapat berguna untuk

seleksi atribut dan interprestasi variabel – variabel. Principal Component

Analysis biasanya digunakan untuk :

1. Identifikasi nilai peubah baru yang mendasari data peubah

ganda.

2. Mengurangi banyaknya dimensi himpunan niai peubah yang

biasanya terdiri atas nilai peubah yang banyak dan saling

berkolerasi dengan mempertahankan sebanyak mungkin

keragaman dalam himpunan data tersebut.

3. Menghilangkan nilai peubah asal yang mempunyai sumbangan

informasi yang relatif kecil.

Kombinasi linear dari variabel – variabel x1, x2,. . xp. dapat dinyatakan

sebagai berikut : (Kotu & Deshpande 2015)


16

Zm = ∑ (𝑊𝑖 × 𝑋𝑖 )𝑝𝑖=𝑝 ………………………………………(2.8)

Dimana :

Wi : bobot atau koefisien untuk variable ke – I

Xi : variable ke – i

Zm : kombinasi linear dari variable x

Menurut (Jhonson & Wichern 2007), jika diperoleh vector x = [x1, x2,. .

xp.] yang memiliki matriks kovarian dengan sejumlah eigenvalue : λ1 ≥ λ2. ≥

. . .λp ≥ 0 maka diperoleh kombinasi linear sebagai berikut :

Y1 = a1x = a 11x1 + a 12x2 + . . .+ a 1pxp

Y2 = a 2x = a 21x1 + a 22x2 + . . .+ a 2pxp

. .

. .

Yp = apx = ap1x1 + ap2x2 + . . .+ appxp

Dimana :

Yp : Komponen ke-i

a : Nilai Eigenvektor

x : Nilai standar variabel

Untuk mendapatkan koefisien principal component secara bersamaan

dapat menggunakan salah satu model sebagai berikut :

a. Dekomposisi eigenvalue dan eigenvector dari matriks korelasi atau

kovarian dari variabel – variabel yang diamati. Dalam hal ini


17

eigenvalue merupakan varian setiap principal component dan

eigenvector merupakan koefisien dari principal component.

b. Dekomposisi nilai singular dari matriks data yang berukuran n × n.

Menurut (Jolliffe, 2002) Prosedur pengerjaan Principal Component

Analysis untuk reduksi dimensi dari variabel acak x (matriks

berukuran n x n, dimana baris - baris yang berisi observasi sebanyak

n dari variabel acak x) adalah sebagai berikut :

1. Menghitung matriks kovarian dari data observasi

Matriks kovarian ialah matriks yang nilai – nilai kovariansi pada tiap

cell -nya diperoleh dari sampel. Misalkan x dan y adalah variabel acak.

(Jolliffe, 2002)

Cov(x,y) = 1

𝑛−1 ∑ (𝑥𝑖 − 𝜇𝑥)(𝑌𝑖 − 𝜇𝑌)𝑛

𝑖=1 . . . . . . . . . . . . .(2.9)

Dengan 𝜇𝑥 dan 𝜇𝑦 merupakan rata – rata (mean) sampel dari variabel

x dan y, dimana xi dan yi merupakan nilai observasi ke – i dari variable x

dan y. Dari data nilai yang digunakan, diperoleh matriks kovarian berukuran

n x n.

2. Mencari eigenvalues dan eigenvector dari matriks kovarian

yang telah diperoleh yaitu : (Jhonson & Wichern 2007)

Eigenvalues (λ) adalah bilangan scalar dan A adalah matriks dengan

ukuran n x n untuk memperoleh nilai n eigenvalues (λ1 ,λ2, λn ) maka

memenuhi persamaan berikut :

Determinan (A - λI) = 0

A = Matriks n x n

λ = nilai eigenvalue


18

I = Matriks identitas merupakan matriks persegi dengan elemen diagonal

utama bernilai 1,sedangkan elemen lain bernilai nol

Eigenvalues dan Eigenvector keduanya dapat mendifinisikan matriks A.

Persamaan untuk menghitung Eigenvector adalah :

Ax = λx

Ax – λx = 0

(A - λ)x = 0

(A - λI) x = 0, x ≠ 0

A = Matriks n x n yang memiliki n eigenvalue (λn)

λ = nilai eigenvalue

x = Matriks non – zero

I = Matriks identitas

Sehingga diperoleh kombinasi linear yaitu :

a. λ1 ,λ2, λ3 . . . λn adalah eigenvalue matriks A

b. X1,X2,X3 . . .Xn adalah eigenvector sesuai eigenvalue-nya (λn)

Persamaan eigenvalue & eigenvector merupakan Eigen Value

Decomposition (EVD) dengan persamaan sebagai berikut :

AX = XD . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .(2.10)

A = X D X -1

A = matriks n × n yang memiliki n eigenvalue (λn)

D = eigenvalue dari eigenvector-nya

X = eigenvector dari matriks A


19

X -1 = invers dari eigenvector X

3. Menentukan variable baru (Principal Component) dengan

mengalikan variabel asli dengan matriks eigenvector melalui

persamaan : (Jolliffe,2002)

Zki = U1k Xli + U2K X2i + . . . + UpkXpi

Zki = Matriks n x n dari principal component dengan koordinat

objek ke – i pada posisi ke – k pada principal component

U = Matriks p x k (Matriks eigenvector)

X = Matriks n x n (Variabel asli)

2.5 Synthetic Minority Over-Sampling Technique

Pada tahap ini dilakukan evaluasi untuk class imbalance. Suatu class

pada dataset dengan pendistribusian class yang tidak seimbang menimbulkan

kejadian klasifikasi lebih condong ke class mayoritas dibandingkan dengan

class minoritas. Ketidakseimbangan class pada sebuah dataset merupakan

suatu permasalahan dalam machine learning, dimana jumlah class mayoritas

(no fraud) lebih besar dari pada jumlah class minoritas (fraud). Sebagai

contoh sebuah dataset yang tidak seimbang memiliki rasio 1 : 100, dimana 1

mempresentasikan class minoritas sedangkan 100 mempresentasikan class

mayoritas. Sebuah metode klasifikasi yang mencoba untuk memaksimalkan

akurasinya, dapat mencapai akurasi 99% hanya menggunakan class mayoritas

tanpa melihat kelas minoritas. Hal tersebut dapat mengakibatkan metode pada

machine learning cenderung keliru mengklasifikasikan yang seharusnya class

minoritas dianggap sebagai class mayoritas. Untuk mengatasi permasalahan

class imbalance, dapat digunakan algoritma Synthetic Minority

Oversampling Technique (SMOTE) merupakan salah satu turunan dari

oversampling. SMOTE pertama kali diperkenalkan oleh Nithes V. Chawla.

Pendekatan ini bekerja dengan membuat replikasi dari data minoritas.

Replikasi tersebut diketaui dengan data sintetis (Syntetic Data). Penerapan

SMOTE yaitu dengan meminimalisasi ketidak seimbangan kelas sehingga

diharapkan dapat memiliki model yang baik (Siringoringo, 2018).


20

Model klasifikasi dipengaruhi salah satunya oleh adanya keseimbangan

antara kelas mayor dengan kelas minor. Kelas mayor adalah data yang ukuran

kelasnya (jumlah amatan) lebih besar dari kelas minor berdasarkan peubah

respon. Jika data yang digunakan untuk membuat model tidak seimbang maka

akan meningkatkan salah klasifikasi kelas minor. Oleh karena itu, salah satu

alternative untuk meningkatkan akurasi model adalah melakukan Synthetic

Minority Oversampling Technique (SMOTE) pada proposes (Barro, et al.,

2013).

Pada contoh kasus penerapan SMOTE meminimalisasi ketidak

seimbangan kelas pada dataset credit card Fraud dengan membangkitkan

data minor. Total keseluruhan data terdiri dari 13.125 data, yaitu 12.215

merupakan data no fraud dan 910 merupakan data fraud dapat dilihat pada

gambar 2.3 setelah dilakukan SMOTE. Terlihat bahwa pada variabel negatif

naik menjadi 5460 data dari yang sebelumnya hanya 910 (Siringoringo,

2018).

Gambar 2.4 Grafik ketidakseimbangan SMOTE (Siringoringo, 2018)

Metode SMOTE menambah jumlah data kelas minor agar setara

dengan kelas mayor dengan cara membangkitkan data buatan. Data buatan

atau sintetis tersebut dibuat berdasarkan k-tetangga terdekat (k-nearest

neighbor). Jumlah k- tetangga terdekat dengan mempertimbangkan

kemudahan dalam melaksanakannya. Pembangkitan data buatan yang

berskala numerik berbeda dengan kategorik. Data numerik diukur jarak

kedekatannya dengan jarak Euclidean sedangkan data kategori lebih


21

sederhana yaitu dengan nilai modus. Dengan persamaan terdekat

menggunakan perhitungan komputasi dengan memodifikasi rumus dari

Value Difference Metric (VDM) atau nilai perbedaan metrix yang dirujuk

oleh Cost dan Sailzberg (1993), Metrik berbeda dengan matriks, metrik

merupakan alat untuk memperoleh pengukuran kuantitatif atau perkiraan

pada kasus kualitatif (biasanya digunakan pada Software Engineering). Maka

dibuatlah matrik untuk mendefinisikan jarak (δ) antara feature value pada

feature vectors.

δ( V1, V2 ) = ∑ |𝐶1𝑖

𝐶1−

𝐶2𝑖

𝐶2 |𝑛

𝑖=1 …………………… . . . .(2.11)

Dimana :

δ( V1, V2 ) :Jarak antar pengamatan (feature values ) X dan Y pada

peubah ke - i

C1i : Banyaknya kategori ke – 1 yang termasuk kategorik peubah

penjelas ke – i

C2i : Banyaknya kategori ke – 2 yang termasuk kategorik peubah

penjelas ke – i

n : Banyaknya kategori pada peubah penjelas ke – i

k : konstanta (Biasanya diset 1)

Pada persamaan 2.12 digunakan untuk menghtung matriks perbedaan

nilai pada setiap pengamatan dalam set vector pengamatan yang diberikan.

Persamaan 2.12 digunakan pada jarak geometris yang telah ditetapkan dan

memiliki himpunan nilai yang terbatas. Kemudian untuk mengatasi hal

tersebut maka Cost dan Sailzberg(1993) memodifikasi Value Difference

Metric (VDM) dengan memberikan bobot (w) pada persamaan jarak (δ)

dimana nantinya akan membuat jarak menjadi simetris. Jarak (Δ) antara dua

vektor pengamatan yaitu:


22

Δ(X,Y) = WxWy∑ δ(𝑋𝑖,𝑌𝑖,)𝑁𝑖=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . (2.12)

Dimana :

Δ(X,Y) :Jarak antara X dan Y

WxWy : Bobot pada modifikasi VDM

N : Banyaknya variabel predictor

r : Bernilai 1 jika menggunakan jarak Manhatten dan r =2

jika jarak menggunaka Euclidean.


23

BAB III

METODOLOGI PENELITIAN

Bab ini mencakup tahapan – tahapan pengolahan data dan proses yang

akan dibangun untuk melakukan perhitungan klasifikasi fraud, pada transaksi

perbankan menggunakan metode Naïve Bayes.

3.1 Data

Data yang akan digunakan dalam penelitian ini diperoleh dari salah satu

bank X di Indonesia. Data yang ada merupakan data pada transaksi

perbankan. Data ini memiliki atribut sebanyak 27 dan diklasifikasikan

menjadi 2 kelas (fraud dan no fraud) dengan total data sebanyak 13.125

record.

Tabel 3.1 Keterangan Atribut

No. Atribut Keterangan

1. X Id kartu

2. Id_tanggal_transaksi_awal Id tanggal transaksi dilakukan

3. Tanggal_transaksi_awal Tanggal dilakukannya transaksi

4. Tipe_kartu Tipe kartu saat melakukan transaksi

(0/1/2/3/4/5/24/28/93/103/104/111/132/138)

5. Id_merchant Merchant dimana kartu tersebut bertransaksi

(-2/1401/1498/1557/1572/1667/…/720990)

6. Nama_merchant Merchant dimana kartu tersebut bertransaksi

(2/5/7/8/10/11/12/13/14/15/17/19/…/1859)

7. Tipe_mesin Mesin ATM(Automated Teller Machine) atau EDC

(Electronic Data Capture).

(-4/-3/-2/3/7/14/15/25/28/34/42/…/6928943)

8. Tipe_transaksi Jenis Transaksi

(26/58/147/148/153/156/158/159/…/640)

9. Nama_transaksi Jenis Transaksi

(1/2/3/4/5/6/7/8/9/10/11/12/13/14/15/…/20)

10. Nilai_transaksi Nilai uang yang tercatat pada saat transaksi

11. Id_negara Negara tempat dilakukannya transaksi

(-2/45/57/64/73/96/104/149/159/168/…/183)

12. Nama_negara Negara tempat dilakukannya transaksi

(1/4/5/6/7/8/10/11/12/14/15/16)

13. Nama_kota Nama kota dilakukannya transaksi


24

(1/3/4/5/7/8/9/10/11/13/15/17/19/21/…/293)

14. Lokasi_mesin Lokasi dimana mesin beroperasi

(2/4/7/8/9/10/11/13/14/16/18/19/24/…/8697)

15. Pemilik_mesin Pemilik mesin

(1/2/5/7/9/11/12/14/17/18/19/20/24/…/2688)

16. Waktu_transaksi Waktu dilakukannya transaksi

17. Kuartal_transaksi Kuartal waktu transaksi

(1/2/3/4)

18. Kepemilikan_kartu Kepemilikan kartu

(1/2)

19. Nama_chanel Nama channel yang digunakan saat transaksi

(1/2/3/4/5)

20. Id_chanel Id channel yang digunakan saat transaksi

(3/4/8/9)

21. Flag_transaksi_finansial Jenis Transaksi

(false)

22. Status_transaksi Status transaksi gagal atau berhasil

(3)

23. Bank_kepemilikan_kartu Kepemilikan kartu yang dimiliki suatu bank

(999)

24. Rata_rata_nilai_transaksi Rata -rata nilai transaksi.

25. Maksimum_nilai_transaksi Nilai maksimum transaksi

26. Minimum_nilai_transaksi Nilai minimum transaksi

27. Rata_rata_jumlah_transaksi Rata – rata jumlah transaksi

28. Flag_transaksi_fraud Apakah transaksi tergolong fraud atau tidak.

(0/1)

3.2 Kebutuhan Sistem

1) Perangkat Keras :

a. Processor : Intel® Core™ i5-8250U CPU @1.60 Ghz,1,80 Ghz

b. Memory : 4 GB

c. Hard Drive : 500 GB

2) Perangkat lunak :

a. Sistem Operasi : Windows 10 home

b. Microsoft Exel 365

c. Matlab R2018b


25

3.3 Desain Alat Uji

Gambar 3.1 Gambaran Umum Penelitian

Berdasarkan pada gambar 3.1 data akan diproses pada sistem. Tahap

prepocessing yang pertama adalah data cleaning bertujuan untuk mengisi nilai

atribut yang kosong (missing value), untuk mengatasi missing value dilakukan

dengan mengisi nilai rata-rata dari setiap atribut. Kedua adalah tahap transformasi,

tahap ini dilakukan pada data set yang mempunyai range cukup jauh dan susah

diproses. Proses data transformasi menggunakan metode min-max, bertujuan

supaya atribut dari data bisa jatuh dalam range tertentu. Proses prepocessing yang

terakhir adalah seleksi atribut untuk memilih atribut mana saja yang akan digunakan

menggunakan PCA. Tahap selanjutnya adalah balancing data dengan

menggunakan metode SMOTE yang mana setiap kelas mempunyai jumlah yang

lebih besar dari pada kelas lainnya. Masalah ini dapat menyebabkan hasil dari

klasifikasi tidak akurat.

Tahap selanjutnya setelah melakukan prepocessing. Data akan masuk ke

tahap pembentukan model. Data akan dibagi menjadi 2 bagian yaitu data training

dan data testing. Model ini yang akan digunakan sebagai uji data testing dan output

adalah akurasi sistem yang dihasilkan.


26

3.4 Prepocessing

Pembuatan sistem dalam penelitian ini menggunakan konsep KDD

(Knowledge Discovery in Database) dan disusun berdasarkan tahapan –

tahapan dalam penelitian. Pada gambar 3.2 adalah tahapan prepocessing yang

dilakukan dalam penelitian ini :

Gambar 3.2 Tahap Prepocessing

1. Data Cleaning

Proses data cleaning bertujuan untuk menghilangkan noise dan data

yang tidak konsisten. Pada penelitian ini tahap data cleaning dilakukan karena

ditemukan beberapa atribut yang memiliki nilai missing value. Atribut –

atribut yang memiliki nilai missing value adalah :

a. Rata_rata_nilai_transaksi

b. Maksimum_nilai_transaksi

c. Minimum_nilai_transaksi

d. Rata_rata_jumlah_transaksi

Untuk mengatasi nilai missing value dilakukan dengan mengganti

nilai missing value dengan nilai rata – rata dari setiap atribut. Nilai rata –

rata tiap atribut didapatkan dengan menggunakan rumus :

x̄ = 𝑋1+𝑋2+⋯+𝑋𝑁

𝑛 …………………………………..…………………….…….(3.1)


27

Keterangan :

x̄ = Rata – rata (Mean)

𝑋1 = Nilai data ke-1

𝑋2 = Nilai data ke-2

𝑋𝑁= Nilai data ke-n

n = Banyak data

Sehingga didapatkan hasil rata – rata dari setiap atribut sebagai berikut :

a. Rata_rata_nilai_transaksi : 1.364,131

b. Maksimum_nilai_transaksi : 12.287,602

c. Minimum_nilai_transaksi : 76.519

d. Rata_rata_jumlah_transaksi : 2,43

2. Data Selection

Proses data selection merupakan memilih atribut yang relevan

dengan penelitian . Dalam proses data selection ada beberapa atribut yang

dihilangkan diantaranya :

❖ Proses seleksi atribut pada penelitian ini dilakukan dengan memilih

salah satu atribut yang bernilai sama diantaranya :

a. Id_tanggal_transaksi_awal dan tanggal_transaksi_awal

b. Id_merchant dan nama_merchant

c. Id_channel dan nama_channel

d. Id_negara dan nama_negara

e. Waktu_transaksi dan kuartal_transaksi

Karena ke lima atribut tersebut saling terkait sehingga dapat

digunakan salah satu atribut saja untuk mewakili kelima atribut tersebut. Jadi

peneliti menggunakan atribut tanggal_transaksi_awal, nama_merchant,

nama_channel, nama_negara dan waktu_transaksi.

❖ Terdapat tiga atribut lainnya yakni atribut flag_transaksi_finansial,

status_transaksi dan bank_pemilik kartu yang tidak digunakan dengan


28

alasan ketiga atribut tersebut tidak akan digunakan karena tidak

terdapat nilai pembanding.

❖ Menghilangkan atribut tipe_mesin, lokasi mesin dan pemilik_mesin

karena pada bab 2 tindakan fraud tidak dipengaruhi oleh mesin.

3. Data Transformation

Data transformation merupakan proses pengubahan data menjadi

bentuk yang sesuai untuk ditambang. Pada penelitian ini, proses data

transformation adalah metode normalisasi Min -Max yang bertujuan agar

memiliki bobot yang sama dengan batas bawah dan batas atas yang kita

tentukan, Atribut yang dilakukan normalisasi diantaranya :

a. Nilai Transaksi

b. Rata_rata_nilai_transaksi

c. Maksimum_nilai_transaksi

d. Minimum_nilai_transaksi

Metode Min – Max merupakan metode normalisasi dengan melakukan

transformasi linear dengan Rumus 3.2:

𝑋𝐵 = 𝑋−𝑀𝑖𝑛 (𝑋)

𝑀𝑎𝑥(𝑋)−𝑀𝑖𝑛 (𝑋) (𝑀𝑎𝑥_𝑛𝑒𝑤𝐴 - 𝑀𝑖𝑛_𝑛𝑒𝑤𝑨) + 𝑀𝑖𝑛_𝑛𝑒𝑤𝑨……(3.2)

Menentukan batas atas dan batas bawah bobot yang akan dinormalisasi :

𝑀𝑎𝑥_𝑛𝑒𝑤𝐴 = 1

𝑀𝑖𝑛_𝑛𝑒𝑤𝐴 = 0

Berdasarkan persamaan di atas dapat dinormalisasi di bawah ini :

1. Normalisasi nilai_transaksi

XB = 300000−67200

9120868−67200 ( 1 – 0) + 0 = 0,025713

2. Normalisasi rata_rata_nilai_transaksi

XB = 238342,3−197729

6828648−197729 ( 1 – 0) + 0 = 0,006125


29

3. Normalisasi maksimum_nilai_transaksi

XB = 50000000−800000

100000−800000 ( 1 – 0) + 0 = 0,495968

4. Normalisasi minimum_nilai_transaksi

XB = 300000−2000

1026000−2000 ( 1 – 0) + 0 = 0,291016

5. Normalisasi rata_rata_jumlah_transaksi

XB = 4,06−1,3

4,06−1,3 ( 1 – 0) + 0 = 1

4. Transformasi data pada atribut tanggal_transaksi_awal dikarenakan

penyebarannya masih acak sehingga dilakukan transformasi dengan proses

pendistribusian tabel frekuensi berkelompok. Pada penelitian ini, proses

transformation dilakukan dengan merubah data nominal menjadi numerik.

Data transformation untuk atribut adalah sebagai berikut :

❖ Transformasi fitur menggunakan metode discretization by binning.

Transformasi pada atribut tersebut dilakukan dengan langkah berikut :

a. Memilih fitur yang akan dicari intervalnya.

b. Cari nilai minimum (Xmin) dan maksimum (Xmax) dari masing

– masing atribut :

• Tanggal_transaksi_awal

Dari data tanggal transaksi awal ini merupakan format julian date

2457359 jika ditransformasikan ke dalam Gregorian maka menjadi 25

– Desember – 2000.

Nilai minimum : 2457359

Nilai maksimum : 2457683

Setelah mendapatan nilai minimum (Xmin) dan nilai maksimum

(Xmax), langkah selanjutnya menghitung nilai jangkauan dari masing

– masing atribut dengan rumus (3.3):

J = X max – X min …………………………………..………(3.3)

• Hitung jangkauan untuk atribut tanggal transaksi awal :

J = 2457683 – 2457359


30

J = 380

c. Menghitung jumlah kelas interval dengan Rumus 3.4:

k = 1 + 3,3 log n ………………………………………(3.4)

Sehingga jumlah kelas interval pada penelitian ini sebagai berikut :

k = 1 + 3,3 log 20

k = 5,29

k = 5 dibulatkan menjadi 5, sehingga jumlah interval 5.

d. Kemudian menentukan Panjang interval untuk masing – masing

atribut, dengan rumus :

P = 𝐽

𝐾

Panjang kelas interval untuk atribut tanggal_transaksi_awal :

P = 380

5 = 76

e. Langkah terakhir menentukan batas interval dari atribut yang

dipilih :

Tabel 3.2 Interval atribut tanggal_transaksi_awal

No. Batas Bawah Batas Atas Kategori

1 2457359 2457434 1

2 2457435 2457510 2

3 2457511 2457586 3

4 2457587 2457662 4

5 2457663 2457739 5

❖ Atribut waktu_transaksi dikelompokkan kedalam 4 kelompok

berdasarkan pagi, siang, sore dan malam dengan pembagian kelompok

sebagai berikut :

• 00.00 – 05.59 : 1

• 06.00 – 11.59 : 2

• 12.00 – 17.59 : 3

• 18.00 – 23.59 : 4


31

5. Balancing data

Imbalanced data atau data yang tidak berimbang merupakan suatu

kondisi dimana pada sebuah himpunan terdapat satu kelas yang memiliki

jumlah instance yang kecil bila dibandingkan dengan kelas lainnya. Pada data

ini memiliki perbandingan kelasnya, mayor 12 dan minor 1. Dalam penelitian

ini tahap balancing data dilakukan dengan menggunakan SMOTE. Data

yang memiliki kelas minor akan dinaikan.

Tabel 3.3 Data Setelah Prepocessing

tan

gg

al_tr

ansa

ksi

_aw

al

Tan

gg

al_tr

ansa

ksi

_aw

al

tip

e_kar

tu

tip

e_kar

tu

n

ama_

mer

chan

t

nam

a_tr

ansa

ksi

nil

ai_tr

ansa

ksi

Nam

a_neg

ara

nam

a_ko

ta

wak

tu_

tran

sak

si

kep

emil

ikan

_k

artu

nam

a_ch

annel

rata

_ra

ta_nil

ai_

tran

sak

si

mak

sim

um

_n

ilai

_tr

ansa

ksi

min

imu

m_nil

ai_

tran

sak

si

rata

_ra

ta_

jum

lah_

tran

saksi

flag

_tr

ansa

ksi

_fr

aud

4 111 1858 6 0,0 5 241 2 2 2 0,2 0,2 0,0 0,9 0

5 0 2 6 0,0 5 128 2 2 2 0,1 0,0 0,0 0,3 0

1 2 1854 6 0,1 5 128 3 2 2 0,2 0,5 0,0 0,8 0

3 111 1852 6 0,0 5 203 3 2 2 0,2 0,1 0,0 0,8 0

2 0 1855 6 0,1 5 128 3 2 2 0,3 0,1 0,0 0,6 0

3 111 1858 6 0,0 5 138 3 2 2 0,2 0,1 0,1 0,4 0

5 24 1798 12 0,4 16 115 3 1 3 0,4 0,3 1,0 0,6 0

5 104 5 6 0,0 5 218 3 2 2 0,0 0,0 0,0 0,0 0

4 5 1856 6 0,0 5 128 3 2 2 0,0 0,0 0,0 0,2 0

4 93 2 6 0,0 5 128 4 2 2 0,9 1,0 0,2 0,5 0

3 111 1798 12 0,2 5 259 2 1 5 0,1 0,0 0,0 0,1 1

4 104 19 6 0,2 5 75 2 2 2 0,0 0,0 0,0 0,2 1

4 104 1798 9 0,04 5 128 2 2 1 0,0 0,0 0,02 0,32 1

3 111 1798 11 0,02 5 265 2 2 1 0,06 0,02 0,01 0,30 1

5 111 1798 12 1 16 175 3 1 3 0,15 0,01 0,05 0,46 1

5 104 1798 12 0,05 16 1 3 1 5 0,08 0,01 0,02 0,01 1

5 103 7 6 0,32 5 265 3 2 2 0,82 0,49 0,02 1,0 1


32

3.5 Modelling Naïve Bayes

Data yang digunakan dalam penelitian ini akan diklasifikasi dengan

algoritma Naïve Bayes. Data yang akan digunakan sebagai data training

adalah dataset yang sudah dilakukan prepocessing pada tabel 3.3. Untuk data

testing terdapat pada tabel 3.4 yang akan kita lakukan klasifikasi.

Tabel 3.4 Data Testing

A1 B1 C1 D1 E1 F1 G1 H1 I1 J1 K1 L1 M1 N1

4 104 19 6 0,15 5 75 2 2 2 0,0061 0,002 0 0,18

a. Pendefinisian Atribut

Berdasarkan tabel 3.4 dapat dibuat definisi data uji X sebagai berikut :

X ={ 𝑥𝑡𝑎𝑛𝑔𝑔𝑎𝑙_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖_𝑎𝑤𝑎𝑙 = 4; 𝑥𝑡𝑖𝑝𝑒_𝑘𝑎𝑟𝑡𝑢 = 104; 𝑥𝑛𝑎𝑚𝑎_𝑚𝑒𝑟𝑐ℎ𝑎𝑛𝑡

= 19; 𝑥𝑛𝑎𝑚𝑎_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 = 6; 𝑥𝑛𝑖𝑙𝑎𝑖_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 = 0,15; 𝑥𝑛𝑎𝑚𝑎_𝑛𝑒𝑔𝑎𝑟𝑎 =

5; 𝑥𝑛𝑎𝑚𝑎_𝑘𝑜𝑡𝑎 = 75; 𝑥𝑤𝑎𝑘𝑡𝑢_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖=2; 𝑥𝑘𝑒𝑝𝑒𝑚𝑖𝑙𝑖𝑘𝑎𝑛_𝑘𝑎𝑟𝑡𝑢 =

2; 𝑥𝑛𝑎𝑚𝑎_𝑐ℎ𝑎𝑛𝑒𝑙= 2; 𝑥𝑟𝑎𝑡𝑎_𝑟𝑎𝑡𝑎_𝑛𝑖𝑙𝑎𝑖_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖=

0,0061 𝑥𝑚𝑎𝑘𝑠𝑖𝑚𝑢𝑚_𝑛𝑖𝑙𝑎𝑖_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖=0,002 ; 𝑥𝑚𝑖𝑛𝑖𝑚𝑢𝑚_𝑛𝑖𝑙𝑎𝑖_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖=

0; 𝑥𝑟𝑎𝑡𝑎_𝑟𝑎𝑡𝑎_𝑗𝑢𝑚𝑙𝑎ℎ_𝑡𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 = 0,18}

b. Dari pendefinisian atribut diatas, dapat diliat data yang digunakan

bertipe numerik maka perhitungan menggunakan mean dan standar

deviasi. Penulis menggunakan matlab sebagai tools dengan

menggunakan mean dan std. Potongan source code yang digunakan

untuk menghitung mean dan standar deviasi dapat dilihat pada gambar

3.3 berikut :

Gambar 3.3 Source Code Mean dan Standar Deviasi


33

Data hasil proses perhitungan mean dan standar deviasi, ditampilkan

pada tabel 3.5 untuk kelas no fraud dan tabel 3.6 untuk kelas fraud.

Tabel 3.5 Mean dan Standar Deviasi No fraud

Atribut No Fraud

Mean Standar Deviasi

Tanggal Transaksi 3,6 1,34

Tipe Kartu 56,1 53,29

Nama Merchant 1294 891,05

Nama Transaksi 6,6 1,89

Nilai Transaksi 0,06 0,12

Nama Negara 6,1 3,47

Nama Kota 155,5 46,18

Waktu Transaksi 2,9 0,56

Kepemilikan Kartu 1,9 0,31

Nama Chanel 2,1 0,31

Rata Nilai Transaksi 0,25 0,25

Max Nilai Transaksi 0,23 0,31

Min Nilai Transaksi 0,13 0,31

Rata Jum Transaksi 0,51 0,28

Tabel 3.6 Mean dan Standar Deviasi fraud

Atribut Fraud

Mean Standar Deviasi



Nama Merchant 1288 870,99





34

Nama Kota 166,85 104,30








c. Berdasarkan hasil mean dan standar deviasi untuk setiap atributnya

akan dilakukan perhitungan selanjutnya menggunakan rumus densitas

gauss, penulis menggunakan matlab sebagai tools dengan

menggunakan method normpdf. Potongan source code yang digunakan

untuk perhitungan rumus densitas gauss dapat diliat pada gambar 3.4 :

Gambar 3.4 Source Code Densitas Gauss

Data hasil proses perhitungan densitas gauss, ditampilkan pada tabel 3.7 :

Tabel 3.7 Densitas Gauss

Atribut Label

No Fraud Fraud



Nama Merchant 0,000161 0,000158




Nama Kota 0,001 0,002


36

P(X | Fraud) = 0,43 × 0,07 × 0,00015 × 0,05 × 1,101 × 0,06 × 0,0025

× 0,54 × 0,54 × 0,21 × 1,16 × 2,011 × 14,1 × 1,08 × 0,41 =

0,0000000000523

e. Berdasarkan hasil tersebut, nilai Posterior Prior Probability tertinggi

pada kelas fraud dimana hasil nilainya adalah 0,0000000000523 dapat

disimpulkan transaksi tersebut fraud.

3.6 Akurasi

Confusion matrix merupakan alat pengukuran yang dapat digunakan

untuk menghitung kinerja atau tingkat kebenaran proses klasifikasi. Dengan

confusion matrix dapat dianalisa seberapa baik classifier dapat mengenali

record dari kelas-kelas yang berbeda. Contoh perhitungan tabel confusion

matrix ditunjukan pada tabel 3.8 :

Tabel 3.8 Contoh Confusion Matrix

Dengan mengetahui jumlah data yang diklasifikasikan secara benar

maka dapat diketahui akurasi hasil prediksi. Persamaan akurasi dapat dihitung

pada rumus berikut :

Akurasi = 4090+145

4090+145+300+145 × 100% = 90,49 %

Prediksi

Fraud No Fraud

Ak

tual F

rau

d

4090 145

No F

rau

d

300 145


37

3.7 Desain Interface

Desain Interface dibuat untuk membantu dalam proses prepocessing,

proses klasifikasi dan proses hasil akurasi. Berikut ini merupakan halaman

utama dalam penelitian ini.

Gambar 3.5 Interface

Dalam desain interface sistem, terdapat 5 tombol yaitu upload, smote,

akurasi, upload data tunggal dan klasifikasi. Tombol upload digunakan untuk

memuat dataset, tombol smote digunakan untuk balancing dataset, tombol

akurasi digunakan untuk mengetahui besar akurasi dataset menggunakan

algoritma naïve bayes. Pada panel uji data tunggal terdapat tombol upload

data yang digunakan untuk memuat dataset yang belum memiliki label.

Sedangkan tombol klasifikasi digunakan untuk mengolah dataset sehingga

dapat diklasifikasikan dengan benar.


38

BAB IV

ANALISA HASIL PERCOBAAN

Pada bab ini akan dibahas hasil dari percobaan dataset dengan

perangkingan atribut menggunakan Principle Component Analysis dan

kombinasi metode smote( nearest neighbors, percentage data minor), untuk

menghasilkan akurasi tertinggi.

4.1 Hasil Percobaan

Perangkingan atribut menggunakan PCA (Principle Component

Analysis) dengan aplikasi Weka. Perangkingan ini berfungsi untuk mencari

atribut mana yang optimal. Untuk hasil akurasi lengkap terdapat pada

lampiran :

Tabel 4.1 Hasil Perangkingan Atribut

Rangking Atribut

1 Rata Nilai Transaksi

2 Maksimum nilai transaksi

3 Nilai Transaksi

4 Kepemilikan Kartu

5 Rata Jumlah Transaksi

6 Nama Transaksi

7 Nama Chanel

8 Nama Merchant

9 Minimum Nilai Transaksi

10 Nama Negara

11 Nama Kota

12 Tipe Kartu

13 Waktu Transaksi

14 Tanggal_Transaksi_Awal

4.1.1 Uji Data Kelompok

Pada tabel 4.2 merupakan jumlah atribut yang digunakan sebagai

percobaan kedalam sistem menggunakan metode Naïve Bayes. Berikut adalah

keterangan jumlah atribut yang digunakan :


39

Tabel 4.2 Jumlah Atribut

Jumlah Atribut Atribut

1 Rata Nilai Transaksi

2 Rata Nilai Transaksi,Maksimum Nilai Transaksi

3 Rata Nilai Transaksi,Maksimum Nilai Transaksi, Nilai

Transaksi


Transaksi, Kepemilikan Kartu


Transaksi, Kepemilikan Kartu, Rata Jumlah Transaksi


Transaksi, Kepemilikan Kartu, Rata Jumlah Transaksi, Nama

Transaksi



Transaksi, Nama Chanel



Transaksi, Nama Chanel, Nama Merchant



Transaksi, Nama Chanel, Nama Merchant, Maksimum Nilai

Transaksi




Transaksi, Nama Negara




Transaksi, Nama Negara, Nama Kota




Transaksi, Nama Negara, Nama Kota, Tipe Kartu




Transaksi, Nama Negara, Nama Kota, Tipe Kartu, Waktu

Transaksi




Transaksi, Nama Negara, Nama Kota, Tipe Kartu, Waktu

Transaksi, Tanggal Tanggal Transaksi Awal


40

1.A Smote (Nearest Neighbors : 3 dan percentage data minor: 100 %)

Pada percobaan pertama peneliti memilih nearest neighbors : 3 dan

percentage data minor : 100 %, sehingga menghasilkan jumlah kelas pada

Gambar 4.1. Untuk hasil percobaan peneliti menggunakan jumlah atribut

yang terdapat pada tabel 4.2. Percobaan ini dilakukan sebanyak 15 kali

untuk mencari akurasi mana yang tertinggi.

No Fraud : 12215

Fraud : 1820

Gambar 4.1 Percentage data minor ke - 1

Tabel 4.3 Hasil Percobaan ke - 1

Jumlah Atribut Akurasi

1 84,2906 %

2 84,4110 %

3 84,3040 %

4 84,0853 %

5 84,3639 %

6 83,4922 %

7 83,2901 %

8 83,1334 %

9 83,1806 %

10 83,7932 %

11 83,7861 %

12 80,8075 %

13 80,3508 %

14 80,2839 %

0

5000

10000

15000

No Fraud Fraud


41

1.B. Smote (Nearest Neighbors : 5 dan percentage data minor: 100 %)

Tabel 4.4 Hasil Percobaan ke -2


1 85,8433 %

2 84,9956 %

3 84,6678 %

4 86,0853 %

5 83,3639 %

6 83,4922 %

7 84,2901 %

8 84,1334 %

9 85,1806 %

10 85,7932 %

11 85,7861 %

12 85,8075 %

13 84,3508 %

14 84,2839 %

1.C. Smote (Nearest Neighbors : 10 dan percentage data minor: 100 %)

Tabel 4.5 Hasil Percobaan ke – 3


1 80,8258 %

2 80,4178 %

3 80,2236 %

4 83,8323 %

5 83,4409 %

6 83,5748 %

7 83,8959 %

8 83,8357 %

9 84,2772 %

10 84,3374 %

11 84,3107 %

12 84,1769 %

13 84,2572 %

14 84,1234 %


42

2.A. Smote ( Nearest Neighbors : 3 dan percentage data minor: 200 %)

No Fraud : 12215

Fraud : 2730




1 75,8436 %

2 75,5553 %

3 75,9508 %

4 81,3497 %

5 81,1227 %

6 81,1605 %

7 81,2867 %

8 81,4822 %

9 81,7597 %

10 81,9363 %

11 81,8669 %

12 81,8165 %

13 81,9237 %

14 81,7345 %

0

5000

10000

15000

No Fraud Fraud


43

2.B. Smote (Nearest Neighbors : 5 dan percentage data minor: 200 %)

Tabel 4.7 Hasil Percobaan ke - 5 Jumlah Atribut Akurasi

1 75,8436 %

2 75,5553 %

3 75,9508 %

4 81,3497 %

5 81,1227 %

6 81,1605 %

7 81,2867 %

8 81,4822 %

9 81,7597 %

10 81,9363 %

11 81,8669 %

12 81,8165 %

13 81,9237 %

14 81,7345 %

2.C. Smote (Nearest Neighbors : 10 dan percentage data minor: 200 % )

Tabel 4.8 Hasil Percobaan ke - 6 Jumlah Atribut Akurasi

1 75,8625 %

2 75,4841 %

3 75,8814 %

4 81,3623 %

5 81,1542 %

6 81,2867 %

7 81,3876 %

8 81,5200 %

9 81,8543 %

10 81, 8795 %

11 81,8291 %

12 81,6777 %

13 81,6336 %

14 81,5894 %


44

3.A Smote (Nearest Neighbors : 3 dan percentage data minor: 300)

No Fraud : 12215

Fraud : 3640




1 75,4785 %

2 75,0073 %

3 75,0689 %

4 79,2198 %

5 78,9633 %

6 78,9574 %

7 78,9455 %

8 78,8679 %

9 78,4584 %

10 78,7030 %

11 78,5658 %

12 80,4286 %

13 79,4763 %

14 79,4227 %

0

5000

10000

15000

No Fraud Fraud


45

3.B Smote (Nearest Neighbors : 5 dan percentage data minor: 300)



1 71,4785 %

2 71,0073 %

3 72,0689 %

4 79,2198 %

5 78,9633 %

6 78,9574 %

7 78,9455 %

8 78,8679 %

9 79,4584 %

10 79,7030 %

11 79,5658 %

12 79,4286 %

13 79,4763 %

14 79,4227 %

3.C. Smote (Nearest Neighbors: 10 dan percentage data minor: 300)



1 71,4785 %

2 70,9894 %

3 71,9198 %

4 79,1840 %

5 79,0230 %

6 79,0111 %

7 79,0350 %

8 79,0290 %

9 79,3033 %

10 79,6374 %

11 79,6732 %

12 79,4346 %

13 79,4167 %

14 79,3988 %


46

4.A. Smote (Nearest Neighbors : 3 dan percentage data minor: 400)

NoFraud : 12215

Fraud : 4550




1 68,2807 %

2 69,5056 %

3 78,0160 %

4 78,2360 %

5 76,0945 %

6 75,0097 %

7 74,9307 %

8 73,0608 %

9 73,4001 %

10 73,4284 %

11 73,8189 %

12 75,4568 %

13 75,4059 %

14 75,5134 %

0

5000

10000

15000

No Fraud Fraud


47

4.B. Smote (Nearest Neighbors : 5 dan percentage data minor: 400)

NoFraud : 12215

Fraud : 4550



1 67,2807 %

2 66,5056 %

3 68,0160 %

4 77,2360 %

5 77,0945 %

6 77,0097 %

7 76,9307 %

8 77,0608 %

9 77,4001 %

10 77,4284 %

11 77,8189 %

12 77,4568 %

13 77,4059 %

14 77,5134 %

4.C Smote (Nearest Neighbors : 10 dan percentage data minor: 400)



1 67,2807 %

2 66,5112 %

3 67,9311 %

4 77,1795 %

5 77,1285 %

6 77,1399 %

7 76,9986 %

8 77,1287 %

9 77,5076 %

10 77,7397 %

11 77,6831 %

12 77,3551 %

13 77,3154 %

14 77,1514 %


48

5.A.Smote (Nearest Neighbors:3 dan percentage data minor: 500)

NoFraud : 12215

Fraud : 5460




1 62,9155 %

2 58,4062 %

3 68,6051 %

4 75,7054 %

5 75,6032 %

6 75,6785 %

7 75,6839 %

8 74,5978 %

9 75,6094 %

10 75,9161 %

11 75,8300 %

12 75,5717 %

13 75,7062 %

14 75,6147 %

0

5000

10000

15000

No Fraud Fraud


49

5.B.Smote(Nearest Neighbors:5 dan percentage data minor: 500)

Tabel 4.16 Hasil Percobaan ke – 14

Jumlah Atribut Prosentase

1 61,9155 %

2 50,4062 %

3 63,6051 %

4 74,7054 %

5 74,6032 %

6 74,6785 %

7 74,6839 %

8 74,5978 %

9 75,6094 %

10 75,9161 %

11 75,8300 %

12 75,5717 %

13 75,7062 %

14 75,6147 %

5.C Smote (Nearest Neighbors:10 dan percentage data minor: 500 %)



1 61,7057 %

2 50,3040 %

3 63,2930 %

4 74,6193 %

5 74,4202 %

6 74,8130 %

7 74,7592 %

8 74,8884 %

9 75,4587 %

10 75,7600 %

11 75,8407 %

12 75,3403 %

13 75,1897 %

14 75,0659 %


50

Percobaan yang dilakukan sebanyak 15 kali dengan berbagai variasi

neareast neighbors dan percentage data minor menghasilkan akurasi

tertinggi 86,0853% menggunakan Smote (neareast neighbors: 5 dan

percentage data minor: 100%), atribut yang digunakan adalah rata nilai

transaksi, maksimum nilai transaksi, nilai transaksi dan kepemilikan kartu.

Sedangkan akurasi paling rendah 50,3040% dengan menggunakan Smote

(neareast neighbors :5, percentage data minor: 500%) dan 2 atribut yaitu :

rata nilai transaksi dan maksimum nilai transaksi.

Pada gambar 4.6 merupakan grafik hasil rata – rata akurasi pengujian

tertinggi dimana sumbu X adalah jumlah atribut pada tabel 4.2 dan sumbu Y

adalah akurasi :

Gambar 4.6 Grafik Hasil Akurasi Tertinggi


51

4.1.2 Uji Data Tunggal

Pada interface terdapat panel uji data tunggal, uji data tunggal ini

dilakukan dengan cara memasukan file yang akan kita klasifikasi dengan

menekan tombol upload. Pada tombol klasifikasi sistem akan mengeluarkan

hasil klasifikasi menggunakan metode Naïve Bayes. Pada tabel 4.19

merupakan contoh data testing yang belum mempunyai label :

Tabel 4.18 Uji data Tunggal

tan

gg

al_tr

ansa

ksi

_aw

al

Tan

gg

al_tr

ansa

ksi

_aw

al

tip

e_kar

tu

tip

e_kar

tu

nam

a_m

erch

ant

nam

a_tr

ansa

ksi

nil

ai_tr

ansa

ksi

Nam

a_neg

ara

nam

a_ko

ta

wak

tu_

tran

sak

si

kep

emil

ikan

_k

artu

n

ama_

chan

nel

rata

_ra

ta_

nil

ai_

tran

sak

si

mak

sim

um

_n

ilai

_tr

ansa

ksi

min

imu

m_nil

ai_

tran

sak

si

rata

_ra

ta_

jum

lah_

tran

saksi

4 111 1858 6 0,0 5 241 2,0 2 2 0,2 0,2 0,0 0,9

5 0 2 6 0,0 5 128 2,0 2 2 0,1 0,0 0,0 0,3

1 2,0 1854 6 0,1 5 128 3,0 2 2 0,2 0,5 0,0 0,8

3 111 1852 6 0,0 5 203 3,0 2 2 0,2 0,1 0,0 0,8

2 0 1855 6 0,1 5 128 3,0 2 2 0,3 0,1 0,0 0,6

3 111 1858 6 0,0 5 138 3,0 2 2 0,2 0,1 0,1 0,4

5 24 1798 12 0,4 16 115 3,0 1 3 0,4 0,3 1,0 0,6

5 104 5 6 0,0 5 218 3,0 2 2 0,0 0,0 0,0 0,0

4 5 1856 6 0,0 5,0 128 3,0 2 2 0,0 0,0 0,0 0,2

4 93 2 6 0,0 5,0 128 4,0 2 2 0,9 1,0 0,2 0,5

3 111 1798 12 0,2 5,0 259 2,0 1 5 0,1 0,0 0,0 0,1

4 104 19 6 0,2 5,0 75 2,0 2 2 0,0 0,0 0,0 0,2

4 104 1798 9 0,04 5 128 2 2 1 0 0 0,02 0,32

3 111 1798 11 0,02 5 265 2 2 1 0,06 0,02 0,01 0,30

5 111 1798 12 1 16 175 3 1 3 0,15 0,01 0,05 0,46

5 104 1798 12 0,05 16 1 3 1 5 0,08 0,01 0,02 0,01

5 103 7 6 0,32 5 265 3 2 2 0,82 0,49 0,02 1,0


52

BAB V

KESIMPULAN

5.1 Kesimpulan

Berdasarkan penelitian yang sudah dilakukan, deteksi fraud

menggunakan metode Naïve Bayes untuk melakukan klasifikasi data

transaksi perbankan terkena fraud, dapat diambil kesimpulan sebagai berikut

:

1. Sesuai dengan hasil percobaan yang telah dilakukan maka hasil

akurasi terbaik yaitu 86.0853% tercapai ketika menggunakan 4 atribut yaitu:

rata-rata nilai transaksi, maksimum nilai transaksi, minimum nilai transaksi,

kepemilikan kartu dan dengan menggunakan nearest neighbors : 5 dan

percentage data minor : 100 %. Sedangkan untuk akurasi terendah yaitu

50.3040 % ketika menggunakan 2 atribut yaitu : rata nilai transaksi dan

maksimum nilai transaksi dengan menggunakan nearest neighbors : 5 dan

percentage data minor : 500 %.

5.2 Saran

1. Sistem ini dapat dikembangkan dengan metode yang lain.

2. Perangkingan atribut pada sistem dapat dikembangkan dengan metode

yang lain


53

Daftar Pustaka

ACFE. (1988). Association Of Certified Fraud Examiners.

Arhami, M. 2005. Konsep Dasar Sistem Pakar. Yogyakarta: Andi Offset.

Barro, R. .A.,Sulvianti, I.D. & Afendi, F. M., 2013. Penerapan Synthetic Minority

Oversampling Technique (Smote) Terhadapa Data Tidak Seimbang Pada

Pembuatan Model Komposisi Jamu. Volume 1(1),pp. e9(1-6)

Fayyad, Usama. 1996. Advances in Knowledge Discovery and Data mining. MIT

Press.

Han, J., et al (2012). (I)Data Mining : Concept and Technique 3^rd Edition. San

Francisco : Morgan Kaufmann Publishers

Han, Jiawei dan Kamber, Micheline. 2006. Data Mining : Concept and Techniques

Second Edition, Morgan Kauffmann Publishers.

Hayes, R., Wallage, P., & Gortemaker, H. (2017).Prinsip-Prinsip Pengauditan. In

E. Sri Suharsi & Jatiningrum (Eds.), International Standards on Auditing (3𝑟𝑑

ed.). Jakarta: Salemba Empat. Retrieved from www.penerbitsalemba.com

Ikatan Akuntan Indonesia. (2012). IAI. In Standar Akuntansi Keuangan. Jakarta:

Salemba Empat.

Jolliffe, I.T. 2002. Principal Component Analysis. 2nd Edition. Springer- Verlag:

NewYork.

Johnson, W.A & Wichern, D.W. 2007. Applied Multivariate Statistical Analysis.

6th Edition. Pearson Prentice Hall: New Jersey.

Karyono(2014). Forensic Fraud. Yogyakarta: CV Andi.

Kusumadewi, Sri.2003. Klasifikasi Status Gizi Menggunakan Naive Bayes

Classification. Jurnal Teknik Informatika. Universitas Islam Indonesia.

Kusrini dan luthfi, E.T.(2009). (i) Algoritma Data Mining. Yogyakarta:ANDI.


http://www.penerbitsalemba.com/

54

Kotu, V. & Deshpande, B. 2015. Predictive Analytics and Data Mining. Morgan

Kaufmann Publisher: San Francisco.

Maaten, L., Postma, E. & Herik, J. 2009. Dimensionality Reduction: A

Comparative Review.

Manurung, E.A 2019. Fraud Detection Transaksi perbankan menggunakan

jaringan syaraf tiruan backpropagation. Yogyakarta: Universitas Sanata

Dharma

Prasetyo, Eko.(2012). Data Mining Konsep Dan Aplikasi Menggunakan Matlab.

Yogjakarta: Penerbit Andi.

Rahayu, Sri., 2018. Penerapan Metode Naïve Bayes Dalam Pemilihan Kualitas

Jenis Rumput. Jurnal Teknik Informatika. Universitas Pelita Nusantara.

Ratnaningtyas, D.D., Aplikasi Teorema Bayes dalam Penyaringan Email.

Siringoringo, R.,2018, Klasifikasi Data Tidak Seimbang menggunakan Algoritma

SMOTE dan K- Nearest Neighbor, Jurnal ISD.

Soejono, Karni(2000). Auditing Audit khusus & Audit Forensik Dalam Praktek

Lembaga Penerbit Fakultas Ekonomi Universitas Indonesia.

Tuanakotta, T. M. (2013). Audit Berbasis ISA. Jakarta: Salemba Empat.

Undang-Undang Nomor 10 Tahun 1998 tentang PERBANKAN atas Undang-

Undang Nomor 7 Tahun 1992 pada Pasal 1 Ayat 1. Jakarta:Sekretariat

Negara, 2009.

Wirawan I.M.A. 2017. Metode Penalaran Dalam Kecerdasan Buatan Jakarta:Raja

Grafindo


55

LAMPIRAN

Perangkingan Principal Component Analysis

No Atribut Hasil


Transaksi, Kepemilikan Kartu, Rata Jumlah Transaksi,

Nama Transaksi, Nama Chanel, Nama Merchant,

Maksimum Nilai Transaksi, Nama Negara, Nama Kota,

Tipe Kartu, Waktu Transaksi, Tanggal Tanggal Transaksi

Awal

84,82 %

2 Nama Chanel, Kepemilikan Kartu, Maksimum Nilai

Transaksi, Rata Nilai Transaksi, Nama Kota, Rata Jumlah

Transaksi, Nilai Transaksi, Nama Merchant, Nama

Chanel, Kepemilikan Kartu, Nama Transaksi, Minimum

Nilai Transaksi, Nama Negara

70,42 %

3 Nama Merchant, Nama Transaksi, Maksimum Nilai

Transaksi, Rata Nilai Transaksi, Rata Jumlah

Transaksi,Nilai Transaksi, Nama Chanel, Minimum Nilai

Transaksi, Kepemilikan kartu, Tipe Kartu, Nama Negara,

Nama Kota

59,95 %

4 Tipe Kartu, Tanggal Transaksi, Minimum Nilai

Transaksi, Rata Jumlah Transaksi, Nama Kota, Nama

Negara, Maksimum Nilai Transaksi, Rata Nilai Transaksi,

Waktu Transaksi, Nilai Transaksi, Nama Merchant, Nama

Transaksi, Nama Chanel

51,94 %

5 Minimum Nilai Transaksi, Rata Jumlah Transaksi,

Tanggal Transaksi, Nama Negara, Nama Kota, Waktu

Transaksi, Tipe Kartu, Maksimum Nilai Transaski, Rata

Nilai Transaksi, Nilai Transaksi, Nama Merchant, Nama

Transaksi, Nama Chanel, Kepemilikan Kartu

44,44 %

6 Waktu Transaksi, Nama Kota, Nama Negara, Minimum

Nilai Transaksi, Nama Transaksi, Rata Jumlah Transaksi,

Nama Chanel, Nilai Transaksi, Tanggal Transaksi awal,

Kepemilikan Kartu, Maksimum Nilai Transaksi, Nama

Merchant, Tipe Kartu, Rata Nilai Transaksi

37,28 %

7 Nama Negara, Minimum Nilai Transaksi, Nama Kota,

Tipe Kartu, Tipe Kartu, Nilai Transaksi, Tanggal

Transaksi, Nama Merchant, Rata Jumlah Transaksi, Rata

Nilai Transaksi, Waktu Transaksi, Nama Transaksi,

Maksimum Nilai Transaksi, Nama Chanel

30,22 %

8 Nama Kota, Tanggal Transaksi, Waktu Transaksi,

Minimum Nilai Transaksi, Nama Negara, Rata Jumlah

Transaksi, Kepemilikan Kartu, Nama Chanel, Tipe Kartu,

Nama Transaksi, Nilai Transaksi, Nama Merchant,

Maksimum Nilai Transaksi, Rata Nilai Transaksi

23,62 %


56

9 Rata Jumlah Transaksi, Nilai Transaksi, Nama Negara,

Minimum Nilai Transaksi, Nama Merchant, Tanggal

Transaksi Awal, Nama Kota, Wanktu Transaksi, Rata

Nilai Transaksi, Nama Chanel, Nama Transaksi, Tipe

Kartu, Maksimum Nilai Transaksi, Kepemilikan Kartu.

17,19 %

10 Tipe Kartu, Tanggal Transaksi, Nilai Transaksi, Nama

Negara, Rata Jumlah Transaksi, Nama Merchant, Nama

Kota, Waktu Transaksi, Minimum Nilai Transaksi,

Maksimum Nilai Transaksi, Nama Transaksi,

Kepemilikan Kartu, Rata Nilai Transaksi, Nama Chanel,

11,07 %

11 Rata Jumlah Transaksi, Nilai Transaksi, Maksimum Nilai

Transaksi, Nama Merchant, Rata Nilai Transaksi,

Minimum Nilai Transaksi, Nama Transaksi, Tanggal

Transaksi, Nama Kota, Tipe Kartu, Nama Negara.

5,97 %

12 Nama Transaksi, Nama Merchant, Nilai Transaksi,

Maksimum Nilai Transaksi, Nama Merchant, Rata

Jumlah Transaksi, Kepemilikan Kartu, Nama Negara,

Waktu Transaksi, Tanggal Transaksi, Nama Chanel,

Minimum Nilai Transaksi, Rata Nilai Transaksi, Nama

Kota, Tipe Kartu.

0,2 %


FRAUD DETECTION PADA TRANSAKSI PERBANKAN …repository.usd.ac.id/37899/2/165314116_full.pdf ·...

Documents

Transcript of FRAUD DETECTION PADA TRANSAKSI PERBANKAN …repository.usd.ac.id/37899/2/165314116_full.pdf ·...