DATA MINING

Adam Fahmi
Adam FahmiStudent at MAN 2 Tulungagung um MAN Tulungagung 2

DATA MINING FRAUD DETECTION

1
Abstrak
Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan kecurangan finansial
meningkat secara drastis. Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang
berukuran besar. Terdapat banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi
untuk melakukan permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM),
Decision Tree, dan Deskriminan. Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan
untuk melakukan permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem
pendukung pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi
kartu kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode
klasifikasi. Dalam penelitian ini didapatkan metode sebagai metode terbaik yaitu Support Vector Machine.
Keywords : Credit Card, Decision Tree, Deskriminan, Fraud Detection, Klasifikasi, SVM
1. PENDAHULUAN
1.1 Latar Belakang
Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan
kecurangan finansial meningkat secara drastis. Kecurangan dalam pembayaran elektronik digolongkan dalam
tindakan ilegal yang dapat merugikan pihak perbankan ataupun nasabah. Metode keamanan pada transaksi
kartu kredit terus dikembangkan guna mengurangi kecurangan dan penipuan yang terjadi. Metode machine
learning data mining merupakan salah satu yang dapat membantu dalam pendeteksian kecurangan yang terjadi
dengan mengenali pola tranksaksi (pattern).
Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang berukuran
besar. Data mining adalah pengekstrakan data berukuran besar untuk menemukan keteraturan, pola, atau
hubungan untuk diolah menjadi informasi yang dapat digunakan dalam pengambilan keputusan. Terdapat
banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi untuk melakukan
permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM),
Decision Tree, dan Deskriminan.
Support vector machine (SVM) adalah salah satu metode yang populer yang sering digunakan dalam
permasalahan klasifikasi. SVM adalah metode yang berakar dari teori pembelajaran statistik. Cara kerja SVM
adalah mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas data pada input space.
Selain metode SVM, salah satu metode atau teknik Data Mining dalam melakukan fraud detection
yang digunakan adalah Decision Tree. Decision Tree memiliki beberapa kelebihan yaitu, membutuhkan
sedikit persiapan data, mampu mengolah data numerik maupun kategorikal, menggunakan mode whitebox,
Credit Card Fraud Detection Menggunakan Metode
Klasifikasi
Adam Fahmi Fandisyah dan Ni Luh Putu Satyaning Pradnya Paramita
Departemen Statistika, Fakultas Matematika, Komputasi, dan Sains Data
Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: pradnya@statistika.its.ac.id
2
memungkinkan untuk memvalidasi model dengan menggunakan uji statistik, dan menghasilkan performansi
yang baik jika menggunakan dataset yang besar.
Selanjutnya untuk memperoleh klasifikasi dari fraud detection dapat dilakukan prediksi dengan
dilakukannya penerapan ilmu statistika yang dapat mengklasifikasikan suatu individu atau objek ke dalam
suatu kelompok yang telah ditentukan sebelumnya berdasarkan variabel-variabel bebasnya adalah analisis
diskriminan (Dillon dan Goldstein, 1984). Berdasarkan analisis statistik untuk melakukan analisis diskriminan
linier, terdapat dua asumsi yang harus terpenuhi yaitu data kelompok berdistribusi normal multivariat dan
pengujian kesamaan varian kovarian. Skor diskriminan dan cut off value akan diperoleh setelah terbentuknya
fungsi diskriminan linier terlebih dahulu. Dilanjutkan dengan menggunakan APER untuk mengetahui tingkat
kesalahan pengklasifikasian yang diperoleh analisis diskriminan linier dalam bentuk persentase. Namun dalam
menganalisis data mining tidak diperlukan asumsi-asumsi seperti halnya pada analisis statistik.
Penelitian yang berkaitan dengan kecurangan kartu kredit juga sudah pernah dilakukan oleh penelitian
sebelumnya pada dataset yang tidak seimbang dan anonymous. Pendeteksian yang diusulkan adalah dengan
menemukan pola transaksi legal dan fraud untuk setiap pelanggan dengan menggunakan frequensi itemset
mining. Metode yang diusulkan dapat berjalan dengan baik dan dapat menangani ketidakseimbangan kelas.
Database pola penipuan dan transaksi legal dibuat terpisah, dan update data antara keduannya tidak sama,
sehingga dapat menggurangi keakurasian dalam pendeteksian. Oleh karena itu dibuat update secara berkala
baik sekali dalam tiga bulan atau enam bulan atau bahkan setiap kali terjadi transaksi.
Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan untuk melakukan
permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem pendukung
pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi kartu
kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode
klasifikasi. Diharapkan metode SVM, Decision Tree, dan Deskriminan dapat mendeteksi kecurangan pada
transaksi kartu kredit dengan baik. Perancangan sistem ini disusun untuk dapat menggambarkan implementasi
model terbaik diantara ketiga metode dalam sistem pendukung pengambilan keputusan (SPPK) untuk pihak
perbankan dalam proses transaksi kartu kredit. SPPK dalam hal ini digunakan sebagai verifikasi setiap terjadi
transaksi kartu kredit. Sistem ini akan membantu pihak perbankan dalam mengetahui indikasi kecurangan
yang terjadi, sehingga dapat melakukan tindakan cepat, seperti melakukan pemberhentian transaksi atau
pemblokiran sementara.
2. METODOLOGI PENELITIAN
2.1. Sumber Data
Data yang digunakan pada praktikum ini adalah data sekunder yang diperoleh dari Kaggle yang berjudul
Credit Card Fraud Detection Kaggle yang diunduh pada Selasa, 14 Mei 2019 pada pukul 18.10 WIB.
3
2.2. Variabel Penelitian
Variabel penelitian yang digunakan dalam penelitian ini adalah sebagai berikut.
Tabel : Variabel Penelitian
Variabel Keterangan Skala Pengukuran
V1 - Interval
V2 - Interval
V3 - Interval
⋮ ⋮ ⋮
V28 - Interval
V29 Amount Rasio
Y Class Nominal
2.3. Struktur Data
Struktur data yang digunakan adalah sebagai berikut.
Tabel : Struktur Data
Pengamatan ke-i Vi1 Vi2 … Vi29
1 V1,1 V1,2 ... V1,29
2 V2,1 V2,2 ... V2,29
.
.
.
.
.
.
.
.
.
. .
. .
. .
284807 V284807,1 V284807,2 ... V284807,29
2.4. Langkah Analisis
Langkah analisis yang dilakukan pada penelitian ini adalah sebagaiberikut.
1. Mengumpulkan data.
2. Melakukan preprocessing.
3. Menganalisis karakteristik data.
4. Melakukan undersampling untuk mengatasi imbalanced pada respon.
5. Melakukan feature selection dan feature importance.
6. Melakukan analisis klasifikasi pada training data.
7. Melakukan analisis klasifikasi pada testing data.
8. Melakukan interpretasi dan menarik kesimpulan.
4
3. ANALISIS DAN PEMBAHASAN
3.1.Preprocessing
Preprocessing dilakukan dengan deteksi missing value serta outlier. Tidak ditemukan data missing
value untuk setiap variabel penelitian. Selanjutnya untuk mendeteksi adanya outlier dapat dilakukan dengan
visualisasi boxplot. Namun untuk outlier dalam penelitian ini tidak dilakukan, karena dalam melakukan
analisis data mining tidak diperlukan asumsi-asumsi seperti halnya metode statistika biasanya.
3.2. Karakteristik Data
Dalam karakteristik data untuk data credit card fraud detection ingin diketahui korelasi antar variabel
untuk mengetahui kemungkinan adanya multikolearitas,
Gambar : Correlogram
Dari hasil visualisasi correlogram diatas dapat diketahui ada beberapa variabel yang memiliki korelasi
positif tertinggi dalam penelitian ini, yaitu variabel amount dan V7 yang memiliki korelasi disekitar angka
0,4. Untuk hasil korelasi lainnya antar variabel dapat dilihat pada gambar diatas. Dengan menghilangkan
5
variabel yang memiliki korelasi tinggi meminimalisir adanya multikolinearitas dan memiliki kemungkinan
untuk meningkatkan hasil akurasi dalam analisis.
3.3.Mengatasi Imbalanced
Gambar : Imbalance Data
Prosentase normal transaction (0) sebesar 99,83%, sedangkan prosentase fraud transaction hanya
sebesar 0,17%. Sehingga dikatakan data ini imbalanced dan perlu dilakukan penyeimbangan data agar tidak
terjadi over fitting terhadap model.
Gambar : Undersample Data
Gambar diatas menunjukkan data telah dilakukan penyeimbangan kelas data pada variabel respon. Pada
penelitian ini digunakan metode under sampling karena dianggap dapat mengatasi over fitting dengan lebih
baik dibandingakan metode lainya pada penelitian fraud detection sebelumnya. Metode under sampling
dilakukan dengan cara melakukan penyeimbangan kelas mayoritas terhadap kelas minoritas, dengan
melakukan sampling pada kelas data mayoritas, sehingga jumlah antara kedua kelas menjadi seimbang, yang
mana data setelah dilakukan under sampling memiliki jumlah antara kedua kelas yang seimbang yaitu masing-
masing berjumlah 492 data.
Gambar : Plot Imbalance Data vs Under Sampling Data
6
Gambar diatas merupakan visualisasi data original dibandingkan dengan data under sample yang telah
dilakukan tranformasi dengan menggunakan metode PCA. Dimana pada data original jika dilakukan
permodelan memiliki kemungkinan adanya overfitting terhadap hasil prediksi. Sehingga beberapa hasil
tersebut menunjukkan bahwa adanya imbalance data akan mengganggu terhadap hasil akhir model dan
prediksi, karena model akan sulit dalam membedakan kelas.
3.4. Feature Selection dan Feature Importance
Gambar : Jumlah Features vs Cross Validation Score
Visualisasi gambar diatas menunjukkan bahwa pada jumlah variabel ke 11 terjadi penurunan nilai cross
validation dan menunjukkan adanya kecenderungan nilai cross validation yang konstan untuk jumlah variabel
selanjutnya. Sehingga dalam penelitian untuk melakukan permodelan digunakan 11 variabel untuk
mendapatkan akurasi terbaik.
Gambar : Feature Importance
Selanjutnya pada feature importance metode didapatkan 11 variabel yang diperingkat terhadap variabel yang
memberi kontribusi terbasar. Didapatkan variabel-variabel terpenting sebagai prediktor tersebut yaitu sebagai
berikut : V7, V2, V4, V6, V1, V10, V18, V9, V7, V4, dan V26.
3.5. Metode Klasifikasi Machine Learning
Setelah data imbalance diatasi dengan menggunakan undersampling serta dilakukan feature selection
dan feature importance. Maka selanjutnya dilakukan pengklasifikasian untuk mendeksi kecurangan pada kartu
kredit.
3.5.1.Decision Tree
Metode decision tree dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi,
spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan
sensitifitas dari data Fraud Detection.
7
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree
K Akurasi Spesitifitas Sensitifitas
0 0.934959 0.926829 0.943089
1 0.918699 0.968254 0.866667
2 0.934959 0.966387 0.905512
3 0.926829 0.906780 0.945312
4 0.926829 0.965517 0.892308
Berdasarkan tabel diatas model decision tree didapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 91,06%. Selanjutnya dilakukan prediksi dengan model decision tree default terhadap data
pengujian.
Gambar : Confusion Matriks Decision Tree
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 90,24%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 13 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : Decision Tree Graph
Gambar tersebut menunjukkan bahwa node paling tinggi yaitu V14 sebagai root yang bercabang menjadi
True jika kondisi V12 ≤ -0,381, di lain sisi False jika kondisi V4 ≤ 0,753. Hasil lebih lengkap dapat dilihat
pada visualisasi diatas.
8
Gambar : ROC Curve Decision Tree
Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika mendekati
garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva mendekati titik
0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu jika ingin
membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan luas di
bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva berwarna
biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
3.5.2.Support Vector Machine Classification
3.5.2.1. SVM Linear
Metode support vector machine menggunakan kernel linear dengan stratified K-Fold cross validation
(K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil
nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection.
Tabel 4.5 Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Linier
K Akurasi Spesitifitas Sensitifitas
0 0.939024 0.965217 0.916031
1 0.930894 1.000.000 0.874074
2 0.934959 0.959016 0.911290
3 0.967480 0.992366 0.939130
4 0.939024 0.953846 0.922414
Berdasarkan tabel diatas model SVM Linear didapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 87,86%. Selanjutnya dilakukan prediksi dengan model SVM Linear default terhadap data
pengujian.
9
Gambar : Confusion Matriks SVM Linear
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,87%,
terdapat 15 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 5 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
3.5.2.2. SVM Non Linear
Metode support vector machine menggunakan kernel rbf dengan stratified K-Fold cross validation
(K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil
nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection.
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Non Linier
K Akurasi Spesitifitas Sensitifitas
0 0.951220 0.947368 0.955752
1 0.918699 0.926230 0.911290
2 0.918699 0.938053 0.902256
3 0.926829 0.939850 0.911504
4 0.922764 0.931034 0.915385
Berdasarkan tabel diatas model SVM rbf didapatkan nilai rata-rata akurasi atau ketepatan akurasi model
sebesar 92,76%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu
kredit yang tidak melakukan penipuan (Kelas = 0) sebesar 93,65%. Sedangkan nilai rata-rata sensitivitas atau
ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan penipuan (Kelas = 1)
sebesar 91,92%. Selanjutnya dilakukan prediksi dengan model SVM rbf default terhadap data pengujian.
Gambar : Confusion Matriks SVM Non Linear
10
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 92,28%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 8 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
3.5.2.3. Tuning Parameter SVM
Tuning parameter dilakukan untuk mendapatkan parameter dengan akurasi terbaik, dimana dari hasil
tuning parameter dalam penelitian ini didapatkan model SVM dengan parameter sebagai berikut :
a. Kernel = Linear
b. C = 1
Dimana didapatkan akurasi model dalam data training sebesar 92,82%. Selanjutnya dilakukan prediksi
terhadap data testing untuk menguji kebaikan dari model.
Gambar : Confusion Matriks SVM Tuning Parameter
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 96,75%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan tidak didapatkan
data yang diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : ROC Curve SVM Tuning Parameter
Gambar diatas menunjukkan kinerja model klasifikasi adalah, diamana kurva dikatakan jelek jika
mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva
mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu
jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan
luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva
berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,97. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
11
3.5.3.Deskriminan
Metode deskriminan dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi,
spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan
sensitifitas dari data Fraud Detection. Metode deskriminan yang digunakan dengan menggunakan kuadratik
deskriminan analisis.
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree
K Akurasi Spesitifitas Sensitifitas
0 0.914634 0.905983 0.922481
1 0.918699 0.949153 0.890625
2 0.910569 0.955556 0.855856
3 0.930894 0.959016 0.903226
4 0.898374 0.918919 0.881481
Berdasarkan tabel diatas model deskriminan mendapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 91,46%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 89,07%. Selanjutnya dilakukan prediksi dengan model deskriminan default terhadap data
pengujian.
Gambar : Confusion Matriks Deskriminan
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,06%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 11 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : ROC Curve Deskriminan
12
Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika
mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva
mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu
jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan
luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva
berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
3.6.Perbandingan Nilai Akurasi, Spesifitas, dan Sensitivitas
Setelah mengetahui nilai akurasi, spesifitas dan sensitivitas dari masing-masing metode. Selanjutnya,
akan dilakukan perbandingan nilai akurasi, spesifitas dan sensitivitas untuk masing-masing metode sehingga
dapat diperoleh metode klasifikasi mana yang cocok untuk data Fraud Detection. Berikut merupakan tabel
perbandingan nilai akurasi, spesifitas dan sensitivitas untuk setiap metode.
Tabel : Perbadingan Nilai Akurasi, Spesitifitas, dan Sensitifitas
Metode Akurasi Training (%) Akurasi Testing (%) Spesitifitas (%) Sensitifitas (%)
Decision Tree 92,85 90,24 94,68 91,06
SVM 92,85 96,75 97,24 87,86
Deskriminan 91,46 91,06 93,77 89,07
Berdasarkan tabel diatas peneliti menarik kesimpulan bahwa metode yang paling cocok untuk
memberikan hasil klasifikasi yang akurat bagi data Fraud Detection yaitu SVM. Hal tersebut bisa diketahui
dari nilai akurasi dan sensitifitas yang paling tinggi dibandingkan dengan metode lain.
3.7.Perbandingan Metode Lain
Dalam penelitian dilakukan klasifikasi dengan beberapa metode lainnya dengan hasil akurasi training
sebagai berikut,
Tabel : Perbadingan Metode Klasifikasi
No Metode
Akurasi Training
(%)
No Metode
Akurasi Training
(%)
1 AdaBoostClassifier 93 10 MLPClassifier 94
2 BaggingClassifier 93 11 GaussianProcessClassifier 92
3 ExtraTreesClassifier 92 12 LinearDiscriminantAnalysis 92
4 GradientBoostingClassifier 93 13 QuadraticDiscriminantAnalysis 91
5 RandomForestClassifier 94 14 BernoulliNB 91
6 DecisionTreeClassifier 90 15 GaussianNB 92
7 ExtraTreeClassifier 90 16 KNeighborsClassifier 93
8 LogisticRegression 94 17 LinearSVC 93
9 PassiveAggressiveClassifier 90 21 Perceptron 91
13
No Metode
Akurasi Training
(%)
Metode
Akurasi Training
(%)
19 RidgeClassifier 92 22 NuSVC 91
20 SGDClassifier 93 23 XGBClassifier 94
Berdasarkan tabel diatas menunjukkan bebeapa hasil akurasi pada data training dengan parameter
default, dimana semua metode diatas menghasilkan akurasi yang cukup bagus yaitu lebih dari sama dengan
90%. Dimana metode dengan akurasi tertinggi yaitu sebesar 94%, yang dimiliki oleh metode
RandomForestClassifier, LogisticRegression, MLPClassifier, dan XGBClassifier. Sehingga dalam penelitian
selanjutnya perlu untuk diketahui lebih lanjut metode2 tersebut, sehingga akurasi dari metode-metode tersebut
dapat dilakukan optimasi yang lebih baik lagi.
4. PENUTUP
4.1. Kesimpulan
Kesimpulan yang didapat pada laporan penelitian ini yaitu sebagai berikut.
1. Hasil preprocessing data dapat diketahui data tidak didapatkan missing value, sedangkan untuk outlier
tidak dilakukan karena dalam analisis data mining tidak dibutuhkan asumsi statistika seperti biasa.
2. Pada karakteristik data ditemukan adanya beberapa variabel yang memiliki korelasi tinggi hanya disekitar
0,4 untuk korelasi positif dan dibawah -0,5 untuk korelasi negatif.
3. Variabel respon memiliki jumlah obeservasi kelas yang imbalanced, setelah dilakukan undersampling
kelas menjadi balanced, masing-masing terdiri dari 492 obeservasi untuk kelas no fraud dan fraud.
4. Feature selection dengan cross validation score menunjukkan bahwa pada 11 feature bernilai konstan,
sehingga digunakan 11 feature untuk pengamatan klasifikasi fraud detection ini, yaitu V7, V2, V4, V6,
V1, V10, V18, V9, V7, V4, dan V26.
5. Hasil klasifikasi menggunakan Decision Tree memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68% dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 91,06%.
6. Hasil klasifikasi menggunakan SVM linear memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 87,86%. Hasil klasifikasi menggunakan SVM non linear memiliki nilai
nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,76%, nilai rata-rata spesifisitas atau
ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan
14
(Kelas = 0) sebesar 93,65%. dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 91,92%. Tuning SVM didapatkan
parameter dengan akurasi terbaik, dengan kernel (linear) dan C (1).
7. Hasil klasifikasi menggunakan Deskriminan memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 91,46%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77% dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 89,07%.
8. Diantara ketiga metode yang paling cocok untuk memberikan hasil klasifikasi yang akurat bagi data
Credit Card Fraud Detection yaitu SVM dengan tuning parameter. Hal tersebut bisa diketahui dari nilai
akurasi testing yang paling tinggi diantara beberapa metode lainnya yaitu menyentuh nilai 96,75%. Pada
pengujian ini dilakukan pengujian dengan beberapa metode lainnya selain ketiga metode diatas, dimana
didapatkan hasil Random Forest Classifier, Logistic Regression, MLP Classifier, dan XGB Classifier
yang memiliki nilai akurasi data training 94%.
4.2. Saran
Pada bagian akhir untuk hasil penelitian menunjukkan bahwa untuk penelitian selanjutnya perlu
dilakukan pengujian lebih lanjut dengan metode-metode lain selain ketiga metode yang sudah dilakukan
analisis lebih lanjut diatas, untuk mengetahui metode yang paling cocok untuk menganalisis data credit card
fraud detection. Juga perlu untuk dilakukan tuning parameter untuk mendapatkan metode yang terbaik
sehingga mendapatkan parameter dengan akurasi terbaik. Pada akhirnya pendeteksian penipuan pada transaksi
kartu kredit dengan permbelajaran mesin dapat diaplikasikan.

Recomendados

Studi kasus sistem informasi von
Studi kasus sistem informasiStudi kasus sistem informasi
Studi kasus sistem informasi1khw4n
20.8K views18 Folien
anggaran tradisional versus new public management von
anggaran tradisional versus new public managementanggaran tradisional versus new public management
anggaran tradisional versus new public managementAirlangga University , Indonesia
5.9K views26 Folien
Modul pembayaran span von
Modul pembayaran spanModul pembayaran span
Modul pembayaran spanAhmad Abdul Haq
7.7K views31 Folien
Variabel Dummy von
Variabel DummyVariabel Dummy
Variabel DummyArning Susilawati
11.3K views11 Folien
Diagram Konteks dan DFD Sistem Informasi Penjualan von
Diagram Konteks dan DFD Sistem Informasi PenjualanDiagram Konteks dan DFD Sistem Informasi Penjualan
Diagram Konteks dan DFD Sistem Informasi PenjualanRicky Kusriana Subagja
82.5K views4 Folien
Proses bisnis bca1 von
Proses bisnis bca1Proses bisnis bca1
Proses bisnis bca1Anthon Tampubolon
16.4K views12 Folien

Más contenido relacionado

Was ist angesagt?

Sistem informasi penggajian karyawan tugas senin von
Sistem informasi penggajian karyawan tugas seninSistem informasi penggajian karyawan tugas senin
Sistem informasi penggajian karyawan tugas seninnaufals11
4.4K views38 Folien
04. ramalan dan perencanaan keuangan von
04. ramalan dan perencanaan keuangan04. ramalan dan perencanaan keuangan
04. ramalan dan perencanaan keuanganhasna mudiarti
10K views13 Folien
9 dts-transformasi data-univ-gunadarma von
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarmaArdianDwiPraba
1.8K views83 Folien
Tabel, Tipe data, Record & Field Basis data von
Tabel, Tipe data, Record & Field Basis dataTabel, Tipe data, Record & Field Basis data
Tabel, Tipe data, Record & Field Basis datajoshua gidion
3.7K views19 Folien
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintah von
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintahpersamaan dan perbedaan akuntansi manajemen komersial dan pemerintah
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintahReza Yudhalaksana
12.2K views8 Folien
Laporan Analisis Sistem Informasi Penjualan Indomaret von
Laporan Analisis Sistem Informasi Penjualan IndomaretLaporan Analisis Sistem Informasi Penjualan Indomaret
Laporan Analisis Sistem Informasi Penjualan Indomaretsafiravanillia
11K views10 Folien

Was ist angesagt?(20)

Sistem informasi penggajian karyawan tugas senin von naufals11
Sistem informasi penggajian karyawan tugas seninSistem informasi penggajian karyawan tugas senin
Sistem informasi penggajian karyawan tugas senin
naufals114.4K views
04. ramalan dan perencanaan keuangan von hasna mudiarti
04. ramalan dan perencanaan keuangan04. ramalan dan perencanaan keuangan
04. ramalan dan perencanaan keuangan
hasna mudiarti10K views
9 dts-transformasi data-univ-gunadarma von ArdianDwiPraba
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
ArdianDwiPraba1.8K views
Tabel, Tipe data, Record & Field Basis data von joshua gidion
Tabel, Tipe data, Record & Field Basis dataTabel, Tipe data, Record & Field Basis data
Tabel, Tipe data, Record & Field Basis data
joshua gidion3.7K views
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintah von Reza Yudhalaksana
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintahpersamaan dan perbedaan akuntansi manajemen komersial dan pemerintah
persamaan dan perbedaan akuntansi manajemen komersial dan pemerintah
Reza Yudhalaksana12.2K views
Laporan Analisis Sistem Informasi Penjualan Indomaret von safiravanillia
Laporan Analisis Sistem Informasi Penjualan IndomaretLaporan Analisis Sistem Informasi Penjualan Indomaret
Laporan Analisis Sistem Informasi Penjualan Indomaret
safiravanillia11K views
Proposal Sistem Informasi Pemesanan Tiket Bioskop Online von Lucha Kamala Putri
Proposal Sistem Informasi Pemesanan Tiket Bioskop OnlineProposal Sistem Informasi Pemesanan Tiket Bioskop Online
Proposal Sistem Informasi Pemesanan Tiket Bioskop Online
Lucha Kamala Putri19.4K views
6. perancangan sistem terinci von Alvin Setiawan
6. perancangan sistem terinci6. perancangan sistem terinci
6. perancangan sistem terinci
Alvin Setiawan2.5K views
Slide Sidang Skripsi Sistem Informasi von Ismi Islamia
Slide Sidang Skripsi Sistem InformasiSlide Sidang Skripsi Sistem Informasi
Slide Sidang Skripsi Sistem Informasi
Ismi Islamia12.9K views
Pengendalian Internal Sistem informasi Manajemen von Oktavianus Putra
Pengendalian Internal Sistem informasi ManajemenPengendalian Internal Sistem informasi Manajemen
Pengendalian Internal Sistem informasi Manajemen
Oktavianus Putra5.7K views
Sistem Pengendalian Manajemen Biasa von Universitas PGRI
Sistem Pengendalian Manajemen BiasaSistem Pengendalian Manajemen Biasa
Sistem Pengendalian Manajemen Biasa
Universitas PGRI5.1K views
Teori pendugaan statistik presentasi von Perum Perumnas
Teori pendugaan statistik presentasiTeori pendugaan statistik presentasi
Teori pendugaan statistik presentasi
Perum Perumnas85K views
Tugas Presentasi Supplu Chain Management von Bakkah Raharjo
Tugas Presentasi Supplu Chain ManagementTugas Presentasi Supplu Chain Management
Tugas Presentasi Supplu Chain Management
Bakkah Raharjo2.5K views
16a.sapd simulasi-skpd von Nadia Amelia
16a.sapd simulasi-skpd16a.sapd simulasi-skpd
16a.sapd simulasi-skpd
Nadia Amelia129K views
Akuntansi persediaan - PEMDA von Mahyuni Bjm
Akuntansi persediaan - PEMDAAkuntansi persediaan - PEMDA
Akuntansi persediaan - PEMDA
Mahyuni Bjm52.8K views
Pengertian field, record, table, file, data dan basis data lengkap pengerti... von ym.ygrex@comp
Pengertian field, record, table, file, data dan basis data lengkap   pengerti...Pengertian field, record, table, file, data dan basis data lengkap   pengerti...
Pengertian field, record, table, file, data dan basis data lengkap pengerti...
ym.ygrex@comp12.9K views
Pengelolaan Kartu Utang von Kasmadi Rais
Pengelolaan Kartu UtangPengelolaan Kartu Utang
Pengelolaan Kartu Utang
Kasmadi Rais19.3K views

Similar a DATA MINING

Procceding_KNIT_2_97-102_AndikaDwiHadiri von
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
108 views6 Folien
Pertemuan 4.pdf von
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdfHasanulFahmi2
7 views10 Folien
Jurnal biaya pasien rawat inap penyakit jantung von
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantungAndy Murtanto
873 views6 Folien
Jurnal biaya pasien rawat inap penyakit jantung von
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantungAndy Murtanto
1.2K views6 Folien
9868 22329-1-pb von
9868 22329-1-pb9868 22329-1-pb
9868 22329-1-pbIbnu Sabda S
289 views12 Folien
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t... von
17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...ym.ygrex@comp
535 views8 Folien

Similar a DATA MINING(20)

Jurnal biaya pasien rawat inap penyakit jantung von Andy Murtanto
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantung
Andy Murtanto873 views
Jurnal biaya pasien rawat inap penyakit jantung von Andy Murtanto
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantung
Andy Murtanto1.2K views
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t... von ym.ygrex@comp
17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...
ym.ygrex@comp535 views
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx von Sangrian1
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptxTUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
Sangrian15 views
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM von Muhammad Akbar
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Muhammad Akbar740 views
Penerapan Data Mining dengan Algoritma C4.5 dalam Pemesanan Obat Guna Meningk... von Gede Surya Mahendra
Penerapan Data Mining dengan Algoritma C4.5 dalam Pemesanan Obat Guna Meningk...Penerapan Data Mining dengan Algoritma C4.5 dalam Pemesanan Obat Guna Meningk...
Penerapan Data Mining dengan Algoritma C4.5 dalam Pemesanan Obat Guna Meningk...
Bab 6 deteksi penipuan basis data. von Ames Pramesti
Bab 6 deteksi penipuan basis data.Bab 6 deteksi penipuan basis data.
Bab 6 deteksi penipuan basis data.
Ames Pramesti1.8K views
Pengenalan Wajah Dua Dimensi Menggunakan Multi-Layer Perceptron Berdasarkan N... von Noor Azizah
Pengenalan Wajah Dua Dimensi Menggunakan Multi-Layer Perceptron Berdasarkan N...Pengenalan Wajah Dua Dimensi Menggunakan Multi-Layer Perceptron Berdasarkan N...
Pengenalan Wajah Dua Dimensi Menggunakan Multi-Layer Perceptron Berdasarkan N...
Noor Azizah2.6K views

Último

SISTEM KOMPUTER_DELVIA ANDRINI.pptx von
SISTEM KOMPUTER_DELVIA ANDRINI.pptxSISTEM KOMPUTER_DELVIA ANDRINI.pptx
SISTEM KOMPUTER_DELVIA ANDRINI.pptxDelviaAndrini1
24 views32 Folien
Latihan 7_M.Ilham Raditya_E1G020017..pptx von
Latihan 7_M.Ilham Raditya_E1G020017..pptxLatihan 7_M.Ilham Raditya_E1G020017..pptx
Latihan 7_M.Ilham Raditya_E1G020017..pptxMIlhamRaditya
36 views9 Folien
MEDIA INTERAKTIF.pptx von
MEDIA INTERAKTIF.pptxMEDIA INTERAKTIF.pptx
MEDIA INTERAKTIF.pptxJUMADAPUTRA
17 views73 Folien
RAGAM BAHASA INDONESIA von
RAGAM BAHASA INDONESIARAGAM BAHASA INDONESIA
RAGAM BAHASA INDONESIAAzmiMustafa4
21 views6 Folien
TUGAS PPT 6_NATALIA APRICA ANWAR_E1G022075.pptx von
TUGAS PPT 6_NATALIA APRICA ANWAR_E1G022075.pptxTUGAS PPT 6_NATALIA APRICA ANWAR_E1G022075.pptx
TUGAS PPT 6_NATALIA APRICA ANWAR_E1G022075.pptxNataliaApricaAnwar
37 views9 Folien
Fajar Saputra (E1G022057).pptx von
Fajar Saputra (E1G022057).pptxFajar Saputra (E1G022057).pptx
Fajar Saputra (E1G022057).pptxFajarSaputra57
15 views8 Folien

Último(20)

SISTEM KOMPUTER_DELVIA ANDRINI.pptx von DelviaAndrini1
SISTEM KOMPUTER_DELVIA ANDRINI.pptxSISTEM KOMPUTER_DELVIA ANDRINI.pptx
SISTEM KOMPUTER_DELVIA ANDRINI.pptx
DelviaAndrini124 views
Latihan 7_M.Ilham Raditya_E1G020017..pptx von MIlhamRaditya
Latihan 7_M.Ilham Raditya_E1G020017..pptxLatihan 7_M.Ilham Raditya_E1G020017..pptx
Latihan 7_M.Ilham Raditya_E1G020017..pptx
MIlhamRaditya36 views
MEDIA INTERAKTIF.pptx von JUMADAPUTRA
MEDIA INTERAKTIF.pptxMEDIA INTERAKTIF.pptx
MEDIA INTERAKTIF.pptx
JUMADAPUTRA17 views
Bimtek Pencegahan Kekerasan dalam Rumah Tangga.pdf von Irawan Setyabudi
Bimtek Pencegahan Kekerasan dalam Rumah Tangga.pdfBimtek Pencegahan Kekerasan dalam Rumah Tangga.pdf
Bimtek Pencegahan Kekerasan dalam Rumah Tangga.pdf
Irawan Setyabudi30 views
TugasPPT6_NormanAdjiPangestu _E1G022079.pptx von NormanAdji
TugasPPT6_NormanAdjiPangestu _E1G022079.pptxTugasPPT6_NormanAdjiPangestu _E1G022079.pptx
TugasPPT6_NormanAdjiPangestu _E1G022079.pptx
NormanAdji16 views
Latihan 6 PPT_Dwi Maulidini _E1G022094.pptx von rdsnfgzhgj
Latihan 6 PPT_Dwi Maulidini _E1G022094.pptxLatihan 6 PPT_Dwi Maulidini _E1G022094.pptx
Latihan 6 PPT_Dwi Maulidini _E1G022094.pptx
rdsnfgzhgj8 views
Latihan 6_ Aldy 085.pptx von justneptun
Latihan 6_ Aldy 085.pptxLatihan 6_ Aldy 085.pptx
Latihan 6_ Aldy 085.pptx
justneptun13 views
LATIHAN6_WINDA NISPIANI_E1G022037.pptx von winda25112022
LATIHAN6_WINDA NISPIANI_E1G022037.pptxLATIHAN6_WINDA NISPIANI_E1G022037.pptx
LATIHAN6_WINDA NISPIANI_E1G022037.pptx
winda2511202213 views
PELAKSANAAN & Link2 MATERI Training _"TOTAL PRODUCTIVE MAINTENANCE (TPM)". von Kanaidi ken
PELAKSANAAN & Link2 MATERI Training _"TOTAL PRODUCTIVE MAINTENANCE (TPM)".PELAKSANAAN & Link2 MATERI Training _"TOTAL PRODUCTIVE MAINTENANCE (TPM)".
PELAKSANAAN & Link2 MATERI Training _"TOTAL PRODUCTIVE MAINTENANCE (TPM)".
Kanaidi ken16 views
Edukasi dan Peran Aktif dalam Pencegahan.pdf von Irawan Setyabudi
Edukasi dan Peran Aktif dalam Pencegahan.pdfEdukasi dan Peran Aktif dalam Pencegahan.pdf
Edukasi dan Peran Aktif dalam Pencegahan.pdf
Irawan Setyabudi29 views
Modul Projek Gaya Hidup Berkelanjutan - Kami Adalah Kesatria Lingkungan - Fas... von NoviKasari25
Modul Projek Gaya Hidup Berkelanjutan - Kami Adalah Kesatria Lingkungan - Fas...Modul Projek Gaya Hidup Berkelanjutan - Kami Adalah Kesatria Lingkungan - Fas...
Modul Projek Gaya Hidup Berkelanjutan - Kami Adalah Kesatria Lingkungan - Fas...
NoviKasari2513 views

DATA MINING

  • 1. 1 Abstrak Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan kecurangan finansial meningkat secara drastis. Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang berukuran besar. Terdapat banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi untuk melakukan permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM), Decision Tree, dan Deskriminan. Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan untuk melakukan permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem pendukung pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi kartu kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode klasifikasi. Dalam penelitian ini didapatkan metode sebagai metode terbaik yaitu Support Vector Machine. Keywords : Credit Card, Decision Tree, Deskriminan, Fraud Detection, Klasifikasi, SVM 1. PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan kecurangan finansial meningkat secara drastis. Kecurangan dalam pembayaran elektronik digolongkan dalam tindakan ilegal yang dapat merugikan pihak perbankan ataupun nasabah. Metode keamanan pada transaksi kartu kredit terus dikembangkan guna mengurangi kecurangan dan penipuan yang terjadi. Metode machine learning data mining merupakan salah satu yang dapat membantu dalam pendeteksian kecurangan yang terjadi dengan mengenali pola tranksaksi (pattern). Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang berukuran besar. Data mining adalah pengekstrakan data berukuran besar untuk menemukan keteraturan, pola, atau hubungan untuk diolah menjadi informasi yang dapat digunakan dalam pengambilan keputusan. Terdapat banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi untuk melakukan permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM), Decision Tree, dan Deskriminan. Support vector machine (SVM) adalah salah satu metode yang populer yang sering digunakan dalam permasalahan klasifikasi. SVM adalah metode yang berakar dari teori pembelajaran statistik. Cara kerja SVM adalah mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas data pada input space. Selain metode SVM, salah satu metode atau teknik Data Mining dalam melakukan fraud detection yang digunakan adalah Decision Tree. Decision Tree memiliki beberapa kelebihan yaitu, membutuhkan sedikit persiapan data, mampu mengolah data numerik maupun kategorikal, menggunakan mode whitebox, Credit Card Fraud Detection Menggunakan Metode Klasifikasi Adam Fahmi Fandisyah dan Ni Luh Putu Satyaning Pradnya Paramita Departemen Statistika, Fakultas Matematika, Komputasi, dan Sains Data Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail: pradnya@statistika.its.ac.id
  • 2. 2 memungkinkan untuk memvalidasi model dengan menggunakan uji statistik, dan menghasilkan performansi yang baik jika menggunakan dataset yang besar. Selanjutnya untuk memperoleh klasifikasi dari fraud detection dapat dilakukan prediksi dengan dilakukannya penerapan ilmu statistika yang dapat mengklasifikasikan suatu individu atau objek ke dalam suatu kelompok yang telah ditentukan sebelumnya berdasarkan variabel-variabel bebasnya adalah analisis diskriminan (Dillon dan Goldstein, 1984). Berdasarkan analisis statistik untuk melakukan analisis diskriminan linier, terdapat dua asumsi yang harus terpenuhi yaitu data kelompok berdistribusi normal multivariat dan pengujian kesamaan varian kovarian. Skor diskriminan dan cut off value akan diperoleh setelah terbentuknya fungsi diskriminan linier terlebih dahulu. Dilanjutkan dengan menggunakan APER untuk mengetahui tingkat kesalahan pengklasifikasian yang diperoleh analisis diskriminan linier dalam bentuk persentase. Namun dalam menganalisis data mining tidak diperlukan asumsi-asumsi seperti halnya pada analisis statistik. Penelitian yang berkaitan dengan kecurangan kartu kredit juga sudah pernah dilakukan oleh penelitian sebelumnya pada dataset yang tidak seimbang dan anonymous. Pendeteksian yang diusulkan adalah dengan menemukan pola transaksi legal dan fraud untuk setiap pelanggan dengan menggunakan frequensi itemset mining. Metode yang diusulkan dapat berjalan dengan baik dan dapat menangani ketidakseimbangan kelas. Database pola penipuan dan transaksi legal dibuat terpisah, dan update data antara keduannya tidak sama, sehingga dapat menggurangi keakurasian dalam pendeteksian. Oleh karena itu dibuat update secara berkala baik sekali dalam tiga bulan atau enam bulan atau bahkan setiap kali terjadi transaksi. Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan untuk melakukan permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem pendukung pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi kartu kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode klasifikasi. Diharapkan metode SVM, Decision Tree, dan Deskriminan dapat mendeteksi kecurangan pada transaksi kartu kredit dengan baik. Perancangan sistem ini disusun untuk dapat menggambarkan implementasi model terbaik diantara ketiga metode dalam sistem pendukung pengambilan keputusan (SPPK) untuk pihak perbankan dalam proses transaksi kartu kredit. SPPK dalam hal ini digunakan sebagai verifikasi setiap terjadi transaksi kartu kredit. Sistem ini akan membantu pihak perbankan dalam mengetahui indikasi kecurangan yang terjadi, sehingga dapat melakukan tindakan cepat, seperti melakukan pemberhentian transaksi atau pemblokiran sementara. 2. METODOLOGI PENELITIAN 2.1. Sumber Data Data yang digunakan pada praktikum ini adalah data sekunder yang diperoleh dari Kaggle yang berjudul Credit Card Fraud Detection Kaggle yang diunduh pada Selasa, 14 Mei 2019 pada pukul 18.10 WIB.
  • 3. 3 2.2. Variabel Penelitian Variabel penelitian yang digunakan dalam penelitian ini adalah sebagai berikut. Tabel : Variabel Penelitian Variabel Keterangan Skala Pengukuran V1 - Interval V2 - Interval V3 - Interval ⋮ ⋮ ⋮ V28 - Interval V29 Amount Rasio Y Class Nominal 2.3. Struktur Data Struktur data yang digunakan adalah sebagai berikut. Tabel : Struktur Data Pengamatan ke-i Vi1 Vi2 … Vi29 1 V1,1 V1,2 ... V1,29 2 V2,1 V2,2 ... V2,29 . . . . . . . . . . . . . . . 284807 V284807,1 V284807,2 ... V284807,29 2.4. Langkah Analisis Langkah analisis yang dilakukan pada penelitian ini adalah sebagaiberikut. 1. Mengumpulkan data. 2. Melakukan preprocessing. 3. Menganalisis karakteristik data. 4. Melakukan undersampling untuk mengatasi imbalanced pada respon. 5. Melakukan feature selection dan feature importance. 6. Melakukan analisis klasifikasi pada training data. 7. Melakukan analisis klasifikasi pada testing data. 8. Melakukan interpretasi dan menarik kesimpulan.
  • 4. 4 3. ANALISIS DAN PEMBAHASAN 3.1.Preprocessing Preprocessing dilakukan dengan deteksi missing value serta outlier. Tidak ditemukan data missing value untuk setiap variabel penelitian. Selanjutnya untuk mendeteksi adanya outlier dapat dilakukan dengan visualisasi boxplot. Namun untuk outlier dalam penelitian ini tidak dilakukan, karena dalam melakukan analisis data mining tidak diperlukan asumsi-asumsi seperti halnya metode statistika biasanya. 3.2. Karakteristik Data Dalam karakteristik data untuk data credit card fraud detection ingin diketahui korelasi antar variabel untuk mengetahui kemungkinan adanya multikolearitas, Gambar : Correlogram Dari hasil visualisasi correlogram diatas dapat diketahui ada beberapa variabel yang memiliki korelasi positif tertinggi dalam penelitian ini, yaitu variabel amount dan V7 yang memiliki korelasi disekitar angka 0,4. Untuk hasil korelasi lainnya antar variabel dapat dilihat pada gambar diatas. Dengan menghilangkan
  • 5. 5 variabel yang memiliki korelasi tinggi meminimalisir adanya multikolinearitas dan memiliki kemungkinan untuk meningkatkan hasil akurasi dalam analisis. 3.3.Mengatasi Imbalanced Gambar : Imbalance Data Prosentase normal transaction (0) sebesar 99,83%, sedangkan prosentase fraud transaction hanya sebesar 0,17%. Sehingga dikatakan data ini imbalanced dan perlu dilakukan penyeimbangan data agar tidak terjadi over fitting terhadap model. Gambar : Undersample Data Gambar diatas menunjukkan data telah dilakukan penyeimbangan kelas data pada variabel respon. Pada penelitian ini digunakan metode under sampling karena dianggap dapat mengatasi over fitting dengan lebih baik dibandingakan metode lainya pada penelitian fraud detection sebelumnya. Metode under sampling dilakukan dengan cara melakukan penyeimbangan kelas mayoritas terhadap kelas minoritas, dengan melakukan sampling pada kelas data mayoritas, sehingga jumlah antara kedua kelas menjadi seimbang, yang mana data setelah dilakukan under sampling memiliki jumlah antara kedua kelas yang seimbang yaitu masing- masing berjumlah 492 data. Gambar : Plot Imbalance Data vs Under Sampling Data
  • 6. 6 Gambar diatas merupakan visualisasi data original dibandingkan dengan data under sample yang telah dilakukan tranformasi dengan menggunakan metode PCA. Dimana pada data original jika dilakukan permodelan memiliki kemungkinan adanya overfitting terhadap hasil prediksi. Sehingga beberapa hasil tersebut menunjukkan bahwa adanya imbalance data akan mengganggu terhadap hasil akhir model dan prediksi, karena model akan sulit dalam membedakan kelas. 3.4. Feature Selection dan Feature Importance Gambar : Jumlah Features vs Cross Validation Score Visualisasi gambar diatas menunjukkan bahwa pada jumlah variabel ke 11 terjadi penurunan nilai cross validation dan menunjukkan adanya kecenderungan nilai cross validation yang konstan untuk jumlah variabel selanjutnya. Sehingga dalam penelitian untuk melakukan permodelan digunakan 11 variabel untuk mendapatkan akurasi terbaik. Gambar : Feature Importance Selanjutnya pada feature importance metode didapatkan 11 variabel yang diperingkat terhadap variabel yang memberi kontribusi terbasar. Didapatkan variabel-variabel terpenting sebagai prediktor tersebut yaitu sebagai berikut : V7, V2, V4, V6, V1, V10, V18, V9, V7, V4, dan V26. 3.5. Metode Klasifikasi Machine Learning Setelah data imbalance diatasi dengan menggunakan undersampling serta dilakukan feature selection dan feature importance. Maka selanjutnya dilakukan pengklasifikasian untuk mendeksi kecurangan pada kartu kredit. 3.5.1.Decision Tree Metode decision tree dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection.
  • 7. 7 Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree K Akurasi Spesitifitas Sensitifitas 0 0.934959 0.926829 0.943089 1 0.918699 0.968254 0.866667 2 0.934959 0.966387 0.905512 3 0.926829 0.906780 0.945312 4 0.926829 0.965517 0.892308 Berdasarkan tabel diatas model decision tree didapatkan nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68%. Sedangkan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 91,06%. Selanjutnya dilakukan prediksi dengan model decision tree default terhadap data pengujian. Gambar : Confusion Matriks Decision Tree Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 90,24%, terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 13 data yang diprediksi menipu namun kenyataanya tidak menipu (false positive). Gambar : Decision Tree Graph Gambar tersebut menunjukkan bahwa node paling tinggi yaitu V14 sebagai root yang bercabang menjadi True jika kondisi V12 ≤ -0,381, di lain sisi False jika kondisi V4 ≤ 0,753. Hasil lebih lengkap dapat dilihat pada visualisasi diatas.
  • 8. 8 Gambar : ROC Curve Decision Tree Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing. 3.5.2.Support Vector Machine Classification 3.5.2.1. SVM Linear Metode support vector machine menggunakan kernel linear dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection. Tabel 4.5 Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Linier K Akurasi Spesitifitas Sensitifitas 0 0.939024 0.965217 0.916031 1 0.930894 1.000.000 0.874074 2 0.934959 0.959016 0.911290 3 0.967480 0.992366 0.939130 4 0.939024 0.953846 0.922414 Berdasarkan tabel diatas model SVM Linear didapatkan nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. Sedangkan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 87,86%. Selanjutnya dilakukan prediksi dengan model SVM Linear default terhadap data pengujian.
  • 9. 9 Gambar : Confusion Matriks SVM Linear Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,87%, terdapat 15 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 5 data yang diprediksi menipu namun kenyataanya tidak menipu (false positive). 3.5.2.2. SVM Non Linear Metode support vector machine menggunakan kernel rbf dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection. Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Non Linier K Akurasi Spesitifitas Sensitifitas 0 0.951220 0.947368 0.955752 1 0.918699 0.926230 0.911290 2 0.918699 0.938053 0.902256 3 0.926829 0.939850 0.911504 4 0.922764 0.931034 0.915385 Berdasarkan tabel diatas model SVM rbf didapatkan nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,76%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan penipuan (Kelas = 0) sebesar 93,65%. Sedangkan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan penipuan (Kelas = 1) sebesar 91,92%. Selanjutnya dilakukan prediksi dengan model SVM rbf default terhadap data pengujian. Gambar : Confusion Matriks SVM Non Linear
  • 10. 10 Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 92,28%, terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 8 data yang diprediksi menipu namun kenyataanya tidak menipu (false positive). 3.5.2.3. Tuning Parameter SVM Tuning parameter dilakukan untuk mendapatkan parameter dengan akurasi terbaik, dimana dari hasil tuning parameter dalam penelitian ini didapatkan model SVM dengan parameter sebagai berikut : a. Kernel = Linear b. C = 1 Dimana didapatkan akurasi model dalam data training sebesar 92,82%. Selanjutnya dilakukan prediksi terhadap data testing untuk menguji kebaikan dari model. Gambar : Confusion Matriks SVM Tuning Parameter Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 96,75%, terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan tidak didapatkan data yang diprediksi menipu namun kenyataanya tidak menipu (false positive). Gambar : ROC Curve SVM Tuning Parameter Gambar diatas menunjukkan kinerja model klasifikasi adalah, diamana kurva dikatakan jelek jika mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,97. Nilai AUC merupakan nilai yang dapat digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
  • 11. 11 3.5.3.Deskriminan Metode deskriminan dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection. Metode deskriminan yang digunakan dengan menggunakan kuadratik deskriminan analisis. Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree K Akurasi Spesitifitas Sensitifitas 0 0.914634 0.905983 0.922481 1 0.918699 0.949153 0.890625 2 0.910569 0.955556 0.855856 3 0.930894 0.959016 0.903226 4 0.898374 0.918919 0.881481 Berdasarkan tabel diatas model deskriminan mendapatkan nilai rata-rata akurasi atau ketepatan akurasi model sebesar 91,46%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77%. Sedangkan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 89,07%. Selanjutnya dilakukan prediksi dengan model deskriminan default terhadap data pengujian. Gambar : Confusion Matriks Deskriminan Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,06%, terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 11 data yang diprediksi menipu namun kenyataanya tidak menipu (false positive). Gambar : ROC Curve Deskriminan
  • 12. 12 Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing. 3.6.Perbandingan Nilai Akurasi, Spesifitas, dan Sensitivitas Setelah mengetahui nilai akurasi, spesifitas dan sensitivitas dari masing-masing metode. Selanjutnya, akan dilakukan perbandingan nilai akurasi, spesifitas dan sensitivitas untuk masing-masing metode sehingga dapat diperoleh metode klasifikasi mana yang cocok untuk data Fraud Detection. Berikut merupakan tabel perbandingan nilai akurasi, spesifitas dan sensitivitas untuk setiap metode. Tabel : Perbadingan Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Akurasi Training (%) Akurasi Testing (%) Spesitifitas (%) Sensitifitas (%) Decision Tree 92,85 90,24 94,68 91,06 SVM 92,85 96,75 97,24 87,86 Deskriminan 91,46 91,06 93,77 89,07 Berdasarkan tabel diatas peneliti menarik kesimpulan bahwa metode yang paling cocok untuk memberikan hasil klasifikasi yang akurat bagi data Fraud Detection yaitu SVM. Hal tersebut bisa diketahui dari nilai akurasi dan sensitifitas yang paling tinggi dibandingkan dengan metode lain. 3.7.Perbandingan Metode Lain Dalam penelitian dilakukan klasifikasi dengan beberapa metode lainnya dengan hasil akurasi training sebagai berikut, Tabel : Perbadingan Metode Klasifikasi No Metode Akurasi Training (%) No Metode Akurasi Training (%) 1 AdaBoostClassifier 93 10 MLPClassifier 94 2 BaggingClassifier 93 11 GaussianProcessClassifier 92 3 ExtraTreesClassifier 92 12 LinearDiscriminantAnalysis 92 4 GradientBoostingClassifier 93 13 QuadraticDiscriminantAnalysis 91 5 RandomForestClassifier 94 14 BernoulliNB 91 6 DecisionTreeClassifier 90 15 GaussianNB 92 7 ExtraTreeClassifier 90 16 KNeighborsClassifier 93 8 LogisticRegression 94 17 LinearSVC 93 9 PassiveAggressiveClassifier 90 21 Perceptron 91
  • 13. 13 No Metode Akurasi Training (%) Metode Akurasi Training (%) 19 RidgeClassifier 92 22 NuSVC 91 20 SGDClassifier 93 23 XGBClassifier 94 Berdasarkan tabel diatas menunjukkan bebeapa hasil akurasi pada data training dengan parameter default, dimana semua metode diatas menghasilkan akurasi yang cukup bagus yaitu lebih dari sama dengan 90%. Dimana metode dengan akurasi tertinggi yaitu sebesar 94%, yang dimiliki oleh metode RandomForestClassifier, LogisticRegression, MLPClassifier, dan XGBClassifier. Sehingga dalam penelitian selanjutnya perlu untuk diketahui lebih lanjut metode2 tersebut, sehingga akurasi dari metode-metode tersebut dapat dilakukan optimasi yang lebih baik lagi. 4. PENUTUP 4.1. Kesimpulan Kesimpulan yang didapat pada laporan penelitian ini yaitu sebagai berikut. 1. Hasil preprocessing data dapat diketahui data tidak didapatkan missing value, sedangkan untuk outlier tidak dilakukan karena dalam analisis data mining tidak dibutuhkan asumsi statistika seperti biasa. 2. Pada karakteristik data ditemukan adanya beberapa variabel yang memiliki korelasi tinggi hanya disekitar 0,4 untuk korelasi positif dan dibawah -0,5 untuk korelasi negatif. 3. Variabel respon memiliki jumlah obeservasi kelas yang imbalanced, setelah dilakukan undersampling kelas menjadi balanced, masing-masing terdiri dari 492 obeservasi untuk kelas no fraud dan fraud. 4. Feature selection dengan cross validation score menunjukkan bahwa pada 11 feature bernilai konstan, sehingga digunakan 11 feature untuk pengamatan klasifikasi fraud detection ini, yaitu V7, V2, V4, V6, V1, V10, V18, V9, V7, V4, dan V26. 5. Hasil klasifikasi menggunakan Decision Tree memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68% dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 91,06%. 6. Hasil klasifikasi menggunakan SVM linear memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 87,86%. Hasil klasifikasi menggunakan SVM non linear memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,76%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan
  • 14. 14 (Kelas = 0) sebesar 93,65%. dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 91,92%. Tuning SVM didapatkan parameter dengan akurasi terbaik, dengan kernel (linear) dan C (1). 7. Hasil klasifikasi menggunakan Deskriminan memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi model sebesar 91,46%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77% dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 89,07%. 8. Diantara ketiga metode yang paling cocok untuk memberikan hasil klasifikasi yang akurat bagi data Credit Card Fraud Detection yaitu SVM dengan tuning parameter. Hal tersebut bisa diketahui dari nilai akurasi testing yang paling tinggi diantara beberapa metode lainnya yaitu menyentuh nilai 96,75%. Pada pengujian ini dilakukan pengujian dengan beberapa metode lainnya selain ketiga metode diatas, dimana didapatkan hasil Random Forest Classifier, Logistic Regression, MLP Classifier, dan XGB Classifier yang memiliki nilai akurasi data training 94%. 4.2. Saran Pada bagian akhir untuk hasil penelitian menunjukkan bahwa untuk penelitian selanjutnya perlu dilakukan pengujian lebih lanjut dengan metode-metode lain selain ketiga metode yang sudah dilakukan analisis lebih lanjut diatas, untuk mengetahui metode yang paling cocok untuk menganalisis data credit card fraud detection. Juga perlu untuk dilakukan tuning parameter untuk mendapatkan metode yang terbaik sehingga mendapatkan parameter dengan akurasi terbaik. Pada akhirnya pendeteksian penipuan pada transaksi kartu kredit dengan permbelajaran mesin dapat diaplikasikan.