1. 1
Abstrak
Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan kecurangan finansial
meningkat secara drastis. Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang
berukuran besar. Terdapat banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi
untuk melakukan permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM),
Decision Tree, dan Deskriminan. Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan
untuk melakukan permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem
pendukung pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi
kartu kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode
klasifikasi. Dalam penelitian ini didapatkan metode sebagai metode terbaik yaitu Support Vector Machine.
Keywords : Credit Card, Decision Tree, Deskriminan, Fraud Detection, Klasifikasi, SVM
1. PENDAHULUAN
1.1 Latar Belakang
Perkembangan teknologi modern dan cara komunikasi global yang sangat tinggi menyebabkan
kecurangan finansial meningkat secara drastis. Kecurangan dalam pembayaran elektronik digolongkan dalam
tindakan ilegal yang dapat merugikan pihak perbankan ataupun nasabah. Metode keamanan pada transaksi
kartu kredit terus dikembangkan guna mengurangi kecurangan dan penipuan yang terjadi. Metode machine
learning data mining merupakan salah satu yang dapat membantu dalam pendeteksian kecurangan yang terjadi
dengan mengenali pola tranksaksi (pattern).
Data mining adalah proses untuk mencari informasi yang berguna dari sebuah dataset yang berukuran
besar. Data mining adalah pengekstrakan data berukuran besar untuk menemukan keteraturan, pola, atau
hubungan untuk diolah menjadi informasi yang dapat digunakan dalam pengambilan keputusan. Terdapat
banyak metode pada data mining, pada penelitian ini akan digunakan tiga metode klasifikasi untuk melakukan
permodelan fraud detection pada kartu kredit, yaitu digunakan metode support vector machine (SVM),
Decision Tree, dan Deskriminan.
Support vector machine (SVM) adalah salah satu metode yang populer yang sering digunakan dalam
permasalahan klasifikasi. SVM adalah metode yang berakar dari teori pembelajaran statistik. Cara kerja SVM
adalah mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas data pada input space.
Selain metode SVM, salah satu metode atau teknik Data Mining dalam melakukan fraud detection
yang digunakan adalah Decision Tree. Decision Tree memiliki beberapa kelebihan yaitu, membutuhkan
sedikit persiapan data, mampu mengolah data numerik maupun kategorikal, menggunakan mode whitebox,
Credit Card Fraud Detection Menggunakan Metode
Klasifikasi
Adam Fahmi Fandisyah dan Ni Luh Putu Satyaning Pradnya Paramita
Departemen Statistika, Fakultas Matematika, Komputasi, dan Sains Data
Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: pradnya@statistika.its.ac.id
2. 2
memungkinkan untuk memvalidasi model dengan menggunakan uji statistik, dan menghasilkan performansi
yang baik jika menggunakan dataset yang besar.
Selanjutnya untuk memperoleh klasifikasi dari fraud detection dapat dilakukan prediksi dengan
dilakukannya penerapan ilmu statistika yang dapat mengklasifikasikan suatu individu atau objek ke dalam
suatu kelompok yang telah ditentukan sebelumnya berdasarkan variabel-variabel bebasnya adalah analisis
diskriminan (Dillon dan Goldstein, 1984). Berdasarkan analisis statistik untuk melakukan analisis diskriminan
linier, terdapat dua asumsi yang harus terpenuhi yaitu data kelompok berdistribusi normal multivariat dan
pengujian kesamaan varian kovarian. Skor diskriminan dan cut off value akan diperoleh setelah terbentuknya
fungsi diskriminan linier terlebih dahulu. Dilanjutkan dengan menggunakan APER untuk mengetahui tingkat
kesalahan pengklasifikasian yang diperoleh analisis diskriminan linier dalam bentuk persentase. Namun dalam
menganalisis data mining tidak diperlukan asumsi-asumsi seperti halnya pada analisis statistik.
Penelitian yang berkaitan dengan kecurangan kartu kredit juga sudah pernah dilakukan oleh penelitian
sebelumnya pada dataset yang tidak seimbang dan anonymous. Pendeteksian yang diusulkan adalah dengan
menemukan pola transaksi legal dan fraud untuk setiap pelanggan dengan menggunakan frequensi itemset
mining. Metode yang diusulkan dapat berjalan dengan baik dan dapat menangani ketidakseimbangan kelas.
Database pola penipuan dan transaksi legal dibuat terpisah, dan update data antara keduannya tidak sama,
sehingga dapat menggurangi keakurasian dalam pendeteksian. Oleh karena itu dibuat update secara berkala
baik sekali dalam tiga bulan atau enam bulan atau bahkan setiap kali terjadi transaksi.
Dalam penelitian ini, dengan merujuk penelitian-penelitian sebelumnya bertujuan untuk melakukan
permodelan machine learning pada data mining dengan akurasi terbaik dalam perancangan sistem pendukung
pengambilan keputusan yang membantu pihak perbankan dalam mengenali kecurangan pada transaksi kartu
kredit, dengan menggunakan metode SVM, Decision Tree, dan Deskriminan yang termasuk dalam metode
klasifikasi. Diharapkan metode SVM, Decision Tree, dan Deskriminan dapat mendeteksi kecurangan pada
transaksi kartu kredit dengan baik. Perancangan sistem ini disusun untuk dapat menggambarkan implementasi
model terbaik diantara ketiga metode dalam sistem pendukung pengambilan keputusan (SPPK) untuk pihak
perbankan dalam proses transaksi kartu kredit. SPPK dalam hal ini digunakan sebagai verifikasi setiap terjadi
transaksi kartu kredit. Sistem ini akan membantu pihak perbankan dalam mengetahui indikasi kecurangan
yang terjadi, sehingga dapat melakukan tindakan cepat, seperti melakukan pemberhentian transaksi atau
pemblokiran sementara.
2. METODOLOGI PENELITIAN
2.1. Sumber Data
Data yang digunakan pada praktikum ini adalah data sekunder yang diperoleh dari Kaggle yang berjudul
Credit Card Fraud Detection Kaggle yang diunduh pada Selasa, 14 Mei 2019 pada pukul 18.10 WIB.
3. 3
2.2. Variabel Penelitian
Variabel penelitian yang digunakan dalam penelitian ini adalah sebagai berikut.
Tabel : Variabel Penelitian
Variabel Keterangan Skala Pengukuran
V1 - Interval
V2 - Interval
V3 - Interval
⋮ ⋮ ⋮
V28 - Interval
V29 Amount Rasio
Y Class Nominal
2.3. Struktur Data
Struktur data yang digunakan adalah sebagai berikut.
Tabel : Struktur Data
Pengamatan ke-i Vi1 Vi2 … Vi29
1 V1,1 V1,2 ... V1,29
2 V2,1 V2,2 ... V2,29
.
.
.
.
.
.
.
.
.
. .
. .
. .
284807 V284807,1 V284807,2 ... V284807,29
2.4. Langkah Analisis
Langkah analisis yang dilakukan pada penelitian ini adalah sebagaiberikut.
1. Mengumpulkan data.
2. Melakukan preprocessing.
3. Menganalisis karakteristik data.
4. Melakukan undersampling untuk mengatasi imbalanced pada respon.
5. Melakukan feature selection dan feature importance.
6. Melakukan analisis klasifikasi pada training data.
7. Melakukan analisis klasifikasi pada testing data.
8. Melakukan interpretasi dan menarik kesimpulan.
4. 4
3. ANALISIS DAN PEMBAHASAN
3.1.Preprocessing
Preprocessing dilakukan dengan deteksi missing value serta outlier. Tidak ditemukan data missing
value untuk setiap variabel penelitian. Selanjutnya untuk mendeteksi adanya outlier dapat dilakukan dengan
visualisasi boxplot. Namun untuk outlier dalam penelitian ini tidak dilakukan, karena dalam melakukan
analisis data mining tidak diperlukan asumsi-asumsi seperti halnya metode statistika biasanya.
3.2. Karakteristik Data
Dalam karakteristik data untuk data credit card fraud detection ingin diketahui korelasi antar variabel
untuk mengetahui kemungkinan adanya multikolearitas,
Gambar : Correlogram
Dari hasil visualisasi correlogram diatas dapat diketahui ada beberapa variabel yang memiliki korelasi
positif tertinggi dalam penelitian ini, yaitu variabel amount dan V7 yang memiliki korelasi disekitar angka
0,4. Untuk hasil korelasi lainnya antar variabel dapat dilihat pada gambar diatas. Dengan menghilangkan
5. 5
variabel yang memiliki korelasi tinggi meminimalisir adanya multikolinearitas dan memiliki kemungkinan
untuk meningkatkan hasil akurasi dalam analisis.
3.3.Mengatasi Imbalanced
Gambar : Imbalance Data
Prosentase normal transaction (0) sebesar 99,83%, sedangkan prosentase fraud transaction hanya
sebesar 0,17%. Sehingga dikatakan data ini imbalanced dan perlu dilakukan penyeimbangan data agar tidak
terjadi over fitting terhadap model.
Gambar : Undersample Data
Gambar diatas menunjukkan data telah dilakukan penyeimbangan kelas data pada variabel respon. Pada
penelitian ini digunakan metode under sampling karena dianggap dapat mengatasi over fitting dengan lebih
baik dibandingakan metode lainya pada penelitian fraud detection sebelumnya. Metode under sampling
dilakukan dengan cara melakukan penyeimbangan kelas mayoritas terhadap kelas minoritas, dengan
melakukan sampling pada kelas data mayoritas, sehingga jumlah antara kedua kelas menjadi seimbang, yang
mana data setelah dilakukan under sampling memiliki jumlah antara kedua kelas yang seimbang yaitu masing-
masing berjumlah 492 data.
Gambar : Plot Imbalance Data vs Under Sampling Data
6. 6
Gambar diatas merupakan visualisasi data original dibandingkan dengan data under sample yang telah
dilakukan tranformasi dengan menggunakan metode PCA. Dimana pada data original jika dilakukan
permodelan memiliki kemungkinan adanya overfitting terhadap hasil prediksi. Sehingga beberapa hasil
tersebut menunjukkan bahwa adanya imbalance data akan mengganggu terhadap hasil akhir model dan
prediksi, karena model akan sulit dalam membedakan kelas.
3.4. Feature Selection dan Feature Importance
Gambar : Jumlah Features vs Cross Validation Score
Visualisasi gambar diatas menunjukkan bahwa pada jumlah variabel ke 11 terjadi penurunan nilai cross
validation dan menunjukkan adanya kecenderungan nilai cross validation yang konstan untuk jumlah variabel
selanjutnya. Sehingga dalam penelitian untuk melakukan permodelan digunakan 11 variabel untuk
mendapatkan akurasi terbaik.
Gambar : Feature Importance
Selanjutnya pada feature importance metode didapatkan 11 variabel yang diperingkat terhadap variabel yang
memberi kontribusi terbasar. Didapatkan variabel-variabel terpenting sebagai prediktor tersebut yaitu sebagai
berikut : V7, V2, V4, V6, V1, V10, V18, V9, V7, V4, dan V26.
3.5. Metode Klasifikasi Machine Learning
Setelah data imbalance diatasi dengan menggunakan undersampling serta dilakukan feature selection
dan feature importance. Maka selanjutnya dilakukan pengklasifikasian untuk mendeksi kecurangan pada kartu
kredit.
3.5.1.Decision Tree
Metode decision tree dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi,
spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan
sensitifitas dari data Fraud Detection.
7. 7
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree
K Akurasi Spesitifitas Sensitifitas
0 0.934959 0.926829 0.943089
1 0.918699 0.968254 0.866667
2 0.934959 0.966387 0.905512
3 0.926829 0.906780 0.945312
4 0.926829 0.965517 0.892308
Berdasarkan tabel diatas model decision tree didapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 91,06%. Selanjutnya dilakukan prediksi dengan model decision tree default terhadap data
pengujian.
Gambar : Confusion Matriks Decision Tree
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 90,24%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 13 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : Decision Tree Graph
Gambar tersebut menunjukkan bahwa node paling tinggi yaitu V14 sebagai root yang bercabang menjadi
True jika kondisi V12 ≤ -0,381, di lain sisi False jika kondisi V4 ≤ 0,753. Hasil lebih lengkap dapat dilihat
pada visualisasi diatas.
8. 8
Gambar : ROC Curve Decision Tree
Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika mendekati
garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva mendekati titik
0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu jika ingin
membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan luas di
bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva berwarna
biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
3.5.2.Support Vector Machine Classification
3.5.2.1. SVM Linear
Metode support vector machine menggunakan kernel linear dengan stratified K-Fold cross validation
(K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil
nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection.
Tabel 4.5 Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Linier
K Akurasi Spesitifitas Sensitifitas
0 0.939024 0.965217 0.916031
1 0.930894 1.000.000 0.874074
2 0.934959 0.959016 0.911290
3 0.967480 0.992366 0.939130
4 0.939024 0.953846 0.922414
Berdasarkan tabel diatas model SVM Linear didapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 87,86%. Selanjutnya dilakukan prediksi dengan model SVM Linear default terhadap data
pengujian.
9. 9
Gambar : Confusion Matriks SVM Linear
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,87%,
terdapat 15 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 5 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
3.5.2.2. SVM Non Linear
Metode support vector machine menggunakan kernel rbf dengan stratified K-Fold cross validation
(K=5), maka didapatkan akurasi, spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil
nilai akurasi, spesifisitas, dan sensitifitas dari data Fraud Detection.
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode SVM Non Linier
K Akurasi Spesitifitas Sensitifitas
0 0.951220 0.947368 0.955752
1 0.918699 0.926230 0.911290
2 0.918699 0.938053 0.902256
3 0.926829 0.939850 0.911504
4 0.922764 0.931034 0.915385
Berdasarkan tabel diatas model SVM rbf didapatkan nilai rata-rata akurasi atau ketepatan akurasi model
sebesar 92,76%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi kartu
kredit yang tidak melakukan penipuan (Kelas = 0) sebesar 93,65%. Sedangkan nilai rata-rata sensitivitas atau
ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan penipuan (Kelas = 1)
sebesar 91,92%. Selanjutnya dilakukan prediksi dengan model SVM rbf default terhadap data pengujian.
Gambar : Confusion Matriks SVM Non Linear
10. 10
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 92,28%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 8 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
3.5.2.3. Tuning Parameter SVM
Tuning parameter dilakukan untuk mendapatkan parameter dengan akurasi terbaik, dimana dari hasil
tuning parameter dalam penelitian ini didapatkan model SVM dengan parameter sebagai berikut :
a. Kernel = Linear
b. C = 1
Dimana didapatkan akurasi model dalam data training sebesar 92,82%. Selanjutnya dilakukan prediksi
terhadap data testing untuk menguji kebaikan dari model.
Gambar : Confusion Matriks SVM Tuning Parameter
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 96,75%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan tidak didapatkan
data yang diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : ROC Curve SVM Tuning Parameter
Gambar diatas menunjukkan kinerja model klasifikasi adalah, diamana kurva dikatakan jelek jika
mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva
mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu
jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan
luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva
berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,97. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
11. 11
3.5.3.Deskriminan
Metode deskriminan dengan stratified K-Fold cross validation (K=5), maka didapatkan akurasi,
spesitifitas dan sensitivitas dari klasifikasi tersebut. Berikut merupakan hasil nilai akurasi, spesifisitas, dan
sensitifitas dari data Fraud Detection. Metode deskriminan yang digunakan dengan menggunakan kuadratik
deskriminan analisis.
Tabel : Nilai Akurasi, Spesitifitas, dan Sensitifitas Metode Decision Tree
K Akurasi Spesitifitas Sensitifitas
0 0.914634 0.905983 0.922481
1 0.918699 0.949153 0.890625
2 0.910569 0.955556 0.855856
3 0.930894 0.959016 0.903226
4 0.898374 0.918919 0.881481
Berdasarkan tabel diatas model deskriminan mendapatkan nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 91,46%. Nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan transaksi
kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77%. Sedangkan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan kecurangan
(Kelas = 1) sebesar 89,07%. Selanjutnya dilakukan prediksi dengan model deskriminan default terhadap data
pengujian.
Gambar : Confusion Matriks Deskriminan
Gambar diatas menunjukkan hasil visualisasi confusion matriks dengan akurasi testing sebesar 91,06%,
terdapat 11 data diprediksi tidak menipu namun kenyataanya menipu (false negative) dan 11 data yang
diprediksi menipu namun kenyataanya tidak menipu (false positive).
Gambar : ROC Curve Deskriminan
12. 12
Gambar diatas menunjukkan kinerja model klasifikasi adalah, dimana kurva dikatakan jelek jika
mendekati garis baseline atau garis yang melintang dari titik 0,0, dan kurva dikatakan bagus jika kurva
mendekati titik 0,1. Sehingga dapat dikatakan kurva tersebut memiliki kinerja yang cukup bagus. Selain itu
jika ingin membandingkan nilai kinerja dalam bentuk angka maka dapat dilakukan dengan membandingkan
luas di bawah kurva atau Area Under Curve (AUC), dari gambar dapat dapat disimpulkan luas area kurva
berwarna biru cukup baik yang mana memiliki nilai AUC sebesar 0,90. Nilai AUC merupakan nilai yang dapat
digunakan untuk membandingkan kinerja model pada data in sampel menggunakan akurasi pada data testing.
3.6.Perbandingan Nilai Akurasi, Spesifitas, dan Sensitivitas
Setelah mengetahui nilai akurasi, spesifitas dan sensitivitas dari masing-masing metode. Selanjutnya,
akan dilakukan perbandingan nilai akurasi, spesifitas dan sensitivitas untuk masing-masing metode sehingga
dapat diperoleh metode klasifikasi mana yang cocok untuk data Fraud Detection. Berikut merupakan tabel
perbandingan nilai akurasi, spesifitas dan sensitivitas untuk setiap metode.
Tabel : Perbadingan Nilai Akurasi, Spesitifitas, dan Sensitifitas
Metode Akurasi Training (%) Akurasi Testing (%) Spesitifitas (%) Sensitifitas (%)
Decision Tree 92,85 90,24 94,68 91,06
SVM 92,85 96,75 97,24 87,86
Deskriminan 91,46 91,06 93,77 89,07
Berdasarkan tabel diatas peneliti menarik kesimpulan bahwa metode yang paling cocok untuk
memberikan hasil klasifikasi yang akurat bagi data Fraud Detection yaitu SVM. Hal tersebut bisa diketahui
dari nilai akurasi dan sensitifitas yang paling tinggi dibandingkan dengan metode lain.
3.7.Perbandingan Metode Lain
Dalam penelitian dilakukan klasifikasi dengan beberapa metode lainnya dengan hasil akurasi training
sebagai berikut,
Tabel : Perbadingan Metode Klasifikasi
No Metode
Akurasi Training
(%)
No Metode
Akurasi Training
(%)
1 AdaBoostClassifier 93 10 MLPClassifier 94
2 BaggingClassifier 93 11 GaussianProcessClassifier 92
3 ExtraTreesClassifier 92 12 LinearDiscriminantAnalysis 92
4 GradientBoostingClassifier 93 13 QuadraticDiscriminantAnalysis 91
5 RandomForestClassifier 94 14 BernoulliNB 91
6 DecisionTreeClassifier 90 15 GaussianNB 92
7 ExtraTreeClassifier 90 16 KNeighborsClassifier 93
8 LogisticRegression 94 17 LinearSVC 93
9 PassiveAggressiveClassifier 90 21 Perceptron 91
13. 13
No Metode
Akurasi Training
(%)
Metode
Akurasi Training
(%)
19 RidgeClassifier 92 22 NuSVC 91
20 SGDClassifier 93 23 XGBClassifier 94
Berdasarkan tabel diatas menunjukkan bebeapa hasil akurasi pada data training dengan parameter
default, dimana semua metode diatas menghasilkan akurasi yang cukup bagus yaitu lebih dari sama dengan
90%. Dimana metode dengan akurasi tertinggi yaitu sebesar 94%, yang dimiliki oleh metode
RandomForestClassifier, LogisticRegression, MLPClassifier, dan XGBClassifier. Sehingga dalam penelitian
selanjutnya perlu untuk diketahui lebih lanjut metode2 tersebut, sehingga akurasi dari metode-metode tersebut
dapat dilakukan optimasi yang lebih baik lagi.
4. PENUTUP
4.1. Kesimpulan
Kesimpulan yang didapat pada laporan penelitian ini yaitu sebagai berikut.
1. Hasil preprocessing data dapat diketahui data tidak didapatkan missing value, sedangkan untuk outlier
tidak dilakukan karena dalam analisis data mining tidak dibutuhkan asumsi statistika seperti biasa.
2. Pada karakteristik data ditemukan adanya beberapa variabel yang memiliki korelasi tinggi hanya disekitar
0,4 untuk korelasi positif dan dibawah -0,5 untuk korelasi negatif.
3. Variabel respon memiliki jumlah obeservasi kelas yang imbalanced, setelah dilakukan undersampling
kelas menjadi balanced, masing-masing terdiri dari 492 obeservasi untuk kelas no fraud dan fraud.
4. Feature selection dengan cross validation score menunjukkan bahwa pada 11 feature bernilai konstan,
sehingga digunakan 11 feature untuk pengamatan klasifikasi fraud detection ini, yaitu V7, V2, V4, V6,
V1, V10, V18, V9, V7, V4, dan V26.
5. Hasil klasifikasi menggunakan Decision Tree memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 94,68% dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 91,06%.
6. Hasil klasifikasi menggunakan SVM linear memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 92,85%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 97,24%. dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 87,86%. Hasil klasifikasi menggunakan SVM non linear memiliki nilai
nilai rata-rata akurasi atau ketepatan akurasi model sebesar 92,76%, nilai rata-rata spesifisitas atau
ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang tidak melakukan kecurangan
14. 14
(Kelas = 0) sebesar 93,65%. dan nilai rata-rata sensitivitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang melakukan kecurangan (Kelas = 1) sebesar 91,92%. Tuning SVM didapatkan
parameter dengan akurasi terbaik, dengan kernel (linear) dan C (1).
7. Hasil klasifikasi menggunakan Deskriminan memiliki nilai nilai rata-rata akurasi atau ketepatan akurasi
model sebesar 91,46%, nilai rata-rata spesifisitas atau ketepatan model dalam mengklasifikasikan
transaksi kartu kredit yang tidak melakukan kecurangan (Kelas = 0) sebesar 93,77% dan nilai rata-rata
sensitivitas atau ketepatan model dalam mengklasifikasikan transaksi kartu kredit yang melakukan
kecurangan (Kelas = 1) sebesar 89,07%.
8. Diantara ketiga metode yang paling cocok untuk memberikan hasil klasifikasi yang akurat bagi data
Credit Card Fraud Detection yaitu SVM dengan tuning parameter. Hal tersebut bisa diketahui dari nilai
akurasi testing yang paling tinggi diantara beberapa metode lainnya yaitu menyentuh nilai 96,75%. Pada
pengujian ini dilakukan pengujian dengan beberapa metode lainnya selain ketiga metode diatas, dimana
didapatkan hasil Random Forest Classifier, Logistic Regression, MLP Classifier, dan XGB Classifier
yang memiliki nilai akurasi data training 94%.
4.2. Saran
Pada bagian akhir untuk hasil penelitian menunjukkan bahwa untuk penelitian selanjutnya perlu
dilakukan pengujian lebih lanjut dengan metode-metode lain selain ketiga metode yang sudah dilakukan
analisis lebih lanjut diatas, untuk mengetahui metode yang paling cocok untuk menganalisis data credit card
fraud detection. Juga perlu untuk dilakukan tuning parameter untuk mendapatkan metode yang terbaik
sehingga mendapatkan parameter dengan akurasi terbaik. Pada akhirnya pendeteksian penipuan pada transaksi
kartu kredit dengan permbelajaran mesin dapat diaplikasikan.