Data mining merupakan proses Knowledge Discovery in Database yang melibatkan identifikasi data, validasi, kebaruan, dan pemahaman tentang pola data yang besar dan kompleks. Salah satu bidang yang dapat menerapkan analisis dengan basis data mining adalah pertanian. Dalam kasus nyata di bidang pertanian, sangat penting untuk mengetahui klasifikasi dari jamur, apakah tergolong beracun atau aman dikonsumsi. Oleh karena itu, penelitian ini mengangkat kasus tersebut untuk dianalisis dengan menerapkan Data Mining Technique untuk mengevaluasi ketepatan akurasi klasifikasi. Data dalam penelitian ini diperoleh dari website UCI Machine Learning, yang berjudul Mushroom Data Set. Output dari penelitian ini adalah menentukan metode klasifikasi terbaik yang menghasilkan akurasi prediksi tertinggi.
Penerapan data mining terhadap klasifikasi mushroom data set
1. FINAL PROJECT: DATA MINING
PENERAPAN DATA MINING TECHNIQUE SEBAGAI EVALUASI KETEPATAN
AKURASI TERHADAP KLASIFIKASI MUSHROOM DATASET
Rahayu Prihatini Saputri
06211540000040
Departemen Statistika
Institut Teknologi Sepuluh Nopember
4. Proses Knowledge Discovery in Database (KDD) yang melibatkan
identifikasi data, validasi, kebaruan, dan pemahaman tentang
pola data yang besar dan kompleks.
Deskripsi kelas/konsep, analisis asosiasi, analisis klaster, dan
KLASIFIKASI atau PREDIKSI
metode supervised learning
memetakan data ke suatu grup
yang telah ditentukan sebelumnya
dapat diterapkan ke berbagai bidang, termasuk
pertanian
KLASIFIKASI
Jamur tiram (gilled mushroom)
dari famili Agaricus dan Lepiota
BERACUN atau AMAN
DIKONSUMSI ?
*berdasarkan karakteristik fisik
6. MUSHROOM DATASET
UCI MACHINE LEARNING
PREDIKTOR (ATRIBUT)
Cap shape
Cap surface
Cap color
Bruises
Odor
Gill attachment
Gill spacing
Gill size
Gill color
Stalk shape
Stalk root
Stalk surface above ring
Stalk surface below ring
Stalk color above ring
Stalk color below ring
Veil type
Veil color
Ring number
Ring type
Spore print color
Population
Habitat
RESPON
Class
Poisonous (beracun)
Edible (aman dikonsumsi)
NOTE:
Seluruh variabel memiliki skala data
nominal
7. Mengunduh Mushroom Dataset melalui website UCI
Machine Learning
Menarik kesimpulan dan saran
LANGKAH ANALISIS
Software Python
Preprocessing data: Imputasi missing value & Label
encoder
Memisahkan data antara prediktor (atribut) dengan
respon (kelas klasifikasi)
Seleksi atribut berdasarkan kontribusi terbesar (feature
selection)
Eksplorasi data
Menerapan Hold Out & Cross Validation sebagai
metode pembagian data training-testing dalam
pengklasifikasian Mushroom Dataset
Membandingkan nilai akurasi antara penerapan Hold
Out & Cross Validation
9. P
R
E
P
R
O
C
E
S
S
I
N
G
MISSING VALUE
Missing value sebanyak 2480 observasi
pada variabel Stalk Root
Imputasi missing value dengan modus
berdasarkan kelas pengklasifikasian
jamur
LABEL ENCODER
Mengubah tipe data string menjadi integer
10. FEATURE SELECTION
Dari 22 variabel, hanya terpilih 10
variabel yang berkontribusi terhadap
pembentukan klasifikasi
11. EKSPLORASI DATA
Variabel Modus Keterangan Frekuensi
Bruises f No 4748
Odor n None 3528
Gill spacing c Close 6812
Gill size b Broad 5612
Gill color b Buff 1728
Stalk shape t Tapering 4608
Stalk root b Bulbous 6256
Ring type p Pendant 3698
Spore print color w White 2388
Population v Several 4040
Class (Respon) e Edible 4208
Klasifikasi dalam Mushroom Data Set didominasi oleh kelas
edible
Data observasi tergolong balance
12. CROSS VALIDATION
KLASIFIKASI
HOLD OUT
2/3 training, 1/3 testing k=10
Klasifikasi dengan metode kNN, Tuning (Decision Tree),
NN, dan Extra Trees Classifier akurat sebesar 100%.
Pembangian data training-testing memiliki kemungkinan tidak
representatif
Klasifikasi akurat sebesar 100% dengan metode Tuning
(Decision Tree), NN, dan Extra Trees Classifier.
13. PERBANDINGAN AKURASI:
HOLD OUT VS CROSS VALIDATION
Metode klasifikasi Decision Tree (Model Tuning), Neural Network (NN), dan Extra Trees Classifier
merupakan metode terbaik untuk mengklasifikasikan Mushroom Data Set, baik dengan
menerapkan CV dan Hold Out pada proses pembagian data.
15. Analisis klasifikasi terhadap Mushroom Data Set menghasilkan nilai akurasi tertinggi
apabila menggunakan metode klasifikasi Decision Tree (Model Tuning), Neural
Network (NN), dan Extra Trees Classifier, baik pembagian data berbasis Hold Out
atau CV.
Alangkah lebih baik jika pembagian data menerapkan metode Cross Validation
karena dapat menghindari adanya tumpang tindih pada data testing.