Penerapan data mining terhadap klasifikasi mushroom data set

•

0 likes•325 views

Data mining merupakan proses Knowledge Discovery in Database yang melibatkan identifikasi data, validasi, kebaruan, dan pemahaman tentang pola data yang besar dan kompleks. Salah satu bidang yang dapat menerapkan analisis dengan basis data mining adalah pertanian. Dalam kasus nyata di bidang pertanian, sangat penting untuk mengetahui klasifikasi dari jamur, apakah tergolong beracun atau aman dikonsumsi. Oleh karena itu, penelitian ini mengangkat kasus tersebut untuk dianalisis dengan menerapkan Data Mining Technique untuk mengevaluasi ketepatan akurasi klasifikasi. Data dalam penelitian ini diperoleh dari website UCI Machine Learning, yang berjudul Mushroom Data Set. Output dari penelitian ini adalah menentukan metode klasifikasi terbaik yang menghasilkan akurasi prediksi tertinggi.

Data & Analytics

FINAL PROJECT: DATA MINING
PENERAPAN DATA MINING TECHNIQUE SEBAGAI EVALUASI KETEPATAN
AKURASI TERHADAP KLASIFIKASI MUSHROOM DATASET
Rahayu Prihatini Saputri
06211540000040
Departemen Statistika
Institut Teknologi Sepuluh Nopember

OUTLINE
1. PENDAHULUAN
2. METODOLOGI PENELITIAN
3. ANALISIS DAN PEMBAHASAN
4. KESIMPULAN DAN SARAN

Proses Knowledge Discovery in Database (KDD) yang melibatkan
identifikasi data, validasi, kebaruan, dan pemahaman tentang
pola data yang besar dan kompleks.
Deskripsi kelas/konsep, analisis asosiasi, analisis klaster, dan
KLASIFIKASI atau PREDIKSI
metode supervised learning
memetakan data ke suatu grup
yang telah ditentukan sebelumnya
dapat diterapkan ke berbagai bidang, termasuk
pertanian
KLASIFIKASI
Jamur tiram (gilled mushroom)
dari famili Agaricus dan Lepiota
BERACUN atau AMAN
DIKONSUMSI ?
*berdasarkan karakteristik fisik

MUSHROOM DATASET
UCI MACHINE LEARNING
PREDIKTOR (ATRIBUT)
Cap shape
Cap surface
Cap color
Bruises
Odor
Gill attachment
Gill spacing
Gill size
Gill color
Stalk shape
Stalk root
Stalk surface above ring
Stalk surface below ring
Stalk color above ring
Stalk color below ring
Veil type
Veil color
Ring number
Ring type
Spore print color
Population
Habitat
RESPON
Class
Poisonous (beracun)
Edible (aman dikonsumsi)
NOTE:
Seluruh variabel memiliki skala data
nominal

Mengunduh Mushroom Dataset melalui website UCI
Machine Learning
Menarik kesimpulan dan saran
LANGKAH ANALISIS
Software Python
Preprocessing data: Imputasi missing value & Label
encoder
Memisahkan data antara prediktor (atribut) dengan
respon (kelas klasifikasi)
Seleksi atribut berdasarkan kontribusi terbesar (feature
selection)
Eksplorasi data
Menerapan Hold Out & Cross Validation sebagai
metode pembagian data training-testing dalam
pengklasifikasian Mushroom Dataset
Membandingkan nilai akurasi antara penerapan Hold
Out & Cross Validation

P
R
E
P
R
O
C
E
S
S
I
N
G
MISSING VALUE
Missing value sebanyak 2480 observasi
pada variabel Stalk Root
Imputasi missing value dengan modus
berdasarkan kelas pengklasifikasian
jamur
LABEL ENCODER
Mengubah tipe data string menjadi integer

FEATURE SELECTION
Dari 22 variabel, hanya terpilih 10
variabel yang berkontribusi terhadap
pembentukan klasifikasi

EKSPLORASI DATA
Variabel Modus Keterangan Frekuensi
Bruises f No 4748
Odor n None 3528
Gill spacing c Close 6812
Gill size b Broad 5612
Gill color b Buff 1728
Stalk shape t Tapering 4608
Stalk root b Bulbous 6256
Ring type p Pendant 3698
Spore print color w White 2388
Population v Several 4040
Class (Respon) e Edible 4208
Klasifikasi dalam Mushroom Data Set didominasi oleh kelas
edible
Data observasi tergolong balance

CROSS VALIDATION
KLASIFIKASI
HOLD OUT
2/3 training, 1/3 testing k=10
Klasifikasi dengan metode kNN, Tuning (Decision Tree),
NN, dan Extra Trees Classifier akurat sebesar 100%.
Pembangian data training-testing memiliki kemungkinan tidak
representatif
Klasifikasi akurat sebesar 100% dengan metode Tuning
(Decision Tree), NN, dan Extra Trees Classifier.

PERBANDINGAN AKURASI:
HOLD OUT VS CROSS VALIDATION
Metode klasifikasi Decision Tree (Model Tuning), Neural Network (NN), dan Extra Trees Classifier
merupakan metode terbaik untuk mengklasifikasikan Mushroom Data Set, baik dengan
menerapkan CV dan Hold Out pada proses pembagian data.

Analisis klasifikasi terhadap Mushroom Data Set menghasilkan nilai akurasi tertinggi
apabila menggunakan metode klasifikasi Decision Tree (Model Tuning), Neural
Network (NN), dan Extra Trees Classifier, baik pembagian data berbasis Hold Out
atau CV.
Alangkah lebih baik jika pembagian data menerapkan metode Cross Validation
karena dapat menghindari adanya tumpang tindih pada data testing.

Penerapan data mining terhadap klasifikasi mushroom data set

Recently uploaded

15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdfTaufikTito

Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Riyadh +966572737505 get cytotec

undang undang penataan ruang daerah kabupaten bogorritch4

Keracunan bahan kimia,ektasi,opiat,makanan.pptDIGGIVIO2

Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MAmasqiqu340

Salinan PPT TATA BAHASA Bahasa Indonesiasdn4mangkujayan

SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).pptEndangNingsih7

materi konsep dan Model TRIASE Bencana.pptxZullaiqahNurhali2

PPT SIDANG UJIAN KOMPREHENSIF KUALITATIFFPMJ604FIKRIRIANDRA

RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptxmirzagozali2

Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptxjannenapitupulu18

Hasil wawancara usaha lumpia basah tugas PKWUDina396887

contoh judul tesis untuk mahasiswa pascasarjanaNhasrul

514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptxAbidinMaulana

DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.pptmuhammadarsyad77

Abortion pills in Jeddah+966543202731/ buy cytotecAbortion pills in Riyadh +966572737505 get cytotec

Diac & Triac untuk memenuhi tugas komponenBangMahar

Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdfPemdes Wonoyoso

PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppTYudaPerwira5

Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerjaIniiiHeru

Recently uploaded (20)

15_Contoh_Surat_Lamaran_Kerja_Lengkap_de.pdf

Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...

undang undang penataan ruang daerah kabupaten bogor

Keracunan bahan kimia,ektasi,opiat,makanan.ppt

Materi Pajak Untuk BOS tahun 2024 untuk madrasah MI,MTS, dan MA

Salinan PPT TATA BAHASA Bahasa Indonesia

SIMPUS SIMPUS SIMPUS & E- PUSKESMAS (3).ppt

materi konsep dan Model TRIASE Bencana.pptx

PPT SIDANG UJIAN KOMPREHENSIF KUALITATIF

RESUME KEWARGANEGARAAN_7 DAN 9._tugas ke 2pptx

Bimbingan Teknis Penyusunan Soal Pilihan Berganda 2024.pptx

Hasil wawancara usaha lumpia basah tugas PKWU

contoh judul tesis untuk mahasiswa pascasarjana

514034136-Tugas-Modul-4-5-Komputer-Dan-Media-Pembelajaran.pptx

DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt

Abortion pills in Jeddah+966543202731/ buy cytotec

Diac & Triac untuk memenuhi tugas komponen

Alur Pengajuan Surat Keterangan Pindah (Individu) lewat IKD.pdf

PERTEMUAN 4 himpunan dan fungsi logika fuzzy.ppT

Contoh laporan K3 perusahaan pada tahun 2023 dgn analisis beban kerja

Featured

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

More than Just Lines on a Map: Best Practices for U.S Bike RoutesProject for Public Spaces & National Center for Biking and Walking

Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference

Barbie - Brand Strategy PresentationErica Santiago

Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software

Introduction to C Programming LanguageSimplilearn

Featured (20)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

12 Ways to Increase Your Influence at Work

ChatGPT webinar slides

More than Just Lines on a Map: Best Practices for U.S Bike Routes

Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...

Barbie - Brand Strategy Presentation

Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well

Introduction to C Programming Language

Penerapan data mining terhadap klasifikasi mushroom data set

1. FINAL PROJECT: DATA MINING PENERAPAN DATA MINING TECHNIQUE SEBAGAI EVALUASI KETEPATAN AKURASI TERHADAP KLASIFIKASI MUSHROOM DATASET Rahayu Prihatini Saputri 06211540000040 Departemen Statistika Institut Teknologi Sepuluh Nopember

2. OUTLINE 1. PENDAHULUAN 2. METODOLOGI PENELITIAN 3. ANALISIS DAN PEMBAHASAN 4. KESIMPULAN DAN SARAN

3. 1PENDAHULUAN

4. Proses Knowledge Discovery in Database (KDD) yang melibatkan identifikasi data, validasi, kebaruan, dan pemahaman tentang pola data yang besar dan kompleks. Deskripsi kelas/konsep, analisis asosiasi, analisis klaster, dan KLASIFIKASI atau PREDIKSI metode supervised learning memetakan data ke suatu grup yang telah ditentukan sebelumnya dapat diterapkan ke berbagai bidang, termasuk pertanian KLASIFIKASI Jamur tiram (gilled mushroom) dari famili Agaricus dan Lepiota BERACUN atau AMAN DIKONSUMSI ? *berdasarkan karakteristik fisik

5. 2METODOLOGI PENELITIAN

6. MUSHROOM DATASET UCI MACHINE LEARNING PREDIKTOR (ATRIBUT) Cap shape Cap surface Cap color Bruises Odor Gill attachment Gill spacing Gill size Gill color Stalk shape Stalk root Stalk surface above ring Stalk surface below ring Stalk color above ring Stalk color below ring Veil type Veil color Ring number Ring type Spore print color Population Habitat RESPON Class Poisonous (beracun) Edible (aman dikonsumsi) NOTE: Seluruh variabel memiliki skala data nominal

7. Mengunduh Mushroom Dataset melalui website UCI Machine Learning Menarik kesimpulan dan saran LANGKAH ANALISIS Software Python Preprocessing data: Imputasi missing value & Label encoder Memisahkan data antara prediktor (atribut) dengan respon (kelas klasifikasi) Seleksi atribut berdasarkan kontribusi terbesar (feature selection) Eksplorasi data Menerapan Hold Out & Cross Validation sebagai metode pembagian data training-testing dalam pengklasifikasian Mushroom Dataset Membandingkan nilai akurasi antara penerapan Hold Out & Cross Validation

8. 3ANALISIS DAN PEMBAHASAN

9. P R E P R O C E S S I N G MISSING VALUE Missing value sebanyak 2480 observasi pada variabel Stalk Root Imputasi missing value dengan modus berdasarkan kelas pengklasifikasian jamur LABEL ENCODER Mengubah tipe data string menjadi integer

10. FEATURE SELECTION Dari 22 variabel, hanya terpilih 10 variabel yang berkontribusi terhadap pembentukan klasifikasi

11. EKSPLORASI DATA Variabel Modus Keterangan Frekuensi Bruises f No 4748 Odor n None 3528 Gill spacing c Close 6812 Gill size b Broad 5612 Gill color b Buff 1728 Stalk shape t Tapering 4608 Stalk root b Bulbous 6256 Ring type p Pendant 3698 Spore print color w White 2388 Population v Several 4040 Class (Respon) e Edible 4208 Klasifikasi dalam Mushroom Data Set didominasi oleh kelas edible Data observasi tergolong balance

12. CROSS VALIDATION KLASIFIKASI HOLD OUT 2/3 training, 1/3 testing k=10 Klasifikasi dengan metode kNN, Tuning (Decision Tree), NN, dan Extra Trees Classifier akurat sebesar 100%. Pembangian data training-testing memiliki kemungkinan tidak representatif Klasifikasi akurat sebesar 100% dengan metode Tuning (Decision Tree), NN, dan Extra Trees Classifier.

13. PERBANDINGAN AKURASI: HOLD OUT VS CROSS VALIDATION Metode klasifikasi Decision Tree (Model Tuning), Neural Network (NN), dan Extra Trees Classifier merupakan metode terbaik untuk mengklasifikasikan Mushroom Data Set, baik dengan menerapkan CV dan Hold Out pada proses pembagian data.

14. 4KESIMPULAN DAN SARAN

15. Analisis klasifikasi terhadap Mushroom Data Set menghasilkan nilai akurasi tertinggi apabila menggunakan metode klasifikasi Decision Tree (Model Tuning), Neural Network (NN), dan Extra Trees Classifier, baik pembagian data berbasis Hold Out atau CV. Alangkah lebih baik jika pembagian data menerapkan metode Cross Validation karena dapat menghindari adanya tumpang tindih pada data testing.

Penerapan data mining terhadap klasifikasi mushroom data set

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (20)

Featured

Featured (20)

Penerapan data mining terhadap klasifikasi mushroom data set