Dokumen tersebut membahas tentang metode machine learning yaitu supervised learning, unsupervised learning, dan reinforcement learning. Secara khusus dibahas metode supervised learning yaitu support vector machine (SVM) dan decision tree beserta cara kerjanya. Juga dibahas metode unsupervised learning yaitu k-means clustering beserta contoh penerapannya untuk segmentasi pelanggan."
Dokumen tersebut membahas tentang teknik dasar artificial intelligence yaitu searching, reasoning, planning, dan learning. Teknik searching digunakan untuk menemukan solusi melalui langkah sistematis dengan mendefinisikan ruang masalah, aturan produksi, dan metode pencarian yang tepat.
Film/video menggunakan teknologi machine learning untuk menciptakan karakter digital yang lebih realistis. Teknologi ini berhasil memperkaya pengalaman menonton dengan karakter yang ekspresif, meski masih perlu pengembangan lebih lanjut. Penggunaan teknologi ini dapat mempengaruhi pandangan masyarakat terhadap kecerdasan buatan.
Dokumen tersebut membahas tentang statistika probabilitas dan pengujian hipotesis, meliputi definisi pengujian hipotesis, jenis-jenis hipotesis, pasangan hipotesis, kesalahan dalam pengujian hipotesis, langkah-langkah pengujian hipotesis, dan contoh soal pengujian hipotesis rata-rata satu populasi.
Dokumen tersebut membahas tentang preprocessing data yang meliputi empat tugas utama yaitu integrasi data, pembersihan data, transformasi data, dan reduksi data. Preprocessing data diperlukan untuk mempermudah memahami data dan meningkatkan kualitas hasil penambangan data."
Dokumen tersebut membahas tentang teknik dasar artificial intelligence yaitu searching, reasoning, planning, dan learning. Teknik searching digunakan untuk menemukan solusi melalui langkah sistematis dengan mendefinisikan ruang masalah, aturan produksi, dan metode pencarian yang tepat.
Film/video menggunakan teknologi machine learning untuk menciptakan karakter digital yang lebih realistis. Teknologi ini berhasil memperkaya pengalaman menonton dengan karakter yang ekspresif, meski masih perlu pengembangan lebih lanjut. Penggunaan teknologi ini dapat mempengaruhi pandangan masyarakat terhadap kecerdasan buatan.
Dokumen tersebut membahas tentang statistika probabilitas dan pengujian hipotesis, meliputi definisi pengujian hipotesis, jenis-jenis hipotesis, pasangan hipotesis, kesalahan dalam pengujian hipotesis, langkah-langkah pengujian hipotesis, dan contoh soal pengujian hipotesis rata-rata satu populasi.
Dokumen tersebut membahas tentang preprocessing data yang meliputi empat tugas utama yaitu integrasi data, pembersihan data, transformasi data, dan reduksi data. Preprocessing data diperlukan untuk mempermudah memahami data dan meningkatkan kualitas hasil penambangan data."
Dokumen tersebut membahas tentang clustering, yaitu teknik pembelajaran tak terawasi untuk mengelompokkan data berdasarkan kesamaan. Dibahas beberapa metode clustering seperti K-Means, hierarchical clustering, dan Fuzzy C-Means beserta ilustrasinya."
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
02 - Penyajian Data (Distribusi Frekuensi).pdfElvi Rahmi
Dokumen tersebut membahas tentang penyajian data secara umum dan distribusi frekuensi. Terdapat penjelasan mengenai jenis data berdasarkan bentuk dan sumbernya, skala pengukuran, serta cara menyajikan data kualitatif dan kuantitatif melalui tabel, diagram lingkaran, batang, dan gambar. [/ringkasan]"
05 - Variabel Random dan Distribusi Peluang.pdfElvi Rahmi
Dokumen tersebut membahas tentang variabel random dan distribusi peluang. Variabel random digunakan untuk mendefinisikan hasil suatu peristiwa menjadi nilai kuantitatif agar dapat diolah secara statistik. Distribusi peluang menggambarkan kemungkinan terjadinya nilai variabel random dan dapat disajikan dalam bentuk tabel, grafik, atau fungsi. Terdapat dua jenis variabel random yaitu diskrit dan kontinu, yang kemudian mempengaruhi bentuk
Dokumen tersebut membahas tentang data mining dan pengajaran desain pembelajaran. Secara singkat, dokumen tersebut menjelaskan tentang konsep-konsep dasar data mining, algoritma yang digunakan dalam data mining seperti estimasi, prediksi, klasifikasi, dan klastering, serta tahapan proses data mining mulai dari input data hingga evaluasi hasilnya.
Kebutuhan Sentiment Analysis
Text Mining untuk Sentiment Analysis
Pengolahan kata Text Mining menggunakan Machine Learning
Studi Kasus Sentiment Analysis
Algoritma C4.5 adalah algoritma klasifikasi data mining yang merupakan pengembangan dari algoritma ID3. C4.5 mampu menangani atribut kosong dengan mengisi nilai berdasarkan nilai dominan, dan memilih atribut akar berdasarkan nilai gain tertinggi yang dihitung menggunakan rumus entropy. Studi kasus mendemonstrasikan pembentukan pohon keputusan C4.5 untuk klasifikasi data.
Dokumen tersebut memberikan soal-soal tentang statistika dan probabilitas yang meliputi konsep mean, median, modus, variansi dan standar deviasi berdasarkan data nilai ujian mahasiswa.
Dokumen ini membahas metode klasterisasi Agglomerative Hierarchical Clustering (AHC). AHC adalah metode klasterisasi berbasis hirarki yang membangun klaster secara bottom-up dimana setiap objek dianggap sebagai klaster dan klaster-klaster digabungkan berdasarkan kemiripan hingga terbentuk satu klaster besar. Dokumen ini juga menjelaskan langkah-langkah algoritma AHC beserta contoh penerapannya untuk mengelompokkan dataset skor ked
The document discusses the Naive Bayes classifier. It begins with an introduction to probability and defines the formula for Naive Bayes classification. It then provides an example dataset to demonstrate how to calculate the probabilities of each attribute value belonging to each class. The example shows calculating the probabilities for attributes like major, gender, school origin, GPA, and assistant status to predict whether a student's study duration will be on time or late.
Penelitian Kualitatif Berbasis Grounded theory 9...pptxHeliyantiHeliyanti
(1) Penelitian Grounded Theory adalah metode penelitian kualitatif yang menggunakan prosedur sistematis untuk mengembangkan teori berdasarkan data,
(2) Pertama kali dikembangkan oleh Glaser dan Strauss pada tahun 1960-an,
(3) Pendekatan ini membangun teori secara induktif dari data lapangan tanpa teori awal.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dan kecil guna menemukan pola dan memprediksi dengan akurat, membantu pengambilan keputusan. Kemampuan pentingnya termasuk pemrograman, basis data, analisis dan visualisasi data, serta pemahaman masalah bisnis. Data science mencakup data mining untuk menemukan pola baru dan machine learning untuk melatih sistem agar belajar sendiri
Dokumen tersebut membahas struktur data dan algoritma. Struktur data adalah pengaturan data di memori untuk meningkatkan efisiensi akses data, seperti array, list, antrian, tumpukan dan pohon biner. Algoritma adalah langkah untuk memanipulasi data dengan struktur dasar sekuensial, seleksi dan pengulangan. Contoh penerapan struktur data untuk data pasien klinik diberikan.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Dokumen tersebut membahas tentang clustering, yaitu teknik pembelajaran tak terawasi untuk mengelompokkan data berdasarkan kesamaan. Dibahas beberapa metode clustering seperti K-Means, hierarchical clustering, dan Fuzzy C-Means beserta ilustrasinya."
Dokumen tersebut membahas tentang algoritma Naive Bayes Classifier untuk klasifikasi dan prediksi data. Algoritma ini bekerja dengan menghitung probabilitas kelas berdasarkan pengalaman sebelumnya dengan asumsi independensi antar variabel. Diberikan contoh perhitungan Naive Bayes untuk memprediksi kemungkinan seseorang membeli komputer dan status kelulusannya berdasarkan atribut-atribut tertentu.
02 - Penyajian Data (Distribusi Frekuensi).pdfElvi Rahmi
Dokumen tersebut membahas tentang penyajian data secara umum dan distribusi frekuensi. Terdapat penjelasan mengenai jenis data berdasarkan bentuk dan sumbernya, skala pengukuran, serta cara menyajikan data kualitatif dan kuantitatif melalui tabel, diagram lingkaran, batang, dan gambar. [/ringkasan]"
05 - Variabel Random dan Distribusi Peluang.pdfElvi Rahmi
Dokumen tersebut membahas tentang variabel random dan distribusi peluang. Variabel random digunakan untuk mendefinisikan hasil suatu peristiwa menjadi nilai kuantitatif agar dapat diolah secara statistik. Distribusi peluang menggambarkan kemungkinan terjadinya nilai variabel random dan dapat disajikan dalam bentuk tabel, grafik, atau fungsi. Terdapat dua jenis variabel random yaitu diskrit dan kontinu, yang kemudian mempengaruhi bentuk
Dokumen tersebut membahas tentang data mining dan pengajaran desain pembelajaran. Secara singkat, dokumen tersebut menjelaskan tentang konsep-konsep dasar data mining, algoritma yang digunakan dalam data mining seperti estimasi, prediksi, klasifikasi, dan klastering, serta tahapan proses data mining mulai dari input data hingga evaluasi hasilnya.
Kebutuhan Sentiment Analysis
Text Mining untuk Sentiment Analysis
Pengolahan kata Text Mining menggunakan Machine Learning
Studi Kasus Sentiment Analysis
Algoritma C4.5 adalah algoritma klasifikasi data mining yang merupakan pengembangan dari algoritma ID3. C4.5 mampu menangani atribut kosong dengan mengisi nilai berdasarkan nilai dominan, dan memilih atribut akar berdasarkan nilai gain tertinggi yang dihitung menggunakan rumus entropy. Studi kasus mendemonstrasikan pembentukan pohon keputusan C4.5 untuk klasifikasi data.
Dokumen tersebut memberikan soal-soal tentang statistika dan probabilitas yang meliputi konsep mean, median, modus, variansi dan standar deviasi berdasarkan data nilai ujian mahasiswa.
Dokumen ini membahas metode klasterisasi Agglomerative Hierarchical Clustering (AHC). AHC adalah metode klasterisasi berbasis hirarki yang membangun klaster secara bottom-up dimana setiap objek dianggap sebagai klaster dan klaster-klaster digabungkan berdasarkan kemiripan hingga terbentuk satu klaster besar. Dokumen ini juga menjelaskan langkah-langkah algoritma AHC beserta contoh penerapannya untuk mengelompokkan dataset skor ked
The document discusses the Naive Bayes classifier. It begins with an introduction to probability and defines the formula for Naive Bayes classification. It then provides an example dataset to demonstrate how to calculate the probabilities of each attribute value belonging to each class. The example shows calculating the probabilities for attributes like major, gender, school origin, GPA, and assistant status to predict whether a student's study duration will be on time or late.
Penelitian Kualitatif Berbasis Grounded theory 9...pptxHeliyantiHeliyanti
(1) Penelitian Grounded Theory adalah metode penelitian kualitatif yang menggunakan prosedur sistematis untuk mengembangkan teori berdasarkan data,
(2) Pertama kali dikembangkan oleh Glaser dan Strauss pada tahun 1960-an,
(3) Pendekatan ini membangun teori secara induktif dari data lapangan tanpa teori awal.
Data science adalah ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk menganalisis data besar dan kecil guna menemukan pola dan memprediksi dengan akurat, membantu pengambilan keputusan. Kemampuan pentingnya termasuk pemrograman, basis data, analisis dan visualisasi data, serta pemahaman masalah bisnis. Data science mencakup data mining untuk menemukan pola baru dan machine learning untuk melatih sistem agar belajar sendiri
Dokumen tersebut membahas struktur data dan algoritma. Struktur data adalah pengaturan data di memori untuk meningkatkan efisiensi akses data, seperti array, list, antrian, tumpukan dan pohon biner. Algoritma adalah langkah untuk memanipulasi data dengan struktur dasar sekuensial, seleksi dan pengulangan. Contoh penerapan struktur data untuk data pasien klinik diberikan.
Dokumen tersebut merangkum tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, kl
Dokumen tersebut membahas tentang machine learning dan data mining. Machine learning adalah ilmu yang mempelajari cara memberikan kemampuan kepada komputer untuk menyelesaikan masalah secara mandiri tanpa bantuan user, sedangkan data mining adalah proses ekstraksi pengetahuan dari database besar menggunakan teknik statistik dan machine learning. Dokumen ini juga membahas perbedaan antara supervised learning dan unsupervised learning serta beberapa algoritma machine learning seperti klasifikasi, regresi, klaster
Data mining adalah proses penggalian pola dan informasi yang berharga dari basis data besar untuk menemukan pengetahuan baru. Terdapat dua metode utama yaitu prediksi untuk memprediksi nilai masa depan dan deskripsi untuk menemukan pola yang mudah dipahami. Algoritma utama meliputi klasifikasi, klustering, asosiasi, estimasi dan prediksi.
APPLIED DATABASE III - Slide Arsitektur Data MiningDEDE IRYAWAN
Arsitektur data mining terdiri dari data cleaning, data integration, data mining engine, pattern evaluation, dan graphical user interface. Metode data mining meliputi prediksi (seperti klasifikasi dan regresi), deskripsi (seperti clustering dan association rule discovery). Klasifikasi digunakan untuk memprediksi kelas data baru, sedangkan regresi memprediksi atribut bernilai riil. Clustering memecah data menjadi kelompok serupa dan association rule menemukan hubungan antar item yang sering dibeli bersama.
Dokumen tersebut membahas tentang klasifikasi biner dan multikelas pada machine learning. Terdapat penjelasan mengenai beberapa algoritma klasifikasi seperti logistic regression, decision tree, K-nearest neighbors, SVM, Naive Bayes, dan lainnya beserta contoh penerapannya. Juga dibahas perbedaan antara klasifikasi biner dan multikelas.
1. Unsupervised learning digunakan untuk pengelompokkan data tanpa label melalui clustering.
2. K-means clustering dan hierarchical clustering adalah dua pendekatan utama clustering.
3. Pemilihan parameter seperti jumlah cluster pada k-means mempengaruhi akurasi hasil clustering.
Modul ini membahas pengertian model dan sistem dalam teknik industri, termasuk jenis dan pembuatan model serta komponen utama sistem seperti masukan, proses, keluaran, dan penghubung."
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
Tahapan data mining terdiri dari pembersihan data, integrasi data, transformasi data, teknik data mining, evaluasi pola, dan presentasi pengetahuan. Proses ini bersifat interaktif dengan pengguna untuk menemukan pola dan informasi menarik dari data.
Dokumen tersebut membahas arsitektur dan model data mining. Terdapat penjelasan mengenai komponen-komponen arsitektur data mining seperti data cleaning, data integration, data mining engine, dan graphical user interface. Juga dibahas model-model data mining seperti prediction methods dan description methods beserta contoh-contohnya seperti klasifikasi, regresi, dan clustering.
Jurnal metode clustering dengan algoritma fuzzy c means untuk rekomendasi pem...ym.ygrex@comp
Dokumen tersebut membahas tentang penerapan metode clustering dengan algoritma Fuzzy C-Means untuk merekomendasikan mahasiswa memilih bidang keahlian di Program Studi Teknik Informatika berdasarkan nilai mata kuliah prasyarat. Algoritma Fuzzy C-Means digunakan untuk mengelompokkan mahasiswa ke dalam beberapa kluster sesuai kemampuan mereka agar mendapat rekomendasi bidang keahlian yang tepat.
Klasifikasi Keluhan Pelanggan Berdasarkan Tweet Menggunakan Metode SVMEnda Esyudha
Pemanfaatan twitter sebagai layanan customer Survei yang dilakukan oleh Aberden Group pada 170 serevice perusahaan sudah mulai banyak digunakan, tak terkecuali Speedy.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Abstrak – Sistem berbagi sepeda yang sudah tersebar di beberapa negara di dunia sebagian besa berbasis penggunaan teknologi berupa melacak database pendaftaran, pembayaran, jumlah sepeda yang tersedia dan kios loker yang tersedia di setiap stasiun, dan serta penyewaan atau pengembalian sepeda di setiap loker secara realtime. Peneliti ingin mengetahui pola klasifikasi permintaan berbagi sepeda. Peneltian ini menggunakan data sistem berbagi sepeda di Wasington D.C. pada data Bike Sharing Dataset yang bersumber dari UCI Machinr Learning Repository. Untuk menjawab permaslahan tersebut, metode yang digunakan antara lain k-Nearest Neighbors, Support Vector Machine, dan Random Forest. Dengan tinjauan beberapa variabel pendukung.. Dalam final project ini peneliti melakukan preprocessing, feature engineering, eksplorasi data, feature selection dengan korelasi, hold out methods, dan klasifikasi. Diketahui hasil analisis klasifikasi terbaik adalah Random Forest dengan akurasi sebesar 0,69.
Riset Teknologi Informasi Paper Review Presentation IDEDE IRYAWAN
Judul penelitian sebaiknya singkat padat dan mewakili seluruh isi
penelitian kita
Maksimal hanya terdiri dari 8-12 kata
Tidak ada singkatan
Tidak menggunakan kata-kata redundant (study on, research on, dsb)
Judul penelitian wajib memuat:
Metode yang Diusulkan
Tujuan Penelitan
Obyek Penelitian
Dokumen tersebut membahas tentang data analytics. Secara singkat, dokumen tersebut menjelaskan definisi dasar dari data, informasi, dan data analytics. Dokumen tersebut juga menjelaskan jenis-jenis analisis data dan siklus proses analisis datanya. Di akhir dokumen dijelaskan contoh penerapan data analytics di Direktorat Jenderal Perbendaharaan.
13 - 14 Regresi Linear Sederhana & Berganda.pdfElvi Rahmi
Regresi digunakan untuk memprediksi hubungan antara variabel-variabel berdasarkan data historis. Dokumen ini membahas regresi linear sederhana untuk memprediksi omzet penjualan berdasarkan pengalaman kerja, dan regresi linear berganda untuk memprediksi pengeluaran rumah tangga berdasarkan pendapatan dan jumlah anggota keluarga. Metode ini digunakan untuk peramalan dan pengambilan keputusan berdasarkan hubungan antara faktor-fak
01 - Introduction to Data Mining - Original.pdfElvi Rahmi
01. Dokumen tersebut membahas tentang pengantar data mining, meliputi pengertian data mining, manfaat, bidang terkait, proses, task, dan penerapannya di berbagai bidang serta bahasa pemrograman yang digunakan.
Dokumen tersebut memberikan panduan mengenai bagaimana menjadi seorang Master of Ceremony (MC) yang baik. Beberapa poin penting yang disebutkan adalah karakteristik yang dibutuhkan seorang MC seperti memiliki wawasan luas, suara yang menarik, dan kepribadian yang baik. Dokumen tersebut juga menjelaskan teknik dasar seperti teknik membaca, pengendalian suara, serta tips seperti mengikuti dress code dan berlatih.
Algoritma FP-Growth digunakan untuk menentukan frequent itemset dengan membentuk struktur data FP-Tree yang dapat memampatkan transaksi berulang dan mengurangi pemindaian database secara berulang, sehingga proses pencarian pola sering lebih cepat dibandingkan algoritma Apriori.
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...Elvi Rahmi
Keylogger adalah sebuah program yang dibuat untuk merekam pengentrian data melalui keyboard dan memasukkannya ke dalam log (catatan). Tapi seiring berkembang versi dan tipenya, kini keylogger bisa merekam aktifitas mouse, clipboard, web browser dan visual surveillance (gambar hasil capture otomatis layar monitor). Keylogger dapat menyebar di perangkat seseorang dengan berbagai cara, salah satunya melalui lampiran dari sebuah email yang dibuka pengguna. Dampaknya juga berbahaya. Data – data yang ada bisa disalahgunakan untuk menghancurkan perangkat, mencari keuntungan ataupun keduanya oleh orang yang tidak bertanggung jawab. Beragam pendekatan telah dilakukan untuk mengidentifikasi, mencegah dan menghadapi ancaman keylogger pada sistem. Usulan yang disampaikan penulis adalah dengan menggunakan Customized Virtual Keyboard pada Android yang dimiliki pengguna.
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
06 - Machine Learning .pdf
1. D-IV Rekayasa Perangkat Lunak - Teknik Informatika
MACHINE LEARNING
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
“You can have data without information, but you
cannot have information without data.”
- Daniel Keys Moran -
2. Referensi
Russell, S.J and Peter Norvig, P. 2010.Artificial
Intelligence: A Modern Approach. Third Edition. New
Jersey: Pearson Education.
Presentation 2023
D-IV Rekayasa Perangkat Lunak - Teknik Informatika
Suyanto. 2014. Artificial Intelligence: Searching-
Reasoning-Planning-Learning. Bandung: Informatika.
Peirce, C. S. (1955). Abduction and induction. The Journal
of Philosophy, 52(7), 157-163.
Kolodner, J. L. (1993). Case-based reasoning. Morgan
Kaufmann.
Mitchell, T. M. (1997). Machine Learning. McGraw Hill.
3.
4. MACHINE LEARNING
Cabang kecerdasan buatan dan ilmu komputer yang
fokus pada penggunaan data dan algoritma untuk
meniru cara manusia belajar, secara bertahap
meningkatkan akurasinya.
5.
6. METODE MACHINE LEARNING
Machine Learning Presentation 2023
01 03
02
Supervised Learning Unsupervised Learning Reinforcement Learning
Tipe machine learning yang memerlukan
data yang sudah diberi label untuk
melakukan prediksi.
Tipe pembelajaran mesin di mana mesin
diberi data masukan tanpa label atau
output yang diinginkan.
Tipe pembelajaran mesin di mana
mesin belajar melalui interaksi
dengan lingkungan yang dinamis
dengan mencoba memaksimalkan
hadiah atau mengurangi hukuman.
7.
8. Opel Astra
METODE MACHINE LEARNING
Machine Learning Presentation 2023
01
Supervised Learning
Tipe machine learning yang memerlukan
data yang sudah diberi label untuk
melakukan prediksi.
Contoh:
Pada kasus klasifikasi gambar, mesin diberi serangkaian gambar mobil
dan truk yang telah diberi label. Setelah melatih mesin, mesin dapat
memprediksi dengan tepat apakah gambar yang diberikan adalah mobil
atau truk.
Mobil Truk ?
9. METODE MACHINE LEARNING
Machine Learning Presentation 2023
01 Supervised Learning
Tipe machine learning yang memerlukan data yang sudah diberi label untuk melakukan
prediksi.
Algoritma:
Support Vector Machine (SVM), Regresi Linear, K-Nearest Neighbor, Naive Bayes,
Random Forest, Neural Networks, Decision Tree.
10. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Metode klasifikasi jenis terpandu (supervised) karena ketika proses pelatihan,
diperlukan target pembelajaran tertentu.
SVM merupakan algoritma yang bekerja menggunakan pemetaan nonlinear
untuk mengubah data pelatihan asli ke dimensi yang lebih tinggi.
SVM muncul pertama kali pada tahun 1992 oleh Vladimir Vapnik bersama
Bernhard Boser dan Isabelle Guyon.
SVM adalah algoritma supervised untuk klasifikasi yang bekerja dengan cara
mencari hyperplane dengan margin terbesar.
SVM sudah ada sejak tahun 1960an (termasuk karya awal oleh vapnik dan
Alexei Chervonenkis pada teori belajar statistik).
SVM dapat digunakan untuk prediksi dan klasifikasi.
11. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Kelebihan Kekurangan
Waktu pelatihan SVM kebanyakan lambat,
tetapi metode ini sangat akurat karena
kemampuannya untuk menangani model-
model nonlinear yang kompleks.
SVM kurang rentan terhadap overfitting
dibandingkan metode lainnya.
Underfitting berarti model memiliki skor
akurasi yang rendah pada data training
dan data testing. Overfitting memiliki
skor akurasi tinggi pada data training,
tetapi skor rendah pada data testing. Ini
berarti model yang dibuat tidak
digeneralisasi.
12. SUPPORT VECTOR MACHINE (SVM)
Machine Learning Presentation 2023
Penerapan Identifikasi suara
Deteksi tulisan tangan
Pengenalan obyek
dll
16. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
17. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
20. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
Garis pembatas antar support vectors.
22. SUPPORT VECTOR MACHINE
(CARA KERJA)
Machine Learning Presentation 2023
SUPPORT VECTOR MACHINE (SVM)
Support Vectors
Hyperplane
(Max) Margin
Dua data yang memiliki jarak terdekat yang berasal dari kelas atau kelompok
yang berbeda.
Garis pembatas antar support vectors.
Jarak antara support vectors dengan hyperplane.
32. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Akar
Ranting
Daun
Akar
Ranting
Daun
33. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Pohon keputusan tool yang populer
untuk klasifikasi dan prediksi. Pohon
keputusan adalah struktur pohon
seperti diagram alur, di mana setiap
simpul internal menunjukkan pengujian
pada atribut, setiap cabang mewakili
hasil pengujian, dan setiap simpul daun
(simpul terminal) memegang label
kelas.
Pohon Keputusan untuk konsep bermain tenis
35. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Konstruksi Pohon Keputusan
Sebuah pohon dapat "dipelajari" dengan membagi set sumber menjadi subset berdasarkan tes
nilai atribut. Proses ini diulang pada setiap subset turunan secara rekursif yang disebut partisi
rekursif (recursive partitioning).
Rekursi selesai ketika subset pada node semua memiliki nilai variabel target yang sama, atau
ketika dilakukan pemisahan tidak lagi menambah nilai prediksi.
Konstruksi pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau
pengaturan parameter, dan oleh karena itu sesuai untuk penemuan pengetahuan eksplorasi.
Pohon keputusan dapat menangani data berdimensi tinggi.
Secara umum pengklasifikasi pohon keputusan memiliki akurasi yang baik. Induksi pohon
keputusan adalah pendekatan induktif yang khas untuk mempelajari pengetahuan tentang
klasifikasi.
36. POHON KEPUTUSAN (DECISION TREE)
Machine Learning Presentation 2023
Representasi Pohon Keputusan
(Outlook = Sunny ^ Humidity = Normal) v
(Outlook = Overcast) v (Outlook = Rain ^ Wind =
Weak)
37. METODE MACHINE LEARNING
Machine Learning Presentation 2023
02
Unsupervised Learning
Tipe pembelajaran mesin di mana mesin
diberi data masukan tanpa label atau
output yang diinginkan.
Contoh:
Mesin diberi serangkaian data konsumen dan diberi tugas untuk
mengelompokkan konsumen ke dalam kelompok yang berbeda
berdasarkan perilaku pembelian mereka. Mesin akan menemukan pola
dalam data dan mengelompokkan konsumen ke dalam kelompok-
kelompok yang serupa.
39. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial untuk
ditawarkan produk tertentu?
40. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial
untuk ditawarkan produk tertentu?
Kita diminta untuk
mengelompokkan data
customer di samping
berdasarkan kesamaan
profil pelanggan.
Customer Segmentation
Clustering
42. Klasterisasi
Klasterisasi mengelompokkan data secara otomatis tanpa perlu diberitahu label
kelasnya.
Klasterisasi atau clustering adalah proses pengelompokan himpunan data ke dalam
beberapa group atau klaster sedemikian hingga objek-objek dalam suatu klaster
memiliki kemiripan yang tinggi, namun sangat berbeda (memiliki ketidakmiripan yang
tinggi) dengan objek-objek di klaster-klaster lainnya (J Han et al. 2012).
Kemiripan (similarities) dan ketidakmiripan (dissimilarities) dihitung berdasarkan
nilai-nilai atribut yang menggambarkan objek-objek tersebut dan seringkali
melibatkan ukuran jarak.
Kecerdasan Buatan
43. Penerapan Klasterisasi
Retail/Marketing
Analisis pola transaksi yang dilakukan pelanggan
Rekomendasi buku, film, atau produk baru untuk pelanggan
baru
Perbankan
Deteksi fraud dalam transaksi perbankan
Pengelompokan nasabah (program loyalitas
nasabah)
Asuransi
Deteksi fraud dalam klaim asuransi
Analisis risiko asuransi bagi pelanggan
Berita dan Penerbitan
Kategorisasi berita secara otomatis
Rekomendasi artikel/berita baru
44. Penggunaan
Algoritma Clustering
Exploratory Data Analysis
Generate Rangkuman (summary generation)
Deteksi Pencilan (outlier detection)
Mencari duplikat (finding duplicates)
Tahap pra-pemrosesan data
Kompresi data/image
Optimasi algoritma k-NN
dll
45. Kategori Metode
Klasterisasi
k-Means
k-Modes
k-Medoids
Fuzzy c-Means
dll
Metode berbasis partisi
(partitioning methods)
Ukuran Jarak
BIRCH (Balanced Iterative
Reducing and Clustering)
Chameleon
Agglomerative
Divisive, dll
Metode berbasis hirarki
(hierarchical methods)
DBSCAN
OPTICS
DENCLUE
dll
Metode berbasis kepadatan
(density-based methods)
STING
CLIQUE
dll
Metode berbasis kisi
(grid-based methods)
46. Algoritma K-Means Clustering
Klasterisasi
K-Means merupakan algoritma klasterisasi yang paling tua dan paling banyak digunakan.
Algoritma K-Means bersifat iteratif yang mencoba untuk mempartisi dataset menjadi
subkelompok nonoverlapping berbeda yang ditentukan oleh K (cluster) di mana setiap titik
data hanya dimiliki oleh satu kelompok.
K-Means mencoba membuat titik data intracluster semirip mungkin dengan titik data yang
lain pada satu cluster.
K-Means menetapkan poin data ke cluster sedemikian rupa sehingga jumlah jarak kuadrat
antara titik data dan pusat data cluster (centroid) adalah minimal.
Ide dasar algoritma K-Means adalah meminimalkan Sum of Squared Error (SSE) antara objek-
objek data dengan sejumlah k centroid.
47. Langkah Algoritma K-Means Clustering
Klasterisasi
Tentukan jumlah klaster (nilai K)
1.
Ditentukan dengan melihat kebutuhan atau tujuan klastering, melakukan pengujian jumlah k
yang tepat.
2. Inisialisasi nilai centroid awal setiap klaster secara acak
3. Hitung jarak setiap titik data dengan setiap centroid
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan pusat klaster
5. Untuk setiap klaster, tentukan nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
6. Ulangi langkah 3-5 hingga tidak ada perubahan anggota klaster
48. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Data Pelanggan
Diketahui terdapat data pelanggan. Kita diminta
untuk mengelompokkan data pelanggan menjadi
dua kelompok.
49. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Tentukan Jumlah Klaster
1.
Dalam contoh kasus ini, klaster berjumlah 2.
Klaster 1 Klaster 2
50. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Cara penentuan centroid awal:
Memilih salah satu data untuk atribut "Age"
dan "Income" secara acak.
Membangkitkan bilangan acak sesuai rentang
nilai "Age" dan "Income".
1.
2.
Misal, kita menentukan centroid awal
berdasarkan cara 1. Kita tentukan C1 = (41,19)
dan C2 = (47,100).
51. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Misal, kita menentukan centroid awal berdasarkan
cara 1. Kita tentukan C1 = (41,19) dan C2 = (47,100).
52. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
3. Hitung jarak setiap titik data dengan setiap centroid.
Misal: menggunakan Euclidean Distance
53. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
54. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
Klaster 1 Klaster 2
Cust 1
Cust 3
Cust 4
Cust 7
Cust 9
Cust 2
Cust 5
Cust 6
Cust 8
Cust 10
55. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
56. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C1?
57. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C1= (mean(41;33;29;38;26), mean(19;57;19;56;18)) = (33,4; 33,8)
58. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C2?
59. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C2 = (mean(47;47;40;42;47), mean(100;253;81;64;115)) = (44,6; 122,6)
60. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Pergeseran centroid setiap klaster. C1 = (33,4; 33,8) dan C2 = (44,6; 122,6)
62. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
6. Ulangi langkah 3-5 menggunakan centroid baru
Apakah hasil klasterisasinya sama dengan tahap sebelumnya?
Jika sama, hentikan proses klasterisasi
Jika belum sama, ulangi langkah 3-5
67. Optimasi Nilai k pada K-Means
Klasterisasi
Jumlah klaster (nilai k) merupakan salah satu faktor krusial baik atau tidaknya metode K-
Means. Hasil pengelompokan akan menghasilkan analisa yang berbeda untuk jumlah klaster
yang berbeda.
Semakin kecil nilai k, maka pembagian kluster menjadi cepat. Namun, mungkin ada informasi
tersembunyi yang tidak terungkap.
Semakin besar nilai k, maka akan terbentuk banyak klaster. Mungkin akan terlalu sulit untuk
membuat analisa atau memilih dukungan keputusan dari hasil klaster.
68. Optimasi Nilai k pada K-Means
Klasterisasi
Penentuan nilai k terbaik dapat dilakukan berdasarkan ukuran kualitas hasil klasterisasi.
Beberapa ukuran kualitas klaster:
Sum Square Error (SSE)
Davies Bouldin Index (DBI)
Silhoutte Coefficient
Rand Index
Mutual Information
Calinski-Harabasz Index (C-H Index)
Dunn Index
1.
2.
3.
4.
5.
6.
7.
69. Penentuan Nilai k Terbaik dengan Metode Elbow
Klasterisasi
Untuk mengetahui jumlah klaster yang
paling baik adalah dengan cara melihat
perbandingan kualitas klaster untuk
setiap pilihan nilai k (Misal: k=2,3,4,5, ...).
Nilai k yang dipilih adalah nilai k yang
memiliki perubahan kualitas signifikan,
seperti sebuah siku (elbow).
70. Referensi
Klasterisasi
Suyanto. 2019. Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika
Achmad Solichin. 2021. Algoritma K-Means Clustering: Konsep dan Contoh Perhitungannya |
Unsupervised Learning. https://www.youtube.com/watch?v=oO0Wn_h8fe8. Diakses
November 2022.
71. METODE MACHINE LEARNING
Machine Learning Presentation 2023
03
Reinforcement Learning
Tipe pembelajaran mesin di mana mesin belajar melalui
interaksi dengan lingkungan yang dinamis dengan
mencoba memaksimalkan hadiah atau mengurangi
hukuman.
Contoh:
Mesin diinstruksikan untuk memainkan permainan catur
dan diberi hadiah ketika mesin memenangkan
permainan atau hukuman ketika mesin kalah. Setelah
melatih mesin selama beberapa waktu, mesin belajar
strategi terbaik untuk memenangkan permainan.