Machine Learning Diskusi 9.pdf

1
Machine Learning
Pertemuan 9
Unsupervised Learning: K Mean Clustering
9.1 Pendahuluan
K-Means merupakan algoritma clustering paling populer dan sering digunakan, karena cara
kerja dan perhitungannya mudah dilakukan. Algoritme K-Mean merupakan salah satu metode
data clustering non hirarki yang mempartisi data ke dalam bentuk satu atau lebih cluster atau
kelompok . Pada K Means, setiap data yang mempunyai karakteristik yang mirip atau sama
akan dikelompokkan ke dalam satu cluster dan data yang memiliki karakteristik yang berbeda
akan dikelompokkan ke dalam cluster yang lain.
Gambar 1. Perbedaan data sebelum dan sesudah menggunakan K Means
Secara umum, teknik clustering menggunakan metode K-Means dilakukan dengan langkah
sebagai berikut:
1. Menentukan jumlah K (cluster)
2. Inisialisasikan cluster centroids (rata-rata) atau “mean” secara acak. Centroid adalah titik
pusat setiap cluster.
3. Menghitung jarak antara data dan centroid dengan menggunakan persamaan Euclidean
Distance:
D (P,Q) = 𝑃𝑖- 𝑄𝑖 = √∑ (𝑝𝑖 − 𝑞𝑖)2
𝑛
𝑖=1
4. Kelompokkan data ke dalam cluster dengan jarak yang paling dekat atau minimum dari dari
setiap data dengan centroid.
1

2
5. Menghitung nilai centroid yang baru menggunakan rumus:
Centroid baru =
𝒎𝒆𝒏𝒋𝒖𝒎𝒍𝒂𝒉𝒌𝒂𝒏 𝒔𝒆𝒎𝒖𝒂 𝒏𝒊𝒍𝒂𝒊 𝒑𝒂𝒅𝒂 𝒔𝒆𝒕𝒊𝒂𝒑 𝒄𝒍𝒖𝒔𝒕𝒆𝒓 𝒚𝒂𝒏𝒈 𝒔𝒂𝒎𝒂
𝑱𝒖𝒎𝒍𝒂𝒉 𝒅𝒂𝒕𝒂 𝒚𝒂𝒏𝒈 𝒂𝒅𝒂 𝒑𝒂𝒅𝒂 𝒄𝒍𝒖𝒔𝒕𝒆𝒓 𝒕𝒆𝒓𝒔𝒆𝒃𝒖𝒕
6. Ulangi langkah ke tiga sampai kelima sehingga sudah tidak ada lagi data yang berpindah ke
cluster lain.
9.2 Apa itu Clustering?
• Juga disebut pembelajaran tanpa pengawasan, kadang-kadang disebut klasifikasi oleh ahli
statistik dan penyortiran oleh psikolog dan segmentasi oleh orang-orang dalam pemasaran.
• Mengelompokkan data-data menjadi beberapa cluster berdasarkan kesamaannya.
9.3 Apa Pengelompokan Alami Diantara Benda-benda ini?
Gambar 2. Tokoh-tokoh dalam film Simpson
Gambar 3. Pengelompokan berdasarkan Clustering
Karyawan sekolah
Keluarga Simpson Laki-Laki
Perempuan
Clustering adalah Subjek

3
9.4 Dua Jenis Clustering
1. Partitional algorithm: Membuat beberapa partisi dan mengelompokkan objek berdasarkan
kriteria tertentu.
2. Hierarchical algorithm: Membuat dekomposisi pengelompokan objek berdasarkan kriteria
tertentu. Misal = tua-muda, tuamuda(merokok-tidak merokok).
Gambar 4. Dua jenis clustering
9.5 Apa itu Kesamaan?
Kualitas atau keadaan serupa, rupa , kemiripan, seperti, kesamaan fitur. (Kamus webmaster)
Gambar 5. Apa itu kesamaan?
Kesamaan sulit untuk didefinisikan, tapi….”Kami mengetahuinya ketika kami melihatnya”.
9.6 Jarak (Distance)
• Distance: adalah ukuran kesamaan antar objek yang dihitung berdasarkan rumusan tertentu.
Hierarchical
Partitional

4
Tabel 1. Jarak (distance)
D ( , ) = 8
D ( , ) = 1
9.7 Partitional Clustering
• Nonhierarchical: setiap objek ditempatkan di salah satu cluster.
• Non-overlapping cluster: jumlah cluster yang akan dibentuk ditentukan sejak awal.
Gambar 6. Partitional clustering
9.8 Algoritma K-Means
0
0
0
0
0
8 8 7 7
2 4 4
3 3
1

5
1. Tentukan berapa cluster k yang mau dibuat.
2. Inisialisasi centroid dari tiap cluster (randomly, if necessary).
3. Tentukan keanggotaan objek-objek yang lain dengan mengklasifikasikannya sesuai
centroid terdekat (berdasarkan distance ke centroid).
4. Setelah cluster dan anggotanya terbentuk, hitung mean tiap cluster dan jadikan sebagai
centroid baru.
5. Jika centroid baru tidak sama dengan centroid lama, maka perlu diaupdate lagi
keanggotaan objek-objeknya (balik ke-3). Sebaliknya, jika centroid baru sama dengan
yang lama maka selesai.
9.9 K-Means Clustering: Step 1-2
• Tentukan beberapa cluster k yang mau dibuat.
• Inisialisasi centroid dari tiap cluster (randomly, if necessary)
Gambar 7. Clustering step 1-2
9.10 K-Means Clustering: Step 3
k
k
k
1 2 3 4 5
0
1
2
3
4
5

6
Gambar 8. Clustering step 3
• Setelah cluster dan anggotanya terbentuk, hitung mean tiap cluster dan jadikan sebagai
centroid baru.
• Jika centroid baru tidak sama dengan centroid lama, maka perlu diupdate lagi
keanggotaan objek-objeknya.
𝑘1
𝑘2
𝑘3
3
2
1
0 4 5
1
2
3
4
5
𝑘1
𝑘2 𝑘3
0 1 2 3 4 5
1
2
3
4
5

7
9.13 K-Means Clustering: Finish
• Lakukan iterasi step 3-5 sampai tak ada lagi perubahan centroid dan tak ada lagi objek
yang berpindah kelas.
Gambar 11. Clustering finish
9.14 Komentar pada Metode K-Means
1. Kelebihan
• Relatif efisien: O (tkn), di mana n adalah # objek, k adalah # cluster, dan t adalah #
iterasi. Biasanya, k, t << n.
0 1 2 3 4 5
1
2
3
4
5
𝑘1
𝑘2
𝑘3

8
• Seringkali berakhir pada optimalisasi lokal. Optimum global dapat ditemukan dengan
menggunakan teknik seperti: anealling determinatik dan algoritma genetika.
2. Kelemahan
• Hanya berlaku ketika mean didefinisikan, lalu bagaimana dengan data kategoris?
• Perlu menentukan k, jumlah cluster, terlebih dahulu.
• Tidak dapat menangani data dan pencilan yang berisik.
Pertanyaan diskusi:
Jelaskan secara singkat apa yang membedakan clustering dengan klasifikasi menurut
pemahaman anda.
Jawaban:
Clustering dan klasifikasi adalah dua pendekatan yang berbeda dalam analisis data dan
pembelajaran mesin. Berikut adalah perbedaan singkat antara clustering dan klasifikasi:
1. Tujuan:
• Clustering: Tujuan clustering adalah mengelompokkan data ke dalam
kelompok-kelompok atau kluster berdasarkan kesamaan karakteristik atau pola
yang ditemukan dalam data. Tujuan utama clustering adalah untuk
mengidentifikasi struktur tersembunyi dalam data tanpa label sebelumnya.
• Klasifikasi: Tujuan klasifikasi adalah membangun model prediktif yang dapat
mengklasifikasikan data ke dalam kelas atau label yang sudah ditentukan
sebelumnya berdasarkan contoh latihan yang berlabel. Tujuan utama klasifikasi
adalah untuk membuat prediksi atau memberikan label kepada data baru
berdasarkan pembelajaran dari data latihan yang berlabel.
2. Pendekatan:
• Clustering: Clustering menggunakan pendekatan unsupervised learning, yang
berarti tidak memerlukan label atau kelas terdefinisi sebelumnya dalam data.
Algoritma clustering mencari pola, kesamaan, atau perbedaan dalam data untuk
membentuk kelompok-kelompok.
• Klasifikasi: Klasifikasi menggunakan pendekatan supervised learning, yang
berarti memerlukan data latihan yang sudah berlabel sebelumnya. Algoritma
klasifikasi mempelajari hubungan antara fitur-fitur pada data dan label yang
sesuai untuk membangun model yang dapat digunakan untuk memprediksi label
pada data baru.
3. Hasil:

9
• Clustering: Hasil dari clustering adalah kelompok-kelompok atau kluster. Data
dalam satu kelompok memiliki kesamaan yang tinggi dalam hal karakteristik
atau pola tertentu, sedangkan data di kelompok yang berbeda memiliki
perbedaan yang signifikan.
• Klasifikasi: Hasil dari klasifikasi adalah model yang dapat memprediksi label
atau kelas dari data baru. Model ini dilatih menggunakan data latihan yang
berlabel dan kemudian digunakan untuk memberikan prediksi pada data baru
yang belum diketahui labelnya.
Meskipun terdapat perbedaan signifikan antara clustering dan klasifikasi, keduanya adalah
teknik penting dalam analisis data dan pembelajaran mesin yang memiliki aplikasi yang
berbeda tergantung pada jenis masalah yang dihadapi dan jenis data yang digunakan.
Referensi
Syahid Abdullah, S. M. (2023). Machine Learning. Dalam S. M. Syahid Abdullah, Sesi 9-Unsupervised
Learning: K-Means Clustering (hal. 1 - 16). Jakarta: Informatika UNSIA.
Irwansyah Saputra, D. A. (2022). MACHINE LEARNING UNTUK PEMULA. Bandung:
INFORMATIKA
File PDF: https://docs.google.com/document/d/1WKow8RSbhp2RB9-V5k-
u8U_9eJ5cI9yd/edit?usp=sharing&ouid=101456110840209175777&rtpof=true&sd=true

Machine Learning Diskusi 9.pdf

Recommended

Recommended

More Related Content

Similar to Machine Learning Diskusi 9.pdf

Similar to Machine Learning Diskusi 9.pdf (20)

More from HendroGunawan8

More from HendroGunawan8 (20)

Recently uploaded

Recently uploaded (20)

Machine Learning Diskusi 9.pdf