1. Pendahuluan
Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja yang dibutuhkan
dalam mengkonstruksikan data untuk proyek data science.
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan data preparation mengenai
feature engineering, yaitu Analisis Data Eksplorasi (EDA), dan Principal Component Analysis (PCA)
menggunakan data science dan menerapkannya untuk suatu permasalahan data science.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data Science adalah
• Menganalisis data untuk mementukan representasi data awal
• Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam bentuk tertulis
• Menentukan fitur mana yang paling penting dengan informasi yang saling mendukung satu sama
lain.
• Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian permasalahan dunia
nyata
• Melakukan analisis hasil pelabelan data
• Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality categoricals) dengan
pendekatan encoding yang tepat
• Melakukan dimensi reduksi dengan pendekatan metode analisis komponen utama (Principal
Component Analysis)
Latar belakang
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan peserta dalam memahami visualisasi dari
teknologi AI. Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk menilai
kemampuan dan penerapan pengetahuan pendukung penting. Penilaian dilakukan dengan mengacu
kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakn di Tempat Uji Kompetensi (TUK), ruang simulasi atau
workshop dengan cara:
1.1. Lisan
1.2. Wawancara
1.3. Tes tertulis
1.4. Metode lain yang relevan
2. Tujuan Pembelajaran
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu memahami
pembelajaran mesin, penambangan data, dan data analytics mengandalkan dan dapat
mengambil manfaat dari rekayasa fitur yang efektif
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan Data
Science adalah
A. Menganalisis data untuk mementukan representasi data awal
B. Menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
C. Menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
D. Merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
E. Melakukan analisis hasil pelabelan data
F. Melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
G. Melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Deskripsi Pelatihan
Materi ini berisi penjelasan Secara umum, semua pembelajaran mesin, penambangan
data, dan data analytics mengandalkan dan dapat mengambil manfaat dari rekayasa fitur
yang efektif. Tugas khusus meliputi klasifikasi, regresi, pengelompokan, deteksi outlier,
pola/aturan, pemodelan prediktif, pembedaan dan karakterisasi kelas data, penemuan
konsep, pembelajaran jarak jauh, estimasi probabilitas, konstruksi ontologi/taksonomi,
pencarian informasi, intelijen bisnis, dan sebagainya
Kompetensi Dasar
• Mampu menganalisis data untuk mementukan representasi data awal
3. • Mampu menjelaskan tahapan transformasi data dan hasil dapat dituangkan dalam
bentuk tertulis
• Mampu menentukan fitur mana yang paling penting dengan informasi yang saling
mendukung satu sama lain.
• Mampu merekayasa fitur - Menemukan fitur baru untuk mendukung penyelesaian
permasalahan dunia nyata
• Mampu melakukan analisis hasil pelabelan data
• Mampu melakukan kodefikasi kategori dengan kardinalitas tinggi (high-cardinality
categoricals) dengan pendekatan encoding yang tepat
• Mampu melakukan dimensi reduksi dengan pendekatan metode analisis komponen
utama (Principal Component Analysis)
Indikator Hasil Belajar
Dapat melakukan analisis data, menjelaskan tahapan transformasi data, menentukan
fitur mana yang paling penting, merekayasa fitur, melakukan analisis hasil pelabelan
data, melakukan kodefikasi kategori dengan kardinalitas tinggi dan melakukan dimensi
reduksi dengan pendekatan metode analisis komponen utama
4. INFORMASI PELATIHAN
Akademi Thematic Academy
Mitra Pelatihan Kementerian Komunikasi dan Informatika
Tema Pelatihan Data Scientist: Artificial Intelligence untuk Dosen dan
Instruktur
Sertifikasi • Certificate of Attainment;
• Sertifikat Kompetensi Associate Data Scientist
Persyaratan Sarana Peserta/spesifikasi device
Tools/media ajar yang akan digunakan
Memiliki laptop/komputer dengan spesifikasi minimal :
• RAM minimal 2 GB (disarankan 4 GB)
• Laptop dengan 32/64-bit processor
• Laptop dengan Operating System Windows 7, 8,
10, MacOS X atau Linux
• Laptop dengan konektivitas WiFi dan memiliki
Webcam
• Akses Internet Dedicated 126 kbps per peserta per
perangkat
• Memiliki aplikasi Zoom
• Memiliki akun Google Colab
Aplikasi yang akan di gunakan selamat pelatihan • Spyder
• Jupyter notebook
Tim Penyusun Dr. Rer. Nat. I Made Wiryana (Universitas Gunadarma)
Dr. Miftah Andriansyah (Universitas Gunadarma)
Dr. Astie Darmayantie (Universitas Gunadarma)
5. INFORMASI PEMBELAJARAN
Unit Kompetensi Materi
pembelajaran
Kegiatan
pembelajaran
Durasi
Pelatihan
Rasio
Praktek :
Teori
Sumber
pembelajaran
Dapat melakukan analisis
data, menjelaskan
tahapan transformasi
data, menentukan fitur
mana yang paling
penting, merekayasa
fitur, melakukan analisis
hasil pelabelan data,
melakukan kodefikasi
kategori dengan
kardinalitas tinggi dan
melakukan dimensi
reduksi dengan
pendekatan metode
analisis komponen utama
Data Science Daring / Online Live Class
2 JP
LMS 4 JP @
45 menit
70:30 LMS
Materi Pokok
Data Science
Sub Materi Pokok
• Prolog
• Feature vs Feature Engineering
• Fase Feature Engineering
o Feature Understanding
o Feature transformation
7. MATERI PELATIHAN
1. Prolog
Mengapa Rekayasa Fitur Penting?
Ilmuwan data dan insinyur pembelajaran mesin sering mengumpulkan data untuk
memecahkan masalah kehidupan nyata. Insinyur ini memiliki pekerjaan unik dalam
merancang pipa dan arsitektur yang dirancang untuk menangani dan mengubah data
mentah menjadi sesuatu yang dapat digunakan oleh seluruh perusahaan, terutama
ilmuwan data dan insinyur pembelajaran mesin.
Gambar 1. Hasil Survey
Sebuah survei yang dilakukan oleh para ilmuwan data di lapangan mengungkapkan
bahwa lebih dari 80% waktu dari data scientist dihabiskan untuk mengumpulkan,
membersihkan, dan mengorganisir data. Kurang dari 20% sisa waktu mereka dihabiskan
untuk membangun algoritma atau model.
8. Gambar 2. Hasil Survey
Sebuah survei yang sama juga dilakukan untuk mengetahui bagian pekerjaan mana yang
dirasa kurang menyenangkan, hasilnya 77% responden mengatakan fase
mengumpulkan, membersihkan, dan mengorganisir data. adalah fase yang dirasa kurang
menyenangkan.
“A stellar data scientist knows that preparing data is not only so important that it takes up
most of their time, they also know that it is an arduous process and can be unenjoyable. Far
too often, we take for granted clean data given to us by machine learning competitions and
academic sources. More than 90% of data, the data that is interesting, and the most useful,
exists in this raw format.”
Dikutip dari: Sinan Ozdemir. “Feature Engineering Made Easy.”
9. Gambar 3. Data Cleaning
Menyiapkan data bisa menjadi pekerjaan yang tidak jelas batasannya. Persiapan
memperhitungkan pengambilan data, penyimpanan data, pembersihan data, dan
sebagainya. Seperti yang terlihat pada bagan yang ditunjukkan sebelumnya, sebagian
kecil, tetapi masih sebagian besar waktu ilmuwan data dihabiskan untuk membersihkan
dan mengatur data. Dalam proses inilah tugas terbesar dari seorang data scientist.
Berikut simulasi perbedaan tahapan data cleaning dan data organizing
Transformasi pembersihan sampel log server yang mencakup data dan penjelasan teks
tentang apa yang terjadi di server. Perhatikan bahwa saat membersihkan, &
karakter, yang merupakan karakter Unicode, diubah menjadi ampersand (&) yang lebih
mudah dibaca. Fase pembersihan meninggalkan dokumen dalam format yang sama
persis seperti sebelumnya.
Gambar 4. Data Organizing
10. • Transformasi pengorganisasian terbawah jauh lebih radikal. Itu mengubah dokumen
mentah menjadi struktur baris/kolom, di mana setiap baris mewakili satu tindakan yang
diambil oleh server dan kolom mewakili atribut dari tindakan server. Dalam hal ini, dua
atribut adalah Tanggal dan Teks.
• Baik pembersihan maupun pengorganisasian termasuk dalam kategori ilmu data yang lebih
besar, yang itu rekayasa fitur. Atau feature engineering
• Kutipan Dari: Sinan Ozdemir. “Rekayasa Fitur Menjadi Mudah.” Buku Apel.
2. Feature vs Feature Engineering
Dalam konteks machine learning, data mining, dan data analytics, sebuah fitur (feature)
adalah sebuah atribut atau variabel yang digunakan untuk merepresentasikan atau
mendeskripsikan sebuah aspek dari obyek tertentu. Sebagai contoh :
Gambar 5. Contoh Feature
Macam-macam Fitur:
• Fitur informatif adalah dasar untuk analisis data. Mereka berguna untuk
• menggambarkan objek yang mendasari, dan untuk membedakan dan
mengkarakterisasi
11. • kelompok objek yang berbeda (eksplisit atau laten). Mereka juga penting untuk
memproduksi
• model prediksi yang akurat dan mudah dijelaskan, dan menghasilkan hasil yang
baik dalam
• berbagai tugas analitik data. "Fitur," "variabel," dan "atribut" sering
• digunakan sebagai sinonim.
• Untuk aplikasi tertentu dan titik waktu tertentu, sering kali himpunan tetap
• fitur secara implisit dipilih untuk menggambarkan semua objek data yang
mendasarinya; setiap objek
• mengambil nilai tertentu untuk masing-masing fitur tersebut. Ini menghasilkan
representasi objek data berbasis vektor fitur.
• Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik. Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda,
• karena perbedaan struktural dalam domain mereka.
Feature
• Fitur yang informatif merupakan fundamental dasar dari analisis data.
• Fitur menggambar menggambarkan objek yang mendasari, dan untuk
membedakan dan mengkarakterisasi kelompok objek yang berbeda (eksplisit
atau laten).
• Fitur sangat penting untuk menghasilkan model prediksi yang akurat dan mudah
dijelaskan, dan menghasilkan hasil yang baik dalam berbagai tugas analitik data.
12. Gambar 6. Komponen Fitur
2.1 Mengerti hal mendasar tentang feature:
Gambar 7. Atribut, Data Observasi
a. Setiap baris data, atau dikenal sebagai observasi, mewakili satu contoh/contoh
masalah. Jika data kami termasuk dalam domain perdagangan hari di pasar
saham, pengamatan mungkin mewakili perubahan satu jam di pasar dan harga
secara keseluruhan.
b. Dalam contoh berikut untuk kasus network security Setiap baris berisi data
dateTime, protocol, urgentm malicious.
13. Gambar 8. Atribut, Data Observasi
c. Kita akan menganggap data sebagai table.
d. Anda juga dapat melihat contoh spesifik di mana matriks data hanya memiliki
satu kolom/atribut. Misalnya, jika kita sedang membangun sebuah perangkat
lunak yang mampu mengambil satu gambar dari sebuah ruangan dan
menampilkan apakah ada manusia di ruangan itu atau tidak. Data untuk input
dapat direpresentasikan sebagai matriks satu kolom di mana kolom tunggal
hanyalah URL ke foto sebuah ruangan dan tidak ada yang lain.
e. Misalnya, mengingat tabel tabel berikut yang hanya memiliki satu kolom
berjudul, URL Foto. Nilai tabel adalah URL (ini palsu dan tidak mengarah ke
mana pun dan murni misalnya) foto yang relevan
f. Data yang diinput ke sistem mungkin hanya satu kolom, seperti dalam kasus
ini. Dalam kemampuan kami untuk membuat sistem yang dapat menganalisis
gambar, masukannya mungkin hanya berupa URL ke gambar yang dimaksud.
Kehendak kita sebagai ilmuwan data untuk merekayasa fitur dari URL.
g. Sebagai ilmuwan data, kita harus siap untuk mencerna dan menangani data
yang mungkin besar, kecil, lebar, sempit (dalam hal atribut), jarang dalam
penyelesaian (mungkin ada nilai yang hilang), dan siap untuk memanfaatkan
data ini untuk tujuan pembelajaran mesin. Sekarang saat yang tepat untuk
berbicara lebih banyak tentang itu. Algoritme pembelajaran mesin termasuk
dalam kelas algoritme yang ditentukan oleh kemampuannya untuk
mengekstrak dan mengeksploitasi pola dalam data untuk menyelesaikan tugas
berdasarkan data pelatihan historis.
2.3 Kesimpulan Feature:
• Untuk aplikasi tertentu dan dengan domain waktu tertentu, seringkali
sekumpulan fitur tetap dipilih secara implisit untuk menggambarkan semua objek
data yang mendasarinya; setiap objek mengambil nilai tertentu untuk masing-
masing fitur tersebut.
• Hal ini menghasilkan representasi berbasis vektor fitur dari objek data.
14. • Fitur dibagi menjadi beberapa jenis fitur, antara lain kategoris, ordinal, dan
numerik.
• Jenis fitur yang berbeda memerlukan jenis analisis yang berbeda, karena
perbedaan struktural dalam domainnya.
2.4 Beberapa jenis fitur, antara lain
• Kategori
Fitur berjenis kategori biasanya merupakan sebuah himpunan yang berisi nilai
diskrit. Sebagai contoh warna merupakan sebuah fitur berjenis kategori yang
dapat memiliki nilai {hitam, biru, kuning, cokelat, merah} Contoh lainnya adalah
nilai binary, yang mana fitur tersebut hanya dapat memiliki salah satu dari dua
nilai yaitu 0 atau 1.
• Ordinal,
Contoh fitur ordinal adalah Degree dimana berisi {Bachelorm Master, PhD}
dimana ketiga value tersebut di urutkan sebagai berikut Bachelor < Master <
PhD
• Numerik.
Fitur jenis ini berisi himpunan nilai numerik. Jenis fitur ini juga sering disebut
sebagai fitur quantitative atau continuous. Sebagai contoh: sebuah fitur umur
adalah sebuah fitur berjenis numerik dimana merupakan sebuah himpunan nilai
integer antara 0 dan 150.
• Rasio.
Pemahaman Anda mengenai jenis fitur yang ada sangat penting karena setiap jenis fitur
tertentu memerlukan pendekatan analisis yang berbeda, karena perbedaan
struktural dalam domainnya.
• Dalam banyak aplikasi, fitur kategori direpresentasikan sebagai nilai numerik.
• Untuk itu, kita perlu berhati-hati dalam merepresentasikan nilai tersebut, karena
jika tidak hasil analisis yang diperlukan dalam kasus-kasus seperti urutan yang
tersirat oleh nilai numerik biasanya tidak berarti jika pendekatan analisis yang
digunakan tidak sesuai.
15. • Dalam bahasa R variabel kategori diperlakukan sebagai faktor.
• Pendekatan ”one-hot encoding" sering digunakan untuk mengubah fitur dengan
jenis ini.
Kegunaan (the usefulness / the importance ) dari sebuah fitur dapat diukur dengan
signifikan pengaruh fitur tersebur kepada hasil analitik data yang dihasilkan. Misalnya,
dalam klasifikasi ini sebagian besar dalam hal peningkatan akurasi klasifikasi.
Kemudahan pemahaman dan interpretasi dari fitur juga dapat digunakan sebagai salah
satu tolak ukur yang digunakan.
Gambar 9. Feature
2.5 Feature Engineering
“Feature engineering is the process of transforming data into features that better
represent the underlying problem, resulting in improved machine learning performance.”
Excerpt From: Sinan Ozdemir. “Feature Engineering Made Easy.”
16. Gambar 10. Feature Engineering
• Feature Understanding
Memahami data dan domain permasalahan dengan informasi kualitatif dan
kuantitatif yang dimiliki
• Feature Improvement
Membersihkan data, mengisi nilai yang kosong, mentransformasikan data yang
tidak tersturktur, dan normalisasi data
• Feature Transformation
Pembentukan fitur baru dari fitur yang ada; ini sering dicapai dengan
menggunakan pemetaan matematika.
• Feature Generation / Construction
Menghasilkan fitur baru yang seringkali tidak hasil transformasi fitur. Misalnya,
Anda tidak mengambil piksel dalam gambar sebagai fitur, melainkan
mengekstraksi hasil pemrosesan sebuah operasi misalnya hasil konvolusi untuk
region tertentu yang menghasilkan fitur baru untuk gambar. Selain itu, kita juga
dapat mengatakan bahwa fitur didefinisikan dari pola/teksture salah satu hasil
17. dari feature generation. Banyak cara khusus domain untuk mendefinisikan fitur
juga termasuk dalam kategori pembuatan fitur. Kadang-kadang ekstraksi fitur
istilah digunakan untuk generasi fitur.
• Feature Selection
adalah tentang memilih satu set kecil fitur dari yang sangat kumpulan fitur yang
besar. Ukuran kumpulan fitur yang dikurangi membuatnya layak secara
komputasi untuk menggunakan algoritma tertentu. Pemilihan fitur juga dapat
menyebabkan peningkatan kualitas pada hasil dari algoritma tersebut.
• Feature Analysis
adalah tentang konsep, metode, dan ukuran untuk mengevaluasi kegunaan fitur
dan set fitur. Feature analysis juga sering dimasukkan sebagai salah bagian dari
seleksi fitur.
• General Automatic Feature
Metodologi rekayasa fitur otomatis umum adalah tentang pendekatan generik
untuk secara otomatis menghasilkan sejumlah besar fitur dan memilih subset
yang efektif dari fitur yang dihasilkan.
3. Feature Understanding
3.1 Tipe Data : Structured vs Unstructured
• Structured data. Data jenis ini biasanya berbentuk tabular, dimana baris
merepresentasikan data observasi dan kolom merepresentasikan atribut atau fitur.
• Unstructured data. Data yang ada sebagai entitas yang mengalir bebas dan tidak
mengikuti hierarki organisasi standar seperti tabularitas. Seringkali, data tidak
terstruktur tampak bagi kami sebagai data blob, atau sebagai satu karakteristik
(kolom).
18. 3.2 Tipe Data: Qualitative vs Quantitative
• Qualitative. Data yang memiliki sifat kategorikal. Mendeskripsikan kulitas dari
sebuah obyek tertentu.
• Quantitative. Data yang umumnya bersifat numerik. Mendeskripsikan kuantitas
dari sebuah obyek tertentu.
3.3 Exploratory Data Analysis
Analisis Data Eksplorasi (EDA) adalah pendekatan/filosofi untuk analisis data yang
menggunakan berbagai teknik (kebanyakan grafis) untuk:
• memaksimalkan wawasan ke dalam kumpulan data;
• mengungkap struktur yang mendasarinya;
• ekstrak variabel penting;
• mendeteksi outlier dan anomali;
• menguji asumsi yang mendasarinya;
• mengembangkan model pelit; dan
• menentukan pengaturan faktor yang optimal.
4. Analisis Data Eksplorasi (EDA)
EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga
pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau
permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada
urutan dan fokus dari langkah-langkah perantara.
Analisis klasik, urutannya:
Masalah → Data → Model → Analisis → Kesimpulan
EDA, urutannya:
Masalah → Data → Analisis → Model → Kesimpulan
19. Bayesian, urutannya:
Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Gambar 11. ADE
Analisis Data Eksplorasi mengacu pada proses kritis dalam melakukan penyelidikan awal
pada data untuk menemukan pola, menemukan anomali, menguji hipotesis, dan
memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis.
Analisis Data Eksplorafit (ADE) merupakan suatu alat menganalisis yang berguna untuk
melihat pola suatu data segingga dapat mengetahui berapa informasi awal terkait dengan
data tersebut, yang artinya akan berguna untuk melakukan pengujian pada data tersebut
dengan model statistik inferensial (Kurniawan, Sohibien, and Rahani 2019).
Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena dalam
tahap ini kita harus memahami datanya terlebih dahulu. Dalam artikel ini penulis
menggunakan dataset house price dari Kaggle.
• Proses Data Science:
• Data Preparation
• Data Cleansing
• Exploratory Data Analysis
• Feature Engineering
• Modeling
• Evaluation
• Deployment
20. Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan,
mulai dari distribusi, frekuensi, korelasi dan lainnya. Dalam prakteknya, curiousity
sangat penting dalam proses ini, pemahaman konteks data juga diperhatikan, karena
akan menjawab masalah masalah dasar. Pada umumnya EDA dilakukan dengan beberapa
cara:
• Univariat Analysis — analisis deskriptif dengan satu variabel.
• Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan
target variabel.
• Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan
tiga variabel (Chandra 2019).
Sebagian besar teknik EDA bersifat grafis dengan beberapa teknik kuantitatif. Alasan
ketergantungan yang tinggi pada grafik adalah bahwa pada dasarnya peran utama EDA
adalah untuk mengeksplorasi data secara terbuka, dan grafik memberikan para
gambaran yang lebih jelas mengenai informasi dari data sehingga dapat memberikan
beberapa wawasan baru, yang seringkali tidak terduga, tentang data. Terutama dalam
memahami kombinasi dengan kemampuan pengenalan pola data yang kita miliki.
5. Principal Component Analysis (PCA)
PCA merupakan metode pengurangan dimensi menggunakan teknik statistik non-
parametrik, tidak terawasi, yang sering digunakan untuk mengurangi dimensi kumpulan
data besar, dengan mengubah kumpulan variabel besar menjadi lebih kecil yang masih
berisi sebagian besar informasi dalam kumpulan besar. Metode PCA Ini telah banyak
digunakan di bidang pengenalan pola dan pemrosesan sinyal dan merupakan metode
statistik di bawah judul analisis faktor yang luas.
Tujuan PCA adalah untuk :
1. Mengekstrak informasi terpenting dari tabel data;
2. kompres ukuran kumpulan data dengan hanya menyimpan informasi penting
ini;
21. 3. menyederhanakan deskripsi kumpulan data; dan
4. Menganalisis struktur observasi dan variabelnya.
5. Kompres data, dengan mengurangi jumlah dimensi, tanpa banyak kehilangan
informasi.
6. Teknik ini digunakan dalam kompresi gambar Untuk menganalisis data
dengan Analisis Komponen Utama kita harus teliti dalam statistik dan aljabar
matriks (Mishra et al. 2017).
PCA adalah alat yang sangat fleksibel dan memungkinkan analisis kumpulan data yang
mungkin berisi, misalnya, multikolinearitas, nilai yang hilang, data kategoris, dan
pengukuran yang tidak tepat. Tujuannya adalah untuk mengekstrak informasi penting
dari data dan untuk mengekspresikan informasi ini sebagai satu set indeks ringkasan
yang disebut komponen utama.
Secara statistik, PCA menemukan garis, bidang, dan bidang hiper dalam ruang dimensi-K
yang mendekati data sebaik mungkin dalam arti kuadrat terkecil. Garis atau bidang yang
merupakan aproksimasi kuadrat terkecil dari sekumpulan titik data membuat varians
koordinat pada garis atau bidang sebesar mungkin.
Gambar 12. PCA
22. Pada Gambar 12 menunjukan, PCA membuat visualisasi data yang meminimalkan varians
residual dalam arti kuadrat terkecil dan memaksimalkan varians koordinat proyeksi.
5.1 Cara kerja PCA
Pertimbangkan matriks X dengan N baris (alias "pengamatan") dan K kolom (alias
"variabel"). Untuk matriks ini, kami membangun ruang variabel dengan dimensi
sebanyak variabel yang ada (lihat gambar di bawah). Setiap variabel mewakili satu
sumbu koordinat. Untuk setiap variabel, panjangnya telah distandarisasi menurut
kriteria penskalaan, biasanya dengan penskalaan ke varians unit. Anda dapat
menemukan detail lebih lanjut tentang penskalaan ke varians unit di posting blog
sebelumnya.
Principal Component Analysis (PCA) adalah sebuah metode yang sering digunakan untuk
pengurangan dimensi dalam pembelajaran mesin. Dimensi tinggi berarti bahwa dataset
memiliki sejumlah besar fitur.
Komponen utama pertama
Setelah pemusatan rata-rata dan penskalaan ke varians unit, kumpulan data siap untuk
perhitungan indeks ringkasan pertama, komponen utama pertama (PC1). Komponen ini
adalah garis dalam ruang variabel K-dimensi yang paling mendekati data dalam arti
kuadrat terkecil. Garis ini melewati titik rata-rata. Setiap pengamatan (titik kuning)
sekarang dapat diproyeksikan ke garis ini untuk mendapatkan nilai koordinat di
sepanjang garis PC. Nilai koordinat baru ini juga dikenal sebagai skor.
23. Gambar 13. PC1
Pada gambar 13, menjelaskan Komponen utama pertama (PC1) adalah garis yang paling
sesuai untuk bentuk gerombolan titik. Ini mewakili arah varians maksimum dalam data.
Setiap pengamatan (titik kuning) dapat diproyeksikan ke garis ini untuk mendapatkan
nilai koordinat di sepanjang garis PC. Nilai ini dikenal sebagai skor.
Komponen utama kedua
Biasanya, satu indeks ringkasan atau komponen utama tidak cukup untuk memodelkan
variasi sistematis dari kumpulan data. Dengan demikian, indeks ringkasan kedua –
komponen utama kedua (PC2) – dihitung. PC kedua juga diwakili oleh garis dalam ruang
variabel K-dimensi, yang ortogonal terhadap PC pertama. Garis ini juga melewati titik
rata-rata, dan meningkatkan aproksimasi data-X sebanyak mungkin.
Gambar 14. PC2
24. Pada gambar 14, menunjukan Komponen utama kedua (PC2) diorientasikan sedemikian
rupa sehingga mencerminkan sumber variasi terbesar kedua dalam data sambil
ortogonal ke PC pertama. PC2 juga melewati titik rata-rata.
Dua komponen utama menentukan bidang model
Ketika dua komponen utama telah diturunkan, mereka bersama-sama mendefinisikan
tempat, jendela ke dalam ruang variabel K-dimensi. Dengan memproyeksikan semua
pengamatan ke sub-ruang dimensi rendah dan memplot hasilnya, dimungkinkan untuk
memvisualisasikan struktur kumpulan data yang diselidiki. Nilai koordinat dari
pengamatan pada bidang ini disebut skor, dan karenanya plot dari konfigurasi yang
diproyeksikan seperti itu dikenal sebagai plot skor.
Gambar 15. PC1 dan PC2
Pada gambar 15, menunjukan Dua PC membentuk pesawat. Bidang ini adalah jendela ke
ruang multidimensi, yang dapat divisualisasikan secara grafis. Setiap pengamatan dapat
diproyeksikan ke bidang ini, memberikan skor untuk masing-masing.
Kelebihan PCA
• Model juga menjadi lebih efisien karena set fitur yang dikurangi meningkatkan
kecepatan pembelajaran dan mengurangi biaya komputasi dengan menghapus
fitur yang berlebihan.
25. • PCA mengidentifikasi daftar sumbu utama (principal axes) untuk
menggambarkan kumpulan data yang mendasarinya sebelum memeringkatnya
sesuai dengan jumlah varians yang ditangkap oleh masing-masing sumbu.
• PCA adalah algoritma pembelajaran tanpa pengawasan karena arah komponen ini
dihitung murni dari set fitur penjelas tanpa referensi ke variabel respons.
• Normalisasikan data
PCA digunakan untuk mengidentifikasi komponen dengan varians maksimum,
dan kontribusi setiap variabel untuk komponen didasarkan pada besarnya
varians. Ini adalah praktik terbaik untuk menormalkan data sebelum melakukan
PCA karena data yang tidak diskalakan dengan unit pengukuran yang berbeda
dapat mendistorsi perbandingan relatif varians di seluruh fitur.
• Membuat matriks kovarians untuk dekomposisi Eigen
Cara yang berguna untuk mendapatkan semua kemungkinan hubungan antara
semua dimensi yang berbeda adalah dengan menghitung kovarians di antara
mereka semua dan menempatkannya dalam matriks kovarians yang mewakili
hubungan ini dalam data. Memahami persentase kumulatif varians yang
ditangkap oleh setiap komponen utama merupakan bagian integral dari
pengurangan set fitur.
Apakah PCA merupakan teknik yang memadai?
• Jika objective dari analisa data adalah membangun kombinasi linear yang tidak
saling berkorelasi maka keputusan apakah PCA cukup baik digunakan atau tidak
tergantung pada apakah hasil dari PCA ini dapat diinterpretasikan atau tidak. Bila
hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b
ik dihi d i tidak ada artinya dan sebaiknya dihindari.
• Jika objective dari analisa data adalah untuk mengurangi jumlah variable
(principle component) yang merupakan kombinasi linear dari variable-variable
asli maka jumlah variable asli, maka jumlah principle component harus kurang
dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh dilakukan bila
data dapat direpresentasikan dalam beberapa buah principle component tanpa
menghilangkan informasi secara substansial (without a substantial loss of
information).
26. Tugas Dan Proyek Pelatihan
Silahkan mengerjakan Quiz Modul 10 pada LMS Kominfo.
Link Referensi Modul Pertama
1. Ozdemir, Sinan Susarla, Divya - Feature engineering made easy identify unique features from your
dataset in order to build powerful machine learning systems (2018, Packt Publishing)
2. Dong, Guozhu, Liu, H. - Feature Engineering For Machine Learning and Data Analytics
3. Chandra, Andreas. 2019. Memahami Data Dengan Exploratory Data Analysis.
https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-
a53b230cce84.
4. Kurniawan, Robert, Gama Putra Danu Sohibien, and Rini Rahani. 2019. Cara Mudah Belajar Statistik
Analisis Data & Eksplorasi. 1st Editio. Kencana.
https://books.google.co.id/books?hl=en&lr=&id=zFgCEAAAQBAJ&oi=fnd&pg=PP1&dq=Analisis+Data
+Eksplorasi+(EDA)+pdf&ots=9X620ivw_N&sig=YC4P5-
X9awyHkfQ3UUntOv0oTcU&redir_esc=y#v=onepage&q&f=false.
5. Mishra, Sidharth Prasad et al. 2017. “Multivariate Statistical Data Analysis- Principal Component
Analysis (PCA).” International Journal of Livestock Research 7(5): 60–78.
6. https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15
7. https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal-component-analysis-
pca-and-how-it-is-used-507186
Link Pertanyaan Modul Petama
Bahan Tayang
Power Point
27. Link room Pelatihan dan Jadwal live sesi bersama instruktur
Zoom
Penilaian
Komposisi penilaian Tugas Data Science : Nilai 100
Target Penyelesaian Modul Pertama
1 hari / sampai 6 JP