2. DATA MINING
Data Mining adalah Serangkaian proses untuk menggali
nilai tambah berupa informasi yang selama ini tidak
diketahui secara manual dari suatu basisdata dengan
melakukan penggalian pola-pola dari data dengan tujuan
untuk memanipulasi data menjadi informasi yang lebih
berharga yang diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang
terdapat dalam basisdata.
3. Metode
Ada 2 metode yang secara umum pada data mining :
Metode Prediksi
Menggunakan beberapa variabel untuk memprediksi
nilai yang belum diketahui (unknown) atau nilai
selanjutnya (future) atau variabel lain.
Metode Deskripsi
Mencari suatu pola yang mudah dipahami oleh
manusia yang mendeskripsikan data.
4. Algoritma Data Mining (DM)
1. Estimation
2. Prediction
3. Classification
4. Clustering
5. Association
5. 1. estimation
Estimasi hampir sama dengan
klasifikasi, kecuali variabel target estimasi
lebih kearah numerik daripada ke arah
kategori.
6. 2. Prediction
Prediksi hampir sama dengan
klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada
dimasa mendatang.
8. 4. Clustering
Kluster adalah kumpulan record yang memiliki kemiripan
satu dengan yang lainnya dan tidak memiliki kemiripan
dengan record-record dalam kluster lain.
10. Algoritma Data Mining (DM)
1. Estimation (Estimasi):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
2. Prediction/Forecasting
(Prediksi/Peramalan):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
3. Classification (Klasifikasi):
◦ Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear
Discriminant Analysis, Logistic Regression, etc
4. Clustering (Klastering):
◦ K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy
C-Means, etc
5. Association (Asosiasi):
◦ FP-Growth, A Priori, etc
11. Pengukuran Dari beberapa Metode
Neural networks (jaringan syaraf tiruan)
Ini adalah salah satu diantara teknik-teknik dalam
‘machine-learning’ yang paling popular yang bisa
digunakan untuk problem-problem klasifikasi.
Decision tree (pohon keputusan)
Decision tree membagi ‘training set’ (data pelatihan)
secara rekursif hingga masing-masing divisi berisi contoh
dari satu kelas secara keseluruhan.
12. Istilah-istilah yang berkenan
dengan data mining
Algorithm - Mengacu kepada prosedur spesifik
yang digunakan untuk menerapkan sebuah
teknik khusus dari data mining, seperti:
clasification tree, discriminant analysis, dll.
Confidence - Confidence mempunyai arti
khusus didalam Association Rule, misalnya di
dalam pernyataan "Apabila A dan B dibeli, maka
C juga dibeli" maka, Confidence adalah kondisi
kemungkinan C juga di beli apabila A dan B
dibeli. Confidence juga memiliki arti yang lebih
luas didalam statistik (Confidence Interval),
mengenai derajat dari kesalahan didalam sebuah
estimasi yang dihasilkan dari pemilihan sebuah
sample sebagai lawan dari sample lainnya.
13. Holdout Sample - Adalah sebuah sample
dari data yang tidak digunakan didalam
fitting sebuah model, digunakan untuk
menilai performa dari model tersebut.
Model - Mengacu kepada sebuah
algoritma yang diterakan kepada sebuah
dataset, lengkap dengan settingnya
(beberapa algoritma mempunyai
parameter yang dapat disesuaikan
oleh user)
14. Observation - Adalah sebuah unit dari
analisis dimana sebuah pengukuran di
ambil (misal; transaksi dari customer)
juga dikenal sebagai case, record, pattern
atau row (setiap row seringkali
merepresentasikan sebuah record setiap
kolom adalah satu variabel).
15. Logistic Regression (Regresi Logistic)
Merupakan salah satu analisa multivariate, yang berguna untuk memprediksi
dependent variabel berdasarkan variabel independen. Pada logistic regresi,
dependen variabel adalah variabel dikotomi (kategori). Ketika kategori
variabel dependennya berjumlah dua maka digunakan binary logistic dan
ketika dependen variabelnya lebih dari dua kategori maka digunakan
multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk
rangking, maka disebut dengan ordinal logistic regression.
Support Vector Machine (SVM)
metode learning machine yang bekerja atas prinsip Structural
Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang
memisahkan dua buah class pada input space.
16. K-Means
Suatu metode penganalisaan data atau metode Data
Mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang
melakukan pengelompokan data dengan sistem partisi.
K-Nearest Neighbor (k-NN atau KNN)
Sebuah metode untuk melakukan klasifikasi terhadap
objek berdasarkan data pembelajaran yang jaraknya
paling dekat dengan objek tersebut.
17. Self-Organizing Map (SOM)
salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam
unsupervised learning atau pelatihan tidak terbimbing, yaitu pelatihan yang
tidak membutuhkan vektor target untuk menghasilkan keluaran, hanya terdiri
dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk
menghasilkan pola vektor.
Linear Regression
sebuah data statistik yang dapat memprediksikan suatu harga kedepan dari
data masa lalu, biasanya digunakan dimana saat pergerakan harga sedang
mengalami kenaikan maupun penurunan yang sangat signifikan.
18. Naïve Bayes
Sebuah metode information retrieval yang menggunakan
pendekatan probabilistik dalam menginferensi, yakni berbasis
pada teorema Bayes secara umum. Aplikasinya yang paling
banyak digunakan yaitu untuk klasifikasi teks. Arti kata
“naive” di sini adalah metode Naive Bayes mengasumsikan
bahwa probabilitas kemunculan sebuah kata independen
terhadap posisinya di dalam teks.
FP-Growth
Bagian dari teknik asosiasi pada data mining. FP-Growth salah
satu altenatif algoritma yang dapat digunakan untuk
menentukan himpunan data yang paling sering muncul (frequent
itemset) dalam sekumpulan data.
19. Istilah-istilah pada Data Mining
Pattern - Adalah sebuah seperangkat pengukuran
pada sebuah observasi atau pengamatan.(misal:
tinggi, berat, dan umur dari seseorang)
Prediction - Berarti ramalan dalam sebuah nilai yang
didapat dari output variabel yang terus menerus
(Juga dikenal sebagai estimation).
Predictor - Biasanya di notasikan dengan X juga
disebut dengan Feature, Input Variable, Independent
Variable, atau dari perspektif database, predictor
disebut dengan field.
Response - Biasanya dinotasikan dengan Y, adalah
variabel yang sedang diramalkan pada supervised
learning; juga dikenal dengan dependent variable,
output variable, target variable, atau outcome
variable.
20. Score - mengacu kepada value atau class yang di prediksi.
Scoring new data berarti menggunakan sebuah model yang
dibangun dengan training data untuk memprediksi output
value di data yang baru.
Success Class - Adalah sebuah class of interest pada
sebuah hasil binary (misal: purchaser didalam outcome
purchase / no purchase)
Supervised learning - Mengacu kepada proses dalam
penyediaan algoritma (logistic regression, regression tree,
dll) dengan record didalam sebuah output variable of
interest yang diketahui dan algoritma belajar bagaimana
memprediksi nilai dengan record baru dimana outputnya
tidak diketahui.
Test Data (atau Test Set) - Mengacu kepada porsi dari
data yang digunakan hanya pada akhir dari
21. pembangunan model dan proses seleksi untuk menaksir
seberapa bagus final model pada penambahan data.T
Training Data (atau Training Set) - Mengacu kepada porsi
dari data yang digunakan untuk mencocokan sebuah model.
Unsupervised Learning - Mengacu kepada analisa tentang
analisis mana yang melakukan percobaan untuk mempelajari
sesuatu dari data daripada mencari nilai outputnya.
Validation data (atau validation set) - Mengacu kepada
porsi dari data yang digunakan untuk menilai seberapa baik
model itu cocok, untuk menyesuaikan beberapa model, dan
untuk memilih model terbaik dari model-model yang pernah
dicoba.
Variable - Segala pengukuran pada record, termasuk variable
input (X) dan variable Output (Y).