fuzzyShp

M
Moh MabrulAdhiguna Robotech CLUB - AGRC
DATA MINING
Sasmitha Handayani Phutri
TI VII.4
DATA MINING
Data Mining adalah Serangkaian proses untuk menggali
nilai tambah berupa informasi yang selama ini tidak
diketahui secara manual dari suatu basisdata dengan
melakukan penggalian pola-pola dari data dengan tujuan
untuk memanipulasi data menjadi informasi yang lebih
berharga yang diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang
terdapat dalam basisdata.
Metode
Ada 2 metode yang secara umum pada data mining :
 Metode Prediksi
Menggunakan beberapa variabel untuk memprediksi
nilai yang belum diketahui (unknown) atau nilai
selanjutnya (future) atau variabel lain.
 Metode Deskripsi
Mencari suatu pola yang mudah dipahami oleh
manusia yang mendeskripsikan data.
Algoritma Data Mining (DM)
1. Estimation
2. Prediction
3. Classification
4. Clustering
5. Association
1. estimation
Estimasi hampir sama dengan
klasifikasi, kecuali variabel target estimasi
lebih kearah numerik daripada ke arah
kategori.
2. Prediction
Prediksi hampir sama dengan
klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada
dimasa mendatang.
3. Classification
Dalam klasifikasi, terdapat terget
variabel kategori
4. Clustering
 Kluster adalah kumpulan record yang memiliki kemiripan
satu dengan yang lainnya dan tidak memiliki kemiripan
dengan record-record dalam kluster lain.
5. Association
Tugas asosiasi dalam data mining
adalah menemukan atribut yang muncul
dalam satu waktu.
Algoritma Data Mining (DM)
1. Estimation (Estimasi):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
2. Prediction/Forecasting
(Prediksi/Peramalan):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
3. Classification (Klasifikasi):
◦ Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear
Discriminant Analysis, Logistic Regression, etc
4. Clustering (Klastering):
◦ K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy
C-Means, etc
5. Association (Asosiasi):
◦ FP-Growth, A Priori, etc
Pengukuran Dari beberapa Metode
 Neural networks (jaringan syaraf tiruan)
Ini adalah salah satu diantara teknik-teknik dalam
‘machine-learning’ yang paling popular yang bisa
digunakan untuk problem-problem klasifikasi.
 Decision tree (pohon keputusan)
Decision tree membagi ‘training set’ (data pelatihan)
secara rekursif hingga masing-masing divisi berisi contoh
dari satu kelas secara keseluruhan.
Istilah-istilah yang berkenan
dengan data mining
 Algorithm - Mengacu kepada prosedur spesifik
yang digunakan untuk menerapkan sebuah
teknik khusus dari data mining, seperti:
clasification tree, discriminant analysis, dll.
 Confidence - Confidence mempunyai arti
khusus didalam Association Rule, misalnya di
dalam pernyataan "Apabila A dan B dibeli, maka
C juga dibeli" maka, Confidence adalah kondisi
kemungkinan C juga di beli apabila A dan B
dibeli. Confidence juga memiliki arti yang lebih
luas didalam statistik (Confidence Interval),
mengenai derajat dari kesalahan didalam sebuah
estimasi yang dihasilkan dari pemilihan sebuah
sample sebagai lawan dari sample lainnya.
 Holdout Sample - Adalah sebuah sample
dari data yang tidak digunakan didalam
fitting sebuah model, digunakan untuk
menilai performa dari model tersebut.
 Model - Mengacu kepada sebuah
algoritma yang diterakan kepada sebuah
dataset, lengkap dengan settingnya
(beberapa algoritma mempunyai
parameter yang dapat disesuaikan
oleh user)
 Observation - Adalah sebuah unit dari
analisis dimana sebuah pengukuran di
ambil (misal; transaksi dari customer)
juga dikenal sebagai case, record, pattern
atau row (setiap row seringkali
merepresentasikan sebuah record setiap
kolom adalah satu variabel).
 Logistic Regression (Regresi Logistic)
Merupakan salah satu analisa multivariate, yang berguna untuk memprediksi
dependent variabel berdasarkan variabel independen. Pada logistic regresi,
dependen variabel adalah variabel dikotomi (kategori). Ketika kategori
variabel dependennya berjumlah dua maka digunakan binary logistic dan
ketika dependen variabelnya lebih dari dua kategori maka digunakan
multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk
rangking, maka disebut dengan ordinal logistic regression.
 Support Vector Machine (SVM)
metode learning machine yang bekerja atas prinsip Structural
Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang
memisahkan dua buah class pada input space.
 K-Means
Suatu metode penganalisaan data atau metode Data
Mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang
melakukan pengelompokan data dengan sistem partisi.
 K-Nearest Neighbor (k-NN atau KNN)
Sebuah metode untuk melakukan klasifikasi terhadap
objek berdasarkan data pembelajaran yang jaraknya
paling dekat dengan objek tersebut.
 Self-Organizing Map (SOM)
salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam
unsupervised learning atau pelatihan tidak terbimbing, yaitu pelatihan yang
tidak membutuhkan vektor target untuk menghasilkan keluaran, hanya terdiri
dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk
menghasilkan pola vektor.
 Linear Regression
sebuah data statistik yang dapat memprediksikan suatu harga kedepan dari
data masa lalu, biasanya digunakan dimana saat pergerakan harga sedang
mengalami kenaikan maupun penurunan yang sangat signifikan.
 Naïve Bayes
Sebuah metode information retrieval yang menggunakan
pendekatan probabilistik dalam menginferensi, yakni berbasis
pada teorema Bayes secara umum. Aplikasinya yang paling
banyak digunakan yaitu untuk klasifikasi teks. Arti kata
“naive” di sini adalah metode Naive Bayes mengasumsikan
bahwa probabilitas kemunculan sebuah kata independen
terhadap posisinya di dalam teks.
 FP-Growth
Bagian dari teknik asosiasi pada data mining. FP-Growth salah
satu altenatif algoritma yang dapat digunakan untuk
menentukan himpunan data yang paling sering muncul (frequent
itemset) dalam sekumpulan data.
Istilah-istilah pada Data Mining
 Pattern - Adalah sebuah seperangkat pengukuran
pada sebuah observasi atau pengamatan.(misal:
tinggi, berat, dan umur dari seseorang)
 Prediction - Berarti ramalan dalam sebuah nilai yang
didapat dari output variabel yang terus menerus
(Juga dikenal sebagai estimation).
 Predictor - Biasanya di notasikan dengan X juga
disebut dengan Feature, Input Variable, Independent
Variable, atau dari perspektif database, predictor
disebut dengan field.
 Response - Biasanya dinotasikan dengan Y, adalah
variabel yang sedang diramalkan pada supervised
learning; juga dikenal dengan dependent variable,
output variable, target variable, atau outcome
variable.
 Score - mengacu kepada value atau class yang di prediksi.
Scoring new data berarti menggunakan sebuah model yang
dibangun dengan training data untuk memprediksi output
value di data yang baru.
 Success Class - Adalah sebuah class of interest pada
sebuah hasil binary (misal: purchaser didalam outcome
purchase / no purchase)
 Supervised learning - Mengacu kepada proses dalam
penyediaan algoritma (logistic regression, regression tree,
dll) dengan record didalam sebuah output variable of
interest yang diketahui dan algoritma belajar bagaimana
memprediksi nilai dengan record baru dimana outputnya
tidak diketahui.
 Test Data (atau Test Set) - Mengacu kepada porsi dari
data yang digunakan hanya pada akhir dari
pembangunan model dan proses seleksi untuk menaksir
seberapa bagus final model pada penambahan data.T
 Training Data (atau Training Set) - Mengacu kepada porsi
dari data yang digunakan untuk mencocokan sebuah model.
 Unsupervised Learning - Mengacu kepada analisa tentang
analisis mana yang melakukan percobaan untuk mempelajari
sesuatu dari data daripada mencari nilai outputnya.
 Validation data (atau validation set) - Mengacu kepada
porsi dari data yang digunakan untuk menilai seberapa baik
model itu cocok, untuk menyesuaikan beberapa model, dan
untuk memilih model terbaik dari model-model yang pernah
dicoba.
 Variable - Segala pengukuran pada record, termasuk variable
input (X) dan variable Output (Y).
1 von 21

Recomendados

A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803 von
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803
A11.2012.07112 alvian yudha prawira tgsdm2 _a11.4803Alvian yudha Prawira
503 views16 Folien
Machine learning dan data mining von
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data miningAlvian yudha Prawira
10.9K views16 Folien
Modul klasifikasi decission tree modul klasifikasi von
Modul klasifikasi decission tree modul klasifikasiModul klasifikasi decission tree modul klasifikasi
Modul klasifikasi decission tree modul klasifikasiUniversitas Bina Darma Palembang
9.6K views23 Folien
9349 12 supervised dan-unsupervised-learning von
9349 12 supervised dan-unsupervised-learning9349 12 supervised dan-unsupervised-learning
9349 12 supervised dan-unsupervised-learningUniversitas Bina Darma Palembang
2.2K views12 Folien
Materi Kuliah Data Mining full von
Materi Kuliah Data Mining fullMateri Kuliah Data Mining full
Materi Kuliah Data Mining fullMunajat ( Munjob )
211 views34 Folien
Tugas 1 dm1 von
Tugas 1 dm1Tugas 1 dm1
Tugas 1 dm1Alvian yudha Prawira
1.1K views13 Folien

Más contenido relacionado

Was ist angesagt?

Analisis dan penyajian data von
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
4.4K views29 Folien
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at... von
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Koltiva
10.9K views10 Folien
ppt statistik kel 1..pptx von
ppt statistik kel 1..pptxppt statistik kel 1..pptx
ppt statistik kel 1..pptxOstarionKing
39 views7 Folien
PPT ANALISIS DATA SURVEI von
PPT ANALISIS DATA SURVEIPPT ANALISIS DATA SURVEI
PPT ANALISIS DATA SURVEIDarliana Darwis
3.2K views24 Folien
Statistik.xlsx von
Statistik.xlsxStatistik.xlsx
Statistik.xlsxM Randi Rj VoreCastle
929 views9 Folien
4.2. METODOLOGI PENELITIAN - ANALISIS DATA von
4.2. METODOLOGI PENELITIAN - ANALISIS DATA4.2. METODOLOGI PENELITIAN - ANALISIS DATA
4.2. METODOLOGI PENELITIAN - ANALISIS DATAUniversitas Qomaruddin, Gresik, Indonesia
317 views31 Folien

Was ist angesagt?(18)

Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at... von Koltiva
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Koltiva10.9K views
ppt statistik kel 1..pptx von OstarionKing
ppt statistik kel 1..pptxppt statistik kel 1..pptx
ppt statistik kel 1..pptx
OstarionKing39 views
Algoritma dan Struktur Data - Sorting beserta Metode nya von Muhammad abbie
Algoritma dan Struktur Data - Sorting beserta Metode nya Algoritma dan Struktur Data - Sorting beserta Metode nya
Algoritma dan Struktur Data - Sorting beserta Metode nya
Muhammad abbie2.3K views
Jurnal biaya pasien rawat inap penyakit jantung von Andy Murtanto
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantung
Andy Murtanto873 views
Data kualitatif adalah data yang berbentuk kata von Ashly Gon
Data kualitatif adalah data yang berbentuk kataData kualitatif adalah data yang berbentuk kata
Data kualitatif adalah data yang berbentuk kata
Ashly Gon36.3K views

Similar a fuzzyShp

PPT KEL 3 DAI - 007.pptx von
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxStevenAdiSantoso
7 views25 Folien
Pertemuan 4.pdf von
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdfHasanulFahmi2
7 views10 Folien
Pertemuan 3 Model Data Mining.pptx von
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxArwansyahDipanegara
1 view22 Folien
APPLIED DATABASE III - Slide Arsitektur Data Mining von
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningDEDE IRYAWAN
39 views27 Folien
ppt metopen kel 09.pptx von
ppt metopen kel 09.pptxppt metopen kel 09.pptx
ppt metopen kel 09.pptxRahmaNatasyah
10 views22 Folien
Procceding_KNIT_2_97-102_AndikaDwiHadiri von
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
108 views6 Folien

Similar a fuzzyShp(20)

APPLIED DATABASE III - Slide Arsitektur Data Mining von DEDE IRYAWAN
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data Mining
DEDE IRYAWAN39 views
Pertemuan 10 - Metodologi Data Science - Copy.pptx von FennyRahmayani
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptx
FennyRahmayani54 views
Klasifikasi - Algoritma Naive Bayes von Elvi Rahmi
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes
Elvi Rahmi320 views
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx von Sangrian1
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptxTUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
Sangrian14 views
Tm aljabar linear matriks von Eno Mandala
Tm aljabar linear matriksTm aljabar linear matriks
Tm aljabar linear matriks
Eno Mandala220 views
06 - Machine Learning .pdf von Elvi Rahmi
06 - Machine Learning .pdf06 - Machine Learning .pdf
06 - Machine Learning .pdf
Elvi Rahmi25 views

fuzzyShp

  • 2. DATA MINING Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
  • 3. Metode Ada 2 metode yang secara umum pada data mining :  Metode Prediksi Menggunakan beberapa variabel untuk memprediksi nilai yang belum diketahui (unknown) atau nilai selanjutnya (future) atau variabel lain.  Metode Deskripsi Mencari suatu pola yang mudah dipahami oleh manusia yang mendeskripsikan data.
  • 4. Algoritma Data Mining (DM) 1. Estimation 2. Prediction 3. Classification 4. Clustering 5. Association
  • 5. 1. estimation Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih kearah numerik daripada ke arah kategori.
  • 6. 2. Prediction Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang.
  • 7. 3. Classification Dalam klasifikasi, terdapat terget variabel kategori
  • 8. 4. Clustering  Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan tidak memiliki kemiripan dengan record-record dalam kluster lain.
  • 9. 5. Association Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu.
  • 10. Algoritma Data Mining (DM) 1. Estimation (Estimasi): ◦ Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): ◦ Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): ◦ Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): ◦ K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi): ◦ FP-Growth, A Priori, etc
  • 11. Pengukuran Dari beberapa Metode  Neural networks (jaringan syaraf tiruan) Ini adalah salah satu diantara teknik-teknik dalam ‘machine-learning’ yang paling popular yang bisa digunakan untuk problem-problem klasifikasi.  Decision tree (pohon keputusan) Decision tree membagi ‘training set’ (data pelatihan) secara rekursif hingga masing-masing divisi berisi contoh dari satu kelas secara keseluruhan.
  • 12. Istilah-istilah yang berkenan dengan data mining  Algorithm - Mengacu kepada prosedur spesifik yang digunakan untuk menerapkan sebuah teknik khusus dari data mining, seperti: clasification tree, discriminant analysis, dll.  Confidence - Confidence mempunyai arti khusus didalam Association Rule, misalnya di dalam pernyataan "Apabila A dan B dibeli, maka C juga dibeli" maka, Confidence adalah kondisi kemungkinan C juga di beli apabila A dan B dibeli. Confidence juga memiliki arti yang lebih luas didalam statistik (Confidence Interval), mengenai derajat dari kesalahan didalam sebuah estimasi yang dihasilkan dari pemilihan sebuah sample sebagai lawan dari sample lainnya.
  • 13.  Holdout Sample - Adalah sebuah sample dari data yang tidak digunakan didalam fitting sebuah model, digunakan untuk menilai performa dari model tersebut.  Model - Mengacu kepada sebuah algoritma yang diterakan kepada sebuah dataset, lengkap dengan settingnya (beberapa algoritma mempunyai parameter yang dapat disesuaikan oleh user)
  • 14.  Observation - Adalah sebuah unit dari analisis dimana sebuah pengukuran di ambil (misal; transaksi dari customer) juga dikenal sebagai case, record, pattern atau row (setiap row seringkali merepresentasikan sebuah record setiap kolom adalah satu variabel).
  • 15.  Logistic Regression (Regresi Logistic) Merupakan salah satu analisa multivariate, yang berguna untuk memprediksi dependent variabel berdasarkan variabel independen. Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua maka digunakan binary logistic dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk rangking, maka disebut dengan ordinal logistic regression.  Support Vector Machine (SVM) metode learning machine yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input space.
  • 16.  K-Means Suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.  K-Nearest Neighbor (k-NN atau KNN) Sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.
  • 17.  Self-Organizing Map (SOM) salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam unsupervised learning atau pelatihan tidak terbimbing, yaitu pelatihan yang tidak membutuhkan vektor target untuk menghasilkan keluaran, hanya terdiri dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk menghasilkan pola vektor.  Linear Regression sebuah data statistik yang dapat memprediksikan suatu harga kedepan dari data masa lalu, biasanya digunakan dimana saat pergerakan harga sedang mengalami kenaikan maupun penurunan yang sangat signifikan.
  • 18.  Naïve Bayes Sebuah metode information retrieval yang menggunakan pendekatan probabilistik dalam menginferensi, yakni berbasis pada teorema Bayes secara umum. Aplikasinya yang paling banyak digunakan yaitu untuk klasifikasi teks. Arti kata “naive” di sini adalah metode Naive Bayes mengasumsikan bahwa probabilitas kemunculan sebuah kata independen terhadap posisinya di dalam teks.  FP-Growth Bagian dari teknik asosiasi pada data mining. FP-Growth salah satu altenatif algoritma yang dapat digunakan untuk menentukan himpunan data yang paling sering muncul (frequent itemset) dalam sekumpulan data.
  • 19. Istilah-istilah pada Data Mining  Pattern - Adalah sebuah seperangkat pengukuran pada sebuah observasi atau pengamatan.(misal: tinggi, berat, dan umur dari seseorang)  Prediction - Berarti ramalan dalam sebuah nilai yang didapat dari output variabel yang terus menerus (Juga dikenal sebagai estimation).  Predictor - Biasanya di notasikan dengan X juga disebut dengan Feature, Input Variable, Independent Variable, atau dari perspektif database, predictor disebut dengan field.  Response - Biasanya dinotasikan dengan Y, adalah variabel yang sedang diramalkan pada supervised learning; juga dikenal dengan dependent variable, output variable, target variable, atau outcome variable.
  • 20.  Score - mengacu kepada value atau class yang di prediksi. Scoring new data berarti menggunakan sebuah model yang dibangun dengan training data untuk memprediksi output value di data yang baru.  Success Class - Adalah sebuah class of interest pada sebuah hasil binary (misal: purchaser didalam outcome purchase / no purchase)  Supervised learning - Mengacu kepada proses dalam penyediaan algoritma (logistic regression, regression tree, dll) dengan record didalam sebuah output variable of interest yang diketahui dan algoritma belajar bagaimana memprediksi nilai dengan record baru dimana outputnya tidak diketahui.  Test Data (atau Test Set) - Mengacu kepada porsi dari data yang digunakan hanya pada akhir dari
  • 21. pembangunan model dan proses seleksi untuk menaksir seberapa bagus final model pada penambahan data.T  Training Data (atau Training Set) - Mengacu kepada porsi dari data yang digunakan untuk mencocokan sebuah model.  Unsupervised Learning - Mengacu kepada analisa tentang analisis mana yang melakukan percobaan untuk mempelajari sesuatu dari data daripada mencari nilai outputnya.  Validation data (atau validation set) - Mengacu kepada porsi dari data yang digunakan untuk menilai seberapa baik model itu cocok, untuk menyesuaikan beberapa model, dan untuk memilih model terbaik dari model-model yang pernah dicoba.  Variable - Segala pengukuran pada record, termasuk variable input (X) dan variable Output (Y).