SlideShare a Scribd company logo
1 of 24
ขั้นตอนของการเตรียมข้อมูล (Preprocessing)
การใช้ตัวกรอง (Filters) ใน Weka
การใช้ GainRatioAttributeEval
 คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ
ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้
ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก
อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval,
OneRAtributeEval,CfsSubsetEval
เรื่อง Filter ในส่วนการทา Discretize
 การเรียกใช้ตัวกรอง (Filter)
 ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็น 2 ลักษณะ คือ
 Supervised
 แปลงข้อมูลแบบอัตโนมัติ
 Unsupervised
 แปลงข้อมูลที่ผู้ใช้กาหนดเอง
ตัวกรองแบบอัตโนมัติ (Supervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
AttributeSelection Resample
ClassOrder SpreadSubsample
Discretize StratifiedRemoveFolds
NorminalToBinary
ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
Add Randomize
Discretize
(unsupervised)
RemoveFold
Normalize ReplaceMissing Value
NumbericToBinary Resample
เทคนิคการกรองแอททริบิวต์และอัลกอริทึมในการจาแนก
1. การกรองแอตทริบิวต์ (Attribute Selection)
2. การจาแนกประเภทข้อมูล (Classification)
การกรองแอตทริบิวต์ (Attribute Selection)
 เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก
โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน
เท่านั้น
 ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา
ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ
ประมวลผลลดลง
 งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้
เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล
ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
 วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด
ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ
 วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ
แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ
บิวต์ที่สนใจให้กับคลาสนั้นๆ
 วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ
(Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว
สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่
แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ
บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด
 วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้
การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้
หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
การจาแนกประเภทข้อมูล (Classification)
 J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้
ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ
โหนดใบแสดงคลาส
 NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน
 IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่
ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี
ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด
 RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น
ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function
 Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง
เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น
ของแอททริบิวต์ทุกตัวของ x
Attribute ความหมาย
Id หมายเลขประจาตัวที่ไม่ซ้ากัน
อายุ (age) อายุของลูกค้าในปี (ตัวเลข)
เพศ (sex) เพศชาย / หญิง
ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง
เงินได้ (income) รายได้ของลูกค้า (ตัวเลข)
แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No)
เด็ก (children) จานวนบุตร (ตัวเลข)
รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No)
save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No)
current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No)
การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No)
ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่
ส่งล่าสุด (Yes / No)
ขั้นตอนการทางาน
 เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน
กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
 Open file “bank-data.csv”
 เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้
ตัวแปลงเป็น .arff
 คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่
ปรากฏขึ้น
การกรองคุณสมบัติ
 ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ
ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน
 ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง
คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”
 ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้
เลื่อนลงรายชื่อและเลือก
 “weka/filters/unsupervised/attribute/Remove”
ตามลาดับ
 ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก
 ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ
ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ
(False) จากนั้นคลิก “OK”
 จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
 คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล
 ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน
ใหม่
Weka dataprepocessing
Weka dataprepocessing

More Related Content

What's hot

การสืบค้นสารสนเทศ
การสืบค้นสารสนเทศการสืบค้นสารสนเทศ
การสืบค้นสารสนเทศ
Nittaya Wongyai
 
การทดสอบสมมติฐาน สัปดาห์ที่ 10
การทดสอบสมมติฐาน สัปดาห์ที่ 10การทดสอบสมมติฐาน สัปดาห์ที่ 10
การทดสอบสมมติฐาน สัปดาห์ที่ 10
Sani Satjachaliao
 
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
Areewan Plienduang
 

What's hot (20)

Introduction to Weka: Application approach
Introduction to Weka: Application approachIntroduction to Weka: Application approach
Introduction to Weka: Application approach
 
ดอกลีลาวดี ดอกกุหลาบ และดอกชบา กลุ่ม1 ม.5 ห้อง 652
ดอกลีลาวดี ดอกกุหลาบ และดอกชบา กลุ่ม1 ม.5 ห้อง 652ดอกลีลาวดี ดอกกุหลาบ และดอกชบา กลุ่ม1 ม.5 ห้อง 652
ดอกลีลาวดี ดอกกุหลาบ และดอกชบา กลุ่ม1 ม.5 ห้อง 652
 
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 
การสืบค้นสารสนเทศ
การสืบค้นสารสนเทศการสืบค้นสารสนเทศ
การสืบค้นสารสนเทศ
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
1 weka introducing
1 weka introducing1 weka introducing
1 weka introducing
 
ปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญา
ปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญาปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญา
ปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญา
 
ของไหล
ของไหลของไหล
ของไหล
 
เอกสารการสอนเรื่อง การเขียนบรรณานุกรม58
เอกสารการสอนเรื่อง การเขียนบรรณานุกรม58เอกสารการสอนเรื่อง การเขียนบรรณานุกรม58
เอกสารการสอนเรื่อง การเขียนบรรณานุกรม58
 
หน่วยที่ 2 การรู้สารสนเทศกับการศึกษาระดับอุดมศึกษา
หน่วยที่ 2 การรู้สารสนเทศกับการศึกษาระดับอุดมศึกษาหน่วยที่ 2 การรู้สารสนเทศกับการศึกษาระดับอุดมศึกษา
หน่วยที่ 2 การรู้สารสนเทศกับการศึกษาระดับอุดมศึกษา
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
การทดสอบสมมติฐาน สัปดาห์ที่ 10
การทดสอบสมมติฐาน สัปดาห์ที่ 10การทดสอบสมมติฐาน สัปดาห์ที่ 10
การทดสอบสมมติฐาน สัปดาห์ที่ 10
 
ปรัชญาตะวันตก บทที่ ๑ ความหมายและขอบข่ายปรัชญา
ปรัชญาตะวันตก บทที่ ๑ ความหมายและขอบข่ายปรัชญาปรัชญาตะวันตก บทที่ ๑ ความหมายและขอบข่ายปรัชญา
ปรัชญาตะวันตก บทที่ ๑ ความหมายและขอบข่ายปรัชญา
 
วิชาปรัชญาจีน ตอน ปรัชญาของจวงจื๊อ
วิชาปรัชญาจีน ตอน ปรัชญาของจวงจื๊อวิชาปรัชญาจีน ตอน ปรัชญาของจวงจื๊อ
วิชาปรัชญาจีน ตอน ปรัชญาของจวงจื๊อ
 
เทคนิคการเขียนเอกสารประกอบการสอน
เทคนิคการเขียนเอกสารประกอบการสอนเทคนิคการเขียนเอกสารประกอบการสอน
เทคนิคการเขียนเอกสารประกอบการสอน
 
หน่วยที่ 4 การเลือกแหล่งสารสนเทศและทรัพยากรสารสนเทศ
หน่วยที่  4 การเลือกแหล่งสารสนเทศและทรัพยากรสารสนเทศหน่วยที่  4 การเลือกแหล่งสารสนเทศและทรัพยากรสารสนเทศ
หน่วยที่ 4 การเลือกแหล่งสารสนเทศและทรัพยากรสารสนเทศ
 
ทฤษฎีการเรียนรู้
ทฤษฎีการเรียนรู้ทฤษฎีการเรียนรู้
ทฤษฎีการเรียนรู้
 
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
ความยืดหยุ่นของอุปสงค์ (Elasticity of demand)
 
Text Mining - Data Mining
Text Mining - Data MiningText Mining - Data Mining
Text Mining - Data Mining
 
Merge sort
Merge sortMerge sort
Merge sort
 

Viewers also liked

Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Weka
Dkpoon Po-ngam
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
Prakaywan Tumsangwan
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
Siwaphon
 

Viewers also liked (20)

Weka introducing
Weka introducingWeka introducing
Weka introducing
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
K means cluster in weka
K means cluster in wekaK means cluster in weka
K means cluster in weka
 
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Weka
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
 
Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69
 
Mind mapping
Mind mappingMind mapping
Mind mapping
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)
 
การสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลังการสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลัง
 
Moodle
MoodleMoodle
Moodle
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
 
การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1
 

Weka dataprepocessing

  • 2. การใช้ GainRatioAttributeEval  คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้ ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval, OneRAtributeEval,CfsSubsetEval
  • 3. เรื่อง Filter ในส่วนการทา Discretize  การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง แบ่งออกเป็น 2 ลักษณะ คือ  Supervised  แปลงข้อมูลแบบอัตโนมัติ  Unsupervised  แปลงข้อมูลที่ผู้ใช้กาหนดเอง
  • 4. ตัวกรองแบบอัตโนมัติ (Supervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) AttributeSelection Resample ClassOrder SpreadSubsample Discretize StratifiedRemoveFolds NorminalToBinary
  • 5. ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) Add Randomize Discretize (unsupervised) RemoveFold Normalize ReplaceMissing Value NumbericToBinary Resample
  • 7. การกรองแอตทริบิวต์ (Attribute Selection)  เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน เท่านั้น  ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ ประมวลผลลดลง  งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้ เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
  • 8.  วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ  วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ บิวต์ที่สนใจให้กับคลาสนั้นๆ
  • 9.  วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ (Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่ แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด  วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้ การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้ หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
  • 10. การจาแนกประเภทข้อมูล (Classification)  J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้ ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ โหนดใบแสดงคลาส  NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน  IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่ ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด  RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function  Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น ของแอททริบิวต์ทุกตัวของ x
  • 11. Attribute ความหมาย Id หมายเลขประจาตัวที่ไม่ซ้ากัน อายุ (age) อายุของลูกค้าในปี (ตัวเลข) เพศ (sex) เพศชาย / หญิง ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง เงินได้ (income) รายได้ของลูกค้า (ตัวเลข) แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No) เด็ก (children) จานวนบุตร (ตัวเลข) รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No) save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No) current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No) การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No) ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่ ส่งล่าสุด (Yes / No)
  • 12. ขั้นตอนการทางาน  เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
  • 13.  Open file “bank-data.csv”
  • 14.  เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้ ตัวแปลงเป็น .arff  คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่ ปรากฏขึ้น
  • 15.
  • 16.
  • 17. การกรองคุณสมบัติ  ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน  ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”  ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้ เลื่อนลงรายชื่อและเลือก  “weka/filters/unsupervised/attribute/Remove” ตามลาดับ
  • 18.
  • 19.  ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก  ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ (False) จากนั้นคลิก “OK”  จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
  • 20.
  • 21.
  • 22.  คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล  ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน ใหม่