Weka dataprepocessing

ขั้นตอนของการเตรียมข้อมูล (Preprocessing)
การใช้ตัวกรอง (Filters) ใน Weka

การใช้ GainRatioAttributeEval
 คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ
ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้
ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก
อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval,
OneRAtributeEval,CfsSubsetEval

เรื่อง Filter ในส่วนการทา Discretize
 การเรียกใช้ตัวกรอง (Filter)
 ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็น 2 ลักษณะ คือ
 Supervised
 แปลงข้อมูลแบบอัตโนมัติ
 Unsupervised
 แปลงข้อมูลที่ผู้ใช้กาหนดเอง

ตัวกรองแบบอัตโนมัติ (Supervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
AttributeSelection Resample
ClassOrder SpreadSubsample
Discretize StratifiedRemoveFolds
NorminalToBinary

ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
Add Randomize
Discretize
(unsupervised)
RemoveFold
Normalize ReplaceMissing Value
NumbericToBinary Resample

เทคนิคการกรองแอททริบิวต์และอัลกอริทึมในการจาแนก
1. การกรองแอตทริบิวต์ (Attribute Selection)
2. การจาแนกประเภทข้อมูล (Classification)

การกรองแอตทริบิวต์ (Attribute Selection)
 เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก
โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน
เท่านั้น
 ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา
ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ
ประมวลผลลดลง
 งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้
เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล
ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ

 วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด
ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ
 วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ
แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ
บิวต์ที่สนใจให้กับคลาสนั้นๆ

 วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ
(Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว
สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่
แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ
บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด
 วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้
การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้
หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ

การจาแนกประเภทข้อมูล (Classification)
 J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้
ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ
โหนดใบแสดงคลาส
 NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน
 IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่
ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี
ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด
 RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น
ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function
 Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง
เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น
ของแอททริบิวต์ทุกตัวของ x

Attribute ความหมาย
Id หมายเลขประจาตัวที่ไม่ซ้ากัน
อายุ (age) อายุของลูกค้าในปี (ตัวเลข)
เพศ (sex) เพศชาย / หญิง
ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง
เงินได้ (income) รายได้ของลูกค้า (ตัวเลข)
แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No)
เด็ก (children) จานวนบุตร (ตัวเลข)
รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No)
save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No)
current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No)
การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No)
ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่
ส่งล่าสุด (Yes / No)

ขั้นตอนการทางาน
 เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน
กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters

 Open file “bank-data.csv”

 เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้
ตัวแปลงเป็น .arff
 คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่
ปรากฏขึ้น

การกรองคุณสมบัติ
 ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ
ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน
 ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง
คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”
 ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้
เลื่อนลงรายชื่อและเลือก
 “weka/filters/unsupervised/attribute/Remove”
ตามลาดับ

 ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก
 ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ
ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ
(False) จากนั้นคลิก “OK”
 จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ

 คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล
 ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน
ใหม่

Weka dataprepocessing

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Weka dataprepocessing