Weka dataprepocessing
- 2. การใช้ GainRatioAttributeEval
คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ
ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้
ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก
อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval,
OneRAtributeEval,CfsSubsetEval
- 3. เรื่อง Filter ในส่วนการทา Discretize
การเรียกใช้ตัวกรอง (Filter)
ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็น 2 ลักษณะ คือ
Supervised
แปลงข้อมูลแบบอัตโนมัติ
Unsupervised
แปลงข้อมูลที่ผู้ใช้กาหนดเอง
- 7. การกรองแอตทริบิวต์ (Attribute Selection)
เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก
โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน
เท่านั้น
ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา
ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ
ประมวลผลลดลง
งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้
เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล
ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
- 8. วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด
ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ
วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ
แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ
บิวต์ที่สนใจให้กับคลาสนั้นๆ
- 9. วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ
(Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว
สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่
แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ
บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด
วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้
การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้
หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
- 10. การจาแนกประเภทข้อมูล (Classification)
J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้
ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ
โหนดใบแสดงคลาส
NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน
IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่
ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี
ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด
RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น
ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function
Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง
เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น
ของแอททริบิวต์ทุกตัวของ x
- 11. Attribute ความหมาย
Id หมายเลขประจาตัวที่ไม่ซ้ากัน
อายุ (age) อายุของลูกค้าในปี (ตัวเลข)
เพศ (sex) เพศชาย / หญิง
ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง
เงินได้ (income) รายได้ของลูกค้า (ตัวเลข)
แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No)
เด็ก (children) จานวนบุตร (ตัวเลข)
รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No)
save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No)
current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No)
การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No)
ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่
ส่งล่าสุด (Yes / No)
- 22. คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล
ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน
ใหม่