5. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
About us
5
RapidMiner Analyst
Certification
This is to Certify that
Successfully passed the examination for the Certified RapidMiner Analyst.
The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.
Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.
The candidate has proven the ability to:
Prepare data Build predictive models
Evaluate the model’s quality Score new data sets
Deploy data mining models
With:
RapidMiner Studio RapidMiner Server
Eakasit Pacharawongsakda
18. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
R Data Structures: List
18
> age <- c(48,40,51,23);
> gender <- c("FEMALE","MALE","FEMALE","FEMALE");
> income <- c(17546.0,30085.1,16575.4,20375.4);
> john_doe <- list(customer_id = customer_id[1],
age = age[1],
gender = gender[1],
income = income[1])
การสร้าง List
> john_doe$customer_id
[1] "ID15101"
การดึงข้อมูลจาก List
26. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Linear Regression model using R
• ในการสร้างโมเดล linear regression ใช้ฟังก์ชัน lm()
• โดยที่
• dv คือ dependent variable หรือ แอตทริบิวต์ที่เป็นลาเบลคำตอบ
• iv คือ independent variable หรือ แอตทริบิวต์ที่เป็นแอตทริบิวต์ทั่วไป
• ทั้ง dv และ iv จะเป็นแอตทริบิวต์ที่อยู่ในข้อมูล mydata
• ข้อมูล mydata คือ training data ที่จะนำมาสร้างโมเดล
26
> m <- lm(dv ~ iv, data=mydata)
การสร้างโมเดล
> m <- lm(GPA_grad ~ GPA_undergrad, data=grade)
ตัวอย่างการสร้างโมเดล
27. Introduction to RapidMiner Studio 7
(data)3
base|warehouse|mining
Chapter 2
http://www.dataminingtrend.com
http://facebook.com/datacube.th
30. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
RapidMiner Studio 7
• เมนูใน RapidMiner Studio 7
30
ใช้สร้าง process ใหม่
โหลด process เดิม
บันทึก process
undo หรือ redo
สั่งให้ process ทำงาน (run)
ยกเลิก process (stop)
เมนูสำหรับปรับเปลี่ยนมุมมองของ
RapidMiner Studio 7
เมนูสำหรับแสดงวิธีการใช้งานในรูปแบบต่างๆ
ba
a
b
หน้า Design แสดงหน้าสำหรับการสร้างโพรเซส
หน้า Results แสดงหน้าผลลัพธ์การทำงาน
45. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Classification: Balanced data
• ในการสร้างโมเดลจำเป็นต้องมี training
data เพื่อให้เรียนรู้
• แอตทริบิวต์ทั่วไป คือ แอตทริบิวต์หรือ
ตัวแปรที่ใช้ในการสร้างโมเดล
• แอตทริบิวต์ประเภทลาเบล คือ
แอตทริบิวต์ที่เป็นคำตอบที่เราสนใจในการ
สร้างโมเดล เช่น spam/normal, response/
no response
• ข้อมูล training data ควรจะมีข้อมูลแต่
ละลาเบล (label) เท่ากัน หรือ ใกล้เคียง
กัน (balanced data) เพื่อให้โมเดล
สามารถเรียนรู้ได้จากทุกลาเบล
45
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
attribute label
ข้อมูล training data ที่เป็น balanced data
63. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
63
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
compute weight
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทริบิวต์ทั้งหมดใน training data
แอตทริบิวต์หลังจากการเลือก
(selection) แล้ว
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทริบิวต์ทั้งหมดใน training data
แอตทริบิวต์หลังจากการเลือก
(selection) แล้ว
classification
model
Attribute Selection: Filter Approach
Attribute Selection: Wrapper Approach
76. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Bootstrap Aggregating or Bagging
76
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
10 N N N normal
ID Free Won Cash Type
1 Y Y Y spam
5 Y N N spam
7 N N N normal
ID Free Won Cash Type
8 N Y N spam
9 N N N normal
10 N N N normal
training data #1
training data #2
training data #3
decision tree model #1
decision tree model #3
Output 1
Output 2
Output 3
aggregateoutput
decision tree model #2