More Related Content Similar to Chapter 2 data (20) Chapter 2 data2. Data management
Repository
เป็นที่เก็บข้อมูลและ process เพื่อใช้งานใน RapidMiner Stodio 6
ทา ให้ไม่ต้องโหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง
องค์ประกอบในส่วน Repository
ส่วนที่ 1
สาหรับสร้าง Repository ใหม่
โหลดไฟล์ประเภทต่าง ๆ
สร้างโฟลเดอร์ใหม่
ส่วนที่ 2
ข้อมูลและ process Sample ที่ RapidMiner เตรียมไว้ให้
ข้อมูลที่เก็บอยู่ในแต่ละ Repository
1
2
3. Data management
สร้าง Repository ใหม่
คลิกที่
เลือก New local repository
กดปุ่ม Next
1 2
3
4. Data management
เปลี่ยนชื่อ Alias เป็น RapidMinerTraining
คลิกที่ Use standard location เพื่อเอาออก
คลิกที่ไอคอน Folder เพื่อเลือก Root directory ใหม่
4
5
6
6. Data management
สร้างโฟลเดอร์ชื่อ RapidMinerTraining และกดปุ่ม OK
กด Finish
8
9
10
7. CSV File
ไฟล์ประเภท CSV ย่อมาจาก Comma Separated Value
ใช้เครื่องหมาย , (comma) คั่นระหว่างแอตทริบิวต์
ID outlook humidity windy play
1 sunny high FALSE no
2 sunny high TRUE no
3 overcast normal FALSE yes
4 rainy high FALSE yes
แถวแรกคือ header
8. CSV File
ไฟล์ CSV สามารถ export ได้จาก Excel หรือ database ต่าง ๆ
Export จาก Excel
เลือก File > Save As > CSV (Comma delimited)
9. Load CSV to RapidMiner
การโหลดไฟล์ csv เข้าไปใช้ใน RapidMiner ทา ได้ 2 แบบ คือ
1. ใช้การ import ในส่วนของ Repositories
โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด
ถ้าข้อมูลในไฟล์ csv มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การโหลดใหม่
2. ใช้โอเปอร์เรเตอร์Read CSV
โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ csv ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
10. Import CSV
1. ใช้การ import ในส่วนของ Repositories
คลิก Repositories เลือก Import CSV File…
เลือกไฟล์ .csv
คลิก Next
1
2
3
4
11. Import CSV
ในส่วนของ Comma Separation เลือก Comma “,”
5
6
14. Import CSV
Save ชื่อว่า weater_nominal ไว้ที่ RapidMinerTraining
11
12 13
15. Import CSV
ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง
label attribute
18. Read CSV
ในส่วนของ Operators พิมพ์คา ว่า Read CSV ในช่องค้นหา
ลาก โอเปอเรเตอร์ Read CSV มาไว้ในส่วน Process และเลือก Import Configuration
Wizard…
1
2
3
4
20. Read CSV
ในส่วนของ Comma Separation เลือก Comma “,”
7
8
22. Read CSV
เปลี่ยนแอตทริบิวต์play ให้เป็น label
12
11
23. Read CSV
เชื่อมผลจากพอร์ต out ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res เพื่อแสดงผล
กดปุ่ม play
14
13
24. Read CSV
ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง
label attribute
25. Write CSV
เขียนข้อมูลลงไฟล์ CSV ด้วยโอเปอเรเตอร์ Write CSV
ใช้ข้อมูลจาก Samples เพื่อเขียนเป็นไฟล์ CSV
1. Operators --> Write CSV --> ลากไปที่ process
2. Repositories --> Sample --> Data --> iris
--> ลากไปที่ process
3. เชื่อมเส้น
4. Paramiter --> Column Separator
เปลี่ยนจาก ; เป็น , (Comma)
1
2
3
4
28. Load Excel to RapidMiner
1. ใช้การ import ในส่วนของ Repositories
โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด
ถ้าข้อมูลในไฟล์ Excel มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การ
โหลดใหม่
2. ใช้โอเปอร์เรเตอร์Read Excel
โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ Excel ทุกครั้ง เมื่อไฟล์อัพเดท
ข้อมูลจะเปลี่ยนตาม
29. Import Excel
ในส่วนของ Repositories เลือก Import Excel Sheet…
เลือกไฟล์ .xlsx หรือ .xls
1
2
3
4
33. Import Excel
Save ชื่อว่า weater_excel ไว้ที่ RapidMinerTraining
11 12
34. Import Excel
ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง
label attribute
35. Write Excel
ใช้ข้อมูลจาก Sample เพื่อเขียนเป็นไฟล์ Excel
1. Repositories --> Iris --> ลากไปที่ process
2. Operators --> write Excel --> ลากไปที่ process
3. เชื่อมเส้น
4. คลิก Write Excel
2
5. file format --> xls
6. คลิก
1
3
38. Data exploration
โหลดไฟล์ student.csv ไปไว้ใน Repositories ด้วยเมนูImport CSV File…
เปลี่ยน Column Separation เป็น Comma “,”
1
2
39. Data exploration
เปลี่ยนประเภทข้อมูลของแอตทริบิวต์Study ให้เป็นประเภท polynpmail
และบันทึกลงใน Repositories
3
40. Data exploration
แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ
1. ตาราง (Data)
2. ค่าสรุปทางสถิติ (Statistics)
3. กราฟรูปแบบต่างๆ (Charts)
1
2
3
41. Data exploration
แสดงข้อมูลในรูปแบบตาราง
ExampleSet แสดงจา นวนข้อมูลทั้งหมดในไฟล์
Filter แสดงจา นวนข้อมูลจากการกรอง (filter) ทา ได้ 5 แบบ
all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)
no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์
missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์
no_missing_label แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
missing_label แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
แสดงข้อมูลในแต่ละแอตทริบิวต์คลิกที่ชื่อแอตทริบิวต์จะเป้นการเรียงลา ดับ
กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลา ดับมากกว่า 1 แอ
ตทริบิวต์
42. Data exploration
แสดงค่าสรุปทางสถิติ มีคอลัมน์ต่าง ๆ ดังนี้
Name แสดงชื่อแอตทริบิวต์
Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์เช่น Integer
Miss. จา นวนข้อมูลที่มีค่าว่าง
ค่าทางสถิติอื่น ๆ เช่น Min, Max, Average, Deviation, Least, Most, Value