SlideShare ist ein Scribd-Unternehmen logo
1 von 38
สอนโดย
ดร.หทัยรัตน์ เกตุมณีชัยรัตน์
ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ
Chapter 2 : Data warehouse
1
336331 การทาเหมืองข้อมูล (Data Ming)
เนื้อหา
 คลังข้อมูล (Data warehouse)
 วัตถุประสงค์ของคลังข้อมูล
 คุณลักษณะของคลังข้อมูล
 แบบจาลองของ Data Warehouse
 Star Schema
 Snowflake Schema
 การเลือก Schema
 OLAP และ Cubes
 ตัวอย่างการดาเนินการกับ OLAP
 เปรียบเทียบ DBMS, OLAP, and Data Mining
2
คลังข้อมูล (Data warehouse)
 คลังข้อมูล คือ ที่เก็บข้อมูลขององค์กรที่ได้รับการออกแบบ เพื่อช่วยใน
การตัดสินใจของฝ่ายบริหารโดยระบบข้อมูลเพื่อการบริหารจะแยกจาก
ฐานข้อมูลงานประจาวัน ซึ่งอาจได้ข้อมูลจากฐานข้อมูลงานประจาวัน
หรือจากภายนอกองค์กร และเก็บข้อมูลในรูปแบบข้อมูลสรุป นอกจากนี้
ในคลังข้อมูลยังเก็บเครื่องมือสาหรับดาเนินการกับข้อมูล กระบวนการ
ทางานกับข้อมูล และทรัพยากรอื่นๆ
3
4
วัตถุประสงค์ของคลังข้อมูล
 เป้ าหมายในการสร้างคลังข้อมูล
 เพื่อแยกกลุ่มข้อมูลสารสนเทศที่ใช้ในการวิเคราะห์ทางธุรกิจออกจากฐานข้อมูลที่ใช้งาน
ประจาวัน ให้เกิดประสิทธิภาพสูง และทาให้การเรียกใช้ข้อมูลชุดนี้ทาได้อย่างยืดหยุ่น
รวดเร็วมากยิ่งขึ้น
 ประโยชน์ของคลังข้อมูล
 ทาการรวบรวมข้อมูลที่มีความซับซ้อนให้ง่ายต่อการจัดเก็บ
 สามารถนาข้อมูลมาใช้ได้อย่างรวดเร็วและถูกต้อง
5
การคลังข้อมูล (Data Warehousing)
 กระบวนการใน Data Warehousing ประกอบไปด้วย
Data
Warehouse
Data
Source 1
Data
Source 2
Data
Source 3
Data Resources Data Staging Data Store
Data Provisioning
หรือ Data Mart
Staging
Database
Data Data
Cleaning
and
Filtering
6
การคลังข้อมูล (Data Warehousing)
 การรับข้อมูลเข้า (Data Resources)
หมายถึง วิธีการและระบบที่จะทาให้ข้อมูลจาก Data source ถูกนามาเข้า
สู่คลังข้อมูล
 การสถานะข้อมูล (Data Staging)
เป็นวิธีการที่คลังข้อมูลจะปรับข้อมูลเพื่อลดความซ้าซ้อน (Cleansing)
และเลือกเฉพาะข้อมูลที่เป็นประโยชน์ (Filtering) เพื่อนามาเก็บไว้ใน
คลังข้อมูลเพื่อใช้งานต่อไป
7
การคลังข้อมูล (Data Warehousing)
 การจัดเก็บข้อมูล (Data Store)
การนาเอาข้อมูลที่ผ่านการ Cleansing และ Filtering แล้วมาเก็บบันทึกลง
ใน Data Warehouse ซึ่งส่วนที่ทาหน้าที่จัดเก็บข้อมูลเรียกว่า “Data
warehouse Database”
 การเตรียมข้อมูลเพื่อใช้งาน (Data Provisioning)
หมายถึง การนาเอาข้อมูลที่มีอยู่ในคลังข้อมูลมาประมวลผลเพื่อให้ได้
สารสนเทศที่ต้องการเพื่อรอการใช้งานต่อไป บางทีเรียกว่า “Data Mart”
8
คุณลักษณะของคลังข้อมูล
1. การแบ่งโครงสร้างตามเนื้อหา Subject-Oriented
 ข้อมูลถูกจัดกลุ่มให้เหมาะสมกับการสืบค้น จัดตามประเด็นหลักขององค์กร
เช่น
 ลูกค้า สินค้า ยอดขาย
 ข้อมูลจะไม่ถูกจัดตามหน้าที่การงานของโปรแกรมใดโปรแกรมหนึ่ง เช่น
 การควบคุมคลังสินค้า การออกใบกากับภาษี
9
คุณลักษณะของคลังข้อมูล (ต่อ)
10
คุณลักษณะของคลังข้อมูล (ต่อ)
2. การรวมเป็นหนึ่งเดียว Integrated
 จัดข้อมูลให้อยู่ในรูปแบบเดียวกัน จากแหล่งข้อมูลหลายแหล่ง
11
คุณลักษณะของคลังข้อมูล (ต่อ)
3. ความสัมพันธ์กับเวลา Time-Variant
 ข้อมูลต้องมีความถูกต้อง เพราะเก็บไว้ใช้นาน 5-10 ปี
4. ความเสถียรของข้อมูล Non-Volatile
 การปรับปรุงข้อมูลเป็นการเพิ่มข้อมูลใหม่เข้าไปเรื่อยๆ ไม่ใช่การแทนที่ข้อมูล
เก่า
12
แบบจาลองของ Data Warehouse
 ก่อนที่จะทาการออกแบบ ต้องศึกษาส่วนประกอบของ แบบจาลองพื้นฐานซึ่ง
ประกอบด้วย ดังนี้
ส่วนประกอบ รายละเอียด
Fact table เป็นตารางศูนย์กลางที่ใช้ใน data warehouse และ data
mart ที่จะเก็บจานวน measures และรายละเอียดสาคัญ
ในเชิงธุรกิจ
Fact คือ row ในตาราง โดย fact จะเก็บค่าตัวเลขที่ใช้วัด
เหตุการณ์ที่เกิดขึ้น
Measure คือ ปริมาณ, จานวน column ใน fact table โดย
measure จะแสดงให้เห็นถึงค่าที่ถูกวิเคราะห์แล้ว
Dimension คือ เอกลักษณ์ทางธุรกิจเป็นลักษณะทางกายภาพ
Dimension table เป็นตารางใน data warehouse หรือ data mart ที่
อธิบายข้อมูลใน fact table
13
Star Schema
 star schema จะมีลักษณะที่มี fact table อยู่ตรงกลางล้อมรอบด้วยหลาย ๆ
dimension table ที่เก็บรายละเอียดของ fact ที่ไม่ใช่ normalized center
14
Star Schema
Store Key
Product Key
Period Key
Units
Price
Store Dimension Time Dimension
Product Dimension
Fact Table
Store Key
Store Name
City
State
Region
Period Key
Year
Quarter
Month
Product Key
Product Desc
15
Star Schema
Store Dimension
Time Dimension
Product Dimension
Fact Table
Store Key
Store Name
City
State
Region
Period Key
Year
Quarter
Month
Product Key
Product Desc
Dimension tables
Dimension
Store Key Product
Key
Period
Key
Units Price
Fact
16
Snowflake Schema
Store Key
Product Key
Period Key
Units
Price
Time Dimension
Product Dimension
Fact Table
Store Key
Store Name
City Key
Period Key
Year
Quarter
Month
Product Key
Product Desc
City Key
City
State
Region
City Dimension
Store Dimension
• Snowflake schema มีความแตกต่างจาก Star schema ตรงที่ dimension table จะเก็บ
ข้อมูลจะเก็บข้อมูลที่อยู่ในรูป normal form
17
การเลือก Schema
 มีแบบในการออกแบบอยู่ 2 แบบที่ใช้ในการออกแบบ Data Warehouse
 Star Schema
 วิธีนี้จะช่วยเพิ่มความสามารถในการค้นหาข้อมูล
 การวิเคราะห์การค้นหาข้อมูลใน dimension table ที่เล็กจะใช้ dimension key
จาก index ใน central fact table
 Snowflake Schema
 จะใช้ในทางธุรกิจ แต่จะไม่แนะนาให้เลือกวิธีนี้ เนื่องจากวิธี นี้มีความยุ่งยากใน
การดูแล การเก็บข้อมูลผู้ใช้ระบบไม่สามารถรู้ได้ว่าข้อมูลอยู่ที่ ไหน อีกทั้งการ
เข้าถึงข้อมูลยังช้าอีก
18
OLAP และ Cubes
 OLAP หรือ Online analytical processing เป็นเทคโนโลยีที่ประกอบด้วยเครื่องมือที่
ช่วยดึงและนาเสนอข้อมูลในหลายมิติ (Multidimensional) จากหลาย ๆ มุมมอง โดย
ที่ OLAP ได้รับการออกแบบมาสาหรับผู้ใช้ในระดับของผู้บริหารหรือหน่วยงานใน
องค์กร ที่ต้องวิเคราะห์ข้อมูลเพื่อใช้ประกอบการตัดสินใจในระดับสูง การ
ประมวลผลจะอยู่รูปลูกบาศก์ที่มีหลายมิติ เรียกว่า “Cube”
Data
Warehouse
Time
Product
19
การดาเนินการกับ OLAP
1. Roll up / Consolidation การปรับระดับความละเอียดของข้อมูล จากระดับ
ที่ละเอียดขึ้นมาสู่ข้อมูลที่หยาบขึ้น
2. Drill Down การปรับระดับความละเอียดของข้อมูล จากระดับที่หยาบ
ไปสู่ที่ข้อมูลละเอียดมากขึ้น
3. Slice การเลือกพิจารณาผลลัพธ์บางส่วนที่เราสนใจ โดยเลือกเฉพาะค่าที่
ถูกกากับด้วยข้อมูลบางค่าของแต่ละมิติเท่านั้น
4. Dice กระบวนการพลิกแกนหรือมิติของข้อมูล ให้ตรงตามความต้องการ
ของผู้ใช้งาน
20
ตัวอย่างการดาเนินการกับ OLAP
 บริษัทแห่งหนึ่ง ผลิตสินค้าเกี่ยวกับขนมปัง (Bread) และคุกกี้ (Cookies)
 ผลิตภัณฑ์ส่งออกขายที่ภาคตะวันตก (West), ตะวันตกเฉียงเหนือ
(Northwest) ของประเทศอินเดีย คือสาขาที่เมือง Mumbai, Pune,
Ahmadabad, Baroda
 ประธานบริษัทต้องการดูข้อมูลการขายต้องทาอย่างไร??
21
Sale Data warehouse Model
City_ID Prod_ID Month Units Rupees
1 589 1/1/1998 3 7.95
1 1218 1/1/1998 4 7.32
2 589 1/1/1998 3 7.95
2 1218 1/1/1998 4 7.32
1 580 2/1/1998 16 42.40
Product Tables
Prod_ID Product_Name Product_Category_ID
589 Wheat Bread 1
590 White Bread 1
288 Coconut Cookies 2
1218 Cheese 1
580 Swiss Rolls 1
Product_Category_ID Product_Category
1 Bread
2 Cookies
City_ID City Region Country
1 Mumbai West India
2 Pune NorthWest India
City Table
Sale Table
Product_Category
22
Sale Data warehouse Model
City_ID Prod_ID Month Units Rupees
1 589 1/1/1998 3 7.95
1 1218 1/1/1998 4 7.32
2 589 1/1/1998 3 7.95
2 1218 1/1/1998 4 7.32
1 580 2/1/1998 16 42.40
Product Tables (Dimension Table)
Product_Category_ID Product_Category
1 Bread
2 Cookies
City_ID City Region Country
1 Mumbai West India
2 Pune NorthWest India
City Table (Dimension Table)
Sale Table (Fact Table)
Prod_ID Product_Name Product_Category_ID
589 Wheat Bread 1
590 White Bread 1
288 Coconut Cookies 2
1218 Cheese 1
580 Swiss Rolls 1
Product_Category
23
Sales Fact Table
 มิติมุมมอง (Dimensions) – พื้นที่ (Region) หรือสาขา (city), สินค้า
(Product), เวลา (Time)
 ปริมาณ (Measure) – ยอดขายสินค้า (Units), ราคา (Price)
24
Sale Data warehouse Model
City Product Month Units Rupees
Mumbai Wheat Bread January 3 7.95
Mumbai Cheese January 4 7.32
Pune Wheat Bread January 3 7.95
Pune Cheese January 4 7.32
Mumbai Swiss Rolls February 16 42.40
City_ID Prod_ID Month Units Rupees
1 589 1/1/1998 3 7.95
1 1218 1/1/1998 4 7.32
2 589 1/1/1998 3 7.95
2 1218 1/1/1998 4 7.32
1 580 2/1/1998 16 42.40
25
เริ่มดาเนินการกับการทา OLAP
City Product Month Units Rupees
Mumbai Wheat Bread January 3 7.95
Mumbai Cheese January 4 7.32
Pune Wheat Bread January 3 7.95
Pune Cheese January 4 7.32
Mumbai Wheat Bread February 16 42.40
26
Sales Information
Report: จานวนชิ้นที่ขายได้ทั้งหมด 113
Report: จานวนชิ้นที่ขายได้ในแต่ละเดือน
January February March April
14 41 33 25
27
Sales Information
 Report : จานวนชิ้นที่ขายได้แยกตามประเภทของสินค้า
Jan Feb Mar Apr
Wheat Bread 6 0 6 17
Cheese 8 16 6 8
Swiss Rolls 0 25 21 0
Time
2 มิติ
28
Sales Information
 Report: จานวนชิ้นที่ขายได้ในแต่ละสาขาสาหรับแต่ละประเภทของ
สินค้าในแต่ละเดือน
Jan Feb Mar Apr
Mumbai Wheat Bread 3 0 3 10
Cheese 4 16 6 0
Swiss Rolls 0 16 6 0
Pune Wheat Bread 3 0 3 7
Cheese 4 0 0 8
Swiss Rolls 0 9 15 0
Time
Product
3 มิติ
29
Sales Information
Report: จานวนชิ้นที่ขายได้และรายได้ในแต่ละสาขาสาหรับแต่ละสินค้า
ในแต่ละเดือน
Jan Feb Mar Apr
Rs U Rs U Rs U Rs U
Mumbai Wheat Bread 0 0 0 0 7.44 3 24.80 10
Cheese 7.95 3 42.40 16 15.90 6 0 0
Swiss Rolls 7.32 4 29.98 16 10.98 6 0 0
Pune Wheat Bread 0 0 0 0 7.44 3 17.36 7
Cheese 7.95 3 0 0 0 0 21.20 8
Swiss Rolls 7.32 4 16.47 9 27.45 15 0 0
30
Drill down & Roll up
Roll Up
Drill Down
January February March April
14 41 33 25
Jan Feb Mar Apr
Wheat Bread 6 6 17
Cheese 8 16 6 8
Swiss Rolls 25 21
Jan Feb Mar Apr
Mumbai Wheat Bread 3 3 10
Cheese 4 16 6
Swiss Rolls 16 6
Pune Wheat Bread 3 3 7
Cheese 4 8
Swiss Rolls 9 15
31
Slide
Time
Product
Product= Swiss Rolls
Wheat Bread
Cheese
Swiss Rolls
Mumbai
Pune
Ahemdabad
Baroda
Jan Feb March Apr
Time
Jan Feb March Apr
3 10
3 7
1 1 1 2
10 5 3 4
10 5 3 4
3 10
3 7
1 1 1 2
32
Slide
Time
Product
Product= Cheese
Wheat Bread
Cheese
Swiss Rolls
Mumbai
Pune
Ahemdabad
Baroda
Jan Feb March Apr
Time
Jan Feb March Apr
3 10
3 7
1 1 1 2
10 5 3 4
10 5 3 4
3 16 6
3 8
1 1 1 2
33
Slide
Time
Product
Product= Swiss Rolls, Cheese, Wheat Bread
Wheat Bread
Cheese
Swiss Rolls
Mumbai
Pune
Ahemdabad
Baroda
Jan Feb March Apr
Time
Jan Feb March
3 10
3 7
1 1 1 2
10 5 3 4
10 5 3
3
3
1 1 1
34
Dice
Time
Product
Wheat Bread
Cheese
Swiss Rolls
Mumbai
Pune
Ahmadabad
Baroda
Jan Feb March Apr
3 10
3 7
1 1 1 2
10 5 3 4
Time
City
Cheese
Swiss Rolls
Jan Feb March Apr
Wheat Bread
Mumbai
Pune
Ahmadabad
Baroda
35
Data Warehouse & Data Mining
Customers
Etc…
Vendors Etc…
Orders
Data
Warehouse
Enterprise
“Database”
Transactions
Copied,
organized
summarized
Data Mining
Data Miners:
• “Farmers” – they know
• “Explorers” - unpredictable
36
DBMS, OLAP, and Data Mining
DBMS DW (OLAP) Data Mining
งาน
ดึงรายละเอียดและผลสรุป
ของข้อมูลได้
สรุปข้อมูล ดูแนวโน้มได้
ความรู้ที่ซ่อนอยู่ใน
ฐานข้อมูล
ผลลัพธ์ ข้อมูลสารสนเทศ ผลการวิเคราะห์
สามารถเห็นความสัมพันธ์
แยกแยะข้อมูล
พยากรณ์ข้อมูล
วิธีการ ถามคาตอบแล้วตอบ
ทาแบบจาลองคลังข้อมูล
วิเคราะห์ข้อมูลหลาย
มิติ
สร้างแบบจาลองและ
สามารถบอกลักษณะ
หรือทานายข้อมูลใหม่
ได้
ตัวอย่างคาถาม
ใครซื้อสลากกองทุน
ย้อนหลัง 3 ปีบ้าง?
เงินเดือนเฉลี่ยเท่าไหร่ของ
คนที่ซื้อสลากกองทุน
อยู่ในเขตพื้นที่ใดและ
แต่ละปีเท่าใด?
ใครจะซื้อสลากกองทุนบ้าง
ใน 6 เดือนข้างหน้าและ
ทาไมถึงซื้อ?
37
38

Weitere ähnliche Inhalte

Was ist angesagt?

Data mining introduction
Data mining introductionData mining introduction
Data mining introductionBasma Gamal
 
การเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยการเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยDr.Krisada [Hua] RMUTT
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpsskuankaaw
 
บทที่ 3 หลักสถิติ
บทที่ 3 หลักสถิติบทที่ 3 หลักสถิติ
บทที่ 3 หลักสถิติTeetut Tresirichod
 
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย WekaKannikanune
 
4 การทบทวนเอกสาร
4 การทบทวนเอกสาร4 การทบทวนเอกสาร
4 การทบทวนเอกสารNitinop Tongwassanasong
 
สสาร ม.1
สสาร ม.1สสาร ม.1
สสาร ม.1dalarat
 
วิธีสอนการสร้างความคิดรวบยอด
วิธีสอนการสร้างความคิดรวบยอดวิธีสอนการสร้างความคิดรวบยอด
วิธีสอนการสร้างความคิดรวบยอดKiingz Phanumas
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSเบญจวรรณ กลสามัญ
 

Was ist angesagt? (20)

Introduction to Weka: Application approach
Introduction to Weka: Application approachIntroduction to Weka: Application approach
Introduction to Weka: Application approach
 
Data mining introduction
Data mining introductionData mining introduction
Data mining introduction
 
Chapt3
Chapt3Chapt3
Chapt3
 
การเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยการเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัย
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
1 weka introducing
1 weka introducing1 weka introducing
1 weka introducing
 
Introduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studiesIntroduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studies
 
04 association
04 association04 association
04 association
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpss
 
Weka dataprepocessing
Weka dataprepocessingWeka dataprepocessing
Weka dataprepocessing
 
บทที่ 3 หลักสถิติ
บทที่ 3 หลักสถิติบทที่ 3 หลักสถิติ
บทที่ 3 หลักสถิติ
 
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
 
4 การทบทวนเอกสาร
4 การทบทวนเอกสาร4 การทบทวนเอกสาร
4 การทบทวนเอกสาร
 
สสาร ม.1
สสาร ม.1สสาร ม.1
สสาร ม.1
 
วิธีสอนการสร้างความคิดรวบยอด
วิธีสอนการสร้างความคิดรวบยอดวิธีสอนการสร้างความคิดรวบยอด
วิธีสอนการสร้างความคิดรวบยอด
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
 
Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7
 
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 

02 data werehouse

  • 2. เนื้อหา  คลังข้อมูล (Data warehouse)  วัตถุประสงค์ของคลังข้อมูล  คุณลักษณะของคลังข้อมูล  แบบจาลองของ Data Warehouse  Star Schema  Snowflake Schema  การเลือก Schema  OLAP และ Cubes  ตัวอย่างการดาเนินการกับ OLAP  เปรียบเทียบ DBMS, OLAP, and Data Mining 2
  • 3. คลังข้อมูล (Data warehouse)  คลังข้อมูล คือ ที่เก็บข้อมูลขององค์กรที่ได้รับการออกแบบ เพื่อช่วยใน การตัดสินใจของฝ่ายบริหารโดยระบบข้อมูลเพื่อการบริหารจะแยกจาก ฐานข้อมูลงานประจาวัน ซึ่งอาจได้ข้อมูลจากฐานข้อมูลงานประจาวัน หรือจากภายนอกองค์กร และเก็บข้อมูลในรูปแบบข้อมูลสรุป นอกจากนี้ ในคลังข้อมูลยังเก็บเครื่องมือสาหรับดาเนินการกับข้อมูล กระบวนการ ทางานกับข้อมูล และทรัพยากรอื่นๆ 3
  • 4. 4
  • 5. วัตถุประสงค์ของคลังข้อมูล  เป้ าหมายในการสร้างคลังข้อมูล  เพื่อแยกกลุ่มข้อมูลสารสนเทศที่ใช้ในการวิเคราะห์ทางธุรกิจออกจากฐานข้อมูลที่ใช้งาน ประจาวัน ให้เกิดประสิทธิภาพสูง และทาให้การเรียกใช้ข้อมูลชุดนี้ทาได้อย่างยืดหยุ่น รวดเร็วมากยิ่งขึ้น  ประโยชน์ของคลังข้อมูล  ทาการรวบรวมข้อมูลที่มีความซับซ้อนให้ง่ายต่อการจัดเก็บ  สามารถนาข้อมูลมาใช้ได้อย่างรวดเร็วและถูกต้อง 5
  • 6. การคลังข้อมูล (Data Warehousing)  กระบวนการใน Data Warehousing ประกอบไปด้วย Data Warehouse Data Source 1 Data Source 2 Data Source 3 Data Resources Data Staging Data Store Data Provisioning หรือ Data Mart Staging Database Data Data Cleaning and Filtering 6
  • 7. การคลังข้อมูล (Data Warehousing)  การรับข้อมูลเข้า (Data Resources) หมายถึง วิธีการและระบบที่จะทาให้ข้อมูลจาก Data source ถูกนามาเข้า สู่คลังข้อมูล  การสถานะข้อมูล (Data Staging) เป็นวิธีการที่คลังข้อมูลจะปรับข้อมูลเพื่อลดความซ้าซ้อน (Cleansing) และเลือกเฉพาะข้อมูลที่เป็นประโยชน์ (Filtering) เพื่อนามาเก็บไว้ใน คลังข้อมูลเพื่อใช้งานต่อไป 7
  • 8. การคลังข้อมูล (Data Warehousing)  การจัดเก็บข้อมูล (Data Store) การนาเอาข้อมูลที่ผ่านการ Cleansing และ Filtering แล้วมาเก็บบันทึกลง ใน Data Warehouse ซึ่งส่วนที่ทาหน้าที่จัดเก็บข้อมูลเรียกว่า “Data warehouse Database”  การเตรียมข้อมูลเพื่อใช้งาน (Data Provisioning) หมายถึง การนาเอาข้อมูลที่มีอยู่ในคลังข้อมูลมาประมวลผลเพื่อให้ได้ สารสนเทศที่ต้องการเพื่อรอการใช้งานต่อไป บางทีเรียกว่า “Data Mart” 8
  • 9. คุณลักษณะของคลังข้อมูล 1. การแบ่งโครงสร้างตามเนื้อหา Subject-Oriented  ข้อมูลถูกจัดกลุ่มให้เหมาะสมกับการสืบค้น จัดตามประเด็นหลักขององค์กร เช่น  ลูกค้า สินค้า ยอดขาย  ข้อมูลจะไม่ถูกจัดตามหน้าที่การงานของโปรแกรมใดโปรแกรมหนึ่ง เช่น  การควบคุมคลังสินค้า การออกใบกากับภาษี 9
  • 11. คุณลักษณะของคลังข้อมูล (ต่อ) 2. การรวมเป็นหนึ่งเดียว Integrated  จัดข้อมูลให้อยู่ในรูปแบบเดียวกัน จากแหล่งข้อมูลหลายแหล่ง 11
  • 12. คุณลักษณะของคลังข้อมูล (ต่อ) 3. ความสัมพันธ์กับเวลา Time-Variant  ข้อมูลต้องมีความถูกต้อง เพราะเก็บไว้ใช้นาน 5-10 ปี 4. ความเสถียรของข้อมูล Non-Volatile  การปรับปรุงข้อมูลเป็นการเพิ่มข้อมูลใหม่เข้าไปเรื่อยๆ ไม่ใช่การแทนที่ข้อมูล เก่า 12
  • 13. แบบจาลองของ Data Warehouse  ก่อนที่จะทาการออกแบบ ต้องศึกษาส่วนประกอบของ แบบจาลองพื้นฐานซึ่ง ประกอบด้วย ดังนี้ ส่วนประกอบ รายละเอียด Fact table เป็นตารางศูนย์กลางที่ใช้ใน data warehouse และ data mart ที่จะเก็บจานวน measures และรายละเอียดสาคัญ ในเชิงธุรกิจ Fact คือ row ในตาราง โดย fact จะเก็บค่าตัวเลขที่ใช้วัด เหตุการณ์ที่เกิดขึ้น Measure คือ ปริมาณ, จานวน column ใน fact table โดย measure จะแสดงให้เห็นถึงค่าที่ถูกวิเคราะห์แล้ว Dimension คือ เอกลักษณ์ทางธุรกิจเป็นลักษณะทางกายภาพ Dimension table เป็นตารางใน data warehouse หรือ data mart ที่ อธิบายข้อมูลใน fact table 13
  • 14. Star Schema  star schema จะมีลักษณะที่มี fact table อยู่ตรงกลางล้อมรอบด้วยหลาย ๆ dimension table ที่เก็บรายละเอียดของ fact ที่ไม่ใช่ normalized center 14
  • 15. Star Schema Store Key Product Key Period Key Units Price Store Dimension Time Dimension Product Dimension Fact Table Store Key Store Name City State Region Period Key Year Quarter Month Product Key Product Desc 15
  • 16. Star Schema Store Dimension Time Dimension Product Dimension Fact Table Store Key Store Name City State Region Period Key Year Quarter Month Product Key Product Desc Dimension tables Dimension Store Key Product Key Period Key Units Price Fact 16
  • 17. Snowflake Schema Store Key Product Key Period Key Units Price Time Dimension Product Dimension Fact Table Store Key Store Name City Key Period Key Year Quarter Month Product Key Product Desc City Key City State Region City Dimension Store Dimension • Snowflake schema มีความแตกต่างจาก Star schema ตรงที่ dimension table จะเก็บ ข้อมูลจะเก็บข้อมูลที่อยู่ในรูป normal form 17
  • 18. การเลือก Schema  มีแบบในการออกแบบอยู่ 2 แบบที่ใช้ในการออกแบบ Data Warehouse  Star Schema  วิธีนี้จะช่วยเพิ่มความสามารถในการค้นหาข้อมูล  การวิเคราะห์การค้นหาข้อมูลใน dimension table ที่เล็กจะใช้ dimension key จาก index ใน central fact table  Snowflake Schema  จะใช้ในทางธุรกิจ แต่จะไม่แนะนาให้เลือกวิธีนี้ เนื่องจากวิธี นี้มีความยุ่งยากใน การดูแล การเก็บข้อมูลผู้ใช้ระบบไม่สามารถรู้ได้ว่าข้อมูลอยู่ที่ ไหน อีกทั้งการ เข้าถึงข้อมูลยังช้าอีก 18
  • 19. OLAP และ Cubes  OLAP หรือ Online analytical processing เป็นเทคโนโลยีที่ประกอบด้วยเครื่องมือที่ ช่วยดึงและนาเสนอข้อมูลในหลายมิติ (Multidimensional) จากหลาย ๆ มุมมอง โดย ที่ OLAP ได้รับการออกแบบมาสาหรับผู้ใช้ในระดับของผู้บริหารหรือหน่วยงานใน องค์กร ที่ต้องวิเคราะห์ข้อมูลเพื่อใช้ประกอบการตัดสินใจในระดับสูง การ ประมวลผลจะอยู่รูปลูกบาศก์ที่มีหลายมิติ เรียกว่า “Cube” Data Warehouse Time Product 19
  • 20. การดาเนินการกับ OLAP 1. Roll up / Consolidation การปรับระดับความละเอียดของข้อมูล จากระดับ ที่ละเอียดขึ้นมาสู่ข้อมูลที่หยาบขึ้น 2. Drill Down การปรับระดับความละเอียดของข้อมูล จากระดับที่หยาบ ไปสู่ที่ข้อมูลละเอียดมากขึ้น 3. Slice การเลือกพิจารณาผลลัพธ์บางส่วนที่เราสนใจ โดยเลือกเฉพาะค่าที่ ถูกกากับด้วยข้อมูลบางค่าของแต่ละมิติเท่านั้น 4. Dice กระบวนการพลิกแกนหรือมิติของข้อมูล ให้ตรงตามความต้องการ ของผู้ใช้งาน 20
  • 21. ตัวอย่างการดาเนินการกับ OLAP  บริษัทแห่งหนึ่ง ผลิตสินค้าเกี่ยวกับขนมปัง (Bread) และคุกกี้ (Cookies)  ผลิตภัณฑ์ส่งออกขายที่ภาคตะวันตก (West), ตะวันตกเฉียงเหนือ (Northwest) ของประเทศอินเดีย คือสาขาที่เมือง Mumbai, Pune, Ahmadabad, Baroda  ประธานบริษัทต้องการดูข้อมูลการขายต้องทาอย่างไร?? 21
  • 22. Sale Data warehouse Model City_ID Prod_ID Month Units Rupees 1 589 1/1/1998 3 7.95 1 1218 1/1/1998 4 7.32 2 589 1/1/1998 3 7.95 2 1218 1/1/1998 4 7.32 1 580 2/1/1998 16 42.40 Product Tables Prod_ID Product_Name Product_Category_ID 589 Wheat Bread 1 590 White Bread 1 288 Coconut Cookies 2 1218 Cheese 1 580 Swiss Rolls 1 Product_Category_ID Product_Category 1 Bread 2 Cookies City_ID City Region Country 1 Mumbai West India 2 Pune NorthWest India City Table Sale Table Product_Category 22
  • 23. Sale Data warehouse Model City_ID Prod_ID Month Units Rupees 1 589 1/1/1998 3 7.95 1 1218 1/1/1998 4 7.32 2 589 1/1/1998 3 7.95 2 1218 1/1/1998 4 7.32 1 580 2/1/1998 16 42.40 Product Tables (Dimension Table) Product_Category_ID Product_Category 1 Bread 2 Cookies City_ID City Region Country 1 Mumbai West India 2 Pune NorthWest India City Table (Dimension Table) Sale Table (Fact Table) Prod_ID Product_Name Product_Category_ID 589 Wheat Bread 1 590 White Bread 1 288 Coconut Cookies 2 1218 Cheese 1 580 Swiss Rolls 1 Product_Category 23
  • 24. Sales Fact Table  มิติมุมมอง (Dimensions) – พื้นที่ (Region) หรือสาขา (city), สินค้า (Product), เวลา (Time)  ปริมาณ (Measure) – ยอดขายสินค้า (Units), ราคา (Price) 24
  • 25. Sale Data warehouse Model City Product Month Units Rupees Mumbai Wheat Bread January 3 7.95 Mumbai Cheese January 4 7.32 Pune Wheat Bread January 3 7.95 Pune Cheese January 4 7.32 Mumbai Swiss Rolls February 16 42.40 City_ID Prod_ID Month Units Rupees 1 589 1/1/1998 3 7.95 1 1218 1/1/1998 4 7.32 2 589 1/1/1998 3 7.95 2 1218 1/1/1998 4 7.32 1 580 2/1/1998 16 42.40 25
  • 26. เริ่มดาเนินการกับการทา OLAP City Product Month Units Rupees Mumbai Wheat Bread January 3 7.95 Mumbai Cheese January 4 7.32 Pune Wheat Bread January 3 7.95 Pune Cheese January 4 7.32 Mumbai Wheat Bread February 16 42.40 26
  • 27. Sales Information Report: จานวนชิ้นที่ขายได้ทั้งหมด 113 Report: จานวนชิ้นที่ขายได้ในแต่ละเดือน January February March April 14 41 33 25 27
  • 28. Sales Information  Report : จานวนชิ้นที่ขายได้แยกตามประเภทของสินค้า Jan Feb Mar Apr Wheat Bread 6 0 6 17 Cheese 8 16 6 8 Swiss Rolls 0 25 21 0 Time 2 มิติ 28
  • 29. Sales Information  Report: จานวนชิ้นที่ขายได้ในแต่ละสาขาสาหรับแต่ละประเภทของ สินค้าในแต่ละเดือน Jan Feb Mar Apr Mumbai Wheat Bread 3 0 3 10 Cheese 4 16 6 0 Swiss Rolls 0 16 6 0 Pune Wheat Bread 3 0 3 7 Cheese 4 0 0 8 Swiss Rolls 0 9 15 0 Time Product 3 มิติ 29
  • 30. Sales Information Report: จานวนชิ้นที่ขายได้และรายได้ในแต่ละสาขาสาหรับแต่ละสินค้า ในแต่ละเดือน Jan Feb Mar Apr Rs U Rs U Rs U Rs U Mumbai Wheat Bread 0 0 0 0 7.44 3 24.80 10 Cheese 7.95 3 42.40 16 15.90 6 0 0 Swiss Rolls 7.32 4 29.98 16 10.98 6 0 0 Pune Wheat Bread 0 0 0 0 7.44 3 17.36 7 Cheese 7.95 3 0 0 0 0 21.20 8 Swiss Rolls 7.32 4 16.47 9 27.45 15 0 0 30
  • 31. Drill down & Roll up Roll Up Drill Down January February March April 14 41 33 25 Jan Feb Mar Apr Wheat Bread 6 6 17 Cheese 8 16 6 8 Swiss Rolls 25 21 Jan Feb Mar Apr Mumbai Wheat Bread 3 3 10 Cheese 4 16 6 Swiss Rolls 16 6 Pune Wheat Bread 3 3 7 Cheese 4 8 Swiss Rolls 9 15 31
  • 32. Slide Time Product Product= Swiss Rolls Wheat Bread Cheese Swiss Rolls Mumbai Pune Ahemdabad Baroda Jan Feb March Apr Time Jan Feb March Apr 3 10 3 7 1 1 1 2 10 5 3 4 10 5 3 4 3 10 3 7 1 1 1 2 32
  • 33. Slide Time Product Product= Cheese Wheat Bread Cheese Swiss Rolls Mumbai Pune Ahemdabad Baroda Jan Feb March Apr Time Jan Feb March Apr 3 10 3 7 1 1 1 2 10 5 3 4 10 5 3 4 3 16 6 3 8 1 1 1 2 33
  • 34. Slide Time Product Product= Swiss Rolls, Cheese, Wheat Bread Wheat Bread Cheese Swiss Rolls Mumbai Pune Ahemdabad Baroda Jan Feb March Apr Time Jan Feb March 3 10 3 7 1 1 1 2 10 5 3 4 10 5 3 3 3 1 1 1 34
  • 35. Dice Time Product Wheat Bread Cheese Swiss Rolls Mumbai Pune Ahmadabad Baroda Jan Feb March Apr 3 10 3 7 1 1 1 2 10 5 3 4 Time City Cheese Swiss Rolls Jan Feb March Apr Wheat Bread Mumbai Pune Ahmadabad Baroda 35
  • 36. Data Warehouse & Data Mining Customers Etc… Vendors Etc… Orders Data Warehouse Enterprise “Database” Transactions Copied, organized summarized Data Mining Data Miners: • “Farmers” – they know • “Explorers” - unpredictable 36
  • 37. DBMS, OLAP, and Data Mining DBMS DW (OLAP) Data Mining งาน ดึงรายละเอียดและผลสรุป ของข้อมูลได้ สรุปข้อมูล ดูแนวโน้มได้ ความรู้ที่ซ่อนอยู่ใน ฐานข้อมูล ผลลัพธ์ ข้อมูลสารสนเทศ ผลการวิเคราะห์ สามารถเห็นความสัมพันธ์ แยกแยะข้อมูล พยากรณ์ข้อมูล วิธีการ ถามคาตอบแล้วตอบ ทาแบบจาลองคลังข้อมูล วิเคราะห์ข้อมูลหลาย มิติ สร้างแบบจาลองและ สามารถบอกลักษณะ หรือทานายข้อมูลใหม่ ได้ ตัวอย่างคาถาม ใครซื้อสลากกองทุน ย้อนหลัง 3 ปีบ้าง? เงินเดือนเฉลี่ยเท่าไหร่ของ คนที่ซื้อสลากกองทุน อยู่ในเขตพื้นที่ใดและ แต่ละปีเท่าใด? ใครจะซื้อสลากกองทุนบ้าง ใน 6 เดือนข้างหน้าและ ทาไมถึงซื้อ? 37
  • 38. 38