SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
LOGO
การจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือเป็น
การจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่ม
เดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมี
ลักษณะที่แตกต่างกัน
ตัวแปรที่อยู่ในกลุ่มเดียวกันจะมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่
ต่างกลุ่มกัน
ตัวแปรที่อยู่ต่างกลุ่มกันจะมีความสัมพันธ์กันน้อยหรือไม่มี
ความสัมพันธ์กันเลย
www.themegallery.com Company Logo
ชื่อ รายได้(1,000
บาท)
อายุ(ปี)
A 5 25
B 6 26
C 15 34
D 16 35
E 25 40
F 30 39
ตัวอย่างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
โดยพิจารณาจากอายุและรายได้โดยมีข้อมูลดังแสดงในตารางที่ 1
แสดงการวิเคราะห์กลุ่มอายุและรายได้
จากตัวอย่างซึ่งเป็นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร
เป้ าหมาย คือ จะแบ่ง 6 คน(n =6) เป็นกลุ่มย่อย โดยให้คนที่อยู่ในกลุ่มย่อย
เดียวกันมีอายุและรายได้เท่ากันหรือใกล้เคียงกันส่วนคนที่อยู่ต่างกลุ่มกันจะมี
อายุและรายได้แตกต่างกัน จากการพล็อตกราฟอายุรายได้ในตารางที่ 1 ทาให้
ตัดสินใจได้ว่า ควรจะเป็น 3 กลุ่ม
กลุ่มที่ 1 : ประกอบด้วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ต่า
กลุ่มที่ 2 : ประกอบด้วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี)
และรายได้ปานกลาง
กลุ่มที่ 3 : ประกอบด้วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี)
และรายได้มาก
วัตถุประสงค์ของการวิเคราะห์จัดกลุ่ม
Cluster Analysis
การวิเคราะห์กลุ่มเป็นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน
ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง
โดยให้หน่วยที่อยู่ในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา
แต่หน่วยที่อยู่ต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1
คนที่อยู่ในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ
วัตถุประสงค์ของการแบ่งกลุ่มหรือจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป
ประยุกต์ใช้
การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ
จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ
มาก ถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยู่ต่างกลุ่มกันมี
ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถูกต้อง เช่น
ด้านการตลาด ซึ่งเป็นการจัดกลุ่มพื้นที่หรือจังหวัด ผู้วิจัยจะต้อง
ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน
ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
สุชาติ ประสิทธิรัฐสินธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ
เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่
สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร
ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว
โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้านต่าง ๆ เ ช่น
การตลาด การแพทย์การปกครอง ฯลฯ
ข้อตกลงเบื้องต้นเกี่ยวกับการวิเคราะห์จัดกลุ่ม
Cluster Analysis
1. ไม่ทราบจานวนกลุ่มมาก่อนว่ามีกี่กลุ่ม
2. ไม่ทราบมาก่อนว่าหน่วยหรือคนใดจะอยู่กลุ่มใด
3. หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียง
กลุ่มเดียว
4. ตัวแปรที่ใช้ในการแบ่งมีมากกว่า 1 ตัวและตัวแปรอาจจะเป็นตัวแปรที่มี
ค่าได้เพียง 1 ค่าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
การวัดความห่าง
สาหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ผู้วิจัย
อาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย
• สิ่งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่
ใช้ หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ
•ผลที่ได้ก็จะไม่ดีหรือทาให้ไขว้เขวได้
ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษา เป็นเทคนิคของการ
วิเคราะห์ทางสถิติหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา
จากความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
ความต้องการ
ทางด้านข้อมูล
แนวคิดพื้นฐาน
ความคล้ายกันของ
หน่วย
วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยม
วัดกันมากก็คือ วิธีที่เรียกว่า ระยะห่างเชิงยูคลิดยกกาลังสอง (Squared
Euclidean distance)คือ ผลรวมของผลต่างยกกาลังสองของทุกตัวแปร
4
1
2
3
1
เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิคย่อย
โดยเทคนิคที่ใช้กันมากมี 2 เทคนิค คือ
Hierarchical Cluster Analysis
2 K-Means Cluster Analysis
เป็นเทคนิคที่นิยมใช้กันมากในการแบ่งกลุ่ม Case หรือ
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
ในกรณีที่ใช้ในการแบ่ง Case นั้น จานวน Case ต้องไม่มากนัก (จานวน Case ควรต่ากว่า 200
ถ้าตั้งแต่ 200 ขึ้นไปใช้ K-Means Cluster) และจานวนตัวแปรต้องไม่มาก
ไม่จาเป็นต้องทราบจานวนกลุ่มมาก่อน
ไม่จาเป็นเป็นต้องทราบว่าตัวแปรใดหรือ Case ใดอยู่กลุ่มใดก่อน
1
2
3
ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่งกลุ่ม Case
1
2
3
ขั้นที่ 1 เลือกตัวแปรหรือปัจจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
จะทาให้สามารถแบ่งกลุ่ม Case ได้ชัดเจน ขั้นตอนนี้เป็นขั้นตอนที่สาคัญ
ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรือเลือก
วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่
เลือกหลักเกณฑ์ในการรวมกลุ่ม หรือรวม Cluster
การวัดความคล้าย (Similarity Measure)
การวัดความคล้ายกันของ Case ทีละคู่ ในกรณีที่เป็นการจัดกลุ่ม
Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีข้อมูล Case = n
แต่ถ้าต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
รวมถึง C คู่ เมื่อมีตัวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
อาจจะวัดด้วยระยะห่าง (Distance) หรือวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิทธิ์สหสัมพันธ์
เพียร์สัน (Pearson correlation)
สาหรับวิธีการคานวณระยะห่าง หรือค่าความคล้ายของ Case แต่ละคู่
จะแตกต่างกันเมื่อชนิดของข้อมูลต่างกัน ซึ่งชนิดของข้อมูลหรือตัวแปรที่สามารถ
ใช้เทคนิค Hierarchical Cluster ได้มี 3 ประเภท คือ
1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกลอัตราส่วน
(Ratio scale)
2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data)
3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้2 ค่า คือ 0 กับ 1 หรือกล่าวได้ว่า
ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็นข้อมูลชนิดตัวเลข หรือเป็นเชิง
ปริมาณ (Interval หรือ Ratio scale) หรือข้อมูลอยู่ในรูปความถี่ หรือ Binary
การวัดความคล้าย (Similarity Measure)(ต่อ)
หลักการการรวมกลุ่ม (Methods for Combining Cluster)
ขั้นที่1 ขั้นที่2 ขั้นที่3,4
ในแต่ละขั้นอาจจะรวม
Case ใหม่เข้าไปใน
กลุ่มที่มีอยู่แล้ว หรือ
รวม Case ใหม่ 2 Case
เป็นกลุ่มใหม่ ทาเช่นนี้
ไปเรื่อย ๆ จนกระทั่ง
ได้ทุก Case อยู่ในกลุ่ม
เดียวกัน นั่นคือ สุดท้าย
มีเพียง 1 กลุ่ม
พิจารณาว่าควรจะรวม
Case ที่ 3 เข้าอยู่ใน
กลุ่มเดียวกับ 2 Case
แรก หรือควรจะรวม 2
Case ใหม่เข้าอยู่ใน
กลุ่มใหม่อีกกลุ่มหนึ่ง
โดยพิจารณาจากค่า
ระยะห่างหรือค่าความ
คล้าย
รวม Case 2 Case
ให้อยู่ในกลุ่ม
เดียวกัน หรือ
Cluster เดียวกัน
โดย พิจารณาจาก
ค่าระยะห่างหรือค่า
ความคล้าย
สาหรับหลักการในการรวมกลุ่มของเทคนิค HierarchicalClusterนั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
HierarchicalClusterAnalysis หรือในโปรแกรม SPSS เรียกว่า AgglomerativeSchedule ซึ่งหลักการเกณฑ์ของ
Agglomerativeschedule จะทาการรวมกลุ่ม Clusterอย่างเป็นขั้นตอนดังนี้
หลักเกณฑ์ในการรวมกลุ่ม
1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups
หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)
พิจารณาว่า ควรรวม cluster ที่ i และ j ไว้ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ด้วยกัน โดยพิจารณาระห่างเฉลี่ย
ระหว่าง cluster เช่น
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
เลือกรวม cluster ที่มีระยะห่างเฉลี่ยต่าสุด เช่น จากตัวอย่างนี้ได้ค่าระหว่าง
d ต่าสุด ก็จะรวม cluster I และ k เข้าด้วยกัน
2. Within-group Linkage Technique หรือเรียกว่า Average Linkage Within Groups
Method วิธีนี้จะรวม Cluster เข้าด้วยกันถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด
3. Nearest Neighbor หรือเรียกว่า Single Linkage
ในที่นี้ d ระยะห่างที่สั้นที่สุดของ cluster i และ j
d ระยะห่างที่สั้นที่สุดของ cluster i และ k
d ระยะห่างที่สั้นที่สุดของ cluster j และ k
หาค่าต่าสุด d , d และ d , d ถ้าได้ว่า d ต่าสุดก็จะรวม cluster k และ j เข้าด้วยกัน
4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage
d ระยะห่างที่ยาวที่สุดของ cluster i และ j
d ระยะห่างที่ยาวที่สุดของ cluster i และ k
d ระยะห่างที่ยาวที่สุดของ cluster k และ j
แล้วเปรียบเทียบค่า d ,d ,d เลือกค่าต่าสุด ถ้าได้ว่า d ต่าสุด ก็รวม cluster i และ k
เข้าด้วยกัน
5. Centroid Clustering
เป็นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุด เช่น ถ้าได้d ต่าสุด ก็จะรวม cluster k และ j เข้าด้วยกัน
6. Median Clustering
วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster
สาคัญเท่ากัน(ให้น้าหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering
จะให้ความสาคัญแก่ Cluster มีขนาดใหญ่มากกว่า Cluster ที่มีขนาดเล็ก
(ให้น้าหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลาง
ของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า
Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median
ของ Cluster คู่ใดต่าจะรวม Cluster คู่นั้นเข้าด้วยกัน
7. Ward’s Method
หลักการของวิธีนี้จะพิจารณาจากค่า Sum of the squared
within-cluster distance โดยจะรวม Cluster ที่ทาให้ค่า Sum of square
within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster
distance คือค่า Square Euclidean distance ของแต่ละ Case กับ
Cluster Mean
K-Means Cluster Analysis
หลักการของเทคนิค K-Means Clustering
เป็นเทคนิคการจาแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจานวน Case มาก
โดยจะต้องกาหนดจานวนกลุ่มหรือจานวน Cluster ที่ต้องการ เช่น กาหนดให้มี k
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะ
มีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่าง
จากค่ากลางของกลุ่มน้อยที่สุด แล้วคานวณค่ากลางของกลุ่มใหม่ จะทาเช่นนี้
จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจานวนรอบที่กาหนดไว้
K-Means Cluster Analysis(ต่อ)
ตัวแปรที่ใช้ในเทคนิค K-Means Clustering จะต้องเป็นตัวแปรเชิง
ปริมาณ คือ เป็นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่วน
(Ration Scale) โดยไม่สามารถใช้กับข้อมูลที่อยู่ในรูปความถี่ หรือ
Binary เหมือนเทคนิค Hierarchical
K-Means Cluster Analysis(ต่อ)
ขั้นตอนการวิเคราะห์ของวิธี K-Means
การวิเคราะห์จาแนกกลุ่มด้วยเทคนิควิธี K-Means Clustering
สามารถสรุป ขั้นตอนของการวิเคราะห์ได้ 4 ขั้นตอนดังนี้
ขั้นที่ 1 จัดกลุ่มข้อมูลเป็น k กลุ่ม ซึ่งมีการแบ่งได้หลายวิธีดังนี้
- แบ่งอย่างสุ่ม - แบ่งด้วยผู้ศึกษาเอง
ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
K-Means Cluster Analysis(ต่อ)
ขั้นที่ 3 มีวิธีการพิจารณา 2 แบบ โดยจะคานวณ
แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก
กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุด
แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่
หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ
หน่วยไปยังจุดกลางกลุ่ม
โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i
ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน
กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยู่ในกลุ่ม
นั้นมีความคล้ายคลึงกัน
K-Means Cluster Analysis(ต่อ)
ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน
ขั้นที่ 3
แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก
หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุด
แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ค่า ESS มีค่า
ต่าสุดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้นั้น
เหมาะสมแล้ว แต่ถ้าในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรือย้าย
ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นั่นคือต้องกลับไปทาขั้นที่ 2
ข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means
1. เทคนิค K-Means ใช้เมื่อมีจานวน Case หรือจานวนข้อมูลมาก โดยทั่วไป
นิยมใช้เมื่อ n ≥ 200 เพราะเมื่อ n มาก เทคนิค K-Means
2. เทคนิค K-Means นั้น ผู้ใช้จะต้องกาหนดจานวนกลุ่มที่แน่นอนไว้
ล่วงหน้ากรณีที่ผู้วิเคราะห์ยังไม่แน่ใจว่าควรมีกี่กลุ่มจึงจะเหมาะสม
3. เทคนิค Hierarchical นั้น ผู้วิเคราะห์จะ Standardized ข้อมูลหรือไม่ก็ได้
แต่โดยวิธี K-Means จะต้องทาการ Standardized ข้อมูลก่อนเสมอ
3. วิธี K-Means จะหาระยะห่างโดยวิธี Euclidean Distance โดยอัตโนมัติ
ขณะที่ Hierarchical ผู้วิเคราะห์มีสิทธิ์ที่จะเลือกวิธีการคานวณระยะห่าง หรือ
ความคล้ายได้
K-Means Cluster Analysis(ต่อ)
ข้อแตกต่างระหว่างการจาแนกกลุ่มด้วยเทคนิค Cluster Analysis
และเทคนิค Discriminant Analysis
Cluster Analysis Discriminant Analysis
1. ไม่จาเป็นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผู้วิจัย
เป็น
ผู้จัดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม
2. ไม่ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน
เนื่องจากผู้วิจัยเป็นผู้จัดกลุ่มมาก่อน
3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์
ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Case

Weitere ähnliche Inhalte

Was ist angesagt?

ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...
ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...
ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...นางสาวสุธาสิน? ศีรทำมา
 
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าวิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าCoco Tan
 
บริบทที่ส่งผลต่อการจัดการศึกษา
บริบทที่ส่งผลต่อการจัดการศึกษาบริบทที่ส่งผลต่อการจัดการศึกษา
บริบทที่ส่งผลต่อการจัดการศึกษาjuriporn chuchanakij
 
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่Somporn Amornwech
 
การคำนวณกระจกเว้า
การคำนวณกระจกเว้าการคำนวณกระจกเว้า
การคำนวณกระจกเว้าsripai52
 
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทย
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทยเล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทย
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทยFURD_RSU
 
บทที่ 1 พันธุกรรม
บทที่ 1 พันธุกรรมบทที่ 1 พันธุกรรม
บทที่ 1 พันธุกรรมPinutchaya Nakchumroon
 
เซลล์หน่วยของสิ่งมีชีวิต
เซลล์หน่วยของสิ่งมีชีวิตเซลล์หน่วยของสิ่งมีชีวิต
เซลล์หน่วยของสิ่งมีชีวิตPopeye Kotchakorn
 
ชีววิทยา . สืบพันธุ์&เจริญเติบโต
ชีววิทยา . สืบพันธุ์&เจริญเติบโตชีววิทยา . สืบพันธุ์&เจริญเติบโต
ชีววิทยา . สืบพันธุ์&เจริญเติบโตIced Megi
 
คลื่นแม่เหล็กไฟฟ้า
คลื่นแม่เหล็กไฟฟ้าคลื่นแม่เหล็กไฟฟ้า
คลื่นแม่เหล็กไฟฟ้าThaweekoon Intharachai
 
ความหมายของสถิติ
ความหมายของสถิติความหมายของสถิติ
ความหมายของสถิติNumber Utopie
 
เฉลยการวัดตำแหน่งและกระจาย
เฉลยการวัดตำแหน่งและกระจายเฉลยการวัดตำแหน่งและกระจาย
เฉลยการวัดตำแหน่งและกระจายkrurutsamee
 
การวัดตำแหน่งที่ของข้อมูลม.6
การวัดตำแหน่งที่ของข้อมูลม.6การวัดตำแหน่งที่ของข้อมูลม.6
การวัดตำแหน่งที่ของข้อมูลม.6KruGift Girlz
 
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)KamonchanokChairob
 

Was ist angesagt? (20)

ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...
ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...
ปัจจัยที่มีอิทธิพลในการตัดสินใจเลือกซื้อรถยนต์ โตโยต้า นิว วิออส ของผู้บริโภค...
 
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าวิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
 
05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification
 
บริบทที่ส่งผลต่อการจัดการศึกษา
บริบทที่ส่งผลต่อการจัดการศึกษาบริบทที่ส่งผลต่อการจัดการศึกษา
บริบทที่ส่งผลต่อการจัดการศึกษา
 
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
2.1การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยตารางความถี่
 
การคำนวณกระจกเว้า
การคำนวณกระจกเว้าการคำนวณกระจกเว้า
การคำนวณกระจกเว้า
 
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทย
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทยเล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทย
เล่าเรื่องแม่สอด เมืองชายแดนตะวันตกของไทย
 
บทที่ 1 พันธุกรรม
บทที่ 1 พันธุกรรมบทที่ 1 พันธุกรรม
บทที่ 1 พันธุกรรม
 
เซลล์หน่วยของสิ่งมีชีวิต
เซลล์หน่วยของสิ่งมีชีวิตเซลล์หน่วยของสิ่งมีชีวิต
เซลล์หน่วยของสิ่งมีชีวิต
 
ชีววิทยา . สืบพันธุ์&เจริญเติบโต
ชีววิทยา . สืบพันธุ์&เจริญเติบโตชีววิทยา . สืบพันธุ์&เจริญเติบโต
ชีววิทยา . สืบพันธุ์&เจริญเติบโต
 
การตกผลึก
การตกผลึกการตกผลึก
การตกผลึก
 
03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
คลื่นแม่เหล็กไฟฟ้า
คลื่นแม่เหล็กไฟฟ้าคลื่นแม่เหล็กไฟฟ้า
คลื่นแม่เหล็กไฟฟ้า
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
ความหมายของสถิติ
ความหมายของสถิติความหมายของสถิติ
ความหมายของสถิติ
 
เฉลยการวัดตำแหน่งและกระจาย
เฉลยการวัดตำแหน่งและกระจายเฉลยการวัดตำแหน่งและกระจาย
เฉลยการวัดตำแหน่งและกระจาย
 
การวัดตำแหน่งที่ของข้อมูลม.6
การวัดตำแหน่งที่ของข้อมูลม.6การวัดตำแหน่งที่ของข้อมูลม.6
การวัดตำแหน่งที่ของข้อมูลม.6
 
ตัวเก็บประจุและความจุไฟฟ้า
ตัวเก็บประจุและความจุไฟฟ้าตัวเก็บประจุและความจุไฟฟ้า
ตัวเก็บประจุและความจุไฟฟ้า
 
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)
การทำผ้ามัดย้อมจากสีของดอกไม้ (Natural Tie Dye Clothes Fabric Making)
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 

Ähnlich wie cluster analysis

12 งานนำสนอ cluster analysis
12 งานนำสนอ cluster analysis12 งานนำสนอ cluster analysis
12 งานนำสนอ cluster analysiskhuwawa2513
 
โจทย์ปัญหาค่าเฉลี่ยเลขคณิต
โจทย์ปัญหาค่าเฉลี่ยเลขคณิตโจทย์ปัญหาค่าเฉลี่ยเลขคณิต
โจทย์ปัญหาค่าเฉลี่ยเลขคณิตKuntoonbut Wissanu
 
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์othanatoso
 
สูตรสถิติ
สูตรสถิติสูตรสถิติ
สูตรสถิติTaew Nantawan
 
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้ม
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้มติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้ม
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้มmenton00
 
9789740333432
97897403334329789740333432
9789740333432CUPress
 
การวัดการกระจาย
การวัดการกระจายการวัดการกระจาย
การวัดการกระจายCholticha Boonliang
 

Ähnlich wie cluster analysis (15)

12 งานนำสนอ cluster analysis
12 งานนำสนอ cluster analysis12 งานนำสนอ cluster analysis
12 งานนำสนอ cluster analysis
 
Set2555
Set2555Set2555
Set2555
 
31 ความสัมพันธ์และฟังก์ชัน ตอนที่2_โดเมนและเรนจ์
31 ความสัมพันธ์และฟังก์ชัน ตอนที่2_โดเมนและเรนจ์31 ความสัมพันธ์และฟังก์ชัน ตอนที่2_โดเมนและเรนจ์
31 ความสัมพันธ์และฟังก์ชัน ตอนที่2_โดเมนและเรนจ์
 
30 ความสัมพันธ์และฟังก์ชัน ตอนที่1_ความสัมพันธ์
30 ความสัมพันธ์และฟังก์ชัน ตอนที่1_ความสัมพันธ์30 ความสัมพันธ์และฟังก์ชัน ตอนที่1_ความสัมพันธ์
30 ความสัมพันธ์และฟังก์ชัน ตอนที่1_ความสัมพันธ์
 
โจทย์ปัญหาค่าเฉลี่ยเลขคณิต
โจทย์ปัญหาค่าเฉลี่ยเลขคณิตโจทย์ปัญหาค่าเฉลี่ยเลขคณิต
โจทย์ปัญหาค่าเฉลี่ยเลขคณิต
 
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
 
สูตรสถิติ
สูตรสถิติสูตรสถิติ
สูตรสถิติ
 
06
0606
06
 
Spss jan2010
Spss jan2010Spss jan2010
Spss jan2010
 
Spss jan2010
Spss jan2010Spss jan2010
Spss jan2010
 
สถิติStat
สถิติStatสถิติStat
สถิติStat
 
Spss sriprapai
Spss sriprapaiSpss sriprapai
Spss sriprapai
 
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้ม
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้มติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้ม
ติวสบายคณิต (เพิ่มเติม) บทที่ 15 ความสัมพันธ์เชิงฟังก์ชันของข้อมูล สรุปเข้ม
 
9789740333432
97897403334329789740333432
9789740333432
 
การวัดการกระจาย
การวัดการกระจายการวัดการกระจาย
การวัดการกระจาย
 

cluster analysis

  • 2. การจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือเป็น การจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่ม เดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมี ลักษณะที่แตกต่างกัน ตัวแปรที่อยู่ในกลุ่มเดียวกันจะมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่ ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันจะมีความสัมพันธ์กันน้อยหรือไม่มี ความสัมพันธ์กันเลย
  • 3. www.themegallery.com Company Logo ชื่อ รายได้(1,000 บาท) อายุ(ปี) A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39 ตัวอย่างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F โดยพิจารณาจากอายุและรายได้โดยมีข้อมูลดังแสดงในตารางที่ 1
  • 5. จากตัวอย่างซึ่งเป็นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร เป้ าหมาย คือ จะแบ่ง 6 คน(n =6) เป็นกลุ่มย่อย โดยให้คนที่อยู่ในกลุ่มย่อย เดียวกันมีอายุและรายได้เท่ากันหรือใกล้เคียงกันส่วนคนที่อยู่ต่างกลุ่มกันจะมี อายุและรายได้แตกต่างกัน จากการพล็อตกราฟอายุรายได้ในตารางที่ 1 ทาให้ ตัดสินใจได้ว่า ควรจะเป็น 3 กลุ่ม กลุ่มที่ 1 : ประกอบด้วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ต่า กลุ่มที่ 2 : ประกอบด้วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี) และรายได้ปานกลาง กลุ่มที่ 3 : ประกอบด้วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี) และรายได้มาก
  • 6. วัตถุประสงค์ของการวิเคราะห์จัดกลุ่ม Cluster Analysis การวิเคราะห์กลุ่มเป็นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง โดยให้หน่วยที่อยู่ในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา แต่หน่วยที่อยู่ต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1 คนที่อยู่ในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ วัตถุประสงค์ของการแบ่งกลุ่มหรือจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป ประยุกต์ใช้
  • 7. การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ มาก ถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยู่ต่างกลุ่มกันมี ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถูกต้อง เช่น ด้านการตลาด ซึ่งเป็นการจัดกลุ่มพื้นที่หรือจังหวัด ผู้วิจัยจะต้อง ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
  • 8. สุชาติ ประสิทธิรัฐสินธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้านต่าง ๆ เ ช่น การตลาด การแพทย์การปกครอง ฯลฯ
  • 9. ข้อตกลงเบื้องต้นเกี่ยวกับการวิเคราะห์จัดกลุ่ม Cluster Analysis 1. ไม่ทราบจานวนกลุ่มมาก่อนว่ามีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่าหน่วยหรือคนใดจะอยู่กลุ่มใด 3. หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียง กลุ่มเดียว 4. ตัวแปรที่ใช้ในการแบ่งมีมากกว่า 1 ตัวและตัวแปรอาจจะเป็นตัวแปรที่มี ค่าได้เพียง 1 ค่าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
  • 10.
  • 11. การวัดความห่าง สาหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ผู้วิจัย อาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย • สิ่งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ ใช้ หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ •ผลที่ได้ก็จะไม่ดีหรือทาให้ไขว้เขวได้ ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษา เป็นเทคนิคของการ วิเคราะห์ทางสถิติหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา จากความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน ความต้องการ ทางด้านข้อมูล แนวคิดพื้นฐาน ความคล้ายกันของ หน่วย วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยม วัดกันมากก็คือ วิธีที่เรียกว่า ระยะห่างเชิงยูคลิดยกกาลังสอง (Squared Euclidean distance)คือ ผลรวมของผลต่างยกกาลังสองของทุกตัวแปร 4 1 2 3
  • 12. 1 เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิคย่อย โดยเทคนิคที่ใช้กันมากมี 2 เทคนิค คือ Hierarchical Cluster Analysis 2 K-Means Cluster Analysis
  • 13. เป็นเทคนิคที่นิยมใช้กันมากในการแบ่งกลุ่ม Case หรือ แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้ ในกรณีที่ใช้ในการแบ่ง Case นั้น จานวน Case ต้องไม่มากนัก (จานวน Case ควรต่ากว่า 200 ถ้าตั้งแต่ 200 ขึ้นไปใช้ K-Means Cluster) และจานวนตัวแปรต้องไม่มาก ไม่จาเป็นต้องทราบจานวนกลุ่มมาก่อน ไม่จาเป็นเป็นต้องทราบว่าตัวแปรใดหรือ Case ใดอยู่กลุ่มใดก่อน 1 2 3
  • 14. ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่งกลุ่ม Case 1 2 3 ขั้นที่ 1 เลือกตัวแปรหรือปัจจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร จะทาให้สามารถแบ่งกลุ่ม Case ได้ชัดเจน ขั้นตอนนี้เป็นขั้นตอนที่สาคัญ ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรือเลือก วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่ เลือกหลักเกณฑ์ในการรวมกลุ่ม หรือรวม Cluster
  • 15. การวัดความคล้าย (Similarity Measure) การวัดความคล้ายกันของ Case ทีละคู่ ในกรณีที่เป็นการจัดกลุ่ม Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้าย ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์เมื่อต้องการจัด กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีข้อมูล Case = n แต่ถ้าต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่ รวมถึง C คู่ เมื่อมีตัวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่ อาจจะวัดด้วยระยะห่าง (Distance) หรือวัดด้วยค่าความคล้าย (Similarity) แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิทธิ์สหสัมพันธ์ เพียร์สัน (Pearson correlation)
  • 16. สาหรับวิธีการคานวณระยะห่าง หรือค่าความคล้ายของ Case แต่ละคู่ จะแตกต่างกันเมื่อชนิดของข้อมูลต่างกัน ซึ่งชนิดของข้อมูลหรือตัวแปรที่สามารถ ใช้เทคนิค Hierarchical Cluster ได้มี 3 ประเภท คือ 1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกลอัตราส่วน (Ratio scale) 2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data) 3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้2 ค่า คือ 0 กับ 1 หรือกล่าวได้ว่า ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็นข้อมูลชนิดตัวเลข หรือเป็นเชิง ปริมาณ (Interval หรือ Ratio scale) หรือข้อมูลอยู่ในรูปความถี่ หรือ Binary การวัดความคล้าย (Similarity Measure)(ต่อ)
  • 17. หลักการการรวมกลุ่ม (Methods for Combining Cluster) ขั้นที่1 ขั้นที่2 ขั้นที่3,4 ในแต่ละขั้นอาจจะรวม Case ใหม่เข้าไปใน กลุ่มที่มีอยู่แล้ว หรือ รวม Case ใหม่ 2 Case เป็นกลุ่มใหม่ ทาเช่นนี้ ไปเรื่อย ๆ จนกระทั่ง ได้ทุก Case อยู่ในกลุ่ม เดียวกัน นั่นคือ สุดท้าย มีเพียง 1 กลุ่ม พิจารณาว่าควรจะรวม Case ที่ 3 เข้าอยู่ใน กลุ่มเดียวกับ 2 Case แรก หรือควรจะรวม 2 Case ใหม่เข้าอยู่ใน กลุ่มใหม่อีกกลุ่มหนึ่ง โดยพิจารณาจากค่า ระยะห่างหรือค่าความ คล้าย รวม Case 2 Case ให้อยู่ในกลุ่ม เดียวกัน หรือ Cluster เดียวกัน โดย พิจารณาจาก ค่าระยะห่างหรือค่า ความคล้าย สาหรับหลักการในการรวมกลุ่มของเทคนิค HierarchicalClusterนั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative HierarchicalClusterAnalysis หรือในโปรแกรม SPSS เรียกว่า AgglomerativeSchedule ซึ่งหลักการเกณฑ์ของ Agglomerativeschedule จะทาการรวมกลุ่ม Clusterอย่างเป็นขั้นตอนดังนี้
  • 18. หลักเกณฑ์ในการรวมกลุ่ม 1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)
  • 19. พิจารณาว่า ควรรวม cluster ที่ i และ j ไว้ด้วยกันหรือรวม cluster ที่ i และ k หรือควรจะรวม cluster ที่ j และ k ไว้ด้วยกัน โดยพิจารณาระห่างเฉลี่ย ระหว่าง cluster เช่น d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j เลือกรวม cluster ที่มีระยะห่างเฉลี่ยต่าสุด เช่น จากตัวอย่างนี้ได้ค่าระหว่าง d ต่าสุด ก็จะรวม cluster I และ k เข้าด้วยกัน
  • 20. 2. Within-group Linkage Technique หรือเรียกว่า Average Linkage Within Groups Method วิธีนี้จะรวม Cluster เข้าด้วยกันถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่าน้อยที่สุด
  • 21. 3. Nearest Neighbor หรือเรียกว่า Single Linkage ในที่นี้ d ระยะห่างที่สั้นที่สุดของ cluster i และ j d ระยะห่างที่สั้นที่สุดของ cluster i และ k d ระยะห่างที่สั้นที่สุดของ cluster j และ k หาค่าต่าสุด d , d และ d , d ถ้าได้ว่า d ต่าสุดก็จะรวม cluster k และ j เข้าด้วยกัน
  • 22. 4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage d ระยะห่างที่ยาวที่สุดของ cluster i และ j d ระยะห่างที่ยาวที่สุดของ cluster i และ k d ระยะห่างที่ยาวที่สุดของ cluster k และ j แล้วเปรียบเทียบค่า d ,d ,d เลือกค่าต่าสุด ถ้าได้ว่า d ต่าสุด ก็รวม cluster i และ k เข้าด้วยกัน
  • 23. 5. Centroid Clustering เป็นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2 cluster โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k แล้วเลือกค่าระยะห่างที่ต่าสุด เช่น ถ้าได้d ต่าสุด ก็จะรวม cluster k และ j เข้าด้วยกัน
  • 24. 6. Median Clustering วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster สาคัญเท่ากัน(ให้น้าหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering จะให้ความสาคัญแก่ Cluster มีขนาดใหญ่มากกว่า Cluster ที่มีขนาดเล็ก (ให้น้าหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลาง ของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Cluster คู่ใดต่าจะรวม Cluster คู่นั้นเข้าด้วยกัน
  • 25. 7. Ward’s Method หลักการของวิธีนี้จะพิจารณาจากค่า Sum of the squared within-cluster distance โดยจะรวม Cluster ที่ทาให้ค่า Sum of square within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster distance คือค่า Square Euclidean distance ของแต่ละ Case กับ Cluster Mean
  • 26. K-Means Cluster Analysis หลักการของเทคนิค K-Means Clustering เป็นเทคนิคการจาแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจานวน Case มาก โดยจะต้องกาหนดจานวนกลุ่มหรือจานวน Cluster ที่ต้องการ เช่น กาหนดให้มี k กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะ มีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่าง จากค่ากลางของกลุ่มน้อยที่สุด แล้วคานวณค่ากลางของกลุ่มใหม่ จะทาเช่นนี้ จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจานวนรอบที่กาหนดไว้
  • 27. K-Means Cluster Analysis(ต่อ) ตัวแปรที่ใช้ในเทคนิค K-Means Clustering จะต้องเป็นตัวแปรเชิง ปริมาณ คือ เป็นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่วน (Ration Scale) โดยไม่สามารถใช้กับข้อมูลที่อยู่ในรูปความถี่ หรือ Binary เหมือนเทคนิค Hierarchical
  • 28. K-Means Cluster Analysis(ต่อ) ขั้นตอนการวิเคราะห์ของวิธี K-Means การวิเคราะห์จาแนกกลุ่มด้วยเทคนิควิธี K-Means Clustering สามารถสรุป ขั้นตอนของการวิเคราะห์ได้ 4 ขั้นตอนดังนี้ ขั้นที่ 1 จัดกลุ่มข้อมูลเป็น k กลุ่ม ซึ่งมีการแบ่งได้หลายวิธีดังนี้ - แบ่งอย่างสุ่ม - แบ่งด้วยผู้ศึกษาเอง ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
  • 29. K-Means Cluster Analysis(ต่อ) ขั้นที่ 3 มีวิธีการพิจารณา 2 แบบ โดยจะคานวณ แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุด แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่ หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ หน่วยไปยังจุดกลางกลุ่ม โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยู่ในกลุ่ม นั้นมีความคล้ายคลึงกัน
  • 30. K-Means Cluster Analysis(ต่อ) ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน ขั้นที่ 3 แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุด แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ค่า ESS มีค่า ต่าสุดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้นั้น เหมาะสมแล้ว แต่ถ้าในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรือย้าย ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นั่นคือต้องกลับไปทาขั้นที่ 2
  • 31. ข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means 1. เทคนิค K-Means ใช้เมื่อมีจานวน Case หรือจานวนข้อมูลมาก โดยทั่วไป นิยมใช้เมื่อ n ≥ 200 เพราะเมื่อ n มาก เทคนิค K-Means 2. เทคนิค K-Means นั้น ผู้ใช้จะต้องกาหนดจานวนกลุ่มที่แน่นอนไว้ ล่วงหน้ากรณีที่ผู้วิเคราะห์ยังไม่แน่ใจว่าควรมีกี่กลุ่มจึงจะเหมาะสม 3. เทคนิค Hierarchical นั้น ผู้วิเคราะห์จะ Standardized ข้อมูลหรือไม่ก็ได้ แต่โดยวิธี K-Means จะต้องทาการ Standardized ข้อมูลก่อนเสมอ 3. วิธี K-Means จะหาระยะห่างโดยวิธี Euclidean Distance โดยอัตโนมัติ ขณะที่ Hierarchical ผู้วิเคราะห์มีสิทธิ์ที่จะเลือกวิธีการคานวณระยะห่าง หรือ ความคล้ายได้ K-Means Cluster Analysis(ต่อ)
  • 32. ข้อแตกต่างระหว่างการจาแนกกลุ่มด้วยเทคนิค Cluster Analysis และเทคนิค Discriminant Analysis Cluster Analysis Discriminant Analysis 1. ไม่จาเป็นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผู้วิจัย เป็น ผู้จัดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน เนื่องจากผู้วิจัยเป็นผู้จัดกลุ่มมาก่อน 3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์