cluster analysis

การจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือเป็น
การจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่ม
เดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมี
ลักษณะที่แตกต่างกัน
ตัวแปรที่อยู่ในกลุ่มเดียวกันจะมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่
ต่างกลุ่มกัน
ตัวแปรที่อยู่ต่างกลุ่มกันจะมีความสัมพันธ์กันน้อยหรือไม่มี
ความสัมพันธ์กันเลย

www.themegallery.com Company Logo
ชื่อ รายได้(1,000
บาท)
อายุ(ปี)
A 5 25
B 6 26
C 15 34
D 16 35
E 25 40
F 30 39
ตัวอย่างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
โดยพิจารณาจากอายุและรายได้โดยมีข้อมูลดังแสดงในตารางที่ 1

แสดงการวิเคราะห์กลุ่มอายุและรายได้

จากตัวอย่างซึ่งเป็นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร
เป้ าหมาย คือ จะแบ่ง 6 คน(n =6) เป็นกลุ่มย่อย โดยให้คนที่อยู่ในกลุ่มย่อย
เดียวกันมีอายุและรายได้เท่ากันหรือใกล้เคียงกันส่วนคนที่อยู่ต่างกลุ่มกันจะมี
อายุและรายได้แตกต่างกัน จากการพล็อตกราฟอายุรายได้ในตารางที่ 1 ทาให้
ตัดสินใจได้ว่า ควรจะเป็น 3 กลุ่ม
กลุ่มที่ 1 : ประกอบด้วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ต่า
กลุ่มที่ 2 : ประกอบด้วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี)
และรายได้ปานกลาง
กลุ่มที่ 3 : ประกอบด้วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี)
และรายได้มาก

วัตถุประสงค์ของการวิเคราะห์จัดกลุ่ม
Cluster Analysis
การวิเคราะห์กลุ่มเป็นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน
ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง
โดยให้หน่วยที่อยู่ในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา
แต่หน่วยที่อยู่ต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1
คนที่อยู่ในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ
วัตถุประสงค์ของการแบ่งกลุ่มหรือจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป
ประยุกต์ใช้

การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ
จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ
มาก ถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยู่ต่างกลุ่มกันมี
ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถูกต้อง เช่น
ด้านการตลาด ซึ่งเป็นการจัดกลุ่มพื้นที่หรือจังหวัด ผู้วิจัยจะต้อง
ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน
ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ

สุชาติ ประสิทธิรัฐสินธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ
เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่
สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร
ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว
โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้านต่าง ๆ เ ช่น
การตลาด การแพทย์การปกครอง ฯลฯ

ข้อตกลงเบื้องต้นเกี่ยวกับการวิเคราะห์จัดกลุ่ม
Cluster Analysis
1. ไม่ทราบจานวนกลุ่มมาก่อนว่ามีกี่กลุ่ม
2. ไม่ทราบมาก่อนว่าหน่วยหรือคนใดจะอยู่กลุ่มใด
3. หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียง
กลุ่มเดียว
4. ตัวแปรที่ใช้ในการแบ่งมีมากกว่า 1 ตัวและตัวแปรอาจจะเป็นตัวแปรที่มี
ค่าได้เพียง 1 ค่าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ

การวัดความห่าง
สาหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ผู้วิจัย
อาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย
• สิ่งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่
ใช้ หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ
•ผลที่ได้ก็จะไม่ดีหรือทาให้ไขว้เขวได้
ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษา เป็นเทคนิคของการ
วิเคราะห์ทางสถิติหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา
จากความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
ความต้องการ
ทางด้านข้อมูล
แนวคิดพื้นฐาน
ความคล้ายกันของ
หน่วย
วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยม
วัดกันมากก็คือ วิธีที่เรียกว่า ระยะห่างเชิงยูคลิดยกกาลังสอง (Squared
Euclidean distance)คือ ผลรวมของผลต่างยกกาลังสองของทุกตัวแปร
4
1
2
3

1
เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิคย่อย
โดยเทคนิคที่ใช้กันมากมี 2 เทคนิค คือ
Hierarchical Cluster Analysis
2 K-Means Cluster Analysis

เป็นเทคนิคที่นิยมใช้กันมากในการแบ่งกลุ่ม Case หรือ
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
ในกรณีที่ใช้ในการแบ่ง Case นั้น จานวน Case ต้องไม่มากนัก (จานวน Case ควรต่ากว่า 200
ถ้าตั้งแต่ 200 ขึ้นไปใช้ K-Means Cluster) และจานวนตัวแปรต้องไม่มาก
ไม่จาเป็นต้องทราบจานวนกลุ่มมาก่อน
ไม่จาเป็นเป็นต้องทราบว่าตัวแปรใดหรือ Case ใดอยู่กลุ่มใดก่อน
1
2
3

ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่งกลุ่ม Case
1
2
3
ขั้นที่ 1 เลือกตัวแปรหรือปัจจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
จะทาให้สามารถแบ่งกลุ่ม Case ได้ชัดเจน ขั้นตอนนี้เป็นขั้นตอนที่สาคัญ
ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรือเลือก
วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่
เลือกหลักเกณฑ์ในการรวมกลุ่ม หรือรวม Cluster

การวัดความคล้าย (Similarity Measure)
การวัดความคล้ายกันของ Case ทีละคู่ ในกรณีที่เป็นการจัดกลุ่ม
Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีข้อมูล Case = n
แต่ถ้าต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
รวมถึง C คู่ เมื่อมีตัวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
อาจจะวัดด้วยระยะห่าง (Distance) หรือวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิทธิ์สหสัมพันธ์
เพียร์สัน (Pearson correlation)

สาหรับวิธีการคานวณระยะห่าง หรือค่าความคล้ายของ Case แต่ละคู่
จะแตกต่างกันเมื่อชนิดของข้อมูลต่างกัน ซึ่งชนิดของข้อมูลหรือตัวแปรที่สามารถ
ใช้เทคนิค Hierarchical Cluster ได้มี 3 ประเภท คือ
1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกลอัตราส่วน
(Ratio scale)
2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data)
3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้2 ค่า คือ 0 กับ 1 หรือกล่าวได้ว่า
ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็นข้อมูลชนิดตัวเลข หรือเป็นเชิง
ปริมาณ (Interval หรือ Ratio scale) หรือข้อมูลอยู่ในรูปความถี่ หรือ Binary
การวัดความคล้าย (Similarity Measure)(ต่อ)

หลักการการรวมกลุ่ม (Methods for Combining Cluster)
ขั้นที่1 ขั้นที่2 ขั้นที่3,4
ในแต่ละขั้นอาจจะรวม
Case ใหม่เข้าไปใน
กลุ่มที่มีอยู่แล้ว หรือ
รวม Case ใหม่ 2 Case
เป็นกลุ่มใหม่ ทาเช่นนี้
ไปเรื่อย ๆ จนกระทั่ง
ได้ทุก Case อยู่ในกลุ่ม
เดียวกัน นั่นคือ สุดท้าย
มีเพียง 1 กลุ่ม
พิจารณาว่าควรจะรวม
Case ที่ 3 เข้าอยู่ใน
กลุ่มเดียวกับ 2 Case
แรก หรือควรจะรวม 2
Case ใหม่เข้าอยู่ใน
กลุ่มใหม่อีกกลุ่มหนึ่ง
โดยพิจารณาจากค่า
ระยะห่างหรือค่าความ
คล้าย
รวม Case 2 Case
ให้อยู่ในกลุ่ม
เดียวกัน หรือ
Cluster เดียวกัน
โดย พิจารณาจาก
ค่าระยะห่างหรือค่า
ความคล้าย
สาหรับหลักการในการรวมกลุ่มของเทคนิค HierarchicalClusterนั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
HierarchicalClusterAnalysis หรือในโปรแกรม SPSS เรียกว่า AgglomerativeSchedule ซึ่งหลักการเกณฑ์ของ
Agglomerativeschedule จะทาการรวมกลุ่ม Clusterอย่างเป็นขั้นตอนดังนี้

หลักเกณฑ์ในการรวมกลุ่ม
1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups
หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)

พิจารณาว่า ควรรวม cluster ที่ i และ j ไว้ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ด้วยกัน โดยพิจารณาระห่างเฉลี่ย
ระหว่าง cluster เช่น
d = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j
เลือกรวม cluster ที่มีระยะห่างเฉลี่ยต่าสุด เช่น จากตัวอย่างนี้ได้ค่าระหว่าง
d ต่าสุด ก็จะรวม cluster I และ k เข้าด้วยกัน

2. Within-group Linkage Technique หรือเรียกว่า Average Linkage Within Groups
Method วิธีนี้จะรวม Cluster เข้าด้วยกันถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด

3. Nearest Neighbor หรือเรียกว่า Single Linkage
ในที่นี้ d ระยะห่างที่สั้นที่สุดของ cluster i และ j
d ระยะห่างที่สั้นที่สุดของ cluster i และ k
d ระยะห่างที่สั้นที่สุดของ cluster j และ k
หาค่าต่าสุด d , d และ d , d ถ้าได้ว่า d ต่าสุดก็จะรวม cluster k และ j เข้าด้วยกัน

4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage
d ระยะห่างที่ยาวที่สุดของ cluster i และ j
d ระยะห่างที่ยาวที่สุดของ cluster i และ k
d ระยะห่างที่ยาวที่สุดของ cluster k และ j
แล้วเปรียบเทียบค่า d ,d ,d เลือกค่าต่าสุด ถ้าได้ว่า d ต่าสุด ก็รวม cluster i และ k
เข้าด้วยกัน

5. Centroid Clustering
เป็นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุด เช่น ถ้าได้d ต่าสุด ก็จะรวม cluster k และ j เข้าด้วยกัน

6. Median Clustering
วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster
สาคัญเท่ากัน(ให้น้าหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering
จะให้ความสาคัญแก่ Cluster มีขนาดใหญ่มากกว่า Cluster ที่มีขนาดเล็ก
(ให้น้าหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลาง
ของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า
Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median
ของ Cluster คู่ใดต่าจะรวม Cluster คู่นั้นเข้าด้วยกัน

7. Ward’s Method
หลักการของวิธีนี้จะพิจารณาจากค่า Sum of the squared
within-cluster distance โดยจะรวม Cluster ที่ทาให้ค่า Sum of square
within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster
distance คือค่า Square Euclidean distance ของแต่ละ Case กับ
Cluster Mean

K-Means Cluster Analysis
หลักการของเทคนิค K-Means Clustering
เป็นเทคนิคการจาแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจานวน Case มาก
โดยจะต้องกาหนดจานวนกลุ่มหรือจานวน Cluster ที่ต้องการ เช่น กาหนดให้มี k
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะ
มีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่าง
จากค่ากลางของกลุ่มน้อยที่สุด แล้วคานวณค่ากลางของกลุ่มใหม่ จะทาเช่นนี้
จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจานวนรอบที่กาหนดไว้

K-Means Cluster Analysis(ต่อ)
ตัวแปรที่ใช้ในเทคนิค K-Means Clustering จะต้องเป็นตัวแปรเชิง
ปริมาณ คือ เป็นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่วน
(Ration Scale) โดยไม่สามารถใช้กับข้อมูลที่อยู่ในรูปความถี่ หรือ
Binary เหมือนเทคนิค Hierarchical

ขั้นตอนการวิเคราะห์ของวิธี K-Means
การวิเคราะห์จาแนกกลุ่มด้วยเทคนิควิธี K-Means Clustering
สามารถสรุป ขั้นตอนของการวิเคราะห์ได้ 4 ขั้นตอนดังนี้
ขั้นที่ 1 จัดกลุ่มข้อมูลเป็น k กลุ่ม ซึ่งมีการแบ่งได้หลายวิธีดังนี้
- แบ่งอย่างสุ่ม - แบ่งด้วยผู้ศึกษาเอง
ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C

ขั้นที่ 3 มีวิธีการพิจารณา 2 แบบ โดยจะคานวณ
แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก
กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุด
แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่
หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ
หน่วยไปยังจุดกลางกลุ่ม
โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i
ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน
กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยู่ในกลุ่ม
นั้นมีความคล้ายคลึงกัน

ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน
ขั้นที่ 3
แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก
หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุด
แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ค่า ESS มีค่า
ต่าสุดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้นั้น
เหมาะสมแล้ว แต่ถ้าในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรือย้าย
ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นั่นคือต้องกลับไปทาขั้นที่ 2

ข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means
1. เทคนิค K-Means ใช้เมื่อมีจานวน Case หรือจานวนข้อมูลมาก โดยทั่วไป
นิยมใช้เมื่อ n ≥ 200 เพราะเมื่อ n มาก เทคนิค K-Means
2. เทคนิค K-Means นั้น ผู้ใช้จะต้องกาหนดจานวนกลุ่มที่แน่นอนไว้
ล่วงหน้ากรณีที่ผู้วิเคราะห์ยังไม่แน่ใจว่าควรมีกี่กลุ่มจึงจะเหมาะสม
3. เทคนิค Hierarchical นั้น ผู้วิเคราะห์จะ Standardized ข้อมูลหรือไม่ก็ได้
แต่โดยวิธี K-Means จะต้องทาการ Standardized ข้อมูลก่อนเสมอ
3. วิธี K-Means จะหาระยะห่างโดยวิธี Euclidean Distance โดยอัตโนมัติ
ขณะที่ Hierarchical ผู้วิเคราะห์มีสิทธิ์ที่จะเลือกวิธีการคานวณระยะห่าง หรือ
ความคล้ายได้

ข้อแตกต่างระหว่างการจาแนกกลุ่มด้วยเทคนิค Cluster Analysis
และเทคนิค Discriminant Analysis
Cluster Analysis Discriminant Analysis
1. ไม่จาเป็นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผู้วิจัย
เป็น
ผู้จัดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม
2. ไม่ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน
เนื่องจากผู้วิจัยเป็นผู้จัดกลุ่มมาก่อน
3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์

ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Case

cluster analysis

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie cluster analysis

Ähnlich wie cluster analysis (15)

cluster analysis