SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
LOGO
การจัด Case (หมายถึง คน สั ตว์ สิ่ งของ หรือ องค์ กร ฯลฯ) หรือเป็ น
การจัดตัวแปรออกเป็ นกลุ่มย่ อย ๆ ตั้งแต่ 2 กลุ่มขึนไป Case ทีอยู่ในกลุ่ม
                                                  ้            ่
เดียวกันจะมีลกษณะทีเ่ หมือนกันหรือคล้ายกัน ส่ วน Case ทีอยู่ต่างกลุ่มกันจะมี
               ั                                             ่
ลักษณะทีแตกต่ างกัน
           ่
          ตัวแปรทีอยู่ในกลุ่มเดียวกันจะมีความสั มพันธ์ กนมากกว่ าตัวแปรทีอยู่
                   ่                                     ั                ่
ต่ างกลุ่มกัน
          ตัวแปรทีอยู่ต่างกลุ่มกันจะมีความสั มพันธ์ กนน้ อยหรือไม่ มี
                     ่                               ั
ความสั มพันธ์ กนเลย
                 ั
ตัวอย่ างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F
       โดยพิจารณาจากอายุและรายได้โดยมีขอมูลดังแสดงในตารางที่ 1
                                              ้

                       ชื่อ    รายได้ (1,000          อายุ(ปี )
                                  บาท)
                       A            5                   25
                       B            6                   26
                       C           15                   34
                       D           16                   35
                       E           25                   40
                       F           30                   39
www.themegallery.com                                              Company Logo
แสดงการวิเคราะห์ กลุ่มอายุและรายได้
จากตัวอย่ างซึ่งเป็ นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร
เปาหมาย คือ จะแบ่ ง 6 คน(n =6) เป็ นกลุ่มย่ อย โดยให้ คนทีอยู่ในกลุ่มย่ อย
  ้                                                           ่
เดียวกันมีอายุและรายได้ เท่ ากันหรือใกล้เคียงกันส่ วนคนทีอยู่ต่างกลุ่มกันจะมี
                                                         ่
อายุและรายได้ แตกต่ างกัน จากการพล็อตกราฟอายุรายได้ ในตารางที่ 1 ทาให้
ตัดสิ นใจได้ ว่า ควรจะเป็ น 3 กลุ่ม
         กลุ่มที่ 1 : ประกอบด้ วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ ต่า
         กลุ่มที่ 2 : ประกอบด้ วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี )
และรายได้ ปานกลาง
         กลุ่มที่ 3 : ประกอบด้ วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี )
และรายได้ มาก
วัตถุประสงค์ ของการวิเคราะห์ จดกลุ่ม
                                    ั
      Cluster Analysis
การวิเคราะห์กลุ่มเป็ นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน
ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง
โดยให้หน่วยที่อยูในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา
                   ่
แต่หน่วยที่อยูต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1
                ่
คนที่อยูในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ
        ่
วัตถุประสงค์ของการแบ่งกลุ่มหรื อจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป
ประยุกต์ใช้
การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ
จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ
มาก ถ้าผูวจยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยูต่างกลุ่มกันมี
         ้ิั                                    ่
ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถกต้อง เช่น
                                                       ู
ด้านการตลาด ซึ่งเป็ นการจัดกลุ่มพื้นที่หรื อจังหวัด ผูวจยจะต้อง
                                                      ้ิั
ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน
ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
สุ ชาติ ประสิ ทธิรัฐสิ นธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ
เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวตถุประสงค์ที่
                                                             ั
สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร
ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว
โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้านต่าง ๆ เ ช่น
การตลาด การแพทย์ การปกครอง ฯลฯ
ข้ อตกลงเบืองต้ นเกียวกับการวิเคราะห์ จดกลุ่ม
           ้        ่                  ั
Cluster Analysis
  1. ไม่ ทราบจานวนกลุ่มมาก่อนว่ ามีกกลุ่ม
                                    ี่

  2. ไม่ ทราบมาก่อนว่ าหน่ วยหรือคนใดจะอยู่กลุ่มใด

  3. หน่ วยหรือคนใดคนหนึ่งจะต้ องอยู่กลุ่มใดกลุ่มหนึ่งเพียง
  กลุ่มเดียว
   4. ตัวแปรทีใช้ ในการแบ่ งมีมากกว่ า 1 ตัวและตัวแปรอาจจะเป็ นตัวแปรที่มี
                  ่
   ค่ าได้ เพียง 1 ค่ าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
สาหรับการวิเคราะห์จดกลุ่มหน่วยวิเคราะห์ผวิจย
                                             ั                   ู้ ั
1    ความต้ องการ       อาจใช้ขอมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จดเก็บมาได้เลย
                               ้                                        ั
     ทางด้ านข้ อมูล
                         • สิ่ งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่
2   แนวคิดพืนฐาน
            ้            ใช้ หากผูวิจยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ
                                       ้ ั
                                     ็
                         •ผลที่ได้กจะไม่ดีหรื อทาให้ไขว้เขวได้
                         ความคิดเกียวกับความคล้ายของหน่ วยศึกษา เป็ นเทคนิคของการ
                                    ่
3   ความคล้ายกันของ     วิเคราะห์ ทางสถิตหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา
                                         ิ
        หน่ วย          จากความห่ างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน
                        วิธีการวัดความห่ างสามารถวัดได้ หลายวิธี วิธีการหนึ่งที่นิยม
4   การวัดความห่ าง    วัดกันมากก็คอ วิธีที่เรียกว่า ระยะห่ างเชิงยูคลิดยกกาลังสอง (Squared
                                    ื
                       Euclidean distance)คือ ผลรวมของผลต่ างยกกาลังสองของทุกตัวแปร
เทคนิค Cluster Analysis แบ่งเป็ นหลายประเภทหรื อเทคนิคย่อย
                ั
โดยเทคนิคที่ใช้กนมากมี 2 เทคนิค คือ



      1           Hierarchical Cluster Analysis



      2           K-Means Cluster Analysis
เป็ นเทคนิคที่นิยมใช้กนมากในการแบ่งกลุ่ม Case หรื อ
                       ั
แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้
       1     ในกรณีที่ใช้ ในการแบ่ ง Case นั้น จานวน Case ต้ องไม่ มากนัก (จานวน Case ควรตากว่า 200
                                                                                          ่
             ถ้ าตั้งแต่ 200 ขึนไปใช้ K-Means Cluster) และจานวนตัวแปรต้ องไม่ มาก
                               ้



        2 ไม่จาเป็ นต้องทราบจานวนกลุ่มมาก่อน


        3
            ไม่จาเป็ นเป็ นต้องทราบว่าตัวแปรใดหรื อ Case ใดอยูกลุ่มใดก่อน
                                                              ่
ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่ งกลุ่ม Case



        1
             ขั้นที่ 1 เลือกตัวแปรหรื อปั จจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร
             จะทาให้สามารถแบ่งกลุ่ม Case ได้ชดเจน ขั้นตอนนี้เป็ นขั้นตอนที่สาคัญ
                                                    ั

        2
              ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรื อเลือก
              วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่

        3
             เลือกหลักเกณฑ์ในการรวมกลุ่ม หรื อรวม Cluster
การวัดความคล้ าย (Similarity Measure)

           การวัดความคล้ายกันของ Case ทีละคู่ ในกรณี ที่เป็ นการจัดกลุ่ม
Case ส่ วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็ นการวัดความคล้าย
ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิ ทธิ์ สหสัมพันธ์เมื่อต้องการจัด
กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีขอมูล Case = n
                                                        ้
แต่ถาต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่
     ้
รวมถึง C คู่ เมื่อมีตวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่
                     ั
อาจจะวัดด้วยระยะห่ าง (Distance) หรื อวัดด้วยค่าความคล้าย (Similarity)
แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิ ทธิ์ สหสัมพันธ์
เพียร์สัน (Pearson correlation)
การวัดความคล้ าย (Similarity Measure)(ต่ อ)

          สาหรับวิธีการคานวณระยะห่ าง หรื อค่าความคล้ายของ Case แต่ละคู่
จะแตกต่างกันเมื่อชนิ ดของข้อมูลต่างกัน ซึ่ งชนิดของข้อมูลหรื อตัวแปรที่สามารถ
ใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ
          1. ข้อมูลเป็ นสเกลอันตรภาค (Interval scale) หรื อสเกลอัตราส่ วน
(Ratio scale)
                         ่
          2. ข้อมูลที่อยูในรู ปความถี่ (Count Data)
                       ่                                                         ่
          3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่า คือ 0 กับ 1 หรื อกล่าวได้วา
                                        ่
ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็ นข้อมูลชนิดตัวเลข หรื อเป็ นเชิง
                                                   ่
ปริ มาณ (Interval หรื อ Ratio scale) หรื อข้อมูลอยูในรู ปความถี่ หรื อ Binary
หลักการการรวมกลุ่ม (Methods for Combining Cluster)
สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative
Hierarchical Cluster Analysis หรื อในโปรแกรม SPSS เรี ยกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ
Agglomerative schedule จะทาการรวมกลุ่ม Cluster อย่างเป็ นขั้นตอนดังนี้

                     ขั้นที1
                           ่                         ขั้นที2
                                                           ่                              ขั้นที3,4
                                                                                                ่

    รวม Case 2 Case                          พิจารณาว่ าควรจะรวม                    ในแต่ละขั้นอาจจะรวม
                                             Case ที่ 3 เข้ าอยู่ใน                 Case ใหม่เข้าไปใน
    ให้อยูในกลุ่ม
          ่
                                             กลุ่มเดียวกับ 2 Case                   กลุ่มที่มีอยูแล้ว หรื อ
                                                                                                  ่
    เดียวกัน หรื อ                           แรก หรือควรจะรวม 2                     รวม Case ใหม่ 2 Case
    Cluster เดียวกัน                         Case ใหม่ เข้ าอยู่ใน
                                                                                    เป็ นกลุ่มใหม่ ทาเช่นนี้
                                             กลุ่มใหม่ อกกลุ่มหนึ่ง
                                                         ี
    โดย พิจารณาจาก                                                                  ไปเรื่ อย ๆ จนกระทัง   ่
                                             โดยพิจารณาจากค่ า
    ค่าระยะห่างหรื อค่า                      ระยะห่ างหรือค่ าความ                  ได้ ทุก Case อยูในกลุ่ม
                                                                                                      ่
    ความคล้าย                                คล้ าย                                 เดียวกัน นันคือ สุ ดท้าย
                                                                                                ่
                                                                                    มีเพียง 1 กลุ่ม
หลักเกณฑ์ ในการรวมกลุ่ม
1. Between – groups Linkage หรื อเรี ยกว่าวิธี Average Linkage Between Groups
หรื อเรี ยกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic
Average)
พิจารณาว่ า ควรรวม cluster ที่ i และ j ไว้ ด้วยกันหรือรวม cluster ที่ i และ
k หรือควรจะรวม cluster ที่ j และ k ไว้ ด้วยกัน โดยพิจารณาระห่ างเฉลีย    ่
ระหว่ าง cluster เช่ น
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                    ่
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                  ่
      d =            ระยะห่ างเฉลีย ของ cluster ที่ i และ j
                                      ่
เลือกรวม cluster ทีมระยะห่ างเฉลียตาสุ ด เช่ น จากตัวอย่ างนีได้ ค่าระหว่ าง
                      ่ ี               ่ ่                  ้
d ตาสุ ด ก็จะรวม cluster I และ k เข้ าด้ วยกัน
    ่
2. Within-group Linkage Technique หรื อเรี ยกว่า Average Linkage Within Groups
Method วิธีน้ ีจะรวม Cluster เข้าด้วยกันถ้าระยะห่ างเฉลี่ยระหว่างทุก Case ใน Cluster
นั้น ๆ มีค่าน้อยที่สุด
3. Nearest Neighbor หรือเรียกว่ า Single Linkage
ในทีนี้ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ j
    ่
        d ระยะห่างที่ส้ ันที่สุดของ cluster i และ k
        d ระยะห่างที่ส้ ันที่สุดของ cluster j และ k
                                    ่
หาค่าต่าสุ ด d , d และ d , d ถ้าได้วา d ต่าสุ ดก็จะรวม cluster k และ j เข้าด้วยกัน
4. Furthest Neighbor Technique หรื อเรี ยกว่า Complete Linkage
       d ระยะห่างที่ยาวที่สุดของ cluster i และ j
            d ระยะห่างที่ยาวที่สุดของ cluster i และ k
            d ระยะห่างที่ยาวที่สุดของ cluster k และ j
                                                   ่
แล้วเปรี ยบเทียบค่า d ,d ,d เลือกค่าต่าสุ ด ถ้าได้วา d ต่าสุ ด ก็รวม cluster i และ k
เข้าด้วยกัน
5. Centroid Clustering
เป็ นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2
cluster
           โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j
                  d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k
                  d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k
แล้วเลือกค่าระยะห่างที่ต่าสุ ด เช่น ถ้าได้ d ต่าสุ ด ก็จะรวม cluster k และ j เข้าด้วยกัน
6. Median Clustering
        วิธีนีจะรวม Cluster 2 Cluster เข้ าด้ วยกัน โดยให้ แต่ ละ Cluster
              ้
สาคัญเท่ ากัน(ให้ นาหนักเท่ ากัน) ในขณะทีวธีของ Centroid Clustering
                    ้                      ่ิ
จะให้ ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่ า Cluster ทีมีขนาดเล็ก
                                                                ่
(ให้ นาหนักไม่ เท่ ากัน) Median Clustering จะใช้ ค่า Median เป็ นค่ ากลาง
      ้
ของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Clustering จะใช้ ค่า
Median เป็ นค่ ากลางของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median
ของ Cluster คู่ใดตาจะรวม Cluster คู่น้ันเข้ าด้ วยกัน
                      ่
7. Ward’s Method
         หลักการของวิธีนีจะพิจารณาจากค่ า Sum of the squared
                          ้
within-cluster distance โดยจะรวม Cluster ทีทาให้ ค่า Sum of square
                                              ่
within-cluster distance เพิมขึนน้ อยทีสุด โดยค่ า Square within-cluster
                            ่ ้       ่
distance คือค่ า Square Euclidean distance ของแต่ ละ Case กับ
Cluster Mean
K-Means Cluster Analysis

        หลักการของเทคนิค K-Means Clustering
      เป็ นเทคนิคการจาแนก Case ออกเป็ นกลุ่มย่ อย จะใช้ เมือมีจานวน Case มาก
                                                           ่
โดยจะต้ องกาหนดจานวนกลุ่มหรือจานวน Cluster ทีต้องการ เช่ น กาหนดให้ มี k
                                                    ่
กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ ละรอบจะ
มีการรวม Cases ให้ ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่ าง
จากค่ ากลางของกลุ่มน้ อยทีสุด แล้ วคานวณค่ ากลางของกลุ่มใหม่ จะทาเช่ นนี้
                          ่
จนกระทังค่ ากลางของกลุ่มไม่ เปลียนแปลง หรือครบจานวนรอบทีกาหนดไว้
           ่                     ่                                ่
K-Means Cluster Analysis(ต่ อ)


    ตัวแปรทีใช้ ในเทคนิค K-Means Clustering จะต้ องเป็ นตัวแปรเชิง
             ่
ปริมาณ คือ เป็ นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่ วน
(Ration Scale) โดยไม่ สามารถใช้ กบข้ อมูลทีอยู่ในรู ปความถี่ หรือ
                                 ั         ่
Binary เหมือนเทคนิค Hierarchical
K-Means Cluster Analysis(ต่ อ)

         ขั้นตอนการวิเคราะห์ ของวิธี K-Means

   การวิเคราะห์ จาแนกกลุ่มด้ วยเทคนิควิธี K-Means Clustering
สามารถสรุ ป ขั้นตอนของการวิเคราะห์ ได้ 4 ขั้นตอนดังนี้
   ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีการแบ่งได้หลายวิธีดงนี้
                                                                   ั
            - แบ่งอย่างสุ่ ม            - แบ่งด้วยผูศึกษาเอง
                                                    ้
   ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
K-Means Cluster Analysis(ต่ อ)
ขั้นที่ 3 มีวธีการพิจารณา 2 แบบ โดยจะคานวณ
               ิ
          แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก
กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุ ด
          แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่
หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ
หน่วยไปยังจุดกลางกลุ่ม



             โดยที่ C ( i )      หมายถึง กลุ่มของหน่วยที่ i
                                 ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน
กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยูในกลุ่ม
                                                                            ่
นั้นมีความคล้ายคลึงกัน
K-Means Cluster Analysis(ต่ อ)

ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน
ขั้นที่ 3
           แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก
หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุ ด
           แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้คา ESS มีค่า
                                                                 ่
ต่าสุ ดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้น้ น
                                                                      ั
เหมาะสมแล้ว แต่ถาในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรื อย้าย
                       ้
ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นนคือต้องกลับไปทาขั้นที่ 2
                                                   ั่
K-Means Cluster Analysis(ต่ อ)
 ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means
1. เทคนิค K-Means ใช้ เมือมีจานวน Case หรือจานวนข้ อมูลมาก โดยทัวไป
                                 ่                                          ่
นิยมใช้ เมือ n ≥ 200 เพราะเมือ n มาก เทคนิค K-Means
           ่                       ่
2. เทคนิค K-Means นั้น ผู้ใช้ จะต้ องกาหนดจานวนกลุ่มทีแน่ นอนไว้
                                                               ่
ล่ วงหน้ ากรณีทผ้ ูวเิ คราะห์ ยงไม่ แน่ ใจว่ าควรมีกกลุ่มจึงจะเหมาะสม
                ี่             ั                    ี่
3. เทคนิค Hierarchical นั้น ผู้วเิ คราะห์ จะ Standardized ข้ อมูลหรือไม่ กได้
                                                                          ็
แต่ โดยวิธี K-Means จะต้ องทาการ Standardized ข้ อมูลก่ อนเสมอ
3. วิธี K-Means จะหาระยะห่ างโดยวิธี Euclidean Distance โดยอัตโนมัติ
ขณะที่ Hierarchical ผู้วเิ คราะห์ มสิทธิ์ทจะเลือกวิธีการคานวณระยะห่ าง หรือ
                                      ี        ี่
ความคล้ายได้
ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้ วยเทคนิค Cluster Analysis
และเทคนิค Discriminant Analysis


            Cluster Analysis                   Discriminant Analysis

1. ไม่จาเป็ นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผูวจย
                                                                           ้ิั
                                       เป็ น
                                       ผูจดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม
                                         ้ั
2. ไม่ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน
                              ่                                       ่
                                       เนื่องจากผูวจยเป็ นผูจดกลุ่มมาก่อน
                                                  ้ิั       ้ั
3. ไม่มีสมการแสดงความสัมพันธ์          3. มีสมการแสดงความสัมพันธ์
ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Case

Weitere ähnliche Inhalte

Was ist angesagt?

การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)tumetr
 
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่Apirak Potpipit
 
การจัดโครงสร้างสถานศึกษา
การจัดโครงสร้างสถานศึกษาการจัดโครงสร้างสถานศึกษา
การจัดโครงสร้างสถานศึกษาUdomchai Boonrod
 
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)Srion Janeprapapong
 
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classificationPloykarn Lamdual
 
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์สมพงษ์ หาคำ
 
วิธีบันทึกข้อมูลจากการอ่าน
วิธีบันทึกข้อมูลจากการอ่านวิธีบันทึกข้อมูลจากการอ่าน
วิธีบันทึกข้อมูลจากการอ่านASI403 : Arsomsilp Institue of the Arts
 
การจัดการเชิงยุทธศาสตร์
การจัดการเชิงยุทธศาสตร์การจัดการเชิงยุทธศาสตร์
การจัดการเชิงยุทธศาสตร์jeabjeabloei
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยTwatchai Tangutairuang
 
แบบฟอร์มข..[1]
แบบฟอร์มข..[1]แบบฟอร์มข..[1]
แบบฟอร์มข..[1]kvlovelove
 
การเรียงหนังสือบนชั้นเนื้อหา
การเรียงหนังสือบนชั้นเนื้อหาการเรียงหนังสือบนชั้นเนื้อหา
การเรียงหนังสือบนชั้นเนื้อหาkrujee
 
ความสัมพันธ์เชิงฟังก์ชัน ม.6
ความสัมพันธ์เชิงฟังก์ชัน ม.6ความสัมพันธ์เชิงฟังก์ชัน ม.6
ความสัมพันธ์เชิงฟังก์ชัน ม.6KruGift Girlz
 
สารเคมีในชีวิตประจำวันตอนที่ 1
สารเคมีในชีวิตประจำวันตอนที่ 1สารเคมีในชีวิตประจำวันตอนที่ 1
สารเคมีในชีวิตประจำวันตอนที่ 1Kru Jariya Taemsri
 
แผนการสอนงานและพลังงาน
แผนการสอนงานและพลังงานแผนการสอนงานและพลังงาน
แผนการสอนงานและพลังงานWeerachat Martluplao
 

Was ist angesagt? (20)

การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)
 
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่
มาตรฐานและตัวบ่งชี้ สมศ.รอบสี่
 
การนำความร้อน
การนำความร้อนการนำความร้อน
การนำความร้อน
 
การจัดโครงสร้างสถานศึกษา
การจัดโครงสร้างสถานศึกษาการจัดโครงสร้างสถานศึกษา
การจัดโครงสร้างสถานศึกษา
 
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)
บทที่ 1 บทนำ (การจัดเก็บและค้นคืนสารสนเทศ)
 
Entity relationship model
Entity relationship modelEntity relationship model
Entity relationship model
 
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification
3.2 การจัดหมวดหมู่ในระบบทศนิยมดิวอี้ dewey classification
 
03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
Trianglulation
TrianglulationTrianglulation
Trianglulation
 
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์
ลักษณะเฉพะของข้อสอบวัดทักษะกระบวนการวิทยาศาสตร์
 
วิธีบันทึกข้อมูลจากการอ่าน
วิธีบันทึกข้อมูลจากการอ่านวิธีบันทึกข้อมูลจากการอ่าน
วิธีบันทึกข้อมูลจากการอ่าน
 
การจัดการเชิงยุทธศาสตร์
การจัดการเชิงยุทธศาสตร์การจัดการเชิงยุทธศาสตร์
การจัดการเชิงยุทธศาสตร์
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัย
 
แบบฟอร์มข..[1]
แบบฟอร์มข..[1]แบบฟอร์มข..[1]
แบบฟอร์มข..[1]
 
การเรียงหนังสือบนชั้นเนื้อหา
การเรียงหนังสือบนชั้นเนื้อหาการเรียงหนังสือบนชั้นเนื้อหา
การเรียงหนังสือบนชั้นเนื้อหา
 
1 weka introducing
1 weka introducing1 weka introducing
1 weka introducing
 
ความสัมพันธ์เชิงฟังก์ชัน ม.6
ความสัมพันธ์เชิงฟังก์ชัน ม.6ความสัมพันธ์เชิงฟังก์ชัน ม.6
ความสัมพันธ์เชิงฟังก์ชัน ม.6
 
สารเคมีในชีวิตประจำวันตอนที่ 1
สารเคมีในชีวิตประจำวันตอนที่ 1สารเคมีในชีวิตประจำวันตอนที่ 1
สารเคมีในชีวิตประจำวันตอนที่ 1
 
แผนการสอนงานและพลังงาน
แผนการสอนงานและพลังงานแผนการสอนงานและพลังงาน
แผนการสอนงานและพลังงาน
 
บทที่ 4 er diagram
บทที่ 4 er diagramบทที่ 4 er diagram
บทที่ 4 er diagram
 

Ähnlich wie 12 งานนำสนอ cluster analysis

2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์othanatoso
 
ใบงานที่ 5 การพัฒนาเครื่องมือ
ใบงานที่ 5  การพัฒนาเครื่องมือใบงานที่ 5  การพัฒนาเครื่องมือ
ใบงานที่ 5 การพัฒนาเครื่องมือRut' Np
 
9789740333432
97897403334329789740333432
9789740333432CUPress
 
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัยวิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัยChamada Rinzine
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10Aon Narinchoti
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10Aon Narinchoti
 
ค่ากลางปี
ค่ากลางปีค่ากลางปี
ค่ากลางปีanutree pankulab
 
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียวการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียวkrusongkran
 
การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์KruGift Girlz
 
สรุปบทที่ 8
สรุปบทที่ 8สรุปบทที่ 8
สรุปบทที่ 8Tsheej Thoj
 
Week 5 scale_and_measurement
Week 5 scale_and_measurementWeek 5 scale_and_measurement
Week 5 scale_and_measurementSani Satjachaliao
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองดา ดาลี่
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองดา ดาลี่
 
ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์Jirathorn Buenglee
 
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...BAINIDA
 
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพ
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพ
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพอภิเทพ ทองเจือ
 

Ähnlich wie 12 งานนำสนอ cluster analysis (20)

06
0606
06
 
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
2.91 ใบความรู้ การวัดการกระจายสัมพัทธ์
 
ใบงานที่ 5 การพัฒนาเครื่องมือ
ใบงานที่ 5  การพัฒนาเครื่องมือใบงานที่ 5  การพัฒนาเครื่องมือ
ใบงานที่ 5 การพัฒนาเครื่องมือ
 
รายงาน
รายงานรายงาน
รายงาน
 
9789740333432
97897403334329789740333432
9789740333432
 
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัยวิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
วิชาโปรแกรมสำเร็จรูปทางสถิติเพื่อการวิจัย
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
 
Plan10
Plan10Plan10
Plan10
 
แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10แผนการจัดการเรียนรู้ที่ 10
แผนการจัดการเรียนรู้ที่ 10
 
ค่ากลางปี
ค่ากลางปีค่ากลางปี
ค่ากลางปี
 
Random 121009010211-phpapp02
Random 121009010211-phpapp02Random 121009010211-phpapp02
Random 121009010211-phpapp02
 
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียวการประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
การประยุกต์ของสมการเชิงเส้นตัวแปรเดียว
 
การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์การวัดการกระจายสัมพัทธ์
การวัดการกระจายสัมพัทธ์
 
สรุปบทที่ 8
สรุปบทที่ 8สรุปบทที่ 8
สรุปบทที่ 8
 
Week 5 scale_and_measurement
Week 5 scale_and_measurementWeek 5 scale_and_measurement
Week 5 scale_and_measurement
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
 
สถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรองสถิติเบื้องต้นกลุ่ม 2 สำรอง
สถิติเบื้องต้นกลุ่ม 2 สำรอง
 
ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์ข้อสอบความคิดสร้างสรรค์
ข้อสอบความคิดสร้างสรรค์
 
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
Thailand household's disparity of socioeconomic statust: A cluster analysis โ...
 
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพ
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพ
ความรู้เบื้องต้นเกี่ยวกับสถิติ อภิเทพ
 

12 งานนำสนอ cluster analysis

  • 2. การจัด Case (หมายถึง คน สั ตว์ สิ่ งของ หรือ องค์ กร ฯลฯ) หรือเป็ น การจัดตัวแปรออกเป็ นกลุ่มย่ อย ๆ ตั้งแต่ 2 กลุ่มขึนไป Case ทีอยู่ในกลุ่ม ้ ่ เดียวกันจะมีลกษณะทีเ่ หมือนกันหรือคล้ายกัน ส่ วน Case ทีอยู่ต่างกลุ่มกันจะมี ั ่ ลักษณะทีแตกต่ างกัน ่ ตัวแปรทีอยู่ในกลุ่มเดียวกันจะมีความสั มพันธ์ กนมากกว่ าตัวแปรทีอยู่ ่ ั ่ ต่ างกลุ่มกัน ตัวแปรทีอยู่ต่างกลุ่มกันจะมีความสั มพันธ์ กนน้ อยหรือไม่ มี ่ ั ความสั มพันธ์ กนเลย ั
  • 3. ตัวอย่ างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F โดยพิจารณาจากอายุและรายได้โดยมีขอมูลดังแสดงในตารางที่ 1 ้ ชื่อ รายได้ (1,000 อายุ(ปี ) บาท) A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39 www.themegallery.com Company Logo
  • 5. จากตัวอย่ างซึ่งเป็ นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร เปาหมาย คือ จะแบ่ ง 6 คน(n =6) เป็ นกลุ่มย่ อย โดยให้ คนทีอยู่ในกลุ่มย่ อย ้ ่ เดียวกันมีอายุและรายได้ เท่ ากันหรือใกล้เคียงกันส่ วนคนทีอยู่ต่างกลุ่มกันจะมี ่ อายุและรายได้ แตกต่ างกัน จากการพล็อตกราฟอายุรายได้ ในตารางที่ 1 ทาให้ ตัดสิ นใจได้ ว่า ควรจะเป็ น 3 กลุ่ม กลุ่มที่ 1 : ประกอบด้ วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ ต่า กลุ่มที่ 2 : ประกอบด้ วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี ) และรายได้ ปานกลาง กลุ่มที่ 3 : ประกอบด้ วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี ) และรายได้ มาก
  • 6. วัตถุประสงค์ ของการวิเคราะห์ จดกลุ่ม ั Cluster Analysis การวิเคราะห์กลุ่มเป็ นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อน ว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง โดยให้หน่วยที่อยูในกลุ่มเดียวกัน มีความคล้ายกันในตัวแปรที่ศึกษา ่ แต่หน่วยที่อยูต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1 ่ คนที่อยูในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับ ่ วัตถุประสงค์ของการแบ่งกลุ่มหรื อจัดกลุ่มจะขึ้นกับสาขาที่จะนาไป ประยุกต์ใช้
  • 7. การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ จะพบว่าการเลือกตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญ มาก ถ้าผูวจยเลือกตัวแปรที่ไม่ได้ทาให้คนที่อยูต่างกลุ่มกันมี ้ิั ่ ความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถกต้อง เช่น ู ด้านการตลาด ซึ่งเป็ นการจัดกลุ่มพื้นที่หรื อจังหวัด ผูวจยจะต้อง ้ิั ศึกษาว่า ตัวแปรใดบ้างที่มีอิทธิพลที่ทาให้กลุ่มต่าง ๆ เช่น จานวน ประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ
  • 8. สุ ชาติ ประสิ ทธิรัฐสิ นธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวตถุประสงค์ที่ ั สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วยวิเคราะห์ การจัดกลุ่มตัวแปร ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์ บัญชา (2548) และสามารถกล่าว โดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็ นประโยชน์ในงานด้านต่าง ๆ เ ช่น การตลาด การแพทย์ การปกครอง ฯลฯ
  • 9. ข้ อตกลงเบืองต้ นเกียวกับการวิเคราะห์ จดกลุ่ม ้ ่ ั Cluster Analysis 1. ไม่ ทราบจานวนกลุ่มมาก่อนว่ ามีกกลุ่ม ี่ 2. ไม่ ทราบมาก่อนว่ าหน่ วยหรือคนใดจะอยู่กลุ่มใด 3. หน่ วยหรือคนใดคนหนึ่งจะต้ องอยู่กลุ่มใดกลุ่มหนึ่งเพียง กลุ่มเดียว 4. ตัวแปรทีใช้ ในการแบ่ งมีมากกว่ า 1 ตัวและตัวแปรอาจจะเป็ นตัวแปรที่มี ่ ค่ าได้ เพียง 1 ค่ าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ
  • 10.
  • 11. สาหรับการวิเคราะห์จดกลุ่มหน่วยวิเคราะห์ผวิจย ั ู้ ั 1 ความต้ องการ อาจใช้ขอมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จดเก็บมาได้เลย ้ ั ทางด้ านข้ อมูล • สิ่ งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ 2 แนวคิดพืนฐาน ้ ใช้ หากผูวิจยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ ้ ั ็ •ผลที่ได้กจะไม่ดีหรื อทาให้ไขว้เขวได้ ความคิดเกียวกับความคล้ายของหน่ วยศึกษา เป็ นเทคนิคของการ ่ 3 ความคล้ายกันของ วิเคราะห์ ทางสถิตหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณา ิ หน่ วย จากความห่ างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน วิธีการวัดความห่ างสามารถวัดได้ หลายวิธี วิธีการหนึ่งที่นิยม 4 การวัดความห่ าง วัดกันมากก็คอ วิธีที่เรียกว่า ระยะห่ างเชิงยูคลิดยกกาลังสอง (Squared ื Euclidean distance)คือ ผลรวมของผลต่ างยกกาลังสองของทุกตัวแปร
  • 12. เทคนิค Cluster Analysis แบ่งเป็ นหลายประเภทหรื อเทคนิคย่อย ั โดยเทคนิคที่ใช้กนมากมี 2 เทคนิค คือ 1 Hierarchical Cluster Analysis 2 K-Means Cluster Analysis
  • 13. เป็ นเทคนิคที่นิยมใช้กนมากในการแบ่งกลุ่ม Case หรื อ ั แบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้ 1 ในกรณีที่ใช้ ในการแบ่ ง Case นั้น จานวน Case ต้ องไม่ มากนัก (จานวน Case ควรตากว่า 200 ่ ถ้ าตั้งแต่ 200 ขึนไปใช้ K-Means Cluster) และจานวนตัวแปรต้ องไม่ มาก ้ 2 ไม่จาเป็ นต้องทราบจานวนกลุ่มมาก่อน 3 ไม่จาเป็ นเป็ นต้องทราบว่าตัวแปรใดหรื อ Case ใดอยูกลุ่มใดก่อน ่
  • 14. ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่ งกลุ่ม Case 1 ขั้นที่ 1 เลือกตัวแปรหรื อปั จจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน ตัวแปร จะทาให้สามารถแบ่งกลุ่ม Case ได้ชดเจน ขั้นตอนนี้เป็ นขั้นตอนที่สาคัญ ั 2 ขั้นที่ 2ที่เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรื อเลือก วิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่ 3 เลือกหลักเกณฑ์ในการรวมกลุ่ม หรื อรวม Cluster
  • 15. การวัดความคล้ าย (Similarity Measure) การวัดความคล้ายกันของ Case ทีละคู่ ในกรณี ที่เป็ นการจัดกลุ่ม Case ส่ วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็ นการวัดความคล้าย ของตัวแปรแต่ละคู่ คือ การหาค่าสัมประสิ ทธิ์ สหสัมพันธ์เมื่อต้องการจัด กลุ่ม Case จะต้องหาความคล้ายของ Case ถึง C คู่ เมื่อมีขอมูล Case = n ้ แต่ถาต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของตัวแปรทีละคู่ ้ รวมถึง C คู่ เมื่อมีตวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่ ั อาจจะวัดด้วยระยะห่ าง (Distance) หรื อวัดด้วยค่าความคล้าย (Similarity) แต่การวัดความสัมพันธ์ของตัวแปรจะวัดด้วยค่าสัมประสิ ทธิ์ สหสัมพันธ์ เพียร์สัน (Pearson correlation)
  • 16. การวัดความคล้ าย (Similarity Measure)(ต่ อ) สาหรับวิธีการคานวณระยะห่ าง หรื อค่าความคล้ายของ Case แต่ละคู่ จะแตกต่างกันเมื่อชนิ ดของข้อมูลต่างกัน ซึ่ งชนิดของข้อมูลหรื อตัวแปรที่สามารถ ใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ 1. ข้อมูลเป็ นสเกลอันตรภาค (Interval scale) หรื อสเกลอัตราส่ วน (Ratio scale) ่ 2. ข้อมูลที่อยูในรู ปความถี่ (Count Data) ่ ่ 3. ข้อมูลอยูในรู ป Binary นันคือ มีได้ 2 ค่า คือ 0 กับ 1 หรื อกล่าวได้วา ่ ข้อมูลที่นามาใช้ในเทคนิค Hierarchical จะเป็ นข้อมูลชนิดตัวเลข หรื อเป็ นเชิง ่ ปริ มาณ (Interval หรื อ Ratio scale) หรื อข้อมูลอยูในรู ปความถี่ หรื อ Binary
  • 17. หลักการการรวมกลุ่ม (Methods for Combining Cluster) สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative Hierarchical Cluster Analysis หรื อในโปรแกรม SPSS เรี ยกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ Agglomerative schedule จะทาการรวมกลุ่ม Cluster อย่างเป็ นขั้นตอนดังนี้ ขั้นที1 ่ ขั้นที2 ่ ขั้นที3,4 ่ รวม Case 2 Case พิจารณาว่ าควรจะรวม ในแต่ละขั้นอาจจะรวม Case ที่ 3 เข้ าอยู่ใน Case ใหม่เข้าไปใน ให้อยูในกลุ่ม ่ กลุ่มเดียวกับ 2 Case กลุ่มที่มีอยูแล้ว หรื อ ่ เดียวกัน หรื อ แรก หรือควรจะรวม 2 รวม Case ใหม่ 2 Case Cluster เดียวกัน Case ใหม่ เข้ าอยู่ใน เป็ นกลุ่มใหม่ ทาเช่นนี้ กลุ่มใหม่ อกกลุ่มหนึ่ง ี โดย พิจารณาจาก ไปเรื่ อย ๆ จนกระทัง ่ โดยพิจารณาจากค่ า ค่าระยะห่างหรื อค่า ระยะห่ างหรือค่ าความ ได้ ทุก Case อยูในกลุ่ม ่ ความคล้าย คล้ าย เดียวกัน นันคือ สุ ดท้าย ่ มีเพียง 1 กลุ่ม
  • 18. หลักเกณฑ์ ในการรวมกลุ่ม 1. Between – groups Linkage หรื อเรี ยกว่าวิธี Average Linkage Between Groups หรื อเรี ยกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)
  • 19. พิจารณาว่ า ควรรวม cluster ที่ i และ j ไว้ ด้วยกันหรือรวม cluster ที่ i และ k หรือควรจะรวม cluster ที่ j และ k ไว้ ด้วยกัน โดยพิจารณาระห่ างเฉลีย ่ ระหว่ าง cluster เช่ น d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ d = ระยะห่ างเฉลีย ของ cluster ที่ i และ j ่ เลือกรวม cluster ทีมระยะห่ างเฉลียตาสุ ด เช่ น จากตัวอย่ างนีได้ ค่าระหว่ าง ่ ี ่ ่ ้ d ตาสุ ด ก็จะรวม cluster I และ k เข้ าด้ วยกัน ่
  • 20. 2. Within-group Linkage Technique หรื อเรี ยกว่า Average Linkage Within Groups Method วิธีน้ ีจะรวม Cluster เข้าด้วยกันถ้าระยะห่ างเฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่าน้อยที่สุด
  • 21. 3. Nearest Neighbor หรือเรียกว่ า Single Linkage ในทีนี้ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ j ่ d ระยะห่างที่ส้ ันที่สุดของ cluster i และ k d ระยะห่างที่ส้ ันที่สุดของ cluster j และ k ่ หาค่าต่าสุ ด d , d และ d , d ถ้าได้วา d ต่าสุ ดก็จะรวม cluster k และ j เข้าด้วยกัน
  • 22. 4. Furthest Neighbor Technique หรื อเรี ยกว่า Complete Linkage d ระยะห่างที่ยาวที่สุดของ cluster i และ j d ระยะห่างที่ยาวที่สุดของ cluster i และ k d ระยะห่างที่ยาวที่สุดของ cluster k และ j ่ แล้วเปรี ยบเทียบค่า d ,d ,d เลือกค่าต่าสุ ด ถ้าได้วา d ต่าสุ ด ก็รวม cluster i และ k เข้าด้วยกัน
  • 23. 5. Centroid Clustering เป็ นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของจุดกลางของ cluster 2 cluster โดยที่ d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j d ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k d ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k แล้วเลือกค่าระยะห่างที่ต่าสุ ด เช่น ถ้าได้ d ต่าสุ ด ก็จะรวม cluster k และ j เข้าด้วยกัน
  • 24. 6. Median Clustering วิธีนีจะรวม Cluster 2 Cluster เข้ าด้ วยกัน โดยให้ แต่ ละ Cluster ้ สาคัญเท่ ากัน(ให้ นาหนักเท่ ากัน) ในขณะทีวธีของ Centroid Clustering ้ ่ิ จะให้ ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่ า Cluster ทีมีขนาดเล็ก ่ (ให้ นาหนักไม่ เท่ ากัน) Median Clustering จะใช้ ค่า Median เป็ นค่ ากลาง ้ ของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Clustering จะใช้ ค่า Median เป็ นค่ ากลางของ Centroid ถ้ าระยะห่ าง ระหว่ างค่ า Median ของ Cluster คู่ใดตาจะรวม Cluster คู่น้ันเข้ าด้ วยกัน ่
  • 25. 7. Ward’s Method หลักการของวิธีนีจะพิจารณาจากค่ า Sum of the squared ้ within-cluster distance โดยจะรวม Cluster ทีทาให้ ค่า Sum of square ่ within-cluster distance เพิมขึนน้ อยทีสุด โดยค่ า Square within-cluster ่ ้ ่ distance คือค่ า Square Euclidean distance ของแต่ ละ Case กับ Cluster Mean
  • 26. K-Means Cluster Analysis หลักการของเทคนิค K-Means Clustering เป็ นเทคนิคการจาแนก Case ออกเป็ นกลุ่มย่ อย จะใช้ เมือมีจานวน Case มาก ่ โดยจะต้ องกาหนดจานวนกลุ่มหรือจานวน Cluster ทีต้องการ เช่ น กาหนดให้ มี k ่ กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ ละรอบจะ มีการรวม Cases ให้ ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่ าง จากค่ ากลางของกลุ่มน้ อยทีสุด แล้ วคานวณค่ ากลางของกลุ่มใหม่ จะทาเช่ นนี้ ่ จนกระทังค่ ากลางของกลุ่มไม่ เปลียนแปลง หรือครบจานวนรอบทีกาหนดไว้ ่ ่ ่
  • 27. K-Means Cluster Analysis(ต่ อ) ตัวแปรทีใช้ ในเทคนิค K-Means Clustering จะต้ องเป็ นตัวแปรเชิง ่ ปริมาณ คือ เป็ นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่ วน (Ration Scale) โดยไม่ สามารถใช้ กบข้ อมูลทีอยู่ในรู ปความถี่ หรือ ั ่ Binary เหมือนเทคนิค Hierarchical
  • 28. K-Means Cluster Analysis(ต่ อ) ขั้นตอนการวิเคราะห์ ของวิธี K-Means การวิเคราะห์ จาแนกกลุ่มด้ วยเทคนิควิธี K-Means Clustering สามารถสรุ ป ขั้นตอนของการวิเคราะห์ ได้ 4 ขั้นตอนดังนี้ ขั้นที่ 1 จัดกลุ่มข้อมูลเป็ น k กลุ่ม ซึ่ งมีการแบ่งได้หลายวิธีดงนี้ ั - แบ่งอย่างสุ่ ม - แบ่งด้วยผูศึกษาเอง ้ ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่มที่ C
  • 29. K-Means Cluster Analysis(ต่ อ) ขั้นที่ 3 มีวธีการพิจารณา 2 แบบ โดยจะคานวณ ิ แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุก กลุ่มและจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุ ด แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่ หน่วยนั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละ หน่วยไปยังจุดกลางกลุ่ม โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i ESS = ผลบวกของระยะห่างจากแต่ละหน่วยใน กลุ่มไปยังจุดกลางกลุ่มรวมทุกกลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยูในกลุ่ม ่ นั้นมีความคล้ายคลึงกัน
  • 30. K-Means Cluster Analysis(ต่ อ) ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ใน ขั้นที่ 3 แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจาก หน่วยที่ i ไปยังจุดกลางกลุ่มมีค่าต่าสุ ด แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้คา ESS มีค่า ่ ต่าสุ ดถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้น้ น ั เหมาะสมแล้ว แต่ถาในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรื อย้าย ้ ออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่นนคือต้องกลับไปทาขั้นที่ 2 ั่
  • 31. K-Means Cluster Analysis(ต่ อ) ข้ อแตกต่ างระหว่ างเทคนิค Hierarchical กับวิธี K-Means 1. เทคนิค K-Means ใช้ เมือมีจานวน Case หรือจานวนข้ อมูลมาก โดยทัวไป ่ ่ นิยมใช้ เมือ n ≥ 200 เพราะเมือ n มาก เทคนิค K-Means ่ ่ 2. เทคนิค K-Means นั้น ผู้ใช้ จะต้ องกาหนดจานวนกลุ่มทีแน่ นอนไว้ ่ ล่ วงหน้ ากรณีทผ้ ูวเิ คราะห์ ยงไม่ แน่ ใจว่ าควรมีกกลุ่มจึงจะเหมาะสม ี่ ั ี่ 3. เทคนิค Hierarchical นั้น ผู้วเิ คราะห์ จะ Standardized ข้ อมูลหรือไม่ กได้ ็ แต่ โดยวิธี K-Means จะต้ องทาการ Standardized ข้ อมูลก่ อนเสมอ 3. วิธี K-Means จะหาระยะห่ างโดยวิธี Euclidean Distance โดยอัตโนมัติ ขณะที่ Hierarchical ผู้วเิ คราะห์ มสิทธิ์ทจะเลือกวิธีการคานวณระยะห่ าง หรือ ี ี่ ความคล้ายได้
  • 32. ข้ อแตกต่ างระหว่ างการจาแนกกลุ่มด้ วยเทคนิค Cluster Analysis และเทคนิค Discriminant Analysis Cluster Analysis Discriminant Analysis 1. ไม่จาเป็ นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผูวจย ้ิั เป็ น ผูจดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม ้ั 2. ไม่ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยูกลุ่มไหน ่ ่ เนื่องจากผูวจยเป็ นผูจดกลุ่มมาก่อน ้ิั ้ั 3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์