SlideShare ist ein Scribd-Unternehmen logo
1 von 4
Downloaden Sie, um offline zu lesen
KSÜ Doğa Bil. Derg., 13(1), 2010                             42                                       KSU J. Nat. Sci., 13(1), 2010


                Aykırı Gözlemlerin Belirlenmesinde Kullanılan Bazı Đstatistikler*
                        Fatih ÜÇKARDEŞ**,****, Suat ŞAHĐNLER***, Ercan EFE**
                          **K.S.Ü. Ziraat Fakültesi, Zootekni Bölümü, Kahramanmaraş
                     ***Mustafa Kemal Üniversitesi, Ziraat Fakültesi, Zootekni Bölümü, Hatay

               Geliş Tarihi: 02.03.2010                                          Kabul Tarihi: 12.05.2010

ÖZET: Đstatistik çalışmaların en önemli unsurlarından biri verilerin normal dağılımlı olup olmadığıdır. Ancak,
bazen araştırıcının kontrolü dışında, ortalamaya göre çok farklı bir veya birden fazla gözlem verilerin normal
dağılıştan sapmasına neden olabilmektedir. Verilerin normal dağılım gösterip göstermediğini belirlemek için birçok
istatistik test vardır. Bu testler genellikle gözlemlerin tek etkilerini belirlemek yerine tamamını dikkate alarak
hesaplandıklarından, gözlemlerin içerisindeki aykırı gözlem veya gözlemlerden kaynaklanabilecek bir sapma sıfır
hipotezinin red edilmesi gerekirken edilmemesine neden olabilecektir. Bu nedenle bir veri seti içerisinde sonuca
önemli etkileri olan aykırı değerlerin belirlenmesi büyük önem arz eder.
    Bu çalışmada, aykırı değerlerin belirlenmesi amacıyla geliştirilmiş dixon, rosner, discordance, grubbs ve walsh
testleri üzerinde durulmuş ve aykırı değerlerin olması durumunda nasıl bir yol izlenmesi gerektiği konusu
tartışılmıştır.
Anahtar Sözcükler: Aykırı gözlemler, Dixon, Rosner, Discordance, Walsh

                                   Some Statistics Using in Determination of Outliers

ABSTRACT: One of the most important components of statistical studies is whether normal distribution of data or
not. However, sometimes, research can obtain some observation which can be significantly different from the mean.
There are several tests to determine whether the data show normal distribution or not. These tests make calculation
considering all data rather than individual observation. The error resulted from the outlier can lead to acceptance of
H0 hypothesis. Therefore, the determination of the outliers in datum is very important issue.
     In this study, dixon, rosner, discordance, grubbs and walsh tests were evaluated to determine the outliers in data
and in the presence of outliers in data the ways how to solve this problem were discussed.
Keywords: Outliers, Dixon, Rosner, Discordance, Walsh

    GĐRĐŞ
    Bilimsel çalışmalardan elde edilen verilerin büyük
bir çoğunluğu normal dağılış gösterir. Birçok
                                                                                            x
istatistiksel analiz yöntemi de verilerin normal dağılışlı
olduğu varsayımı üzerine geliştirilmiştir. Bu nedenle                      1. çeyrek                  3. çeyrek
asıl analizlere geçmeden önce verilere ilişkin normallik                                   Ortalama                    Aykırı değer
testlerinin yapılması gerekmektedir (Bek ve Efe, 1987;                                 Medyan
Akdeniz, 1998).
    Dağılışının normal olması beklenen veri setlerinin             0        10           20         30            40     50           60
normal dağılış göstermemesi durumunda ilk akla gelen                                      Örnek değerler
nedenlerden biri de aykırı gözlemlerinin varlığıdır. Bu
çalışmada aykırı gözlemlerin belirlenmesi için                    Şekil 1. Örnek bir aykırı değer durumu (West, 1999a).
kullanılan bazı yöntemler incelenecektir (Alpar, 1997).
    Aykırı gözlemler, veri setinin ortalamasının çok                  Ortalamadan uzak bir noktada bulunan bu
uzağına düşen gözlemler olarak ifade edilir. Bu                   gözlemlerin aykırı olup olmadığını belirleyebilmek
değerler, bir tane olabileceği gibi birden fazla da               amacıyla geliştirilmiş birçok istatistik test mevcuttur.
olabilir. Bu değerler, verilerin standart sapmasını               Bu testlerden bazıları sadece bir, bazıları da aynı anda
artırmanın dışında, dağılımın şeklini de değiştirebilir ve        birden fazla gözlemin istatistiksel olarak aykırı gözlem
istatistik karar süreci sonucunda hatalı kararlar                 olup olmadığını belirleyebilirler. Bu durum Çizelge
verilmesine neden olabilirler. Şekil 1’de aykırı bir değer        1’de yer verilmiştir.
durumu görülmektedir.




_________________________________
*Bu araştırma makalesi yüksek lisans tezinden üretilmiştir.
****Sorumlu yazar: Üçkardeş, F. fatihuckardes@ksu.edu.tr
KSÜ Doğa Bil. Derg., 13(1), 2010                                 43                                          KSU J. Nat. Sci., 13(1), 2010


Çizelge 1. Aykırı değerle ilgili bazı testler (Üçkardeş, 2006)
                             Normallik                          Örnek                    Aykırı
Testler                                                                                                                 Test sınıfı
                             varsayımı                        büyüklüğü               gözlem sayısı
Dixon Test                    Normal                       3 ≤ n ≤ 25                       Tek                         Parametrik
Rosner Test                   Normal                          n ≥ 25                        Çok                         Parametrik
Discordance Test              Normal                          n ≤ 50                        Tek                         Parametrik
Grubbs Test                   Normal                          n ≤ 50                      Tek/Çok                       Parametrik
                                                      60 ≤ n ≤ 220 α = 0.10
Walsh Test               Normal olmayan                                                      Çok                   Parametrik olmayan
                                                         n > 220 α = 0.05

    DĐXON TESTĐ                                                       değere sahip gözlem mi yoksa en büyük değere sahip
    Dixon testi bir veri setinde ortalamadan uzakta yer               gözlem mi olmasına göre farklı formüller kullanır
alan bir gözlemin aykırı (extreme value) olup                         (Çizelge 2). Dixon test istatistiği aykırı değer, sıraya
olmadığını tespit etmek için kullanılan bir testtir. Bu test          dizilmiş gözlemlerin en büyüğü ise büyük değer için, en
örnek büyüklüğünün 3 ≤ n ≤ 25 arasında olduğu ve bir                  küçüğü ise küçük değer için gerekli olan formül
tek aykırı gözlem olduğunun düşünüldüğü durumlarda                    kullanılarak hesaplanır ve Dixon’un dn,α Çizelge değeri
kullanılır. Ayrıca bu test, aykırı olarak düşünülen                   ile karşılaştırılarak gözlemin aykırı gözlem olup
gözlemin dışındaki gözlem değerlerinin normal dağılış                 olmadığına karar verilir.
gösterdiğini varsayar. Veriler artan sıraya göre
dizildiğinde, aykırı gözlem olarak düşünülen gözlem                      Hipotez,
veri setinin sağ ya da sol tarafında yer alan en uçtaki                  H0: Veri setinde aykırı bir değer yoktur.
değer, bir diğer ifadeyle gözlemlerin en küçüğü ya da en                 H1: Veri setinde aykırı bir değer vardır.
büyüğü olacaktır. Dixon testi, aykırı gözlemin en küçük

Çizelge 2. Dixon testi için gerekli formüller (West, 1999a)
  Örnek Büyüklüğü            En düşük değer için (Sol uç)                  En yüksek değer için (Sağ uç)                    Kritik değer
                                          X ( 2) − X (1)                              X ( n ) − X ( n −1)
      3≤ n ≤7                        τ=                                          τ=                                            ~ d n ,α
                                          X ( n ) − X (1)                              X ( n ) − X (1)

                                          X ( 2) − X (1)                              X ( n ) − X ( n −1)
      8 ≤ n ≤ 10                   τ=                                            τ=                                            ~ d n ,α
                                         X ( n −1) − X (1)                             X ( n ) − X ( 2)

                                          X (3) − X (1)                               X ( n ) − X ( n − 2)
     11 ≤ n ≤ 13                   τ =                                           τ=                                            ~ d n ,α
                                         X ( n −1) − X (1)                             X ( n ) − X ( 2)

                                          X (3) − X (1)                               X ( n ) − X ( n − 2)
     14 ≤ n ≤ 25                   τ=                                            τ=                                            ~ d n ,α
                                         X ( n − 2) − X (1)                            X ( n ) − X (3)


   Çizelge 2’de,                                                          Rosner testi, veri setinde yer alan 10 aykırı değere
   d n ,α : Dixon kritik cetvel değerini,                             kadar hesaplama yapabilmektedir. Rosner testinin aykırı
                                                                      değer sayısı arttıkça hesaplama işlemi zorlaşır. Her bir
   n: Toplam gözlem sayısını,                                         aykırı değer için, o aykırı değer işlem dışı tutulup,
    α : Önem düzeyini,                                                aritmetik ortalaması ve standart sapması hesaplanır ve
   Xn: Veri setindeki aykırı olarak gözüken değeri                    formülde yerlerine koyulup çıkan değer cetvel değeri ile
göstermektedir.                                                       karşılaştırılır. Hesap değerinin cetvel değerinden büyük
                                                                      çıkması durumunda bu değerin aykırı olduğu kabul
    ROSNER TESTĐ                                                      edilir.
    Rosner testi bir veri setinde 25 ve daha fazla gözlem                 Rosner testinde en uzak gözlemden başlayarak i = 0,
sayısı olduğunda, verilerin normal bir dağılım                        1, 2,…, 10 sıralama değerleri verilir. 10 ortalamaya en
gösterdiğinde ve r0 ≤ 10 'a kadar aykırı değerini                     yakın aykırı değerin sıralamasını, 0 ortalamaya en uzak
hesaplayabilen bir testtir. Bu testte hem küçük hem de                aykırı değerin sırasını ifade eder. Rosner tesinde kaç
büyük aykırı değerler tanımlanabilir. Bu yüzden, test                 aykırı gözlemden şüpheleniliyorsa o sıra belirlenip (i),
her zaman çift yönlüdür. Bu testin uygulanabilmesi için               en yakın değer red edilene kadar işlem 0’a kadar
aykırı olarak düşünülen gözlemin ya da gözlemlerin                    yürütülür. En yakın değerin ilk kez red edildiği durumda
dışındaki değerlerin normal dağılımdan gelmiş olması                  o ve o değerin altındaki gözlemlerin aykırı değerler
gerekir.                                                              olduğuna karar verilir (West, 1999a).
KSÜ Doğa Bil. Derg., 13(1), 2010                                              44                                  KSU J. Nat. Sci., 13(1), 2010


   Veriler                                                                            X : Veri    setinin    aritmetik   ortalamasını     ifade
     X(0) ,S(0) , Y(0)  ;.......;  X(r0 −1) ,S(r0 −1) , Y(r0 −1)    (1)        etmektedir.
    
                       
                                                                  
                                                                   
    şeklinde düzenlendiğinde hipotezler,                                               GRUBBS TESTĐ
    H0: Veri setinde aykırı değerler yoktur.                                           Frank Grubbs tarafından aykırı değerler için
    H1: Veri setinde en az bir değer aykırıdır.                                    geliştirilen bu test verilerin normal dağılımdan geldiğini
    şeklinde yazılabilir. Ortalama ve standart sapma ise                           varsayar. Bu yüzden, bu testin uygulanabilmesi için
sırasıyla,                                                                         aykırı olarak düşünülen gözlemin dışındaki değerlerin
              1 n −i
                                                                                   normal dağılımdan gelmiş olması gerekir. Veriler
       (i)
     X =           ∑ (Xj)                            (2)                           normal dağılımdan geliyorsa veriler artan sıraya göre
            n −i j =1                                                              dizilirler,       ortalama ve standart sapma değerleri
    ve                                                                             hesaplanır. Grubbs testinde farklı aykırı durumlara göre
                                          1/ 2                                     farklı test istatistikleri kullanılır. Test istatistiği
               1 n −i                                                            kısmında, mümkün olabilecek üç farklı aykırı değer için
   S(i) =             ∑ (X j − X (i) )2                 (3)
               n − i j=1                                                         kullanılacak test istatistikleri verilmiştir (Burke, 2001).
                                                                                       Test hipotezi,
   şeklinde ifade edilebilir. Buna göre test istatistiği,
                                                                                       H0: Veri setinde aykırı değer yoktur.
              Y (r −1) − X (r −1)                                                      H1: Veri setinde en az bir değer aykırıdır.
   Rr =                           ~λ n,ro ,α              (4)
                    S(r −1)                                                            Test istatistiği,
   şeklinde hesaplanır. Burada,                                                            a) Sol uç ya da sağ uçta tek bir aykırı değer
                                                                                           olduğunda,
   λ n ,ro , α : Rosner kritik cetvel değerini,
                                                                                               X - X (i)
   n: Toplam gözlem sayısını,                                                          G1 =               ~G n,α                            (7)
   r0: Aykırı değer sayısını,                                                                      S
    α : Önem düzeyini,                                                                       b) Hem sol uçta hem de sağ uçta birer aykırı
   Y: En uçtaki sapan değeri,                                                           değer olduğunda,
    X : Aritmetik ortalamayı,                                                                  X (n ) − X (1)
                                                                                       G2 =                   ~G n,α                        (8)
   S: Standart sapmayı ifade etmektedir.                                                              S
                                                                                             c) Her iki uçta birden fazla aykırı değer
    DĐSCORDANCE TESTĐ                                                                   olduğunda,
    Discordance testi, veri setinin sağında ya da solunda                                          (n − 3)(S(2n − 2) ) 
                                                                                       G3 = 1 − 
                                                                                                   (n − 1)S2  n,α
bulunan tek bir aykırı değer için kullanılır. Eğer veri seti                                                              ~G                (9)
                                                                                                                        
içindeki değer en küçük ise küçük test istatistiğini, eğer                                                             
en büyük değer ise büyük test istatistiği kullanılır.                                  şeklinde hesaplanır.
Örnek sayısının n ≤ 50 ve daha aşağı olduğu                                            Burada,
durumlarda kullanılır. Bu testin uygulanabilmesi için                                  G n, α : Grubbs’un kritik cetvel değerini,
gözlem değerlerin normal dağılımdan gelmiş olması
gerekir (West, 1999a).                                                                 X : Aritmetik ortalamayı,
    Test hipotezi,                                                                    X1 : Veri setindeki en küçük gözlem değerini,
    H0: Veri setinde aykırı bir değer yoktur.                                         Xn: Veri setindeki en büyük gözlem değerini,
    H1: Veri setinde aykırı bir değer vardır.                                         Xi: Şüpheli tek aykırı değeri (ortalamadan en uzakta
    Test istatistiği,                                                              olan veri),
             X - X (1)                                                                S: Veri setinin standart sapmasını,
    Dk =                  ~D n,α                                        (5)           n: Toplam gözlem sayısını,
                 S                                                                     α : Önem düzeyini,
             X (n) − X                                                                 S 2 − 2 : Sıraya dizilmiş veri setinden büyük
    Db =                   ~D n,α                                       (6)              n
                  S                                                                değerlerinden iki verinin çıkartılarak elde edilen
   şeklinde hesaplanır. Burada,                                                    varyansı ifade etmektedir.
   D n,α : Discordance kritik cetvel değerini,
                                                                                       WALSH TESTĐ
   n: Toplam gözlem sayısını,                                                          Walsh testi bir veri setinde çok sayıda aykırı
   α : Önem düzeyini,                                                              değerleri test etmek için kullanılan parametrik olmayan
   Dk: Küçük sapma için discordance test değeri,                                   bir testtir. Bu testteki veriler için herhangi bir normallik
   Db: Büyük sapma için discordance test değeri,                                   varsayımına ve dolayısı ile normallik testlerine ihtiyaç
   X(1): Veri setindeki en küçük sapma değeri,                                     yoktur. Veri setindeki gözlenen değerler küçükten
   X(n): Veri setindeki en büyük sapma değerini,                                   büyüğe doğru sıraya dizilir. Bu test örnek büyüklüğünün
   S: Veri setinin standart sapması,                                               60’tan küçük olduğu durumlarda uygulanmaz. Eğer
                                                                                   örnek büyüklüğü 60 < n ≤ 220 aralığında ise α = 0.10 ,
KSÜ Doğa Bil. Derg., 13(1), 2010                                45                                KSU J. Nat. Sci., 13(1), 2010


eğer örnek büyüklüğü n > 220 den fazla ise α = 0.05                       c) Örnek sayısı yeterli büyüklükte değil ise, aykırı
olarak kabul edilir (West, 1999a).                                   değer kendisine en yakın aykırı olmayan değere
    Test hipotezi,                                                   yuvarlanır.
    H0: Veri setinde aykırı değerler yoktur.                              d) Örnek setinde aykırı değer sayısı fazla ise ve
    H1: Veri setinde en az bir değer aykırıdır.                      bu büyük bir sorun teşkil ediyorsa, uygun bir
    Test için bazı katsayılar,                                       transformasyon tekniği kullanılmalıdır.
    c = 2n ,                                    (10)                      e) Veri setinde aykırı değer var ise, ve bu çok
                                                                     büyük bir sorun teşkil etmiyorsa herhangi bir değişiklik
    k = r+c ,                                   (11)
                                                                     yapılmadan analizler yapılır. Çalışmada bu aykırı
    b 2 = 1/ α ,                                (12)                 değerlerin olduğu dipnot olarak düşülür.
          (1 + b {(c − b 2 ) /(c − 1)}                                    f) Veriler transformasyon yöntemi ile normalliğe
    a=                                            (13)               dönüşmüyorsa, verilerin yapısına uygun olan parametrik
                   (c − b 2 − 1)                                     olmayan testlere başvurulmalıdır.
    olarak hesaplanır. Buna göre en küçük aykırı değer
için,                                                                   KAYNAKLAR
     x r − (1 + α )x (r −1) + ax (k ) < 0         (14)               Akdeniz, F. 1998. Olasılık ve Đstatistik, Baki Kitapevi,
   ise (hesap değeri 0’dan küçük çıktığında) en küçük                   Adana, 546s.
değerin aykırı olduğu varsayılır.                                    Alpar, R. 1997. Uygulamalı Çok Değişkenli Đstatistiksel
   En büyük aykırı değer için,                                          Yöntemlere Giriş I, Spor Kitapevi, Ankara, 340s.
    x (n +1− r ) − (1 + a)x (n − r ) + ax (n +1− k ) > 0 (15)        Bek, Y. ve EFE, E. 1987. Araştırma Deneme Metotları
                                                                        1, Ç.Ü. Ziraat Fakültesi Ofset ve Teksir Atölyesi,
   ise (hesap değeri 0’dan büyük çıktığında) en büyük                   Adana, 395s.
değerin aykırı olduğu kabul edilir.                                  Burke, S. 2001. Missing Values, Outliers, Robust
                                                                        Statistics    and      Nonparametric        methods.
    SONUÇ                                                               http://www.lcgceurope.com/lcgceurope/data/articlest
    Bu testlerin sonucunda örnek veri setinde aykırı                    andard/lcgceurope/502001/4509/article.pdf
gözlem değeri var ise ne yapmak gerekir ? Mümkünse                      (01.12.2009).
aşırı derecede sapan değerler için sapmanın sebebi                   Ergün, M. 1995. Bilimsel Araştırmalarda Bilgisayarla
tanımlamaya çalışılır. Đlk yapılması gereken en önemli                  Đstatistik Uygulamaları SPSS for Windows, Ocak
şey veri girişi ve kayıtların doğru bir şekilde geçilip                 Yayınları, Sıhhiye-Ankara, 292s.
geçilmediğidir. Eğer buradan bir sonuç alınamaz ise,                 Thode, C. H. 2001. Testing for Normality, Marcel
sapan gözlemleri etkileyecek iç ve dış faktörler                        Dekker Inc., New York, 368p.
araştırılmalıdır. Eğer buradan da yine sonuç alınamaz                Türkbal, A. 1981. Bilimsel Araştırma Metodları ve
ise, aşağıdaki yöntemlerden biri kullanılabilir (Thode,                 Uygulamalı Đstatistik. Ankara Üniversitesi, Đşletme
2001; Alpar, 1997; West, 1999b).                                        Fakültesi, Yayın No: 76, Erzurum, 276
     a) Aykırı değer veri seti aralığında ise                        Üçkardeş, F. 2006. Đstatistik Testler Üzerine Bir
interpolasyon yöntemi kullanılabilir. Eğer gözlem                       Çalışma. K.S.Ü. Fen Bil. Ens., Ziraat Fak., Zootekni
değeri ilk veya son gözlem değeri ise o zaman                           Bölümü, Yüksek Lisans Tezi, 250s.
ekstrapolasyon yöntemi kullanılarak yeni bir değer                   West, S. E. 1999a. Handbook for Statistical Analysis of
belirlenebilir (Türkbal, 1981). Aykırı gözlemlerin yerine               Environmental BackGround Data, EPA Company,
gözlem değerinin belirlenmesi için kullanılacak en iyi                  Washington, 147p.
yöntemdir. Eğer bu yöntem yapılamaz ise aşağıdaki                    West, S. E. 1999b. Guidance for Data Quality
yöntemlerden herhangi biri kullanılabilir.                              Assessment, EPA Company, Washington, 157p.
     b) Örnek sayısı yeterli büyüklükteyse ve aykırı
değerler çok değil ise (bir ya da birkaç tane) örnekten
çıkartılabilirler.

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Aykırı gözlemlerin belirlenmesinde kullanılan bazı đstatistikler

  • 1. KSÜ Doğa Bil. Derg., 13(1), 2010 42 KSU J. Nat. Sci., 13(1), 2010 Aykırı Gözlemlerin Belirlenmesinde Kullanılan Bazı Đstatistikler* Fatih ÜÇKARDEŞ**,****, Suat ŞAHĐNLER***, Ercan EFE** **K.S.Ü. Ziraat Fakültesi, Zootekni Bölümü, Kahramanmaraş ***Mustafa Kemal Üniversitesi, Ziraat Fakültesi, Zootekni Bölümü, Hatay Geliş Tarihi: 02.03.2010 Kabul Tarihi: 12.05.2010 ÖZET: Đstatistik çalışmaların en önemli unsurlarından biri verilerin normal dağılımlı olup olmadığıdır. Ancak, bazen araştırıcının kontrolü dışında, ortalamaya göre çok farklı bir veya birden fazla gözlem verilerin normal dağılıştan sapmasına neden olabilmektedir. Verilerin normal dağılım gösterip göstermediğini belirlemek için birçok istatistik test vardır. Bu testler genellikle gözlemlerin tek etkilerini belirlemek yerine tamamını dikkate alarak hesaplandıklarından, gözlemlerin içerisindeki aykırı gözlem veya gözlemlerden kaynaklanabilecek bir sapma sıfır hipotezinin red edilmesi gerekirken edilmemesine neden olabilecektir. Bu nedenle bir veri seti içerisinde sonuca önemli etkileri olan aykırı değerlerin belirlenmesi büyük önem arz eder. Bu çalışmada, aykırı değerlerin belirlenmesi amacıyla geliştirilmiş dixon, rosner, discordance, grubbs ve walsh testleri üzerinde durulmuş ve aykırı değerlerin olması durumunda nasıl bir yol izlenmesi gerektiği konusu tartışılmıştır. Anahtar Sözcükler: Aykırı gözlemler, Dixon, Rosner, Discordance, Walsh Some Statistics Using in Determination of Outliers ABSTRACT: One of the most important components of statistical studies is whether normal distribution of data or not. However, sometimes, research can obtain some observation which can be significantly different from the mean. There are several tests to determine whether the data show normal distribution or not. These tests make calculation considering all data rather than individual observation. The error resulted from the outlier can lead to acceptance of H0 hypothesis. Therefore, the determination of the outliers in datum is very important issue. In this study, dixon, rosner, discordance, grubbs and walsh tests were evaluated to determine the outliers in data and in the presence of outliers in data the ways how to solve this problem were discussed. Keywords: Outliers, Dixon, Rosner, Discordance, Walsh GĐRĐŞ Bilimsel çalışmalardan elde edilen verilerin büyük bir çoğunluğu normal dağılış gösterir. Birçok x istatistiksel analiz yöntemi de verilerin normal dağılışlı olduğu varsayımı üzerine geliştirilmiştir. Bu nedenle 1. çeyrek 3. çeyrek asıl analizlere geçmeden önce verilere ilişkin normallik Ortalama Aykırı değer testlerinin yapılması gerekmektedir (Bek ve Efe, 1987; Medyan Akdeniz, 1998). Dağılışının normal olması beklenen veri setlerinin 0 10 20 30 40 50 60 normal dağılış göstermemesi durumunda ilk akla gelen Örnek değerler nedenlerden biri de aykırı gözlemlerinin varlığıdır. Bu çalışmada aykırı gözlemlerin belirlenmesi için Şekil 1. Örnek bir aykırı değer durumu (West, 1999a). kullanılan bazı yöntemler incelenecektir (Alpar, 1997). Aykırı gözlemler, veri setinin ortalamasının çok Ortalamadan uzak bir noktada bulunan bu uzağına düşen gözlemler olarak ifade edilir. Bu gözlemlerin aykırı olup olmadığını belirleyebilmek değerler, bir tane olabileceği gibi birden fazla da amacıyla geliştirilmiş birçok istatistik test mevcuttur. olabilir. Bu değerler, verilerin standart sapmasını Bu testlerden bazıları sadece bir, bazıları da aynı anda artırmanın dışında, dağılımın şeklini de değiştirebilir ve birden fazla gözlemin istatistiksel olarak aykırı gözlem istatistik karar süreci sonucunda hatalı kararlar olup olmadığını belirleyebilirler. Bu durum Çizelge verilmesine neden olabilirler. Şekil 1’de aykırı bir değer 1’de yer verilmiştir. durumu görülmektedir. _________________________________ *Bu araştırma makalesi yüksek lisans tezinden üretilmiştir. ****Sorumlu yazar: Üçkardeş, F. fatihuckardes@ksu.edu.tr
  • 2. KSÜ Doğa Bil. Derg., 13(1), 2010 43 KSU J. Nat. Sci., 13(1), 2010 Çizelge 1. Aykırı değerle ilgili bazı testler (Üçkardeş, 2006) Normallik Örnek Aykırı Testler Test sınıfı varsayımı büyüklüğü gözlem sayısı Dixon Test Normal 3 ≤ n ≤ 25 Tek Parametrik Rosner Test Normal n ≥ 25 Çok Parametrik Discordance Test Normal n ≤ 50 Tek Parametrik Grubbs Test Normal n ≤ 50 Tek/Çok Parametrik 60 ≤ n ≤ 220 α = 0.10 Walsh Test Normal olmayan Çok Parametrik olmayan n > 220 α = 0.05 DĐXON TESTĐ değere sahip gözlem mi yoksa en büyük değere sahip Dixon testi bir veri setinde ortalamadan uzakta yer gözlem mi olmasına göre farklı formüller kullanır alan bir gözlemin aykırı (extreme value) olup (Çizelge 2). Dixon test istatistiği aykırı değer, sıraya olmadığını tespit etmek için kullanılan bir testtir. Bu test dizilmiş gözlemlerin en büyüğü ise büyük değer için, en örnek büyüklüğünün 3 ≤ n ≤ 25 arasında olduğu ve bir küçüğü ise küçük değer için gerekli olan formül tek aykırı gözlem olduğunun düşünüldüğü durumlarda kullanılarak hesaplanır ve Dixon’un dn,α Çizelge değeri kullanılır. Ayrıca bu test, aykırı olarak düşünülen ile karşılaştırılarak gözlemin aykırı gözlem olup gözlemin dışındaki gözlem değerlerinin normal dağılış olmadığına karar verilir. gösterdiğini varsayar. Veriler artan sıraya göre dizildiğinde, aykırı gözlem olarak düşünülen gözlem Hipotez, veri setinin sağ ya da sol tarafında yer alan en uçtaki H0: Veri setinde aykırı bir değer yoktur. değer, bir diğer ifadeyle gözlemlerin en küçüğü ya da en H1: Veri setinde aykırı bir değer vardır. büyüğü olacaktır. Dixon testi, aykırı gözlemin en küçük Çizelge 2. Dixon testi için gerekli formüller (West, 1999a) Örnek Büyüklüğü En düşük değer için (Sol uç) En yüksek değer için (Sağ uç) Kritik değer X ( 2) − X (1) X ( n ) − X ( n −1) 3≤ n ≤7 τ= τ= ~ d n ,α X ( n ) − X (1) X ( n ) − X (1) X ( 2) − X (1) X ( n ) − X ( n −1) 8 ≤ n ≤ 10 τ= τ= ~ d n ,α X ( n −1) − X (1) X ( n ) − X ( 2) X (3) − X (1) X ( n ) − X ( n − 2) 11 ≤ n ≤ 13 τ = τ= ~ d n ,α X ( n −1) − X (1) X ( n ) − X ( 2) X (3) − X (1) X ( n ) − X ( n − 2) 14 ≤ n ≤ 25 τ= τ= ~ d n ,α X ( n − 2) − X (1) X ( n ) − X (3) Çizelge 2’de, Rosner testi, veri setinde yer alan 10 aykırı değere d n ,α : Dixon kritik cetvel değerini, kadar hesaplama yapabilmektedir. Rosner testinin aykırı değer sayısı arttıkça hesaplama işlemi zorlaşır. Her bir n: Toplam gözlem sayısını, aykırı değer için, o aykırı değer işlem dışı tutulup, α : Önem düzeyini, aritmetik ortalaması ve standart sapması hesaplanır ve Xn: Veri setindeki aykırı olarak gözüken değeri formülde yerlerine koyulup çıkan değer cetvel değeri ile göstermektedir. karşılaştırılır. Hesap değerinin cetvel değerinden büyük çıkması durumunda bu değerin aykırı olduğu kabul ROSNER TESTĐ edilir. Rosner testi bir veri setinde 25 ve daha fazla gözlem Rosner testinde en uzak gözlemden başlayarak i = 0, sayısı olduğunda, verilerin normal bir dağılım 1, 2,…, 10 sıralama değerleri verilir. 10 ortalamaya en gösterdiğinde ve r0 ≤ 10 'a kadar aykırı değerini yakın aykırı değerin sıralamasını, 0 ortalamaya en uzak hesaplayabilen bir testtir. Bu testte hem küçük hem de aykırı değerin sırasını ifade eder. Rosner tesinde kaç büyük aykırı değerler tanımlanabilir. Bu yüzden, test aykırı gözlemden şüpheleniliyorsa o sıra belirlenip (i), her zaman çift yönlüdür. Bu testin uygulanabilmesi için en yakın değer red edilene kadar işlem 0’a kadar aykırı olarak düşünülen gözlemin ya da gözlemlerin yürütülür. En yakın değerin ilk kez red edildiği durumda dışındaki değerlerin normal dağılımdan gelmiş olması o ve o değerin altındaki gözlemlerin aykırı değerler gerekir. olduğuna karar verilir (West, 1999a).
  • 3. KSÜ Doğa Bil. Derg., 13(1), 2010 44 KSU J. Nat. Sci., 13(1), 2010 Veriler X : Veri setinin aritmetik ortalamasını ifade  X(0) ,S(0) , Y(0)  ;.......;  X(r0 −1) ,S(r0 −1) , Y(r0 −1)  (1) etmektedir.         şeklinde düzenlendiğinde hipotezler, GRUBBS TESTĐ H0: Veri setinde aykırı değerler yoktur. Frank Grubbs tarafından aykırı değerler için H1: Veri setinde en az bir değer aykırıdır. geliştirilen bu test verilerin normal dağılımdan geldiğini şeklinde yazılabilir. Ortalama ve standart sapma ise varsayar. Bu yüzden, bu testin uygulanabilmesi için sırasıyla, aykırı olarak düşünülen gözlemin dışındaki değerlerin 1 n −i normal dağılımdan gelmiş olması gerekir. Veriler (i) X = ∑ (Xj) (2) normal dağılımdan geliyorsa veriler artan sıraya göre n −i j =1 dizilirler, ortalama ve standart sapma değerleri ve hesaplanır. Grubbs testinde farklı aykırı durumlara göre 1/ 2 farklı test istatistikleri kullanılır. Test istatistiği  1 n −i  kısmında, mümkün olabilecek üç farklı aykırı değer için S(i) =  ∑ (X j − X (i) )2  (3)  n − i j=1  kullanılacak test istatistikleri verilmiştir (Burke, 2001). Test hipotezi, şeklinde ifade edilebilir. Buna göre test istatistiği, H0: Veri setinde aykırı değer yoktur. Y (r −1) − X (r −1) H1: Veri setinde en az bir değer aykırıdır. Rr = ~λ n,ro ,α (4) S(r −1) Test istatistiği, şeklinde hesaplanır. Burada, a) Sol uç ya da sağ uçta tek bir aykırı değer olduğunda, λ n ,ro , α : Rosner kritik cetvel değerini, X - X (i) n: Toplam gözlem sayısını, G1 = ~G n,α (7) r0: Aykırı değer sayısını, S α : Önem düzeyini, b) Hem sol uçta hem de sağ uçta birer aykırı Y: En uçtaki sapan değeri, değer olduğunda, X : Aritmetik ortalamayı, X (n ) − X (1) G2 = ~G n,α (8) S: Standart sapmayı ifade etmektedir. S c) Her iki uçta birden fazla aykırı değer DĐSCORDANCE TESTĐ olduğunda, Discordance testi, veri setinin sağında ya da solunda  (n − 3)(S(2n − 2) )  G3 = 1 −   (n − 1)S2  n,α bulunan tek bir aykırı değer için kullanılır. Eğer veri seti ~G (9)  içindeki değer en küçük ise küçük test istatistiğini, eğer   en büyük değer ise büyük test istatistiği kullanılır. şeklinde hesaplanır. Örnek sayısının n ≤ 50 ve daha aşağı olduğu Burada, durumlarda kullanılır. Bu testin uygulanabilmesi için G n, α : Grubbs’un kritik cetvel değerini, gözlem değerlerin normal dağılımdan gelmiş olması gerekir (West, 1999a). X : Aritmetik ortalamayı, Test hipotezi, X1 : Veri setindeki en küçük gözlem değerini, H0: Veri setinde aykırı bir değer yoktur. Xn: Veri setindeki en büyük gözlem değerini, H1: Veri setinde aykırı bir değer vardır. Xi: Şüpheli tek aykırı değeri (ortalamadan en uzakta Test istatistiği, olan veri), X - X (1) S: Veri setinin standart sapmasını, Dk = ~D n,α (5) n: Toplam gözlem sayısını, S α : Önem düzeyini, X (n) − X S 2 − 2 : Sıraya dizilmiş veri setinden büyük Db = ~D n,α (6) n S değerlerinden iki verinin çıkartılarak elde edilen şeklinde hesaplanır. Burada, varyansı ifade etmektedir. D n,α : Discordance kritik cetvel değerini, WALSH TESTĐ n: Toplam gözlem sayısını, Walsh testi bir veri setinde çok sayıda aykırı α : Önem düzeyini, değerleri test etmek için kullanılan parametrik olmayan Dk: Küçük sapma için discordance test değeri, bir testtir. Bu testteki veriler için herhangi bir normallik Db: Büyük sapma için discordance test değeri, varsayımına ve dolayısı ile normallik testlerine ihtiyaç X(1): Veri setindeki en küçük sapma değeri, yoktur. Veri setindeki gözlenen değerler küçükten X(n): Veri setindeki en büyük sapma değerini, büyüğe doğru sıraya dizilir. Bu test örnek büyüklüğünün S: Veri setinin standart sapması, 60’tan küçük olduğu durumlarda uygulanmaz. Eğer örnek büyüklüğü 60 < n ≤ 220 aralığında ise α = 0.10 ,
  • 4. KSÜ Doğa Bil. Derg., 13(1), 2010 45 KSU J. Nat. Sci., 13(1), 2010 eğer örnek büyüklüğü n > 220 den fazla ise α = 0.05 c) Örnek sayısı yeterli büyüklükte değil ise, aykırı olarak kabul edilir (West, 1999a). değer kendisine en yakın aykırı olmayan değere Test hipotezi, yuvarlanır. H0: Veri setinde aykırı değerler yoktur. d) Örnek setinde aykırı değer sayısı fazla ise ve H1: Veri setinde en az bir değer aykırıdır. bu büyük bir sorun teşkil ediyorsa, uygun bir Test için bazı katsayılar, transformasyon tekniği kullanılmalıdır. c = 2n , (10) e) Veri setinde aykırı değer var ise, ve bu çok büyük bir sorun teşkil etmiyorsa herhangi bir değişiklik k = r+c , (11) yapılmadan analizler yapılır. Çalışmada bu aykırı b 2 = 1/ α , (12) değerlerin olduğu dipnot olarak düşülür. (1 + b {(c − b 2 ) /(c − 1)} f) Veriler transformasyon yöntemi ile normalliğe a= (13) dönüşmüyorsa, verilerin yapısına uygun olan parametrik (c − b 2 − 1) olmayan testlere başvurulmalıdır. olarak hesaplanır. Buna göre en küçük aykırı değer için, KAYNAKLAR x r − (1 + α )x (r −1) + ax (k ) < 0 (14) Akdeniz, F. 1998. Olasılık ve Đstatistik, Baki Kitapevi, ise (hesap değeri 0’dan küçük çıktığında) en küçük Adana, 546s. değerin aykırı olduğu varsayılır. Alpar, R. 1997. Uygulamalı Çok Değişkenli Đstatistiksel En büyük aykırı değer için, Yöntemlere Giriş I, Spor Kitapevi, Ankara, 340s. x (n +1− r ) − (1 + a)x (n − r ) + ax (n +1− k ) > 0 (15) Bek, Y. ve EFE, E. 1987. Araştırma Deneme Metotları 1, Ç.Ü. Ziraat Fakültesi Ofset ve Teksir Atölyesi, ise (hesap değeri 0’dan büyük çıktığında) en büyük Adana, 395s. değerin aykırı olduğu kabul edilir. Burke, S. 2001. Missing Values, Outliers, Robust Statistics and Nonparametric methods. SONUÇ http://www.lcgceurope.com/lcgceurope/data/articlest Bu testlerin sonucunda örnek veri setinde aykırı andard/lcgceurope/502001/4509/article.pdf gözlem değeri var ise ne yapmak gerekir ? Mümkünse (01.12.2009). aşırı derecede sapan değerler için sapmanın sebebi Ergün, M. 1995. Bilimsel Araştırmalarda Bilgisayarla tanımlamaya çalışılır. Đlk yapılması gereken en önemli Đstatistik Uygulamaları SPSS for Windows, Ocak şey veri girişi ve kayıtların doğru bir şekilde geçilip Yayınları, Sıhhiye-Ankara, 292s. geçilmediğidir. Eğer buradan bir sonuç alınamaz ise, Thode, C. H. 2001. Testing for Normality, Marcel sapan gözlemleri etkileyecek iç ve dış faktörler Dekker Inc., New York, 368p. araştırılmalıdır. Eğer buradan da yine sonuç alınamaz Türkbal, A. 1981. Bilimsel Araştırma Metodları ve ise, aşağıdaki yöntemlerden biri kullanılabilir (Thode, Uygulamalı Đstatistik. Ankara Üniversitesi, Đşletme 2001; Alpar, 1997; West, 1999b). Fakültesi, Yayın No: 76, Erzurum, 276 a) Aykırı değer veri seti aralığında ise Üçkardeş, F. 2006. Đstatistik Testler Üzerine Bir interpolasyon yöntemi kullanılabilir. Eğer gözlem Çalışma. K.S.Ü. Fen Bil. Ens., Ziraat Fak., Zootekni değeri ilk veya son gözlem değeri ise o zaman Bölümü, Yüksek Lisans Tezi, 250s. ekstrapolasyon yöntemi kullanılarak yeni bir değer West, S. E. 1999a. Handbook for Statistical Analysis of belirlenebilir (Türkbal, 1981). Aykırı gözlemlerin yerine Environmental BackGround Data, EPA Company, gözlem değerinin belirlenmesi için kullanılacak en iyi Washington, 147p. yöntemdir. Eğer bu yöntem yapılamaz ise aşağıdaki West, S. E. 1999b. Guidance for Data Quality yöntemlerden herhangi biri kullanılabilir. Assessment, EPA Company, Washington, 157p. b) Örnek sayısı yeterli büyüklükteyse ve aykırı değerler çok değil ise (bir ya da birkaç tane) örnekten çıkartılabilirler.