Normal Dağılım Testleri

Normal dağılım istatistik biliminin birçok alanında kullanılmaktadır. Örneğin örneklem ortalaması için örnek dağılımı, örneğin kaynağı olan anakütle için dağılımın normal olmadığı gayet açık olsa bile, yaklaşık olarak normal dağılım göstermektedir. Bunun yanında, değerleri bilinen ortalaması ve varyansı olan bütün dağılımlar içinde enformasyon entropisini maksimum yapan dağılımın normal olduğu ispat edilmiştir. Böylece örnek ortalaması ve varyansı ile özetlenen her veri için bilinmeyen kaynak dağılımı olarak normal dağılımı kullanmak gayet doğal bir yaklaşım olması çok uygun bir davranıştır. İstatistikte kullanılan dağılımlar aileleri arasında normal dağılım pratikte en çok kullanılanıdır ve birçok istatistiksel test, normal dağılımın varolduğu varsayımına dayanılarak geliştirilmiştir ve kullanılmaktadır. Olasılık kuramı içinde birkaç sürekli olasılık dağılımları ve ayrık olasılık dağılımlarının limite giden dağılımları yani rassal değişkenlerin yakınsama analizinde kullanılmaktadır.
Bu dağılım ailesinin her bir üyesi sadece iki parametre ile, tam olarak tanımlanabilir: Bunlarkonum gösteren ortalama (μ aritmetik ortalama) ve ölçek gösteren varyans (σ2 “yayılım”)dır.
Standart normal dağılım ortalama değeri 0 ve varyans değeri 1 olan normal dağılım ailesinin tek bir elemanıdır. Carl Friedrich Gauss bu dağılımlar grubu ile, astronomik verileri analiz etmekte iken, ilgilenmiş ve bu dağılım için olasılık yoğunluk fonksiyonunu ilk defa tanımlamıştır [1]. Bu olasılık fonksiyonunun grafik şekli bir çan gibi görüntü verdiği için çoğu kez çan eğrisi olarak da anılır.

Yeşil renkli dağılım bir normal dağılım örneğidir.
Bir normal dağılımdan seçilmiş değerlerin %68i ortalama olan μ’in bir standart sapma σ > 0 uzaklığındaki noktalar arasındadır; değerlerin neredeye %97si μ’den iki standart sapma uzaklıklar aralığında; ve %99,7 üç standart sapma uzaklıklar aralıgında bulunur. Buna empirik kural veya 68-55-99.7 kuralı adı da verilir.
Normallik sınamaları, verilmiş bir veri dizisinin normal dağılıma benzerliğinin incelenmesidir. Bu sınamalarda sıfır hipoztez veri dizisinin normal dağılıma benzer olmasıdır. Bu nedenle normal olmayan veri için yeter derecede küçük bir p-değeri (yani genellikle %0,05den veya 0,01den küçük) ortaya çıkacak ve sıfır hipotez olan veri dizisinin normal dağılıma benzerliği hipotezinin ret edilmesine neden olacaktır.
1. Kolmogorov- Smirnov Sınaması:
Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup iki değişik problem için hipotez sınaması olarak kullanılır:
  • Tek örneklem K-S sınaması: Hedef, verilmiş olan bir deneysel olasılık dağılımı gösteren örneklem verilerinin, dağılım parametreleri tam olarak bilinen tam tanımlanmış bir teorik anakitle olasılık dağılımına uyum gösterip göstermediğini sınamak. Bu tip problemde sıfır hipotez Ho örneklem verilerin deneysel dağılımının tam tanımlanmış bir anakitle olasılık dağılımından gelmiş olduğudur.
  • İki örneklem K-S sınaması: Hedef, verilmis iki tane değişik deneysel olasılık dağılımı gösteren iki orneklem veri serisinin aynı tek bir teorik anakitle olasılık dağılımından gelip gelmediğini sınamak. Bu tip problemde sıfır hipotez Ho ise iki orneklem verilerin deneysel dağılımlarının tek bir anakitle olasılık dağılımindan gelmiş olduğudur.
Tek örneklem K-S sınaması çok popüler olarak olarak bir normallik sınaması olarak, yani örneklem verilerinin tanımlanmış bir anakitle normal olasılık dağılımına uyumluluk gösterip göstermemesini sınamak için kullanılır. Örneklem verileri standardize edilerek (yani her bir veri değerinden teorik anakitle olasılığı için verilmiş ortalama çıkartıp sonucu verilmiş teorik yığın varyansına bölerek) elde edilen normalize veriler standart normal dağılım ile karşılaştırılır.
2. Jarque-Berra Sınaması:
Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uyum iyiliğiölçüsüdür. İlk defa bu sınamayi ortaya atan ekonemetrici A.K.Bera ve C.M.Jarque adları ile anılmaktadir.
Bu sınama icin hipotezler şöyle ifade edilir:
H0: Veriler normal dağılım gösterir
H1: Veriler normal dağılım göstermez.
Jarque ve Bera sınaması bir Lagranj çarpanı prensipine dayanan bir sınama tipindendir. Sınama istatistiği örneklem basıklık ve çarpıklık ölçülerinin dönüşümlerinden elde edilmiştir. Sıfır hipotezi daha ayrıntılı olarak bir bileşik hipotezdir: beklenen çarpıklığın 0 değerde ve beklenen basıklık fazlalığının 3 değerde olacağı sıfır hipotezdir; çünkü bir normal dağılım için bu değerler gereklidir.
3. Shapiro-Wilk Sınaması:
Shapiro-Wilk sınaması bir parametrik olmayan istatistik sınaması olup normallik sınamaları arasında bulunmaktadır. Bu sınama ilk defa 1965de Amerikan istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından yayınlanmıştır.
Bu sınama için sıfır hipotez bir örneklem veri serisinin (yani x1, …, xn serisinin) bir normal dağılım gösteren anakütleden geldiğidir.
Shapiro-Wilks sınamasının diğer normallik sınamalarına karşılaştırılması yapılmış ve Shapiro-Wilks için güç özelliklerinin daha iyi olduğu önerilmiştir.
Bu sınamanın büyük örneklem hacimlerine (5000 gözleme kadar) uygulanabilecek geliştirilmiş şekli  bazı istatistik paket programlarında uygulanmıştır.

alıntıdır