Normal Dağılım: Teori, Özellikler ve Uygulamalı Örnekler
- VestibuloCochlear
- 17 Şub
- 5 dakikada okunur
İstatistik bilimi, gerçek yaşamdan elde edilen verileri anlamlandırma ve geleceğe dair çıkarımlarda bulunma açısından büyük öneme sahiptir. Bu verilerin nasıl dağıldığını bilmek, hangi istatistiksel yöntemin kullanılacağına karar vermemizi kolaylaştırır.
Özellikle normal dağılım (Gauss dağılımı), pek çok doğal ve toplumsal olayın rastgelelik yapısını modellemede sıkça karşımıza çıkar. Bu yazıda, normal dağılımın temel özelliklerini, normal dağılımın nasıl değerlendirileceğini ve verilerin normal dağılıma uyup uymadığını sınamak için kullanılan yöntemleri (grafiksel ve istatistiksel testler) öğreneceğiz. Ayrıca iki farklı veri seti üzerinden örnekler sunarak konuyu somutlaştıracağız.

1. Normal Dağılımın Genel Özellikleri
Normal dağılım, değerlerin çan eğrisi biçiminde ve ortalama etrafında simetrik olarak yayıldığı bir dağılım türüdür.
Ortalama = Ortanca = Mod Teorik olarak, çan eğrisinin tepe noktası (mod), veri setinin ortalaması (mean) ve ortancası (median) aynı değeri gösterir.
Simetrik Dağılım Dağılım, ortalamanın her iki tarafında eşit yayılım gösterir. Bu nedenle çarpıklık (skewness) değeri 0’a yakın olur.
Standart Sapma Aralıkları
Verilerin yaklaşık %68’i, ortalamanın ±1 standart sapma (SD) aralığında yer alır.
Yaklaşık %95’i, ortalamanın ±2 SD aralığında bulunur.
Yaklaşık %99’u, ortalamanın ±3 SD aralığı içinde toplanır.
Merkezi Limit Teoremi Örneklem büyüklüğü arttıkça (genellikle n≥30 kabulü), rastlantısal süreçlere ait verilerin dağılımı “normal”e yaklaşır. Bu yüzden istatistiksel analizlerde, özellikle büyük örneklemlerde, normal dağılım varsayımı önemli bir yer tutar.
2. Normal Dağılımın Önemi
Özetleme: Nicel verileriniz normal dağılım gösteriyorsa, aritmetik ortalama ve standart sapma gibi özet istatistikler, veri dağılımını anlamak için yeterli olur.
Test Seçimi: Parametrik testlerin (t-testi, ANOVA, vb.) temel varsayımlarından biri normal dağılımdır. Eğer veriler normal dağılmıyorsa, non-parametrik testler (Mann-Whitney U, Kruskal-Wallis vb.) tercih edilir.
Güvenilir Sonuçlar: Hatalı varsayımlarla yürütülen analizler, sonuçların geçerliliğini tehlikeye atabilir. Dolayısıyla normal dağılım varsayımını doğru değerlendirmek, bilimsel araştırma süreçlerinde kritik önem taşır.
3. Normal Dağılım Kriterleri ve Değerlendirme Yöntemleri
Bir veri setinin normal dağılıma uygunluğunu değerlendirirken şu kriterlere bakılır:
Ortalama, Ortanca ve Mod Değerlerinin Yakınlığı
Eğer bu üç değer birbirine çok yakınsa, verinin çan eğrisi formunda dağıldığına dair ilk ipucu elde etmiş oluruz.
Histogram İncelemesi
Gözlenen değerlerin histogramı oluşturulur, üzerine “normal dağılım eğrisi (curve)” çizdirilir. Eğri, ortalamanın etrafında simetrik ve çan biçimli mi diye kontrol edilir.
Çarpıklık (Skewness) ve Basıklık (Kurtosis) Katsayıları
Çarpıklık katsayısının -1 ile +1 arasında olması, verinin aşırı sola veya sağa yığılma yapmadığını gösterir.
Basıklık katsayısının -1 ile +1 arasında olması, dağılımın aşırı sivri ya da basık olmadığını gösterir.
Normal Q-Q Plot Grafiği
Gözlenen değerlerin, 45 derecelik teori çizgisine (beklenen normal değer çizgisi) ne kadar yakın olduğu incelenir.
İstatistiksel Normallik Testleri
Kolmogorov-Smirnov Testi (n≥30) ve Shapiro-Wilk Testi (n<30) en yaygın testlerdir.
p>0,05 → Normal dağılıma uygundur.
p<0,05 → Normal dağılıma uygun değildir.
Bu testlerin sonucu tek başına belirleyici olmayabilir; her zaman grafiksel bulgular ve çarpıklık/basıklık katsayıları gibi ek göstergelerle birlikte yorumlanmalıdır.
4. Uygulamalı Örnekler
Aşağıda, iki farklı veri seti üzerinden normal dağılımı değerlendirme adımlarını göreceğiz. Her örnekte hem grafiksel hem de istatistiksel test sonuçlarını yorumlayarak normal veya normal dışı durumu saptayacağız.
4.1. Örnek 1: Çalışanların Günlük Su Tüketimi (Normal Dağılım)
Bir şirkette çalışan 40 kişinin günlük su tüketimi (litre) ölçülmüş olsun. Veriler şöyle bir dağılım gösteriyor olsun (özet değerler):
n = 40
Ortalama (Mean) = 2,3 L
Ortanca (Median) = 2,4 L
Mod (Tepe değeri) = 2,4 L
Standart Sapma (SD) = 0,45
Minimum = 1,3 L
Maksimum = 3,2 L
Çarpıklık (Skewness) = 0,02 (yani yaklaşık 0)
Basıklık (Kurtosis) = -0,1 (yani -1 ile +1 arasında)
4.1.1. Grafiksel Değerlendirme
Histogram: Çan eğrisi formuna oldukça benzer bir dağılım gözlenir, tepe noktası ortalama (2,3 L) civarındadır.
Normal Q-Q Plot: Noktalar, 45 derecelik referans çizgisine yakın bir konumdadır.
4.1.2. Normallik Testi (Kolmogorov-Smirnov)
p değerinin 0,06 çıktığını varsayalım (p>0,05).
Yorum:
Ortalama, ortanca ve mod birbirine çok yakın.
Çarpıklık ve basıklık katsayıları -1 ile +1 aralığında.
Kolmogorov-Smirnov testinde p>0,05.
Tüm bu bilgiler, su tüketimi verilerinin normal dağılıma uygun olduğunu güçlü bir şekilde göstermektedir.
4.2. Örnek 2: Öğrencilerin Günlük Ekran Süresi (Normal Dağılıma Uygun Değil)
Bir üniversitede 60 öğrencinin akıllı telefon ve bilgisayar başında geçirdikleri günlük saat ölçülsün. Verilerin kısa özeti şöyle olsun:
n = 60
Ortalama (Mean) = 5,8 saat
Ortanca (Median) = 4,5 saat
Mod (Tepe değeri) = 3,0 saat
Standart Sapma (SD) = 3,1
Minimum = 1,0 saat
Maksimum = 12,0 saat
Çarpıklık (Skewness) = 1,2 (0’dan büyük ve +1 sınırını aşıyor)
Basıklık (Kurtosis) = 2,0 (sivri bir dağılım, +1 değerini aşıyor)
4.2.1. Grafiksel Değerlendirme
Histogram: Değerlerin büyük çoğunluğu 3-5 saat aralığında toplanmış, ancak birkaç öğrenci 10+ saat gibi çok yüksek ekran sürelerine sahip. Grafik sağa doğru uzun bir kuyruk oluşturuyor.
Normal Q-Q Plot: Noktaların önemli bir kısmı 45 derecelik doğru etrafında değil, üst ya da alt kısma sapmış durumda.
4.2.2. Normallik Testi (Kolmogorov-Smirnov)
p değerinin 0,001 çıktığını varsayalım (p<0,05).
Yorum:
Ortalama (5,8) ile ortanca (4,5) arasında ciddi fark var; bu genelde çarpık bir dağılıma işaret eder.
Çarpıklık ve basıklık katsayıları normal dağılım aralığını aşıyor.
Kolmogorov-Smirnov testinde p<0,05.
Tüm bulgular, bu veri setinin normal dağılıma uygun olmadığını gösterir. Böyle bir veri seti için aritmetik ortalama yerine ortanca ve çeyrek değerlerin (Q1, Q3) raporlanması; ileri istatistiksel analizde ise non-parametrik testlere yönelmek gerekir.
5. Normal Dağılım Testleri: Kolmogorov-Smirnov ve Shapiro-Wilk
Kolmogorov-Smirnov (K-S) Testi:
Genellikle n≥30 durumlarında kullanılır. p>0,05 → Normal dağılım varsayımı kabul edilir.
Shapiro-Wilk Testi:
Özellikle n<30 gibi küçük örneklemlerde önerilir. p>0,05 → Normal dağılım varsayımı kabul edilir.
Bazı araştırmacılar, Shapiro-Wilk testinin her örneklem büyüklüğünde daha hassas olduğunu belirtse de, genel uygulamada (n≥30) için K-S testine sıkça başvurulur. Hangisi kullanılırsa kullanılsın, tek bir teste bakarak nihai karar vermek yerine, histogram, Q-Q Plot, çarpıklık ve basıklık gibi ek kriterleri de göz önünde bulundurmak daha sağlıklı sonuçlar doğurur.
6. SPSS’te Normal Dağılım Analizi Adımları
Veri Girişi: Nicel değişkenin değerlerini “Variable View”da tanımladıktan sonra “Data View”a girin.
Explore Menüsü (Önerilen Yol):
Analyze > Descriptive Statistics > Explore
Değişkeni “Dependent List” kutusuna, varsa gruplandırıcı değişkeni “Factor List” kutusuna taşıyın.
Plots sekmesinden “Normality plots with tests” ve “Histogram” seçeneklerini işaretleyin.
Çıktıda Kolmogorov-Smirnov/Shapiro-Wilk sonuçlarını, Q-Q Plot’u, kutu grafiğini (boxplot) görebilirsiniz.
Frequencies Menüsü (Histogram için alternatif yol):
Analyze > Descriptive Statistics > Frequencies
Değişkeni sağ tarafa aktarın, Statistics butonundan “Mean, Median, Mode, Std. Deviation” vb. seçerek isteğe göre ek özetler alın.
Charts butonundan “Histogram” ve “Show normal curve on histogram” seçeneğini işaretleyip sonucu inceleyin.
7. Normal Dağılımın Analiz Sürecindeki Etkisi
Özetleme Farkı:
Normal dağılımlı veri: Ortalama, Standart Sapma, Min-Max ile özetlenir.
Normal dağılmayan veri: Ortanca, Çeyrek Değerler (Q1, Q3), Min-Max daha uygun bir sunumdur.
Test Seçimi:
Parametrik Testler (t-Test, ANOVA, vb.): Normal dağılım varsayımının sağlandığı durumlarda kullanılır.
Non-Parametrik Testler (Mann-Whitney U, Kruskal-Wallis, vb.): Normal dağılım olmadığı durumlarda tercih edilir.
Örneklem Büyüklüğü:
Genellikle n≥30 olduğunda, Merkezi Limit Teoremi gereği veri seti normal dağılıma yaklaşma eğilimindedir. Ancak bu bir kesinlik değil, istisnalar olabilir.
n<30 durumunda da verinin normal dağılım gösterdiği vakalara rastlanabilir. Bu nedenle sadece örneklem büyüklüğüne bakarak değil, dağılım kriterlerini ve test sonuçlarını birlikte değerlendirmek gerekir.
Sonuç: Normal Dağılımı Anlamak, Doğru Analiz Yapmanın Anahtarı
Dağılımın Doğru Tespiti:
Verileriniz normal mi, yoksa çarpık veya basık mı? Bu sorunun cevabı, veri analizindeki tüm sonraki adımların yönünü belirler.
Kapsamlı Değerlendirme:
Tek bir test sonucuna güvenmek yerine, histogram, Q-Q Plot, çarpıklık (skewness) ve basıklık (kurtosis) katsayıları gibi farklı göstergeleri de dikkate almak, hatalı sonuçlara varma riskini azaltır.
Parametrik vs. Non-Parametrik Tercihi:
Normal dağılıma uymayan bir veri setini zorla parametrik testlere tabi tutmak, yanlış negatif veya yanlış pozitif sonuçlara yol açabilir.
Örneklem Büyüklüğü ve Merkezi Limit Teoremi:
Geleneksel yaklaşım n≥30 olduğunda normal dağılım varsayımına daha kolay inanmak olsa da, her örneklemin farklı özellikler taşıyabileceği unutulmamalıdır.
Normal dağılımın teorik temelini, uygulamada nasıl test edildiğini ve veri setinizde neden bu kadar kritik bir rol oynadığını anlamak, istatistiksel analizde ustalaşmanın ilk adımlarındandır. Araştırma sürecinizde verilerinizi doğru tanıyıp doğru yöntemleri seçtiğinizde, daha güvenilir ve sağlam sonuçlara ulaşmanız kaçınılmazdır.
Comments