...

İstatistiksel araştırmalarda iki yada daha çok değişken arasındaki

by user

on
Category: Documents
4

views

Report

Comments

Transcript

İstatistiksel araştırmalarda iki yada daha çok değişken arasındaki
Doç. Dr. Mehmet AKSARAYLI
www.mehmetaksarayli
1
LOGO
İstatistiksel araştırmalarda iki yada daha çok değişken arasındaki
ilişkinin incelenmesi için en çok kullanılan yöntemlerden birisi regresyon
analizidir. Değişkenler arasındaki ilişki matematiksel bir modelle
açıklanabileceği gibi, ilişkinin derecesi ve yönü bir bir katsayı ile de
ortaya koyulabilir. Bu da korelasyon analizi ile sağlanabilir.
Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse;
-İnsanların boyları ile kiloları
-Futbol takımlarının çalışma süreleri ve maç skorları toplamları
-Öğrencilerin çalışma miktarları ve sınav notları
-Bir malın fiyatı ve talep miktarı
-Bir ürünün verimi ve verilen gübre miktarı, vb.
2
1
Değişkenler arasındaki ilişkiler aşağıdaki gibi sınıflandırılabilir:
i)
Belirleyici (deterministik) ilişkiler
ii)
Yarı belirleyici ilişkiler
LOGO
iii) Deneysel (ampirik) ilişkiler
Yarı belirleyici ve deneysel ilişkilerin incelenmesi regresyon analizinin kapsamına
girmektedir.
Regresyon analizinde değişkenler iki grup altında incelenir:
-
Bağımsız değişkenler (açıklayıcı değişkenler)
-
Bağımlı değişkenler
Bizim kontrol edebildiğimiz yada edemediğimiz bağımsız değişkenlerde meydana
gelen değişiklikler, bağımlı değişkenlere etki ederek onların değer değiştirmesine
neden olurlar. Örneğin kişilerin gelirlerinin değişmesi, harcama miktarlarının da
değişmesine neden olur. Bu durumda gelir bağımsız değişken, harcama miktarı ise
bağımlı değişkendir.
Regresyon analizinde genellikle bağımsız değişkenler (X) , bağımlı değişkenler
(Y) ile gösterilirler.
3
LOGO
Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi
açıklamak için kullanılmasından, doğrusal kelimesi ise kurulan modelin
parametreleri açısından doğrusal bir model olmasındandır.
İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir.
Genel olarak bir doğrunun matematik gösterimi:
y
Y=0+ 1X şeklindedir. Burada 1 ,
x
eğimdir ve X’teki 1 birimlik değişmenin Y’de
yaptığı değişikliği gösterir.
0 ise X’in değeri 0 olduğunda Y’nin almış olduğu değerdir ve Y
ekseninin kesme noktası olarak isimlendirilir.
4
2
Bir fabrikada taşıma işleri için kullanılan tırların yaşı ile bakım harcamaları
LOGO
arasındaki ilişkiyi ele alalım. Verilerin grafiği çizildiğinde tam olarak düz
bir
doğrunun üzerinde olmadıkları, fakat tırlar eskidikçe bakım harcamalarının da
arttığı görülmektedir. Burada bağımsız değişken yaş, bağımlı değişken ise
bakım harcamalarıdır, çünkü yaş değiştikçe bakım harcamaları değişiklik
göstermektedir. Pratiklik olması açısından yaş ve bakım harcaması arasındaki
ilişkinin bir doğru şeklinde olduğunu varsayarsak, bu modelin matematik
gösterimi:
Y   0  1 X  e
Bakım
harcaması
Hata terimi
yaş
Resim şu anda görüntülenemiy or.
bakım harcam ası
yaş-bakım harcam ası grafiği
12000
11000
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
yaş
LOGO
bakım harcam ası
yaş-bakım harcam ası grafiği
12000
11000
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0.0
5
e hata terimi, traktörler için yapılan
harcamanın, ilişkiyi açıklayan
doğrudan ne kadar saptığını
gösterir.
1.0
2.0
3.0
4.0
5.0
6.0
7.0
yaş
Tırların yaşı ile yapılan bakım harcamaları arasındaki gerçek ilişkiyi
belirleyen model henüz belirlenmiş değildir. Bunun için modelde bulunan
parametrelerin (0 ve 1) bilinmesi gerekir.
0 ve 1 birer parametre olduklarından, gerçek değerlerinin bulunması için
taşıma işinde kullanılan tüm tırların (populasyonun) bakım harcamaları ve
yaşlarının bilinmesi gerekmektedir. Bu da çoğu zaman imkansız olduğundan
elimizdeki örneği kullanarak parametreleri tahminleriz veya başka bir ifade
şekliyle grafikteki noktalara en iyi uyan bir doğruyu buluruz.
6
3
EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE
BİR DOĞRUNUN UYUMU
LOGO
Gözlemleri en iyi açıklayan doğrunun belirlenmesi için çeşitli yöntemler ileri
sürülebilir fakat günümüzde en çok kullanılan yöntem “En Küçük Kareler” adı
verilen yöntemdir. Bu yöntem gözlemlerin belirlenen doğrudan uzaklıklarının
(hata terimlerinin) karelerinin toplamının en küçük yapılmasına dayanır.
Y   0  1 X  e
e  Y   0  1 X
n
i 1
i 1
olarak yazılabilir. Bu ifadenin karesi alınıp tüm
gözlemler için toplanırsa:
2
n
 e   Y  
2
i
modelinde hata terimi:
0
 1 X 
İfadesi elde edilir. EKK yöntemine göre bu ifadeyi minimize eden b0
ve b1 değerleri 0 ve 1 ‘in tahmincileri olur.
7
n
n
i 1
i 1
2
 ei2   Y   0  1 X 
LOGO
İfadesini minimize eden parametre tahmincilerinin değerlerini bulabilmek için
eşitliğin 0 ve 1 ‘e göre türevleri alınıp 0’a eşitlenir.
0‘a göre türev alınırsa;
2
 n 2
 n


e

Y




X
 i  
0
1
 0 i 1
0 i 1
1‘e göre türev alınırsa;
2
 n 2
 n


e

Y




X
 i  
0
1
1 i 1
1 i 1
n
 2 X  Y   0  1 X 
n
 2 Y   0  1 X 
i 1
i 1
Her iki denklemi de 0’a eşitlersek;
n
 2 Y  b0  b1 X   0
i 1
n
 Y  b
i 1
0
 b1 X   0
n
 2. X .Y  b0  b1 X   0
i 1
n
 X .Y  b
i 1
0
 b1 X   0
8
4
n
 2. X .Y  b0  b1 X   0
n
 2 Y  b0  b1 X   0
n
 Y  b
0
i 1
LOGO
i 1
i 1
n
 X .Y  b
 b1 X   0
i 1
0
 b1 X   0
Parantezleri açarsak;
 Y  n.b0  b1  X  0
 XY  b0  X  b1  X 2  0
Bu denklemlere doğrunun NORMAL DENKLEMLERİ denir.
Normal denklemler alt alta yazılıp birlikte çözüldüklerinde b0 ve b1
tahmincileri bulunur.
( X ).( Y )
 XY 
n
 Y  n.b0  b1  X
b1 
( X ) 2
2
X 
 XY  b0  X  b1  X 2
n
b0  Y  b1 X
şeklindeki formüller yardımıyla da tahminciler bulunabilir.
9
Böylece veri noktalarımızdan geçen en iyi doğru denklemi:
LOGO
Yˆ  b0  b1 X
Gerçek Y’nin tahmincisi
Traktör örneğimiz için gereken hesaplamaları yapıp normal denklemleri
oluşturalım:
 Y  n.b  b  X
yaş (yıl)
(x)
2.0
4.5
4.5
4.0
5.0
5.5
5.0
0.5
6.0
1.0
1.0
3.0
toplam
ortalama
42.0
3.5
bakım
harcaması
(y)
2500
9200
4950
5500
7900
10500
9700
1950
8000
2025
3700
6800
72725.0
6060.4
0
x
y
xy
4
6250000
5000
20.25
84640000
41400
20.25
24502500
22275
16
30250000
22000
25
62410000
39500
30.25
110250000
57750
25
94090000
48500
0.25
3802500
975
36
64000000
48000
1
4100625
2025
1
13690000
3700
9
46240000
20400
188.0 544225625.0 311525.0
1
 XY  b0  X  b1  X 2
72725 = 12b0+42b1
311525= 42b0 +188b1
35*(72725 = 12b0+42b1)
311525= 42b0 +188b1
254537.5 =42b0 +147b1
- 311525 = 42b + 188b
0
1
-56988 = -41b1
b1=1390
10
5
72725 =12b0 +42b1
72725 =12b0 +42*1390
b0 = 1195
LOGO
Tahmincileri elde etmek için normal
denklemler yerine formüller kullanılırsa da
aynı sonuçlar elde edilir.
Doğrunun denklemi:
Yˆ  1195  1390 X
Hesaplanan bu denklem kullanılarak yaşını bildiğimiz bir traktör için
yapılacak ortalama bakım masrafını tahmin edebiliriz. Örneğin x=4
yaşındaki bir traktör için bakım masrafları:
Yˆ  1195  1390 X
Yˆ  1195  (1390 )( 4)  6755
olarak bulunur.
11
Tahminlenen Regresyonun Duyarlılığı
LOGO
Regresyon denklemi tahminlendikten sonra bu denklemin ilişkiyi ne derece açıkladığı
ve bu denklem kullanılarak yapılacak tahminlerin ne derece hassas olacağının
araştırılması gerekir. Bunun için gözlenen değerler ile tahmini değerleri arasındaki farkı
yazıp y’lerin ortalamasını buna ekleyip çıkarırsak aşağıdaki ifadeyi elde ederiz. Bu
ifadenin grafiksel karşılığı şekilde görülmektedir.


Gözlem değeri (Y)
e
(Y  Y)  (Y  Y)  (Y  Y)
(Y  Yˆ )
(Y  Y )
(Yˆ  Y )
Regresyon doğrusu
Yˆ  b0  b1 X
Y ortalama
doğrusu
Yi tahmin değeri
12
6


(Y  Y)  (Y  Y)  (Y  Y)
LOGO
Daha sonra her iki tarafın kareleri alınıp tüm gözlemler2için toplanırsa;


 (Y  Y)   (Y  Y)   (Y  Y)
2
2
İfade tekrar düzenlenirse:

2

 (Y  Y)   (Y  Y)   (Y  Y)
2
Ortalama etrafındaki
kareler toplamı
(genel KT)
Gözlem
değeri (Y)
(Y Yˆ)
(Y Y)
(Yˆ Y)
Yi tahmin değeri
Regresyon kareler
toplamı
2
Regresyondan
sapmalar (hata)
kareler toplamı
Regresyon doğrusu
Yˆ  b0  b1 X
Y
ortalama
doğrusu
13
Eğer gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olsaydı,
hata
LOGO
kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu
bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğunu
regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına
bakarak söyleyebiliriz. Bu orana BELİRLEME KATSAYISI adı verilir ve R2 ile
gösterilir.

regresyon kareler toplamı (Y  Y ) 2
R 

genel kareler toplamı
(Y  Y) 2
2
R2’nin 1’e yaklaşan değerleri bize uyumun iyi olduğunu belirtir. (0<R2<1)
Gözlem
değeri (Y)
(Y Y)
(Y Yˆ)
(Yˆ Y)
Yi tahmin değeri
Regresyon doğrusu
Yˆ  b0  b1 X
Y
ortalama
doğrusu
Şekilden de görüldüğü gibi,
regresyon kareler toplamının
büyümesi, gözlem değerinin
tahminlenmiş regresyon doğrusuna
yaklaşması anlamına gelmektedir ve
bu da belirleme katsayısını arttırır.
14
7
LOGO
Hesaplama kolaylığı açısından kareler toplamları formülleri aşağıdaki
şekilde de kullanılabilir:
Genel kareler toplamı (GKT)
(Y  Y) 2   Y 2  ( Y ) 2 / n
Regresyon kareler toplamı (RKT)
(Y  Y) 2  b12  X 2  ( X) 2 / n
Hata kareler toplamı (HKT)
(Y  Y) 2  ilk ikisinin farkı




15
Korelasyon Katsayısı
LOGO
Korelasyon katsayısı, regresyon modeli ile bulunan tahmini
Y değerlerinin, gerçek değerlere uygunluğunu ölçmede
kullanılır.
 Korelasyon katsayısı -1 ile 1 arasında değişir.
 Katsayının -1 çıkması, iki değişken arasında ters yönlü
tam bir ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam
bir ilişkinin olduğunu ifade eder.
 Katsayının -1’e doğru yaklaşması ,değişkenler arasında
ters yönlü kuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması
değişkenler arasında doğru yönlü kuvvetli bir ilişkiyi
ifade eder.
 Korelasyon katsayısının işareti, regresyon doğru veya
eğrisine ait eğim katsayısının işaretidir.
 Korelasyon katsayısının karesi, belirleme katsayısını
determinasyon katsayısını) verir.
16
8
Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı
bir istatistiktir ve r ile gösterilir.Bu istatistiğin anakütle
parametresi olarak karşılığı  ’dur.
(Yˆ  Y ) 2

r


Korelasyon katsayısı için genel formül;
 (Y  Y ) 2
 xy
( x )( y
r
yada
2
2
LOGO
)
Bu formülde;
 xy   XY 
 y  Y
2
2

( X )( Y )
 x2   X 2 
n
( X ) 2
n
( Y ) 2
n
17
LOGO
Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez ve
korelasyon katsayısı;
r
n XY  ( X )( Y )
n X
2

 (  X ) 2 n Y 2  ( Y ) 2

Test istatistiği, mutlak olarak kritik değerden büyük çıktığında X
ile Y değişkenleri arasında önemli bir ilişki olduğunu
söyleyebiliriz. Bununla birlikte bu değişkenlerin arasında mantıki
bir ilişkinin bulunması şarttır. Bazen hiç alakası olmayan
değişkenler arasında da yüksek bir korelasyon çıkabilmektedir.
Bu tip korelasyonlara sahte korelasyon denir.
18
9
LOGO
ÖRNEK
Bir süper market yöneticisi tesadüfi olarak seçilen bir saatlik
sürelerde kasaya gelen müşteri sayısını ve ödedikleri toplam para
miktarını aşağıdaki gibi kaydetmiştir.
Müşteri Sayısı
Ödenen Para
(10000 TL)
25
12.5
20
10.4
50
25.3
35
20.2
40
24.1
19
Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını
bağımlı değişken olarak kabul ederek, doğrusal korelasyon
katsayısı;
r
n XY  ( X )( Y )
n X
2

 ( X ) 2 n Y 2  (  Y ) 2
LOGO

formülü ile kolayca hesaplanabilir.
X
Toplam
Y
XY
X2
Y2
25
12.5
312.5
625
156.2
20
10.4
208
400
108.1
50
25.3
1265
2500
640.09
35
20.2
707
1225
408.04
40
24.1
964
1600
580.81
170
92.5
3456.
5
6350
1893.
3
20
10
r
LOGO
5(3456.5)  170(92.5)
5(6350  170 5(1893.3)  (92.5) 
2
2
 0.9669
21
LOGO
Örnek:1996-2005 yıllarındaki Türkiye’nin turizm gelirleri ile
Türkiye’ye gelen turist sayısı tabloda verilmiştir.
Yıllar
Turizm
Gelirleri
Yabancı Ziyaretçi
Sayısı
1996
5.650
8.614
1997
7.008
9.689
1998
7.177
9.752
1999
5.193
7.464
2000
7.636
10.412
2001
8.090
11.569
2002
8.481
13.247
2003
9.677
14.030
2004
12.125
17.517
2005
13.929
21.122
22
11
Turizm Gelirleri ile Yabancı Ziyaretçi Sayısı verileri
arasındaki dağılma diyagram
LOGO
Turizm Gelirleri
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Yabancı Ziyaretçi Sayısı
23
LOGO
Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini:
Tablo 2: Verilerin normal denklemler ile çözüm için düzenlenmesi
Y
X
Y*X
X2
5.650
8.614
48.6691
74.201
7.008
9.689
67.9005
93.8767
7.177
9.752
69.9901
95.1015
5.193
7.464
38.7605
55.7113
7.636
10.412
79.5060
108.4097
8.090
11.569
93.5932
133.8418
8.481
13.247
112.3478
175.4830
9.677
14.030
135.7683
196.8409
12.125
17.517
212.3936
306.8452
13.929
21.122
294.2083
446.1388
Y=84.96
6
X=123.416
YX=1153.138
X2=1686.4501
24
12
LOGO
Doğrusal tüketim fonksiyonunun normal denklemler yoluyla tahmini:
Y = b0.n + b1.X
YX = b0.X + b1. X2
84.96 = b0.10 + b1. 123.4
1153.13= b0.123.4 + b1. 1686.4
b0=0.597
b1=0.640
Yˆ  0.597  0.640 X
Yabancı ziyaretçi sayısı arttıkça turizm geliri artmaktadır.
25
Doğrusal tüketim fonksiyonunun formülden tahmini:
bˆ0 

LOGO
 X  Y   X  YX
n X   X 
2
2
2
(1686.45) * (84.966)  (123.416) * (1153.138)
 0.597
10 * (1686.45)  (123.416) 2
(
n YX   X  Y
bˆ1 
2
n X 2   X 

10 * (1153.138)  (123.416) * (84.966)
 0.640
10 * (1686.45)  (123.416) 2
26
13
LOGO
Doğrusal gelir fonksiyonunun ortalamadan farklara göre tahmini
xX X
yx
x2
-2.8466
-3.7276
10.6109
13.8950
8.1031
-1.4886
-2.6526
3.9486
7.0362
2.2159
-1.3196
-2.5896
3.4172
6.7060
1.7413
-3.3036
-4.8776
16.1136
23.7909
10.9137
-0.8606
-1.9296
1.6606
3.7233
0.7406
-0.4066
-0.7726
0.3141
0.5969
0.1653
-0.0156
0.9054
-0.0141
0.8197
0.0002
1.1804
1.6884
1.9929
2.8506
1.3933
3.6284
5.1754
18.7784
26.7847
13.1652
5.4324
8.7804
47.6986
77.0954
29.5109
yx=104.5212
x2=163.2991
y2=67.949
9
y  Y Y
y=0.0000
x=0.0000
y2
27
LOGO
b1 
 yx  104.5212
 x 163.2991
2
b0  Y  b1 X  8.4966  (0.640) *12.3416  0.590
28
14
LOGO
R2 Belirlilik Katsayısı:

regresyon kareler toplamı (Y  Y ) 2 66.8873


 0.9844
R 
genel kareler toplamı
(Y  Y ) 2 67.9499
2

( X ) 2 
(123.416) 2 
2
2
2
ˆ
RKT  b1  X  (
  (0.640) 1686.4501 
  66.8873
10
n 



GKT  (Y  Y ) 2   Y 2  ( Y ) 2 / n  789.8721  7219.229 10  67.9499
YORUM: Bu sonuç bize, turizm gelirlerindeki değişkenliğin
(varyasyonun) %98.44’ünün gelen ziyaretçi sayısı ile
açıklanabildiğini göstermektedir.
Korelasyon Katsayısı
r  0.98.44  0.9922
Turizm geliri ile gelen ziyaretçi
değişkenleri arasında pozitif yönde
kuvvetli bir ilişki vardır.
29
LOGO

(123.416) 2 
RKT  (0.640) 2 1686.4501 
  66.8873
10


HKT   e 2  1.0501
GKT  (Y  Y ) 2   Y 2  ( Y ) 2 / n  789.8721  7219.229 10  67.9499
30
15
ÖRNEK:
LOGO
İstatistik dersi sınavına çalışmak için 5 öğrencinin etkin olarak
harcadıkları süreler ve sınav sonuçları aşağıda verilmiştir. Bu veriler
ışığında çalışılan süre ile sınav notu arasındaki ilişkiyi çiziniz,
denklemini tahmin ediniz. Belirleme katsayısını hesaplayarak
yorumlayınız. Daha sonra varyans analizi tablosunu hazırlayarak
belirlediğiniz doğrunun eğiminin 0 olup olmadığını kontrol ediniz. Aynı
hipotezi t testi ile tekrar kontrol ediniz ve bulgularınızı karşılaştırınız.
süre (x)
5
3
1
6
10
25
5
toplam
ort
not (y)
4.1
3.5
2
4.5
4.9
19
3.8
x kare
25
9
1
36
100
171
x.y
20.5
10.5
2
27
49
109
y kare
16.81
12.25
4
20.25
24.01
77.32
31
 Y  n.b0  b1  X  0 LOGO
 XY  b0  X  b1  X 2  0
6
5
not
4
3
19 - 5. b0 - 25b1 = 0
2
109-25b0 - 171b1 =0
1
0
0
1
2
3
4
5
6
7
8
9 10 11
süre
5*(19 - 5b0 - 25b1 = 0)
109 - 25b0 - 171b1 =0
95 - 25b0 - 125b1 = 0
19 - 5. b0 - 25b1 = 0
- 109 - 25b - 171b =0
0
19-5b0 -25*0.3=0
-14 + 46b1=0
b0 = 2.3
b1 = 0.3
1
Formülle hesaplarsak:
b1 
( X ).( Y )
25 *19
109 
n
5  14  0.3

2
625
X
(

)
46
171 
X2
5
n
 XY 
b0  Y  b1 X  3.8  0.3 * 5  2.3
32
16
Böylece doğrunun denklemi:
LOGO
Yˆ  b0  b1 X  2.3  0.3 X
(Y Y )2  Y 2  (Y )2 / n  77.32192 / 5  5.12
(Yˆ Y )2  b2  X 2  ( X )2 / n  0.32 171 252 / 5  4.14
1
R2 




regresyon kareler toplamı (Yˆ  Y ) 2 4.14


 0.81
genel kareler toplamı
(Y  Y ) 2 5.12
YORUM: Bu sonuç bize, sınavdan alınan notların değişkenliğinin
(varyasyonunun) %81’inin çalışılan saatler arasındaki farklılıklar ile
açıklanabildiğini göstermektedir.
33
17
Fly UP