Processing math: 100%
DATA SCIENCE : 27
DATA SCIENCE eISSN

[ Q-data science ]

단순선형회귀에서 오차의 분산이 작아지면 종속변수와 독립변수의 분산의 비는 무엇과 같아지나?

기울기의 제곱과 같아집니다.

오차가 거의 없어진다면, 종속변수 Y 의 변동성은 거의 전적으로 독립변수 X에 의해 설명됩니다. 이때 분산의 비는 바로 기울기의 제곱과 같아집니다.

Var(Y)Var(X)β21as σ20

단순선형회귀에서 오차항의 표준편차가 작아지면 종속변수와 독립변수의 표준편차의 비는 기울기와 같아집니다.

SD(Y)SD(X)|β1|as σ0

1. 단순선형회귀모델의 분산 관계

단순선형회귀모델

Y=β0+β1X+ϵ,ϵN(0,σ2)

종속변수 Y의 분산

Var(Y)=β21Var(X)+σ2

X의 분산이 커질수록 Y의 분산도 커집니다.

종속변수와 독립변수의 분산비

Var(Y)Var(X)=β21+σ2Var(X)

오차의 분산이 0으로 수렴하며 작아지면

σ20Var(Y)Var(X)β21

오차 분산이 작아질수록, 종속변수의 분산은 거의 독립변수에 의해 설명됩니다.

이때 종속변수의 분산은 β2Var(X)에 수렴하며 두 분산의 비는 기울기의 제곱으로 수렴합니다.

오차가 거의 없어진다면, 종속변수 Y 의 변동성은 거의 전적으로 독립변수 X에 의해 설명됩니다. 이때 분산의 비는 바로 기울기의 제곱과 같아집니다.

Var(Y)Var(X)β21as σ20

단순선형회귀에서 오차항의 표준편차가 작아지면 종속변수와 독립변수의 표준편차의 비는 기울기와 같아집니다.

SD(Y)SD(X)|β1|as σ0

2. 기울기의 제곱과 결정계수의 관계

분산분해

전체분산=설명된 분산+설명되지 않은 분산

단순선형회귀모델의 분산분해 식

Var(Y)=β21Var(X)+σ2

여기서, σ2은 오차분산이며 설명되지 않은 분산

결정계수(R2)

R2=설명된 분산전체분산

결정계수 R2은 0과 1사이의 값입니다.

따라서 결정계수의 여비율은 설명되지 않은 분산과 전체분산의 비입다.

1R2=설명되지 않은 분산전체분산

단순선형회귀모델의 결정계수

R2=β21Var(X)Var(Y)Var(Y)=β21Var(X)R2

따라서

Var(Y)Var(X)=β21R2

단순선형회귀모델에서 설명되지 않은 분산과 전체분산의 비율은 오차분산과 종속변수의 분산의 비율입니다. 이 비율은 회귀모델이 설명하지 못하는 변동의 비율입니다.

단순선형회귀모델에서의 회귀계수(기울기)

β21=R2Var(Y)Var(X)

R2이 고정되어 있을 때 β21YX의 분산의 비로 조정됩니다. 

 

3. 단순선형회귀모델의 벡터 표현

단순선형회귀모델의 분산분해식

Var(Y)=β21Var(X)+σ2

위식을 표준편차로 표현하면

SD(Y)2=(β1SD(X))2+σ2

여기서, SD(Y)은 종속변수의 표준편차이며 종속변수의 변동성을 표현

β1SD(X)는 설명변수 X로 설명이 가능한 변동성을 표현

σ는 오차항의 표준편차이며 설명이 불가능한 변동성을 표현

전체 표준편차인 종속변수 Y의 표준편차를 고정하면 Fig 1.과 같이 변동성을 반원으로 표현할 수 있습니다.

Fig.1 단순선형회귀모델의 변동성