DATA SCIENCE - p값 : 27
eISSN 0000-0000

분산분석

일원분산분석표 : 집단을 구분하는 한 범주형 원인변수에 의해 집단간분산(신호. signal) 생성, 신호의 비교 대상은 집단내분산(노이즈, noise)

 

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degree of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

검정통계량

(test statistic)

집단간
(Between)
$SS_{B}$

$k-1$

여기서, $k$는 표본내 집단수

${MS}_{B}=\dfrac{SS_{B}}{k-1}$

집단간분산
(Between variance)

$F=\dfrac{MS_{B}}{MS_{W}}$
집단내
(Within)
$SS_{W}$

$n-k$

여기서, $n$은 표본크기(표본의 개체수)

$k$는 표본내 집단수

$MS_{E}=\dfrac{SS_{E}}{n-k}$

집단내분산
(Within variance)


(Total)
$SS_T$

$n-1$

여기서, $n$은 표본크기(표본의 개체수)

$MS_T=\dfrac{SS_T}{n-1}$

일원분산분석표 : 이분형 원인변수는 처리(treatment) 표본내 집단이 존재하며 각 집단은 처리에 다르게 반응

 

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degree of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

검정통계량

(test statistic)

처리
(Treatment)
$SS_{Tr}$

$k-1$

여기서, $k$는 표본내 집단수

${MS}_{Tr}=\dfrac{SS_{Tr}}{k-1}$

집단간분산
(Between variance)

$F=\dfrac{MS_{Tr}}{MS_{E}}$
오차
(Error)
$SS_{E}$

$n-k$

여기서, $n$은 표본크기

$k$는 표본내 집단수

$MS_{E}=\dfrac{SS_{E}}{n-k}$

집단내분산
(Within variance)


(Total)
$SS_T$

$n-1$

여기서, $n$은 표본크기

$MS_T=\dfrac{SS_T}{n-1}$

확률화구획 실험설계 분산분석표 : 두 범주형 원인변수는 처리(treatment)와 구획(block); 처리와 구획은 독립되어 있다고 가정 (상호작용 없음)

 

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degrees of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

검정통계량

(test statistic)

처리
(Treatment)
$SS_{Tr}$

$k-1$

여기서, $k$는 표본내 처리로 구분된 집단수

$MS_{Tr}=\dfrac{SS_{Tr}}{a-1}$ $F_1=\dfrac{MS_{Tr}}{MS_E}$
구획
(Block)
$SS_B$

$b-1$

여기서, $b$는 표본내 구획수

$MS_B=\dfrac{SS_B}{b-1}$ $F_2=\dfrac{MS_B}{MS_E}$
오차
(Error)
$SS_E$ $(b-1)(k-1)$ $MS_E=\dfrac{SS_E}{(b-1)(k-1)}$  

(Total)
$SS_T$ $bk-1$ $MS_T=\dfrac{SS_T}{bk-1}$  

이원분산분석표 : 두 범주형 원인변수는 $A$와 $B$ : 두 변수는 독립되어 있지 않다고 가정하지 않음

 

변동: 편차제곱합

(Sum of Squared deviations)

변동: 편차곱합

(Sum of Products of deviations)

자유도

(degrees of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

공분산: 편차곱평균

(Mean of Products of deviations)

검정통계량

(test statistic)

원인$A$
(factor A)
$SS_A$

$a-1$

여기서, $a$는 범주형변수, $A$의 값의 수

$MS_A=\dfrac{SS_A}{a-1}$$F_{1}=\dfrac{MS_A}{MS_E}$
원인$B$
(factor B)
$SS_B$

$b-1$

여기서, $b$는 범주형변수, $B$의 값의 수

$MS_B=\dfrac{SS_B}{b-1}$$F_{2}=\dfrac{MS_B}{MS_E}$
원인$A$와 원인$B$의 상호작용
(interaction effect of A, B)
$SP_{AB}$$(a-1)(b-1)$$MP_{AB}=\dfrac{SS_{AB}}{(a-1)(b-1)}$$F_{3}=\dfrac{MP_{AB}}{MS_E}$
오차
(Error)
$SS_E$$n-ab$$MS_E=\dfrac{SS_E}{n-ab}$ 

(Total)
$SS_T$$n-1$$MS_T=\dfrac{SS_T}{n-1}$ 

상관유의성 분산분석표: 두 연속형 확률변수는 $X$와 $Y$

변수

변동: 편차곱합

(Sum of Products of deviatons)

or

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degrees of freedom)

공분산: 편차곱평균

(Mean of Products of deviations)

or

분산: 편차제곱평균

(Mean of Squared deviations)

표본피어슨상관계수($r$)

표본결정계수($R^2$)

검정통계량

통계량의 확률분포

$X,Y$$SP_{XY}$$n-1$

$MP_{XY}=\dfrac{SP_{XY}}{n-1}=s_{XY}$

$s_{XY}$는 대응된 두 변수$X$, $Y$의 표본공분산

표본피어슨상관계수

$$r=\dfrac{s_{XY}}{s_{X}s_{Y}}$$

$$r^2=\dfrac{s^2_{XY}}{s^2_{X}s^2_{Y}}$$

표본결정계수

$$R^2=\dfrac{SS_{Reg}}{SS_{T}}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}=\dfrac{1}{1+\dfrac{MS_{Res}}{(n-2)MS_{Reg}}}$$

$X$와 $Y$를 정규분포를 나타내는 확률변수로 가정하면

$$r^2=R^2$$

$$F=\dfrac{s_{Between}^2}{s_{Within}^2}=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{r^2}{1-r^2}$$

$$F∼F_{1,n-2}$$

$$F_{1,n-2}=t_{n-2}$$

$$t=\sqrt{F}=\dfrac{r}{\dfrac{\sqrt{1-r^2}}{\sqrt{n-2}}}$$

$$t∼t_{n-2}$$

$X$$SS_X$$n-1$

$MS_X=\dfrac{SS_X}{n-1}= s_X^2$

$s_X$는 변수 $X$의 표본분산

$Y$$SS_Y$$n-1$

$MS_Y=\dfrac{SS_Y}{n-1}=s_Y^2$

$s_Y$는 변수 $Y$의 표본분산

단순선형회귀적합성 분산분석표: 한 연속형 원인변수; 결과변수와 원인변수가 선형상관; 결과변수의 조건부분포를 정규분포로 가정; 잔차(residual)는 정규분포; $Reg$는 표본내 집단을 2개로 구분하는 이분형 변수의 변수값 중에서 회귀선에 있는 성분을 의미하는 변수값을 의미

 

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degrees of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

검정통계량

(test statistic)

회귀
(Regression)
$SS_{Reg}$

$k-1$ $\rightarrow$ 1

여기서, $k$는 표본내 집단수이며 회귀된 집단과 회귀되지 않은 집단 2개로 모델링 $\therefore$ $k=2$

${MS}_{Reg}=\dfrac{SS_{Reg}}{k-1}=SS_{Reg}$

여기서, $k=2$

집단간분산
(Between variance)

$F=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{SS_{Reg}}{SS_{Res}}$
잔차
(Residual)
$SS_{Res}$

$n-k$ $\rightarrow$ $n-2$

여기서, $n$은 표본크기(표본내 개체수)

$k$는 표본내 집단수 : $k=2$

$MS_{Res}=\dfrac{SS_{Res}}{n-k}=\dfrac{SS_{Res}}{n-2}$

여기서, $k=2$

집단내분산
(Within variance)


(Total)
$SS_T$

$n-1$

여기서, $n$은 표본크기(표본의 개체수)

$MS_T=\dfrac{SS_T}{n-1}$

단순선형회귀적합성 분산분석표: 한 원인변수는 $X$; 결과변수는 연속형 확률변수인 $Y$; 두 변수는 선형상관; 원인변수에 따른 결과변수의 조건부분포를 정규분포로 가정; 잔차($Res$)가 정규분포

변수

변동: 편차곱합

(Sum of Products of deviatons)

or

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degrees of freedom)

공분산: 편차곱평균

(Mean of Products of deviations)

or

분산: 편차제곱평균

(Mean of Squared deviations)

표본피어슨상관계수

표본결정계수

검정통계량

통계량의 확률분포

결정계수($R^2$)

$X,Y$$SP_{XY}$$n-1$

$MP_{XY}=\dfrac{SP_{XY}}{n-1}=s_{XY}$

$s_{XY}$는 대응된 두 변수$X$, $Y$의 표본공분산

표본피어슨상관계수

$$r=\dfrac{s_{XY}}{s_{X}s_{Y}}$$

$$r^2=\dfrac{s^2_{XY}}{s^2_{X}s^2_{Y}}$$

표본결정계수

$$R^2=\dfrac{SS_{Reg}}{SS_{T}}=\dfrac{SS_{Reg}}{SS_{Reg}+SS_{Res}}=\dfrac{1}{1+\dfrac{MS_{Res}}{(n-2)MS_{Reg}}}$$

$X$와 $Y$를 정규분포를 나타내는 확률변수로 가정하면

$$r^2=R^2$$

$$F=\dfrac{s_{Between}^2}{s_{Within}^2}=\dfrac{MS_{Reg}}{MS_{Res}}=(n-2)\dfrac{r^2}{1-r^2}$$

$$F∼F_{1,n-2}$$

$X$$SS_X$$n-1$

$MS_X=\dfrac{SS_X}{n-1}= s_X^2$

$s_X$는 변수 $X$의 표본분산

$Y$$SS_Y$$n-1$

$MS_Y=\dfrac{SS_Y}{n-1}=s_Y^2$

$s_Y$는 변수 $Y$의 표본분산

중선형회귀적합성 분산분석표 : 여러 원인변수는 $X_i$; 결과변수는 연속형 확률변수인 $Y$; 두 변수는 선형상관; 결과변수의 조건부분포를 정규분포로 가정; 잔차는 정규분포

 

변동: 편차제곱합

(Sum of Squared deviations)

자유도

(degrees of freedom)

분산: 편차제곱평균

(Mean of Squared deviations)

검정통계량

(test statistic)

회귀
(Regression)
$SS_{Reg}$

$p$

여기서, $p$는 원인변수의 수

${MS}_{Reg}=\dfrac{SS_{Reg}}{p}$$F=\dfrac{MS_{Reg}}{MS_{Res}}=\dfrac{n-p-1}{p}\dfrac{SS_{Reg}}{SS_{Res}}$
잔차
(Residual)
$SS_{Res}$

$n-p-1$

여기서, $n$은 표본크기

$p$는 원인변수의 수

$MS_{Res}=\dfrac{SS_{Res}}{n-p-1}$

(Total)
$SS_T$

$n-1$

여기서, $n$은 표본크기

$MS_T=\dfrac{SS_T}{n-1}$