[ QA ]

모든 집단의 평균이 같을 때, 모집단내 “집단간분산”과 “집단내분산”이 같은 이유는?

“집단내변동”만으로 두 분산이 정해지기 때문입니다.

모든 집단의 평균이 같다면 “집단간변동”은 없습니다.

분산분석(ANOVA)의 기본 개념

총변동($SS_T$)은 전체 데이터의 변동성을 나타내며, 집단간변동($SS_B$)과 집단내변동($SS_W$)의 합으로 표현됩니다.

$SS_T=SS_B+SS_W$

$MS_B$은 집단간분산이며 집단평균의 변동입니다. 집단간변동과의 관계는 다음식으로 표현됩니다

$MS_B = \dfrac{SS_B}{\text{집단간 자유도}}$

$MS_W$은 집단내분산이며 각 집단내에서 데이터의 변동입니다. 집단내변동과의 관계는 다음식으로 표현됩니다.

$MS_W = \dfrac{SS_W}{\text{집단내 자유도}}$

등분산 가정

등분산가정은 모든 집단의 집단내분산이 동일하다는 가정입니다. 이는 각 집단이 동일한 모분산($\sigma^2$)을 갖는다는 의미입니다.

모집단내 모든 집단의 평균이 동일

모든 집단의 평균이 동일하여, 다음이 성립합니다. $$\mu_1 = \mu_2 = \cdots = \mu_k = \mu$$ 따라서 집단 효과의 분산($\tau^2$)이 0이 됩니다. $$\tau^2 = \text{Var}[\mu_i] = 0$$

집단간분산과 집단내분산의 기대값

집단간분산($MS_B$)의 기대값은 다음과 같습니다.

$$\text{E}[MS_B] = \sigma^2 + \overline{n_i} \times \tau^2$$

여기서, $\sigma^2$은 모집단(population)의 분산이며 각 집단(group)의 집단내 분산

$\overline{n_i}$는 각 집단의 표본크기의 평균: $\overline{n_i}=\dfrac{\sum\limits_{i=1}^{k}n_i}{k}$

$n_i$는 $i$번째 집단의 크기

$k$는 집단의 수

$\tau^2$은 집단 평균들의 분산

집단내분산($MS_W$)은 모집단 분산 ($\sigma^2$)의 불편추정량이며 기대값은 다음과 같습니다.

$$\text{E}[MS_W] = \sigma^2$$

귀무가설에서 집단간분산과 집단내분산

“모집단내 모든 집단의 평균이 같다”는 귀무가설이 적용되면 다음식이 성립합니다.

$$\tau^2 = 0$$

그러므로 귀무가설이 적용된 집단간분산의 기대값($\text{E}[MS_B]$)은 다음과 같습니다.

$$\text{E}[MS_B] = \sigma^2 + \overline{n_i} \times \tau^2 = \sigma^2$$

여기서, $\sigma^2$은 모집단(population)의 분산이며 각 집단(group)의 집단내 분산

$\overline{n_i}$는 각 집단의 표본크기의 평균: $\overline{n_i}=\dfrac{\sum\limits_{i=1}^{k}n_i}{k}$

$n_i$는 $i$번째 집단의 크기

$k$는 집단의 수

$\tau^2$은 집단 평균들의 분산: $\tau^2=0$

모집단내 모든 집단의 평균이 같다면 다음식이 성립합니다.

$$\text{E}[MS_B] =\text{E}[MS_W] = \sigma^2$$

$$\sigma^2_B =\sigma^2_W = \sigma^2$$

F통계량에서 모집단의 집단간분산과 집단내분산

Fig. 1. 두 자유도에 따른 집단간분산과 집단내분산의 비의 확률분포, 붉은 점선은 F검정통계량의 평균을 나타내며 $\text{E}[F]=\dfrac{n}{n-2}$이고 $n$은 분모의 자유도

참고문헌

Montgomery, D. C. (2017). Design and Analysis of Experiments. John Wiley & Sons.
김동현 (2015). 통계학 입문. 자유아카데미.

DATA SCIENCE : 27

DATA SCIENCE eISSN