[ QA ]
모든 집단의 평균이 같을 때, 모집단내 “집단간분산”과 “집단내분산”이 같은 이유는?
CONTENTS
“집단내변동”만으로 두 분산이 정해지기 때문입니다.
모든 집단의 평균이 같다면 “집단간변동”은 없습니다.
분산분석(ANOVA)의 기본 개념
총변동($SS_T$)은 전체 데이터의 변동성을 나타내며, 집단간변동($SS_B$)과 집단내변동($SS_W$)의 합으로 표현됩니다.
$$SS_T=SS_B+SS_W$$
$MS_B$은 집단간분산이며 집단평균의 변동입니다. 집단간변동과의 관계는 다음식으로 표현됩니다
$$MS_B = \dfrac{SS_B}{\text{집단간 자유도}}$$
$MS_W$은 집단내분산이며 각 집단내에서 데이터의 변동입니다. 집단내변동과의 관계는 다음식으로 표현됩니다.
$$MS_W = \dfrac{SS_W}{\text{집단내 자유도}}$$
등분산 가정
모집단내 모든 집단의 평균이 동일
집단간분산과 집단내분산의 기대값
집단간분산($MS_B$)의 기대값은 다음과 같습니다.
$$\text{E}[MS_B] = \sigma^2 + \overline{n_i} \times \tau^2$$
여기서, $\sigma^2$은 모집단(population)의 분산이며 각 집단(group)의 집단내 분산
$\overline{n_i}$는 각 집단의 표본크기의 평균: $\overline{n_i}=\dfrac{\sum\limits_{i=1}^{k}n_i}{k}$
$n_i$는 $i$번째 집단의 크기
$k$는 집단의 수
$\tau^2$은 집단 평균들의 분산
집단내분산($MS_W$)은 모집단 분산 ($\sigma^2$)의 불편추정량이며 기대값은 다음과 같습니다.
$$\text{E}[MS_W] = \sigma^2$$
귀무가설에서 집단간분산과 집단내분산
“모집단내 모든 집단의 평균이 같다”는 귀무가설이 적용되면 다음식이 성립합니다.
$$\tau^2 = 0$$
그러므로 귀무가설이 적용된 집단간분산의 기대값($\text{E}[MS_B]$)은 다음과 같습니다.
$$\text{E}[MS_B] = \sigma^2 + \overline{n_i} \times \tau^2 = \sigma^2$$
여기서, $\sigma^2$은 모집단(population)의 분산이며 각 집단(group)의 집단내 분산
$\overline{n_i}$는 각 집단의 표본크기의 평균: $\overline{n_i}=\dfrac{\sum\limits_{i=1}^{k}n_i}{k}$
$n_i$는 $i$번째 집단의 크기
$k$는 집단의 수
$\tau^2$은 집단 평균들의 분산: $\tau^2=0$
모집단내 모든 집단의 평균이 같다면 다음식이 성립합니다.
$$\text{E}[MS_B] =\text{E}[MS_W] = \sigma^2$$
$$\sigma^2_B =\sigma^2_W = \sigma^2$$
F통계량에서 모집단의 집단간분산과 집단내분산
Fig. 1. 두 자유도에 따른 집단간분산과 집단내분산의 비의 확률분포, 붉은 점선은 F검정통계량의 평균을 나타내며 $\text{E}[F]=\dfrac{n}{n-2}$이고 $n$은 분모의 자유도
참고문헌
- Montgomery, D. C. (2017). Design and Analysis of Experiments. John Wiley & Sons.
- 김동현 (2015). 통계학 입문. 자유아카데미.