[ QA ]
집단간분산과 집단내분산이 같다는 것은?
CONTENTS
범주형 원인변수에 의한 분산과 내재된 분산이 같다는 의미입니다.
신호와 노이즈의 양이 같다는 의미입니다.
집단간분산이 집단내분산보다 작은 구역은 중첩되어 있는 영역입니다.
큰 영역은 확실히 범주형 원인변수가 작동하는 영역입니다.
집단간분산과 집단내분산은 무엇?
집단간분산(Between-Group Variance)은 서로 다른 집단의 평균값 차이를 설명합니다. 즉, 각 집단의 평균이 전체 평균(또는 다른 집단의 평균)과 얼마나 차이가 나는지를 나타냅니다. 집단 간 분산이 크면, 각 집단 간 평균값 차이가 크다는 의미입니다. 이는 집단들이 서로 명확하게 구별된다는 것을 의미할 수 있습니다.
$$\text{집단간분산} = \dfrac{1}{k-1}\sum\limits_{i=1}^{k} n_i (\bar{Y}_i – \bar{Y})^2$$
여기서, $k$는 집단의 수
$n_i$는 집단 $i$의 관측값 수
$\bar Y_i$는 집단 $i$의 평균
$\bar Y$는 전체 평균
집단내분산(Within-Group Variance)은 개별 집단 내의 관측값들이 평균값에서 얼마나 벗어나 있는 지를 설명합니다. 즉, 동일 집단 내에서의 변동성을 측정합니다. 집단내분산이 크면, 같은 집단 내에서 개체들 간의 차이가 크다는 의미입니다. 즉, 집단 내부에서의 변동성이 크다는 뜻입니다.
$$\text{집단내분산} = \dfrac{1}{n-k}\sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (Y_{ij} – \bar{Y}_i)^2$$
여기서, $n$은 표본크기
$k$는 집단의 수
$n_i$는 집단 $i$의 관측값 수: $\sum_{i=1}^{k}n_i=n$
$Y_{ij}$는 집단 $i$의 $j$번째 관측값
$\bar Y_i$는 집단 $i$의 평균
표본의 변동분할 등식
$$\text{총변동} = \text{집단간변동} + \text{집단내변동}$$
$$SS_T = SS_B + SS_W$$
$$\sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i}(Y_{ij}-\bar Y)^2= \sum_{i=1}^{k} n_i (\bar{Y}_i – \bar{Y})^2 + \sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (Y_{ij} – \bar{Y}_i)^2$$
여기서, $n$은 표본크기: $n=\sum\limits_{i=1}^{k}n_i$
$Y_{ij}$는 관측값: $Y_{ij}=\bar Y_i+(Y_{ij}-\bar Y_i)$
$\bar Y$는 전체 평균
표본의 자유도 등식
$$\text{총자유도} = \text{집단간자유도} + \text{집단내자유도}$$
$$n-1 = (k-1) + (n-k)$$
집단간분산이 나타나는 이유는?
집단간분산(Between-Group Variance)은 집단 간 평균의 차이로 인해 발생합니다. 이를 통해 서로 다른 집단들이 평균적으로 얼마나 다른지를 나타낼 수 있습니다. 집단 간 분산이 나타나는 주요 이유는 다음과 같습니다.
- 집단 간 차이: 서로 다른 집단이 특정 변수에서 명확한 차이를 보일 때 집단간분산이 발생합니다. 예를 들어, 실험군과 대조군의 평균이 다를 때, 이 차이가 집단 간 분산을 증가시킵니다.
- 처치 효과: 실험 연구에서 각 집단에 다른 처치를 가하면, 그 처치가 집단 간 차이를 만들어냅니다. 이로 인해 집단간분산이 발생하게 됩니다.
- 집단 구분이 의미가 있을 때: 연구에서 집단을 나누는 기준이 유의미하다면, 그 기준에 의해 집단 간 차이가 나타나고, 집단간분산이 커질 수 있습니다.
집단내분산이 나타나는 이유는?
집단내분산(Within-Group Variance)은 동일 집단 내에서의 개체 간 변동으로 인해 발생합니다. 이는 각 집단의 구성원들이 얼마나 다양하게 분포하는지를 나타내며, 집단내분산이 나타나는 이유는 다음과 같습니다.
- 개체 간 변이: 동일한 집단에 속한 개체들 사이에도 차이가 존재합니다. 예를 들어, 같은 학급의 학생들일지라도 성적이 다를 수 있고, 이런 차이가 집단 내 분산을 만들어냅니다.
- 무작위적 변동성: 관측된 데이터에서 발생하는 무작위성도 집단내분산을 발생시킵니다. 측정의 오차나 예측 불가능한 요인들이 개체 간 차이를 만들어냅니다.
- 동일 처치에 대한 개체의 반응 차이: 실험에서 동일한 처치를 받더라도 개체가 처치에 다르게 반응할 수 있습니다. 이런 반응의 차이가 집단 내 분산으로 나타납니다.
- 개체의 고유 특성: 개체의 나이, 성별, 유전적 요인 등의 고유한 특성은 집단 내 분산에 기여합니다. 이러한 차이점은 집단 내에서 서로 다른 결과를 만들어냅니다.
표본의 집단간분산과 집단내분산의 비는 무엇?
집단간분산과 집단내분산의 비는 집단 간 차이, 집단 내 변동성, 표본크기, 데이터의 분포 등 여러 요인과 관계가 있습니다. 확률변수의 분포가 정규분포라면, 이 비는 분산분석(ANOVA)의 F검정통계량으로 표현되며, 가설검정에서 집단 간 차이가 통계적으로 유의미한 지를 평가하는 데 사용됩니다.
같은 정규분포를 가지는 개체의 실현값의 집합인 모집단에서 표본을 추출할 때 개체의 관점에서 본 집단간분산과 집단내분산의 비는 “분포를 수식으로 모델링할 수 있는 확률변수”입니다. 이 확률변수는 Ronald A Fisher가 도입하고 George W Snedecor가 “F”라고 명명하였습니다.
정규분포를 가지는 개체의 실현된 집합인 모집단에서 두 표본을 추출하였을 때 두 표본의 분산이 동일한 지를 검정하기 위한 F검정통계량은 다음과 같습니다.
$$F = \frac{\chi^2_1 / (n_1 – 1)}{\chi^2_2 / (n_2 – 1)} = \frac{\left( \frac{(n_1 – 1) S_1^2}{\sigma^2} \right) / (n_1 – 1)}{\left( \frac{(n_2 – 1) S_2^2}{\sigma^2} \right) / (n_2 – 1)} = \frac{S_1^2 / \sigma^2_1}{S_2^2 / \sigma^2_2}=\frac{S_1^2}{S_2^2} \sim F_{n_1-1, n_2-2}$$
정규분포를 가지는 개체의 실현된 집합인 모집단에서 한 표본을 추출하였을 때 집단간분산과 집단내분산의 비의 F검정통계량은 다음과 같습니다.
$$F = \frac{\text{집단간분산(MSB)}}{\text{집단내분산 (MSW)}}\sim F_{k-1, n-k}$$