Q-data : 1
Q-data science : 23
Quiz : 180
0000-0000

[ QA ]

일원분산분석에서 F통계량, F검정통계량, F검정통계값의 관계는?

CONTENTS

귀무가설을 통해 , F통계량의 변수의 수를 줄여 F검정통계량을 구합니다.

여기서, 귀무가설은 알 지 못하는 모수에 대한 가설입니다.

F검정통계량은 확률변수이며 정의된 확률분포함수로 표현합니다.

표본데이터를 통해, F검정통계량의 함수값인 F검정통계값을 구합니다.

일원분산분석에서 F통계량

일원분산분석에서의 F통계량을 함수로 보면 다음과 같이 표현할 수 있습니다.

$$F(\chi^2_B, df_B, \chi^2_W, df_W) = \dfrac{\dfrac{\chi^2_B}{df_B}}{\dfrac{\chi^2_W}{df_W}}= \dfrac{\dfrac{S_{B}^2}{\sigma_{B}^2}}{\dfrac{S_{W}^2}{\sigma_{W}^2}}$$

여기서, $\chi^2_B$는 표본내 집단의 카이제곱: $\chi^2_B=df_B\dfrac{S_B^2}{\sigma_B^2}$

$\chi^2_W$는 표본내 개체의 카이제곱: $\chi^2_W=df_W\dfrac{S_W^2}{\sigma_W^2}$

$df_B$는 표본내 집단의 자유도: $df_B=k-1$

$k$는 집단수

$df_W$는 표본내 개체의 자유도: $df_W=n-k$

$n$은 개체수

$S^2_{B}$는 표본내 집단간분산(처리 효과)

$S^2_{W}$는 표본내 집단내분산(오차)

$\sigma^2_{B}$는 모집단내 집단간분산(처리 효과)

$\sigma^2_{W}$는 모집단내 집단내분산(오차)

일원분산분석에서 F검정통계량

F통계량의 변수가 등분산가정과 귀무가설에 의해 특정되면, F통계량은 F검정통계량이 됩니다.

등분산가정에 의하여 모든 집단의 분산은 같다고 가정합니다.

$$\sigma_1^2=\sigma_2^2=\cdots=\sigma^2$$

일원분산분석(ANOVA)에서 귀무가설은 “모집단(population)내 모든 집단(group)의 모평균은 같다”입니다.

$$H_0: \mu_1=\mu_2=\cdots=\mu_k$$

이 귀무가설 하에서 집단(group)의 모분산과 모집단(population)의 분산은 같게 됩니다. 그 이유는 모집단과 모집단내 모든 집단들은 무한집합이고 자유도가 무한대이기 때문입니다. 

$$\sigma_1^2=\sigma_2^2=\cdots=\sigma^2=\sigma_W^2=\sigma_B^2$$

여기서, $\sigma^2_1$, $\sigma^2_2$, $\cdots$ 는 집단의 모분산

$\sigma^2_W$는 모집단내 집단내분산

$\sigma^2_B$는 모집단내 집단간분산

$\sigma^2$은 모집단의 분산

따라서, F통계량의 함수는 집단간분산과 집단내분산의 비로 됩니다.

$$F_{\text{test}} = \dfrac{\dfrac{\chi^2_B}{df_B}}{\dfrac{\chi^2_W}{df_W}}= \dfrac{\dfrac{S_{B}^2}{\sigma_{B}^2}}{\dfrac{S_{W}^2}{\sigma_{W}^2}}=\dfrac{S_B^2}{S_W^2} \sim F_{df_B, df_W}$$

여기서, $\chi^2_B$는 표본내 집단의 카이제곱: $\chi^2_B=df_B\dfrac{S_B^2}{\sigma_B^2}$

$\chi^2_W$는 표본내 개체의 카이제곱: $\chi^2_W=df_W\dfrac{S_W^2}{\sigma_W^2}$

$df_B$는 표본내 집단의 자유도: $k-1$

$k$는 집단수

$df_W$는 표본내 개체의 자유도: n-k

$n$은 개체수

$S^2_{B}$는 표본내 집단간분산(처리 효과)

$S^2_{W}$는 표본내 집단내분산(오차)

$\sigma^2_{B}$는 모집단내 집단간분산(처리 효과)

$\sigma^2_{W}$는 모집단내 집단내분산(오차)

$F_{\text{test}}$는 F검정통계량이며 F분포를 나타내는 확률변수: $F_{\text{test}} \rightarrow y$

$f(y; d_1, d_2) = \frac{\Gamma(\frac{d_1 + d_2}{2})}{\Gamma(\frac{d_1}{2})\Gamma(\frac{d_2}{2})} \left(\frac{d_1}{d_2}\right)^{\frac{d_1}{2}}\cdot y^{\frac{d_1}{2} – 1} \left(1 + \frac{d_1}{d_2}y\right)^{-\frac{d_1 + d_2}{2}}$

$f(\,\,\,)$는 F분포의 확률밀도함수

$d_1$은 분자의 자유도 (표본내 집단의 자유도): $d_1=df_B=k-1$

$d_2$은 분모의 자유도 (표본내 개체의 자유도): $d_2=df_W=n-k$

$\Gamma(\,\,\,)$는 감마함수

일원분산분석에서 F검정통계값

표본데이터에서 집단간분산, 집단내분산, 그리고 자유도가 관측되면, F검정통계량의 함수값인 검정통계값을 구할 수 있습니다.

F검정통계값 (F-test statistic value)은 다음과 같이 표현할 수 있습니다.

$$F_{\text{value}} = \dfrac{S^2_B}{S^2_W}=\dfrac{MS_B}{MS_W}$$

여기서, $F_{\text{value}}$는 F검정통계값

$S^2_B$는 집단간분산

$S^2_B$는 집단내분산

$MS_B$는 표본데이터로 부터 구한 집단간분산: $MS_B=\dfrac{SS_B}{df_B} = \dfrac{1}{k-1}\sum\limits_{i=1}^{k} n_i (\bar{Y}_i – \bar{Y})^2$

$MS_W$는 표본데이터로 부터 구한 집단내분산: $MS_W=\dfrac{SS_W}{df_W} = \dfrac{1}{n-k}\sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (Y_{ij} – \bar{Y}_i)^2$

$SS_B$는 전체평균과 집단평균의 편차제곲합

$SS_W$는 집단평균과 값의 편차제곱합

$k$는 집단의 수

$n_i$는 집단 $i$의 관측값 수

$\bar Y_i$는 집단 $i$의 평균

$\bar Y$는 전체 평균

$n$은 표본크기

$n_i$는 집단 $i$의 관측값 수: $\sum_{i=1}^{k}n_i=n$

$Y_{ij}$는 집단 $i$의 $j$번째 관측값

$\bar Y_i$는 집단 $i$의 평균

F검정통계값은 F검정을 수행할 때 계산되는 값으로, 집단간분산과 집단내분산의 비를 측정하며 다음과 같은 역할을 합니다.

  1. 귀무가설 하에서 집단간분산과 집단내분산의 비 측정: F검정통계값은 집단의 분산이 개체의 분산보다 얼마나 큰 지를 수량화한 값입니다. 이 값을 통해 표본이 귀무가설에 의해 설명되는지, 아니면 대립가설을 고려해야 할지를 평가합니다.

  2. p값 계산: F검정통계값을 이용하여 해당 값이 F분포에서 얼마나 극단적인지 확인한 후, 이를 바탕으로 p값을 계산합니다. p값은 귀무가설이 참일 때 F검정통계값처럼 극단적인 값이 나타날 확률을 의미합니다.

  3. 임계값과 비교: F검정통계값은 특정 유의수준(예: 0.05)에서 설정된 임계값과 비교하여, 귀무가설을 기각할지 여부를 결정하는 데 사용됩니다. F검정통계값이 임계값을 넘으면 귀무가설을 기각할 수 있습니다.

F검정통계량 분포: 집단수 2, 3, 5, 10, 20, 50 개체수 100, 유의수준 0.05
F검정통계량 분포: 집단수 2, 3, 5, 10, 20, 50 개체수 1000 , 유의수준 0.05
F검정통계량 분포: 집단수 2, 12, 22, 32, 42, 개체수 1000 , 유의수준 0.05