집단간분산과 집단내분산이 같다는 것은?
[ QA ] CONTENTS 범주형 원인변수에 의한 분산과 내재된 분산이 같다는 의미입니다. 신호와 노이즈의 양이 같다는 의미입니다. 집단간분산이 집단내분산보다 작은 구역은 중첩되어 있는 영역입니다. 큰 영역은 확실히 범주형 원인변수가 작동하는 영역입니다. 집단간분산과 집단내분산은 무엇? 집단간분산(Between-Group Variance)은 서로 다른 집단의 평균값 차이를 설명합니다. 즉, 각 집단의 평균이 전체 평균(또는 다른 집단의 평균)과 얼마나 차이가 나는지를 나타냅니다. […]
표본분산을 카이제곱으로 변환하는 이유는?
[ QA ] CONTENTS 카이제곱은 표준정규분포에서 유도된 확률분포를 가지기 때문입니다. 표본분산을 카이제곱변환하는 과정에서 자유도의 정보가 포함됩니다. 유사하게, 표본평균을 Z변환하는 과정에서 표본크기의 정보가 포함됩니다. 확률변수의 확률분포: 정규분포로 모델링 확률변수의 확률분포: 정규분포로 모델링 $$Y sim N(mu_Y, sigma^2_Y)$$ 여기서, $Y$는 확률변수 $N(mu_Y, sigma^2_Y)$는 $mu_Y$와 $sigma^2_Y$를 매개변수로 하는 정규분포 $mu_Y$는 확률변수 $Y$의 모평균 $sigma^2_Y$는 확률변수 $Y$의 모분산 확률변수의 확률밀도함수 […]
모분산을 알고 표본크기가 작은 경우, Z검정과 t검정 중, 어느 검정?
CONTENTS Z검정입니다. Z검정과 t검정은 확률변수가 정규분포를 따르거나 표본크기가 30이상인 경우에 사용합니다. 확률변수가 정규분포를 따르지 않고 표본크기가 30미만인 경우는 비모수검정을 사용합니다. Z검정은 모분산을 아는 경우에 사용 모분산이 알려진 경우에는 표본크기와 관계없이 Z검정을 사용합니다. 모분산을 알면 모집단의 실제 변동성을 직접 반영할 수 있습니다. 따라서 자유도에 따른 보정이 필요하지 않습니다. 그러나 모분산을 아는 경우는 현실적으로 거의 없습니다. 모분산을 […]
검정통계량(Test statistic)은 확률변수?
CONTENTS 네, 검정통계량은 확률분포를 가지는 확률변수입니다. 무작위 표본으로부터 계산되는 통계량이기 때문입니다. 검정통계량은 무엇? 검정통계량은 주어진 표본 데이터에서 계산되는 통계량 중 하나입니다. 이 통계량은 모집단의 모수를 추정하거나 가설을 검정하는 데 사용되어 검정통계량이라고 부릅니다. 검정통계량은 특정 확률변수를 검정의 종류에 따른 확률분포의 확률변수로 변환하는 식이며, 이는 표본의 구성이나 크기에 따라 달라집니다. 예를 들어, t검정에서 사용되는 t통계량은 표본의 표본평균 […]
p값은 이항집합의 확률인가?, 연속적인 집합의 확률인가?
CONTENTS p값(p-value)은 연속적인 집합의 확률입니다. p값은 연속적인 집합의 확률입니다. p값은 관측된 데이터로 부터 구한 0에서 1사이의 실수입니다. 0에서 1사이의 실수는 주어진 누적분포함수(CDF)로 부터 구한 연속적인 집합의 확률입니다. p값은 관측된 데이터가 특정 통계 분포(예: 정규분포)에서 얼마나 극단적인지를 나타내는 값입니다. 귀무가설이 참이라는 가정 하에, p값은 “관측된 데이터보다 더 극단적인 통계량에 해당하는 확률공간의 원소들의 비율”을 나타냅니다. 이때 […]
표준오차를 꼭 필요로 하는 표본통계량 순서는?
[ QA ] CONTENTS 표본평균, 표본비율, 표본분산의 순입니다. 표준오차는 무엇? 표준오차(Standard Error, SE)는 통계에서 표본평균, 표본분산, 표본비율 등의 표본 통계량이 반복적인 표본추출에서 모평균, 모분산, 모비율가 얼마나 차이가 나는 지를 나타냅니다. 즉, 표본 통계량의 모수에 대한 변동성을 나타내는 척도입니다. 표준오차는 왜 생기나? 표준오차는 표본추출 과정에서 발생하는 변동성으로 설명됩니다. 표본추출이 무작위적이므로, 각 표본에서 계산된 통계량이 다를 수밖에 없으며, […]
Frequentist에게 “귀무가설”이 있다면 Bayesian에게는?
[ QA ] CONTENTS Bayesian에게는 “사전확률”이 있습니다. Frequentist와 Bayesian은 누구? Frequentist(프리퀀티스트, 빈도주의자)은 빈도주의 접근법을 따르는 사람입니다. 이들은 확률을 반복 실험에서 나타나는 빈도로 해석하며, 주어진 데이터를 통해 객관적인 추론을 수행합니다. 사전확률을 사용하지 않으며, 데이터 자체에 기반하여 가설을 검정하고 신뢰구간을 추정합니다. Bayesian(베이지앙, 사후확률추구자)은 베이지안 접근법을 따르는 사람입니다. 이들은 확률을 주관적인 믿음의 정도로 해석하며, 새로운 증거를 사용하여 사전확률(prior […]
대응표본처럼 독립표본도 순차적으로 수집할 수 있나?
[ QA ] CONTENTS 네, 독립표본도 시간적, 공간적으로 순차적으로 관측한 결과일 수 있습니다. 대응표본과 독립표본은 무엇? 표본은 대응표본(paired samples)과 독립표본(independent samples)들로 이루어져 있다고 볼 수 있습니다. 한편, 표본은 개체속성의 실현된 값의 모음입니다. 개체의 두 속성이 서로 대응되면 대응표본이고 두 속성이 서로 독립되면 독립표본이라고 합니다. 그리고 개체의 한 속성을 반복측정한 것도 대응표본이라 할 수 있습니다. 대응표본의 […]
유의수준이 임계값을 정하나?
CONTENTS 네, 유의수준이 먼저 정해지고 확률분포 정보를 더하여 임계값이 결정되므로 유의수준이 임계값을 정합니다. 유의수준과 임계값은 무엇? 유의수준(significance level)은 가설검정에서 귀무가설을 기각하는 기준이 되는 확률입니다. 일반적으로 $alpha$로 표시됩니다. 선행연구에 의해 주어집니다. 유의수준은 임계값을 설정하는 데 사용됩니다. 임계값 (critical value)은 귀무가설이 참이여서 귀무가설을 채택하는 영역과 귀무가설이 거짓이어서 귀무가설을 기각하는 영역의 경계값입니다. 임계값은 유의수준과 검정통계량의 분포에 따라 결정됩니다. […]
COURSE : 딸기의 상품가치
ROUTINE 가설검정 논문작성 PROGRAMMINGS PROJECTS 논문작성 논문작성 논문작성 논문작성 논문작성 논문작성 DATA SET 프로젝트 데이터셋 P1-project-data 구글시트 모집단 데이터셋 P2-data 구글시트 표본 추출 P2-1-표본추출 구글시트 P2-2-표본추출 구글시트 P2-3-표본추출 구글시트 표본 데이터셋 P2-1-data 구글시트 P2-2-data 구글시트 P2-3-data 구글시트 ARTICLE [ PROJECT ] 딸기의 상품가치 Project DocuHut Full Text [ DATA ] 데이터사이언스 학습을 위해 생성한 가상 […]