[ DATA SCIENCE ]

정규분포

[Q&A]

딸기의 가치는 당도인가?
저온숙성은 딸기의 당도를 향상시키는가?
당도 측정도구에 적용된 척도는?
대응표본과 독립표본은 무엇이 다른가?
대응표본과 독립표본에서 새로운 확률변수를 확률변수값의 차이라고 할 때 어느 표본의 분산이 더 큰가?
차이평균의 귀무가설과 원점의 관계는?
표준편차는 단위가 될 수 있는가?
t검정?

Normal distribution

DataLink Research Group

DataLink Research Group, Seoul, Republic of Korea

Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15

10.12972/DataLink.2024.s-12-4-3

DataLink Research Group. 2024. Data type. DataLink Library 2024:s-12-4-3.

구글문서

Abstract

정규분포

Keywords

정규분포

정규분포의 평균과 분산

평균:
$$\text{E}[X]=\int_{-\infty}^{\infty}xf(x)=\mu_X$$

여기서, f(x)는 정규분포를 나타내는 확률변수 $X$의 확률밀도함수

분산:
$$\text{Var}[X]=\int_{-\infty}^{\infty}(x-\mu)^2f(x-\mu)=\sigma_X^2$$

여기서, f(x)는 정규분포를 나타내는 확률변수 $X$의 확률밀도함수

정규분포의 표기

정규분포를 나타내는 확률변수, $X$가 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따를 때 정규분포는 다음과 같이 표기합니다.

$$X\sim N(x \, ; \mu, \sigma^2)$$

정규분포의 확률밀도함수

정규분포의 확률변수, $X$가 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따를 때 정규분포의 확률밀도함수는 다음과 같습니다.

$$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$$

여기서, $\mu$는 평균 : $-\infty \lt \mu \lt \infty$
$\sigma^2$은 분산 : $\sigma^2 \gt 0$
$-\infty \lt x \lt \infty$

표준정규분포

표준정규분포는 정규분포를 평균을 0으로 표준편차를 1로 변환하여 표준화한 분포입니다. 표준정규분포는 정규분포의 특징을 모두 가지고 있으며, 이러한 과정을 표준화(standardization) 또는 Z점수변환(Z-score transformation)라고 합니다.

$$Z=\dfrac{X-\mu}{\sigma}$$

여기서, $Z$는 표준화된 확률변수

$X$는 정규분포를 나타내는 확률변수

$\mu$는 모평균

$\sigma$는 모표준편차

변환된 확률변수, $Z$는 표준정규분포를 따릅니다. 정규분포에서의 확률을 표준정규분포를 통하여 일대일 대응관계로 구할 수 있습니다.

$$X \sim N(\mu, \sigma^2) \xrightarrow{Z=\dfrac{X-\mu}{\sigma}} Z \sim N(0,1)$$

표준정규분포와 정규분포의 누적분포함수

$$\Phi(z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{t^2}{2}\right) \, dt$$

여기서, $\Phi(z)$는 표준 정규분포

$N(0, 1)$는 표준정규분포의 누적분포함수 (CDF)

$t$는 적분 변수

$\dfrac{1}{\sqrt{2\pi}}$는 {표준정규분포의 PDF에 포함된 정규화 상수

$\exp\left(-\frac{t^2}{2}\right)$는 표준정규분포 PDF의 함수 형태

정규분포, $N(\mu, \sigma^2)$의 누적분포함수는 다음과 같습니다.

$$F(x) = \Phi\left(\frac{x – \mu}{\sigma}\right)$$

여기서, $F(x)$는 정규분포$N(\mu, \sigma^2)$의 누적분포함수(CDF)
$\Phi(z)$는 표준정규분포, $ N(0, 1)$의 누적분포함수(CDF)
$\dfrac{x – \mu}{\sigma}$는 정규분포의 확률변수를 표준정규분포로 변환한 값 (Z-score 변환)

정규분포의 특징

정규분포의 특징은 확률변수값, $x$와 평균, $\mu$가 아래의 확률밀도함수에서 보듯이 같은 조건입니다. 즉, 분산이 고정된 상태에서 평균이 확률변수이면 확률변수값은 상수가 됩니다. 즉, 확률변수와 상수가 상대적인 개념임을 말해 주고 있습니다.

$$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{\frac{1}{2\sigma^2}(x-\mu)^2}$$

정규분포는 평균을 기준으로 좌우 대칭입니다. 확률밀도함수의 변곡점은 2개가 있는 데 두 변곡점에서의 확률변수값은 $(\mu ± \sigma)$입니다. 확률밀도함수가 최대값일 때의 확률변수값은 $\mu$입니다.

주어진 분산 $\sigma^2$을 가지는 연속확률분포 중에서 정규분포는 엔트로피(entropy, 무질서도)가 가장 큽니다. 정규분포의 엔트로피는 다음식과 같이 정규분포의 스케일인 분산($\sigma^2$)을 따르는 함수입니다. 평균($\mu$)하고는 관계가 없습니다.

$$H(X)=\dfrac{1}{2}\ln(2πσ_X^2)$$

여기서, $H(X)$는 확률변수, $X$의 엔트로피: $H_X$로도 표

$\sigma_X^2$은 확률변수, $X$의 분산

분산($\sigma^2$)과 평균($\mu^2$)이 고정되었고 엔트로피가 최대가 되려면 확률밀도함수는 다음 제약 조건을 따릅니다.

제약조건1:

$$\int_{-\infty}^\infty f(x) \, dx = 1$$

제약조건2:

$$\int_{-\infty}^\infty x^2 f(x) \, dx = \sigma^2+\mu^2$$

그리고 확률밀도함수, $f(x)$의 엔트로피는 다음과 같습니다.

$$H(X)=-\int_{-\infty}^{\infty}f(x)\ln f(x) \, dx$$

제약조건에서 $H(X)$를 최대로하는 확률밀도함수를 구하면 정규분포의 확률밀도함수가 유도됩니다.

이항분포

확률변수인 성공횟수($K$)가 시행횟수($N$)와 성공확률($P$)을 매개변수(parameter, 모수)로 가지는 이항분포를 따르면

$$K\sim B\left({n,p}\right)$$

$n$번 시행중에 $k$번 성공할 확률은 다음과 같이 확률질량함수로 주어집니다.

$$Pr\left(K=k\right)=f\left(k\,;n,p\right)=\binom{n}{k}p^k\left(1-p\right)^{n-k}$$

여기서, $\binom{n}{k}$는 조합의 개수: $\binom{n}{k} = \frac{n!}{k!(n-k)!}$

$n$은 시행횟수

$k$는 성공횟수

$p$는 성공확률

$1-p$는 실패확률

확률변수 $X$가 이항분포를 따른다고 하면 다음과 같이 표현합니다.

$$X \sim B\left({n,p}\right)$$

$X$의 기대값은 다음과 같습니다.

$$\mathrm{E}\left[{X}\right]=np$$

분산은 다음과 같습니다.

$$\mathrm{Var}\left(X\right)=np\left({1-p}\right)$$

기대값은

$$\mathrm{E}\left[{X}\right]=\sum\limits_{i=1}^{n}{x_{i}\cdot p_{i}}$$

분산은

$${\rm Var}\left({X}\right)=\sum\limits_{i=1}^{n}{{\left({x_{i}-\mathrm{E}[X]}\right)}^{2}}\cdot p_{i}=\sum\limits_{i=1}^{n}{{x_{i}^{2}\cdot p_{i}}}-{\mathrm{E}[X]}^{2}$$

여기서, $\sum\limits_{i=1}^{n}x_i^2 \cdot p_i={\rm E}[X^2]$

분산등식은

분산 = 제곱의 평균 – 평균의 제곱

분산등식을 수식으로 표현하면

$$\rm{Var}\left({X}\right)=\mathrm{E}\left[{X^{2}}\right]-\mathrm{E}{\left[{X}\right]}^{2}$$

이항분포 ~ 정규분포

$X\sim B\left({n,p}\right)$ 에서 $n$이 충분히 클 때 $X\sim N\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

$$X\sim N\left({\mu ,\sigma^{2}}\right)$$

이항분포 ANIMATION :

0과 1의 시행과 확률p를 갖는 시행을 $n$번하여 그 합을 확률변수로 합니다. 무한번 시행하고 확률을 막대그래프로 표현할 수 있습니다. 이 때 확률변수는양의 정수가 됩니다. $n$이 점점 커질때 ( 동전의 개수, 갈톤의 분기점의 개수) -> 이항분포가 정규분포로 근사합니다.

확률변수 단위를 1로하고 범위를 100으로 하여 n을 1에서 100까지 ANIMATION:

, 막대그래프의 범위는 가로축은 0~100, 세로축은 0.5

$$B\left({1\sim100,\ 0.5}\right)$$

범위를 1로 고정시키고 단위를 1/n 으로 함. n을 1에서 100까지 ANIMATION:

막대그래프의 범위는 가로축은 0~1, 세로축은 0.5

$$B\left({1\sim{{1}\over{100}},\ 0.5}\right)$$

이항분포

확률변수 $k$가 매개변수 $n$과 $p$를 가지는 이항분포를 따른다면, $k\sim B\left({n,p}\right)$라고 쓴다. $n$번 시행중에 $k$번 성공하는 확률변수의 확률질량함수는

$$Pr\left({{K}{=}{k}}\right){=}{f}\left({k;n,p}\right)$$
$${=}{n \choose k}{p}^{k}{\left({{1}{-}{p}}\right)}^{{n}{-}{k}}$$

만약 $X\sim {\rm B}\left({n,p}\right)$라면, $X$의 기대값은

$${\rm E}\left[{X}\right]=np$$

이고 분산은

$$\rm{Var}\left[{X}\right]={\rm E}\left[{X^{2}}\right]-E{\left[{X}\right]}^{2}$$
$$=np(1-p)$$

이항분포 ~ 정규분포

$X\sim {\rm B}\left({n,p}\right)$에서 $n$이 충분히 클 때 $X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$로 근사합니다.

$$X\sim{\rm N}\left({np,\sqrt{np\left({1-p}\right)}}\right)$$

$$X\sim {\rm N}\left({\mu ,\sigma^{2}}\right)$$

정규분포

표준정규분포

$$y=\dfrac{1}{\sqrt{2\pi}}{\rm exp}^{-\frac{1}{2}{x^2}}$$

평균, $\mu$와 분산, $\sigma^{2}$를 모수로 하는 정규분포를 나타내는 확률변수, $X$의 확률밀도함수 $f(X)$는 다음과 같습니다.

$$f(X)=\dfrac{1}{\sigma\sqrt{2\pi}}{\rm exp}^{-\frac{1}{2}\frac{\left({x-\mu}\right)^2}{\sigma^2}}$$

여기서, $-\infty\leq X\leq+\infty$

Terminology

시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면, 2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

출처

Experiment (probability theory) – Wikipedia

확률

확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.

이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.

출처

Probability – Wikipedia

확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입다. 예를 들어, 확률 변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률 분포는 $X$ = 앞면의 경우 0.5, $X$ = 뒷면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과 집합인 기본 표본공간(sample space)의 관점에서 지정됩니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비 숫자 값 목록일 수도 있습니다. 예를 들어, 동전 뒤집기의 샘플 공간은 {앞면(Head), 뒷면(Tail)}입니다. 확률 분포는 일반적으로 두 가지로 나뉩니다. 이산 확률분포 (동전 던지기 나 주사위와 같이 가능한 결과 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위 (예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률 밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규 분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에 정의 된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단 변수이라고 불리우는 반면 표본공간이 2차원 이상의 벡터 공간 인 분포를 다 변수라고합니다. 단일 변수(변량) 분포는 다양한 대체 값을 취하는 단일 확률변수의 확률을 제공합니다. 다 변수 분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단 변량 확률분포에는 이항분포, 초기 하분포 및 정규분포가 포함됩니다. 다 변수 정규 분포는 일반적으로 발생하는 다 변수 분포입니다.

출처

Probability distribution – Wikipedia

연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

출처

Continuous or discrete variable – Wikipedia

확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다. 확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다.

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

출처

Random variable – Wikipedia