용어 | 영문 용어 | 표기 예 | 표기 설명 | 유사 용어 | 용어 설명 |
---|---|---|---|---|---|
확률 | probability | $P$ $Pr$ $p$ | 영 이탤릭 대문자 $P$ 영 이탤릭 대문자 $Pr$ 영 이탤릭 소문자 $p$ | 가능성 | 확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨 판정의 기준이 되는 유의수준($\alpha$)은 확률 |
표본공간 | sample space | $\Omega=\{앞면, 뒷면\}$ | 그리스 이탤릭 대문자 $\Omega$ | 결과공간 샘플공간 | 확률실험에서 가능한 모든 결과의 집합 |
사건공간 | event space | $\mathcal{P}(\Omega)=\{\{\,\,\,\}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면, 뒷면}\}\}$ $2^{\Omega}=\{\{\,\,\,\}, \{1\}, \{2\}, \{1, 2\}\}$ $\sigma\text{-algebra}$여기서 $\Omega$는 표본공간 | 수학기호 $\mathcal{P}$ 수식 $2^{\Omega}$ | 시그마-대수(sigma-algebra) 시그마-필드(sigma-field) | 사건공간의 모든 요소는 표본공간의 부분집합 표본공간의 멱집합 |
확률변수 | random variable probability variable | $X$, $X\left({\omega}\right)$ | 영 이탤릭 대문자 | 랜덤변수 난수 | 확률을 가지는 변수, 확률의 선행 개념 |
변량 | data value datum | $x$ | 영 이탤릭 소문자 | 데이터포인트 변수값 관측값 | 변수의 측정된 값, 변수의 가능한 값 보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현 |
변수값 | variable value | $x_{1},x_{2},\cdots ,x_{n}$ | 영 이탤릭 소문자 | 변량 데이터포인트 관측값 | 변수에 할당된 구체적인 수치나 데이터 변수값이 연속형 수치: 연속형 변수 변수값이 이산형 횟수: 이산형 변수 변수값이 범주명: 범주형 변수 |
누적확률 | cumulative probability | $P\left({X\leq x}\right)$ | 영 이탤릭 대문자 | 확률적 적분 | 특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것 |
확률변수값 | particular realizations of a random variable | $x_i$ | 영 이탤릭 소문자 | 실현값(realization) 결과값(outcome) 관측값(observation) 표본값(sample value) | 사건의 결과인 집합의 $i$번째 원소 |
기대값 | expected value of $Y$ | ${\rm{E}}\left[{Y}\right]=\mu_Y$ 여기서 $Y$는 확률변수 | 영 대문자 E | 모평균(population mean) 일차적률(first moment) | 확률변수 $Y$의 기대값 |
분산 | variance of $Y$ | ${\rm{Var}}\left[{Y}\right]=\sigma^2_Y$: 확률변수의 분산 (모분산) $S^2_Y$: 표본의 분산 (표본분산) 여기서 $Y$는 확률변수 | 영 문자 Var: 모분산 그리스 이탤릭 소문자 $\sigma^2$: 모분산 영 이탤릭 대문자: $S^2$: 표본분산 | 퍼짐(dispersal) 확산(spread) 변동성(volatility) | 확률변수 $Y$의 분산 |
공분산 | covariance of $X$ and $Y$ | ${\rm{Cov}}\left[{X,Y}\right]=\sigma_{XY}$ | [ ] 대괄호 내에 확률변수 | 상관정도(degree of correlation) 연관성(association) 연계성(linkage) 상호변동성(mutual variability) | 확률변수 $X$와 $Y$의 공분산 |
모수 | parameter | 모평균 $\mu$ 모분산 $\sigma^2$ 모비율 $p$ | 그리스 이탤릭 소문자 영 이탤릭 소문자 | 모집단 매개변수(Population Parameter) 모집단 통계량 (Population Statistic) 모집단 지표 (Population Index) 기초통계량 (Fundamental Statistic) | 모집단의 특성을 나타내는 수치 모집단을 표현하는 확률분포함수의 매개변수 |
확률질량함수 | probability mass function | $f$ | 영 이탤릭 소문자 | pmf | 범주형 또는 이산형 변수의 확률질량 |
확률밀도함수 | probability density function | $f$ | 영 이탤릭 소문자 | 연속형 변수의 확률밀도 | |
누적분포함수 | cumulative distribution function | $F$ | 영 이탤릭 대문자 | cdf, 누적확률함수 | 이분 경계값에서의 생성된 확률질량 |
확률분포 | probability distribution | $X \sim t_{n-1}$ | 영 이탤릭 대문자 $\sim$ 확률분포 | 확률모델 (Probability Model) 분포함수 (Distribution Function) 확률법칙 (Probability Law) 빈도분포 (Frequency Distribution) | 확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률 이산확률분포 (discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우 연속확률분포 (continuous probability distribution): 확률변수의 값이 연속적인 값인 경우 |
확률분포추정 | probability distribution estimation | $X \sim t_{n-1}$ | 영 이탤릭 대문자 $\sim$ 확률분포 | 확률함수추정 | 확률밀도함수의 종류와 그에 따른 매개변수를 추정 |
생성함수 | generating function | $G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots$ $S=\{ 1, 2x, 3x^2, 4x^3, \cdots \}$ | 영 이탤릭 대문자 $G$ | 반복자함수 | 수열이나 이산 확률변수의 전체 정보를 압축한 함수 매개변수 추정값의 확률질량 또는 확률밀도 |
확률생성함수 | probability generating function: PGF moment generating function: MGF | PGF: 이산형확률변수인 경우 MGF: 이산형확률변수, 연속형확률변수인 경우 $G_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$ $P_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$ $P_{Y} = \{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, \ldots\}$ 여기서, $P_{Y}$는 이산확률변수 $Y$의 확률생성성함수 $Y$는 이산확률변수 $P$는 확률질량함수 $z$는 복소수 | 영 대문자 PGF 영 대문자 MGF 영 이탤릭 대문자 $G$ 영 이탤릭 대문자 $P$ | 확률발생함수 이산형특성함수 (discrete characteristic function) 이산형누적확률함수 (discrete cumulative probability function) 확률전파함수 (probability propagation function) | 확률변수의 확률분포를 다항식으로 나타낸 함수 |
생성모델 | generation model | $p$ | 영 이탤릭 소문자 | 통계모형 | 주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델 새로운 데이터 포인트를 실제 데이터와 유사하게 생성 |
표준정규분포의 pdf | the pdf of the standard normal distribution | $\varphi\left({z}\right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$ 여기서 $z$는 실수 | 그리스 이탤릭 소문자 $\varphi$ | 표준정규 확률밀도함수 | 자연현상과 인간활동 결과의 분포를 모델링하는 데 사용 모든 실수의 독립변수($Z$)에 대해 정의된 연속형 함수 독립변수의 값($z$)에 따라 확률밀도를 나타내는 연속형 함수 표준정규분포는 평균(0)을 중심으로 완벽하게 대칭 그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소 모든 확률밀도의 총합은 1 |
표준정규분포의 cdf | the cdf of the standard normal distribution | $\Phi(z) = \dfrac{1}{2} \left[1 + \text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right]$ 여기서, $\text{erf}(z) = \dfrac{2}{\sqrt{\pi}} \int_0^z e^{-t^2} \, dt$ $z$는 실수 $t$는 실수 | 그리스 이탤릭 대문자 $\Phi$ | 표준정규 누적분포함수 | 주어진 독립변수값($z$)까지 표준정규 확률밀도함수의 적분으로 정의 $Z$값($z$)에 따라 비선형적으로 증가 그래프는 중심(평균)을 기준으로 대칭 $Z$값이 음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴 |
F분포 임계값 | F distribution critical value | $F_{(\nu_1,\nu_2;\alpha)}$ | $F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}}$ | F분포 임계치 | 특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산 F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각 |
t분포 임계값 | t distribution critical value | $t_{n-1\ ;\ \frac{\alpha}{2}}$ | $t_{\text{자유도}\ ;\ \text{양측검정 유의수준}}$ | t분포 임계치 | 표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)와 검정종류(양측 또는 단측)로 계산 t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
Z분포 임계값 | Z distribution critical value | $z_{\frac{\alpha}{2}}$ | $z_{\text{양측검정 유의수준}}$ | Z분포 임계치 | 표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값 주어지는 유의수준($\alpha$)과 검정종류(양측 또는 단측)로 계산 Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
카이제곱분포 임계값 | chi-square distribution critical value | $\chi_{n-1\ ;\ \alpha}^2$ | $\chi^2_{\text{자유도}\ ;\ \text{유의수준}}$ | 카이제분포 임계치 | 관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는카이제곱확률변수값 주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산 t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각 |
확률변수의 독립 | $X$ is independent of $Y$ | $X\bot Y$ $X$와 $Y$는 확률변수 | $\bot $는 독립 기호 | 독립성 독립관계 | $X$는 $Y$는 독립적 |
확률변수의 조건독립 | $X$ is independent of $Y$ given $W$ | $X\bot Y\mid W$ 여기서, $X, Y, W$는 확률변수 | $\mid $ 는 조건 기호 $\bot $는 독립 기호 | 조건독립성 조건독립관 | 확률변수 $X$와 $Y$는 주어진 확률변수 $W$에서 독립 |
조건부확률 | the conditional probability | $P\left({A\mid B}\right)$ 여기서 $A$와 $B$는 사건 | 영 이탤릭 대문자 $P$ | 조건부발생확 | $B$사건이 일어난 상태에서 $A$사건이 일어날 확률 |
가능도함수 | likelihood function | $L\left(\mathbf{\theta} \, ; \mathbf{X}\right)$ 여기서, $\mathbf{\theta}$는 확률분포의 모수벡터(parameter vector) $\mathbf{X}$는 확률벡터(probability vector) | 영 이탤릭 대문자 $L$ | 우도함수 | 가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용 모수값 추정의 통계적 도구(추정량, estimator)인 MLE(최대우도추정법)의 중요한 요소 평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음 가능도함수를 미분한 함수가 “스코어 함수(score function) 최대우도추정은 스코어 함수를 사용하여 가능도 함수를 최대화하는 과정 중 하나 |
목적함수 | objective function | $J(\theta)$ | 영 이탤릭 대문자 $J$ | 스코어함수(score function) 비용함수(cost function) 손실함수(loss function) 오차함수(error function) | 주어진 문제의 목표를 수학적으로 정의한 함수 목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심 |
공동확률분포 | the joint probability distribution of random variables $X$ and $Y$ | $P\left({X,Y}\right)$ | 영 이탤릭 대문자 $P$ | 결합확률분포 (Joint Probability Distribution) 다변량확률분포 (Multivariate Probability Distribution) 다차원확률분포 (Multidimensional Probability Distribution) 복합확률분포 (Composite Probability Distribution) 확장확률분포 (Extended Probability Distribution) | 두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포 |
공동확률질량함수 | joint probability mass function | $p\left({x,y}\right)=P(X = x, Y = y)$ $p\left({x,y,z}\right)=P(X = x, Y = y, Z=z)$ 여기서 $X, Y, Z$는 확률변수 $x, y, z$는 확률변수값 $p(\mathbf{x}) = p(X_1 = x_1, \ldots, X_n = x_n)$ 여기서 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$ | 영 이탤릭 소문자 $p$ | 결합확률밀도함수 (Joint Probability density Function) 다변량 확률밀도함수 (Multivariate density Mass Function) 다차원 확률밀도함수 (Multidimensional Probability density Function 결합확률함수 (Joint Probability Function) | 두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수 함수값은 양수이며 합은 1 공동확률밀도함수로 주변확률질량함수를 구할 수 있음 두 변수가 통계적 독립인지 확인: $p(x, y) = p_X(x) \cdot p_Y(y)$ 두 변수의 조건부확률식의 분자: $p(y \mid x) = \dfrac{p(x, y)}{p_X(x)}$ 변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
공동확률밀도함수 | joint probability density function | $f_{X,Y}(x, y) $여기서 $X, Y$는 확률변수 | 영 이탤릭 소문자 $f$ | 결합확률질량함수 (Joint Probability Mass Function) 다변량 확률질량함수 (Multivariate Probability Mass Function) 다차원 확률질량함수 (Multidimensional Probability Mass Function 결합확률함수 (Joint Probability Function) | 두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수 함수값은 양수이며 적분값은 1 공동확률밀도함수로 주변확률밀함수를 구할 수 있음 두 변수가 통계적 독립인지 확인: $f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) 두 변수의 조건부확률식의 분자: $f_{Y|X}(y|x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)} 변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
공동누적분포함수 | joint cumulative distribution function | $F_{X,Y}(x, y) = P(X \leq x, Y \leq y)$ 여기서 $X, Y$는 확률변수 $x$와 $y$는 확률변수 $X$와 $Y$의 확률변수값 | 영 이탤릭 대문자 $F$ | 결합누적분포함수 (Joint cumulative distribution Function) 다변량누적분포함수 (Multivariate cumulative distribution Function) 다차원누적분포함수 (Multidimensional cumulative distribution Function 복합누적분포함수 (composite cumulative distribution Function) | 만일 $x_1 \leq x_2$이고 $ y_1 \leq y_2$이면 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$ 경계조건: $F_{X,Y}(-\infty, y) = 0, \quad F_{X,Y}(x, -\infty) = 0, \quad \text{and} \quad F_{X,Y}(\infty, \infty) = 1$ 연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공 $X$가 $a$와 $b$사이이고 $Y$가 $c$와 $d$ 사이일 확률: $F_{X,Y}(b, d) – F_{X,Y}(b, c) – F_{X,Y}(a, d) + F_{X,Y}(a, c)$ 두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석 여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석 |