DATA SCIENCE - p값 : 27
eISSN 0000-0000

확률 용어

용어영문 용어표기 예표기 설명유사 용어용어 설명
확률probability

$P$

$Pr$

$p$

영 이탤릭 대문자 $P$

영 이탤릭 대문자 $Pr$

영 이탤릭 소문자 $p$

가능성

확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨

판정의 기준이 되는 유의수준($\alpha$)은 확률

표본공간sample space$\Omega=\{앞면, 뒷면\}$그리스 이탤릭 대문자 $\Omega$

결과공간

샘플공간

확률실험에서 가능한 모든 결과의 집합
사건공간event space$\mathcal{P}(\Omega)=\{\{\,\,\,\}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면, 뒷면}\}\}$
$2^{\Omega}=\{\{\,\,\,\}, \{1\}, \{2\}, \{1, 2\}\}$
$\sigma\text{-algebra}$여기서 $\Omega$는 표본공간

수학기호 $\mathcal{P}$

수식 $2^{\Omega}$

시그마-대수(sigma-algebra)

시그마-필드(sigma-field)

사건공간의 모든 요소는 표본공간의 부분집합

표본공간의 멱집합

확률변수

random variable

probability variable

$X$, $X\left({\omega}\right)$영 이탤릭 대문자

랜덤변수

난수

확률을 가지는 변수, 확률의 선행 개념
변량

data value

datum

$x$영 이탤릭 소문자

데이터포인트

변수값

관측값

변수의 측정된 값, 변수의 가능한 값

보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현

변수값variable value$x_{1},x_{2},\cdots ,x_{n}$영 이탤릭 소문자

변량

데이터포인트

관측값

변수에 할당된 구체적인 수치나 데이터

변수값이 연속형 수치: 연속형 변수

변수값이 이산형 횟수: 이산형 변수

변수값이 범주명: 범주형 변수

누적확률cumulative probability$P\left({X\leq x}\right)$ 영 이탤릭 대문자확률적 적분특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것
확률변수값particular realizations of a random variable$x_i$ 영 이탤릭 소문자

실현값(realization)

결과값(outcome)

관측값(observation)

표본값(sample value)

사건의 결과인 집합의 $i$번째 원소
기대값expected value of $Y$

${\rm{E}}\left[{Y}\right]=\mu_Y$

여기서 $Y$는 확률변수

영 대문자 E

모평균(population mean)

일차적률(first moment)

확률변수 $Y$의 기대값
분산variance of $Y$

${\rm{Var}}\left[{Y}\right]=\sigma^2_Y$: 확률변수의 분산 (모분산)

$S^2_Y$: 표본의 분산 (표본분산)

여기서 $Y$는 확률변수

영 문자 Var: 모분산

그리스 이탤릭 소문자 $\sigma^2$: 모분산

영 이탤릭 대문자: $S^2$: 표본분산

퍼짐(dispersal)

확산(spread)

변동성(volatility)

확률변수 $Y$의 분산
공분산covariance of $X$ and $Y$${\rm{Cov}}\left[{X,Y}\right]=\sigma_{XY}$[  ] 대괄호 내에 확률변수

상관정도(degree of correlation)

연관성(association)

연계성(linkage)

상호변동성(mutual variability)

확률변수 $X$와 $Y$의 공분산
모수parameter

모평균

$\mu$

모분산

$\sigma^2$

모비율

$p$

그리스 이탤릭 소문자

영 이탤릭 소문자

모집단 매개변수(Population Parameter)

모집단 통계량 (Population Statistic)

모집단 지표 (Population Index)

기초통계량 (Fundamental Statistic)

모집단의 특성을 나타내는 수치

모집단을 표현하는 확률분포함수의 매개변수

확률질량함수probability mass function$f$영 이탤릭 소문자pmf범주형 또는 이산형 변수의 확률질량
확률밀도함수probability density function$f$영 이탤릭 소문자pdf연속형 변수의 확률밀도
누적분포함수cumulative distribution function$F$영 이탤릭 대문자cdf, 누적확률함수이분 경계값에서의 생성된 확률질량
확률분포probability distribution$X \sim t_{n-1}$영 이탤릭 대문자 $\sim$  확률분포

확률모델 (Probability Model)

분포함수 (Distribution Function)

확률법칙 (Probability Law)

빈도분포 (Frequency Distribution)

확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률

이산확률분포 (discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우

연속확률분포 (continuous probability distribution): 확률변수의 값이 연속적인 값인 경우

확률분포추정probability distribution estimation$X \sim t_{n-1}$영 이탤릭 대문자 $\sim$  확률분포확률함수추정확률밀도함수의 종류와 그에 따른 매개변수를 추정
생성함수generating function

$G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots$

$S=\{ 1, 2x, 3x^2, 4x^3, \cdots \}$

영 이탤릭 대문자 $G$반복자함수

수열이나 이산 확률변수의 전체 정보를 압축한 함수

매개변수 추정값의 확률질량 또는 확률밀도

확률생성함수

probability generating function: PGF

moment generating function: MGF

PGF: 이산형확률변수인 경우

MGF: 이산형확률변수, 연속형확률변수인 경우

$G_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$

$P_{Y}(z) = \sum\limits_{n=0}^{\infty} P(Y = n) \cdot z^n$

$P_{Y} = \{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, \ldots\}$

여기서, $P_{Y}$는 이산확률변수 $Y$의 확률생성성함수

$Y$는 이산확률변수

$P$는 확률질량함수

$z$는 복소수

영 대문자 PGF

영 대문자 MGF

영 이탤릭 대문자 $G$

영 이탤릭 대문자 $P$

확률발생함수

이산형특성함수 (discrete characteristic function)

이산형누적확률함수 (discrete cumulative probability function)

확률전파함수 (probability propagation function)

확률변수의 확률분포를 다항식으로 나타낸 함수
생성모델generation model$p$영 이탤릭 소문자통계모형

주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델

새로운 데이터 포인트를 실제 데이터와 유사하게 생성

표준정규분포의 pdfthe pdf of the standard normal distribution

$\varphi\left({z}\right) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$

여기서 $z$는 실수

그리스 이탤릭 소문자 $\varphi$표준정규 확률밀도함수

자연현상과 인간활동 결과의 분포를 모델링하는 데 사용

모든 실수의 독립변수($Z$)에 대해 정의된 연속형 함수

독립변수의 값($z$)에 따라 확률밀도를 나타내는 연속형 함수

표준정규분포는 평균(0)을 중심으로 완벽하게 대칭

그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소

모든 확률밀도의 총합은 1

표준정규분포의 cdfthe cdf of the standard normal distribution

$\Phi(z) = \dfrac{1}{2} \left[1 + \text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right]$

여기서, $\text{erf}(z) = \dfrac{2}{\sqrt{\pi}} \int_0^z e^{-t^2} \, dt$

$z$는 실수

$t$는 실수

그리스 이탤릭 대문자 $\Phi$표준정규 누적분포함수

주어진 독립변수값($z$)까지 표준정규 확률밀도함수의 적분으로 정의

$Z$값($z$)에 따라 비선형적으로 증가

그래프는 중심(평균)을 기준으로 대칭

음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴

F분포 임계값F distribution critical value$F_{(\nu_1,\nu_2;\alpha)}$$F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}}$F분포 임계치

특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산

F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각

t분포 임계값t distribution critical value$t_{n-1\ ;\ \frac{\alpha}{2}}$$t_{\text{자유도}\ ;\ \text{양측검정 유의수준}}$t분포 임계치

표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)와 검정종류(양측 또는 단측)로 계산

t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각

Z분포 임계값Z distribution critical value$z_{\frac{\alpha}{2}}$$z_{\text{양측검정 유의수준}}$Z분포 임계치

표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값

주어지는 유의수준($\alpha$)과 검정종류(양측 또는 단측)로 계산

Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각

카이제곱분포 임계값chi-square distribution critical value$\chi_{n-1\ ;\ \alpha}^2$$\chi^2_{\text{자유도}\ ;\ \text{유의수준}}$카이제분포 임계치

관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는카이제곱확률변수값

주어지는 유의수준($\alpha$)과 표본의 자유도($df$)로 부터 계산

t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각

확률변수의 독립$X$ is independent of $Y$

$X\bot Y$

$X$와 $Y$는 확률변수

$\bot $는 독립 기호

독립성

독립관계

$X$는 $Y$는 독립적
확률변수의 조건독립$X$ is independent of $Y$ given $W$

$X\bot Y\mid W$

여기서, $X, Y, W$는 확률변수

$\mid $ 는 조건 기호

$\bot $는 독립 기호

조건독립성

조건독립관

확률변수 $X$와 $Y$는 주어진 확률변수 $W$에서 독립
조건부확률the conditional probability

$P\left({A\mid B}\right)$

여기서 $A$와 $B$는 사건

영 이탤릭 대문자 $P$조건부발생확$B$사건이 일어난 상태에서 $A$사건이 일어날 확률
가능도함수likelihood function

$L\left(\mathbf{\theta} \, ; \mathbf{X}\right)$

여기서, $\mathbf{\theta}$는 확률분포의 모수벡터(parameter vector)

$\mathbf{X}$는 확률벡터(probability vector)

영 이탤릭 대문자 $L$우도함수

가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용

모수값 추정의 통계적 도구(추정량, estimator)인  MLE(최대우도추정법)의 중요한 요소

평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음

가능도함수를 미분한 함수가 “스코어 함수(score function)

최대우도추정은 스코어 함수를 사용하여 가능도 함수를 최대화하는 과정 중 하나

목적함수objective function$J(\theta)$영 이탤릭 대문자 $J$

스코어함수(score function)

비용함수(cost function)

손실함수(loss function)

오차함수(error function)

주어진 문제의 목표를 수학적으로 정의한 함수

목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심

공동확률분포the joint probability distribution of random variables $X$ and $Y$$P\left({X,Y}\right)$영 이탤릭 대문자 $P$

결합확률분포 (Joint Probability Distribution)

다변량확률분포 (Multivariate Probability Distribution)

다차원확률분포 (Multidimensional Probability Distribution)

복합확률분포 (Composite Probability Distribution)

확장확률분포 (Extended Probability Distribution)

두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포
공동확률질량함수joint probability mass function

$p\left({x,y}\right)=P(X = x, Y = y)$

$p\left({x,y,z}\right)=P(X = x, Y = y, Z=z)$

여기서 $X, Y, Z$는 확률변수

$x, y, z$는 확률변수값

$p(\mathbf{x}) = p(X_1 = x_1, \ldots, X_n = x_n)$

여기서 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$

영 이탤릭 소문자 $p$

결합확률밀도함수 (Joint Probability density Function)

다변량 확률밀도함수 (Multivariate density Mass Function)

다차원 확률밀도함수 (Multidimensional Probability density Function

결합확률함수 (Joint Probability Function)

두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수

함수값은 양수이며 합은 1

공동확률밀도함수로 주변확률질량함수를 구할 수 있음

두 변수가 통계적 독립인지 확인: $p(x, y) = p_X(x) \cdot  p_Y(y)$

두 변수의 조건부확률식의 분자: $p(y \mid x) = \dfrac{p(x, y)}{p_X(x)}$

변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악

공동확률밀도함수joint probability density function$f_{X,Y}(x, y)
$여기서 $X, Y$는 확률변수
영 이탤릭 소문자 $f$

결합확률질량함수 (Joint Probability Mass Function)

다변량 확률질량함수 (Multivariate Probability Mass Function)

다차원 확률질량함수 (Multidimensional Probability Mass Function

결합확률함수 (Joint Probability Function)

두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수

함수값은 양수이며 적분값은 1

공동확률밀도함수로 주변확률밀함수를 구할 수 있음

두 변수가 통계적 독립인지 확인: $f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)
$

두 변수의 조건부확률식의 분자: $f_{Y|X}(y|x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)}
$

변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악

공동누적분포함수joint cumulative distribution function

$F_{X,Y}(x, y) = P(X \leq x, Y \leq y)$

여기서 $X, Y$는 확률변수

$x$와 $y$는 확률변수 $X$와  $Y$의  확률변수값

영 이탤릭 대문자 $F$

결합누적분포함수 (Joint cumulative distribution Function)

다변량누적분포함수 (Multivariate cumulative distribution Function)

다차원누적분포함수 (Multidimensional cumulative distribution Function

복합누적분포함수 (composite cumulative distribution Function)

만일 $x_1 \leq x_2$이고 $ y_1 \leq y_2$이면 $F_{X,Y}(x_1, y_1) \leq F_{X,Y}(x_2, y_2)$

경계조건: $F_{X,Y}(-\infty, y) = 0, \quad F_{X,Y}(x, -\infty) = 0, \quad \text{and} \quad F_{X,Y}(\infty, \infty) = 1$

연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공

$X$가 $a$와 $b$사이이고 $Y$가 $c$와 $d$ 사이일 확률: $F_{X,Y}(b, d) – F_{X,Y}(b, c) – F_{X,Y}(a, d) + F_{X,Y}(a, c)$

두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석

여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석