DATA SCIENCE : 27
DATA SCIENCE eISSN

시뮬레이션 데이터셋 – 정형데이터

시뮬레이션 데이터셋 - 정형데이터
관측 데이터셋 - 정형데이터
데이터

범주형 변수로 개체의 범주형 속성을 표현

범주형 변수는 변수값(관측값)이 범주(category)를 나타내는 값. 개체가 속하는 카테고리는 범주형 변수의 변수값으로 표현, 예를 들어, 인간이라는 범주형 변수에 남자와 여자라는 변수값이 있음.

범주형 변수 $X$는 $k$ 개의 범주를 가진다면, 이를 $C_1, C_2, \cdots, C_k$로 표현할 수 있음. 이때, 범주형 변수 $X$ 의 값은 다음과 같이 정의됨.

$$X \in \{ C_1, C_2, \ldots, C_k \}$$

개체의 속성을 나타내는 범주형 데이터는 명목형(Nominal) 또는 순서형(Ordinal) 으로 분류되며, 각 범주는 수치 값으로 인코딩될 수 있음.

범주형 확률변수

범주형 확률변수는 특정 범주 $C_1, C_2, \cdots, C_k$에 속할 확률을 가지는 변수. 각 범주는 확률 $P(X=C_i)$로 표현됨.

$$X \in \{ C_1, C_2, \ldots, C_k \}, \quad P(X = C_i) \geq 0$$

모든 범주의 확률의 합은 1임. 즉, 확률변수 $X$는 다음과 같이 정의됨.

$$\sum_{i=1}^{k} P(X = C_i) = 1$$

Tensor 표기

범주형 변수 $X$는 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 Tensor로 표현하면, 범주형 변수 $X$는 차원이 $d$인 벡터 $\mathbf{X}$로 정의됨.

$$\mathbf{X} \in \mathbb{R}^{d}, \quad \mathbf{X} = [x_1, x_2, \ldots, x_d]^{\top}$$

행렬 표현

범주형 변수 $X$는 $n$개의 표본과 $k$개의 범주 $C_1, C_2, \ldots, C_k$로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\times k$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 범주를 의미.

$$\mathbf{X} \in \mathbb{R}^{n \times k}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1k} \\
x_{21} & x_{22} & \ldots & x_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nk}
\end{bmatrix}
$$

연속형 변수로 개체의 연속형 속성을 표현

연속형 변수 $X$는 실수 집합 $\mathbb{R}$에서 정의되는 변수로, 임의의 두 값 사이에 무한히 많은 값을 가짐. 예를 들어, 길이, 무게, 온도 등

$$X \in \mathbb{R}$$

연속형 확률변수

연속형 확률변수 $X$는 확률분포에 따라 값이 할당되며, 확률밀도함수 $f(x)$를 사용하여 정의됨. 연속형 확률변수의 값이 특정구간 $[a, b]$에 속할 확률은 다음과 같음.

$$P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx$$

연속형 확률변수는 정규분포, 균등분포 등 다향한 분포로 표현될 수 있음.

Tensor 표기

연속형 변수 $X$는 실수집합 $\mathbb R$에서 정의되며, 여러 개의 표본과 특성을 포함하는 경우 Tensor로 표현됨. 텐서 표현은 일반적으로 다차원 배열로 나타내며, 차원수를 랭크(rank)라고 함.

$$\mathbf{X} \in \mathbb{R}^{n_1 \times n_2 \times \ldots \times n_k}$$

텐서 $\mathbf X$는 $k$-차원으로 표현되며, 각 차원은 표본의 수, 특성 수 등을 포함. 예들 들어, 연속형 변수를 $n$개의 표본과 $d$개의 특성을 가진 2차원 텐서로 표현하면 다음과 같음

$$\mathbf{X} \in \mathbb{R}^{n\times d}$$

행렬 표현

연속형 변수 $X$는 실수값을 가지며, $n$개의 표본과 $d$개의 특성(feature)으로 구성된 데이터임. 이를 행렬로 표현하면, $X$를 $n\prod d$ 크기의 행렬로 정의함. 각 행은 표본을 나타내며, 열은 각 특성을 의미.

$$\mathbf{X} \in \mathbb{R}^{n \times d}, \quad \mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1d} \\
x_{21} & x_{22} & \ldots & x_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nd}
\end{bmatrix}$$

연속형 변수는 실수값 범위에서 정의되며, 행렬 $X$의 원소 $x_{ij}$는 다음으로 표현됨.

$$x_{ij} \in \mathbb{R}$$

속성 간 관계

속성 간 관계설명특징

선형회귀

(Linear Regression)

두 변수 사이의 선형 관계를 추정하는 방법으로, 직선 형태로 모델링함.연속형 변수 예측에 유용, 단순하고 해석 가능.

로지스틱회귀

(Logistic Regression)

범주형 결과 변수를 예측하기 위해 사용되며, 시그모이드 함수로 확률을 계산함.이진 분류에 주로 사용되며, 확률 값을 출력함.

상관관계

(Correlation)

두 변수 간의 선형적 관계의 강도를 나타내며, 값은 -1에서 1 사이를 가짐.상관계수로 관계의 방향성과 강도를 나타냄.

공분산

(Covariance)

두 변수 간의 변동 정도를 측정하며, 양수는 같은 방향, 음수는 반대 방향의 변화를 의미함.단위에 따라 값이 달라지며, 해석이 어려울 수 있음.

의사결정나무

(Tree Model)

데이터의 특징을 기준으로 분기하여 예측 또는 분류를 수행하는 비선형 모델.비선형 관계를 효과적으로 모델링할 수 있음. 해석이 용이함.

신경망 모델

(Neural Networks)

다층 구조를 사용하여 입력 데이터를 처리하고 학습하여 예측 또는 분류를 수행하는 모델.복잡한 관계를 학습 가능. 비정형 데이터에도 적용 가능.

상호작용 항

(Interaction Term)

두 변수의 결합 효과를 고려하는 변수로, 독립 변수 간의 상호 영향을 모델링함.비선형 상호작용을 반영할 수 있어 예측 성능을 향상시킬 수 있음.

다변량 정규분포

(Multivariate Normal)

여러 변수의 분포를 동시에 고려하는 확률 분포로, 공분산 행렬로 관계를 나타냄.변수 간의 상관성을 반영하며, 통계적 분석에 널리 사용됨.

생성방법 장단점 비교

데이터 생성 방법 장점 단점
통계적 분포 기반 생성 간단하고 이론적으로 잘 정의된 데이터 생성 가능. 실제 데이터의 복잡한 특성을 반영하기 어려움.
회귀 모델 기반 데이터 생성 예측 변수와 결과 변수의 관계를 쉽게 모방 가능. 모델 구조에 의존하며, 복잡한 패턴은 잘 표현하지 못함.
다변량 분포 기반 생성 다수의 변수 간 상관성을 유지하며 데이터 생성 가능. 정확한 공분산 행렬을 추정하는 데 어려움이 있을 수 있음.
부트스트랩 방법 샘플링을 반복하여 데이터의 통계적 특성을 보존 가능. 데이터의 변동성을 충분히 반영하지 못할 수 있음.
몬테카를로 시뮬레이션 임의성을 활용하여 다양한 시나리오를 평가 가능. 많은 연산이 필요하며 계산 비용이 큼.
Synthetic Data Generation 복잡한 데이터 구조를 모델링하여 현실적인 데이터 생성 가능. 모델 학습 및 검증에 시간과 리소스가 많이 필요함.