DATA SCIENCE : 27
DATA SCIENCE eISSN

CODE – 데이터

CODE _ 데이터-001
CODE _ 데이터-002

시뮬레이션 데이터셋 - 정형데이터

가상 개체
생성 개체
범주형 속성
연속형 속성
속성 간 관계
데이터 생성
시뮬레이션 데이터셋

정형데이터

딸기의 상품가치

개별 ID

\[
\mathbf{X}_{\text{cat}} =
\begin{bmatrix}
x_1^{(1)} & x_2^{(1)} & x_3^{(1)} & x_4^{(1)} & x_5^{(1)} \\
x_1^{(2)} & x_2^{(2)} & x_3^{(2)} & x_4^{(2)} & x_5^{(2)} \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
x_1^{(n)} & x_2^{(n)} & x_3^{(n)} & x_4^{(n)} & x_5^{(n)} \\
\end{bmatrix}
\]

\[
\mathbf{X}_{\text{cat}} =
\begin{bmatrix}
x^{(1)}_{\text{품종}} & x^{(1)}_{\text{출하월}} & x^{(1)}_{\text{저온}} & x^{(1)}_{\text{등급}} & x^{(1)}_{\text{저온후등급}} \\
x^{(2)}_{\text{품종}} & x^{(2)}_{\text{출하월}} & x^{(2)}_{\text{저온}} & x^{(2)}_{\text{등급}} & x^{(2)}_{\text{저온후등급}} \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
x^{(n)}_{\text{품종}} & x^{(n)}_{\text{출하월}} & x^{(n)}_{\text{저온}} & x^{(n)}_{\text{등급}} & x^{(n)}_{\text{저온후등급}} \\
\end{bmatrix}
\]

\[
\mathbf{X}_{\text{cont}} =
\begin{bmatrix}
x_6^{(1)} & x_7^{(1)} & x_8^{(1)} \\
x_6^{(2)} & x_7^{(2)} & x_8^{(2)} \\
\vdots & \vdots & \vdots \\
x_6^{(n)} & x_7^{(n)} & x_8^{(n)} \\
\end{bmatrix}
\]

\[
\mathbf{X}_{\text{cont}} =
\begin{bmatrix}
x^{(1)}_{\text{당도}} & x^{(1)}_{\text{저온후당도}} & x^{(1)}_{\text{과중}} \\
x^{(2)}_{\text{당도}} & x^{(2)}_{\text{저온후당도}} & x^{(2)}_{\text{과중}} \\
\vdots & \vdots & \vdots \\
x^{(n)}_{\text{당도}} & x^{(n)}_{\text{저온후당도}} & x^{(n)}_{\text{과중}} \\
\end{bmatrix}
\]

선형회귀 (linear regression)

독립변수들의 선형결합으로 종속변수 설명

\[
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon
\]

로지스틱회귀 (logistic regression)

범주형 종속변수 예측 (이진/다항)

\[
\Pr(y=1 \mid \mathbf{x}) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}}
\]

상관관계 (correlation)

두 연속형 변수 간의 선형 연관성 측정

\[
\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}
\]

공분산 (covariance)

두 변수가 서로 영향을 주어 변하는 정도

\[
\mathrm{Cov}(X, Y) = \mathbb{E}[(X – \mu_X)(Y – \mu_Y)]
\]

의사결정나무 (tree model)

규칙 기반 분기 구조로 속성 예측

\[
P(Y \mid X) = \frac{P(X,Y)}{P(X)}
\]

신경망 모델 (neural networks)

비선형 다층 구조의 함수 근사

\[
y = f^{(2)}\left( W^{(2)} \cdot f^{(1)}(W^{(1)} \cdot \mathbf{x} + \mathbf{b}^{(1)}) + \mathbf{b}^{(2)} \right)
\]

상호작용 항 (interaction term)

두 속성 간의 곱을 통한 관계

\[
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 (x_1 \cdot x_2) + \varepsilon
\]

다변량 정규분포 (multivariate normal)

여러 속성 간의 공분산 행렬로 표현

\[
\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})
\]

통계적 분포 기반 생성 (Statistical Distribution-Based Simulation)


특정 확률분포에서 무작위로 표본을 추출하여 데이터 생성

정규분포 (Normal distribution): 연속형 데이터 생성

이항분포 (Binomial distribution): 이산형(범주형) 데이터 생성

포아송분포 (Poisson distribution): 희소사건 데이터 생성

균등분포 (Uniform distribution): 특정 구간 내 균등한 자료 생성

지수분포 (Exponential distribution): 사건 간의 시간 간격, 생존 분석 데이터 생성

회귀 모델 기반 데이터 생성 (Regression Model-Based Simulation)
회귀 모델의 모수를 설정한 뒤, 오차항(주로 정규분포)을 추가하여 데이터를 생성

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \varepsilon
$$

다변량 분포 기반 생성 (Multivariate Distribution-Based Simulation)

다변량 정규분포(Multivariate Normal)를 가장 흔히 사용. 변수 간 상관관계를 반영하여 데이터를 구성 가능

예) 변수 $A$와 $B$는 평균 벡터 $\mu = [\mu_1, \mu_2]$ 공분산 행렬 $\sum$을 설정하여 다변량 정규분포로 생성

부트스트랩 방법 (Bootstrap Method)

기존의 실제 데이터를 반복 추출하여 재표본화(resampling)하여 새 데이터 생성. 실제 데이터의 특성을 잘 반영하면서, 분포적 가정을 최소화할 때 활용 가능

예) 원본 데이터에서 n회 부트스트랩 추출을 통해 새로운 데이터셋을 구성

몬테카를로 시뮬레이션 (Monte Carlo Simulation)

특정 확률모델과 난수 생성 알고리즘을 이용하여 다량의 데이터를 반복적으로 생성. 복잡한 확률적 상황이나 가상 시나리오 구현에 적합

인공 데이터 생성 (Synthetic Data Generation)

머신러닝 및 딥러닝 기술을 사용하여 실제 데이터와 유사한 특징을 가지는 인공 데이터 생성. Generative Adversarial Networks (GAN), Variational Autoencoder (VAE) 등을 이용. 개인정보 보호나 현실적 시나리오 구현 시 유용

선형회귀 (linear regression)

독립변수들의 선형결합으로 종속변수 생성

$$y = 9.5 + 0.3x_1 + 0.1x_2 + 0.8x_3 + \varepsilon$$

$$\varepsilon \sim \mathcal{N}(0, 0.5^2)$$

여기서, $y$는 딸기의 당도

9.5는 전체 평균 당도: $\mu$

0.3, 0.1, 0.8은 각 속성의 영향 계수: $\alpha_i$

$0.5^2$은 정규분포 오차: $\epsilon$

관측 데이터셋 - 정형데이터

수집 개체
관측 개체
범주형 속성
연속형 속성
속성 간 관계
데이터 관측
관측 데이터셋

정형데이터

한우의 품질

개별 ID

\[
\mathbf{Z}_{\text{cat}} =
\begin{bmatrix}
z_1^{(1)} & z_2^{(1)} & z_3^{(1)} & z_4^{(1)} & z_5^{(1)} & z_6^{(1)} \\
z_1^{(2)} & z_2^{(2)} & z_3^{(2)} & z_4^{(2)} & z_5^{(2)} & z_6^{(2)} \\
\vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\
z_1^{(n)} & z_2^{(n)} & z_3^{(n)} & z_4^{(n)} & z_5^{(n)} & z_6^{(n)} \\
\end{bmatrix}
\]

\[
\mathbf{Z}_{\text{cat}} =
\begin{bmatrix}
z^{(1)}_{\text{지역}} & z^{(1)}_{\text{출생연도}} & z^{(1)}_{\text{SNP1}} & z^{(1)}_{\text{SNP2}} & z^{(1)}_{\text{SNP3}} & z^{(1)}_{\text{근내지방도}} \\
z^{(2)}_{\text{지역}} & z^{(2)}_{\text{출생연도}} & z^{(2)}_{\text{SNP1}} & z^{(2)}_{\text{SNP2}} & z^{(2)}_{\text{SNP3}} & z^{(2)}_{\text{근내지방도}} \\
\vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\
z^{(n)}_{\text{지역}} & z^{(n)}_{\text{출생연도}} & z^{(n)}_{\text{SNP1}} & z^{(n)}_{\text{SNP2}} & z^{(n)}_{\text{SNP3}} & z^{(n)}_{\text{근내지방도}} \\
\end{bmatrix}
\]

\[
\mathbf{Z}_{\text{cont}} =
\begin{bmatrix}
z_7^{(1)} & z_8^{(1)} & z_9^{(1)} & z_{10}^{(1)} \\
z_7^{(2)} & z_8^{(2)} & z_9^{(2)} & z_{10}^{(2)} \\
\vdots & \vdots & \vdots & \vdots \\
z_7^{(n)} & z_8^{(n)} & z_9^{(n)} & z_{10}^{(n)} \\
\end{bmatrix}
\]

\[
\mathbf{Z}_{\text{cont}} =
\begin{bmatrix}
z^{(1)}_{\text{등심단면적}} & z^{(1)}_{\text{도체중}} & z^{(1)}_{\text{등심지방함량}} & z^{(1)}_{\text{설도지방함량}} \\
z^{(2)}_{\text{등심단면적}} & z^{(2)}_{\text{도체중}} & z^{(2)}_{\text{등심지방함량}} & z^{(2)}_{\text{설도지방함량}} \\
\vdots & \vdots & \vdots & \vdots \\
z^{(n)}_{\text{등심단면적}} & z^{(n)}_{\text{도체중}} & z^{(n)}_{\text{등심지방함량}} & z^{(n)}_{\text{설도지방함량}} \\
\end{bmatrix}
\]

선형회귀 (linear regression)

독립변수들의 선형결합으로 종속변수 설명

\[
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon
\]

로지스틱회귀 (logistic regression)

범주형 종속변수 예측 (이진/다항)

\[
\Pr(y=1 \mid \mathbf{x}) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}}
\]

상관관계 (correlation)

두 연속형 변수 간의 선형 연관성 측정

\[
\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}
\]

공분산 (covariance)

두 변수가 서로 영향을 주어 변하는 정도

\[
\mathrm{Cov}(X, Y) = \mathbb{E}[(X – \mu_X)(Y – \mu_Y)]
\]

의사결정나무 (tree model)

규칙 기반 분기 구조로 속성 예측

\[
P(Y \mid X) = \frac{P(X,Y)}{P(X)}
\]

신경망 모델 (neural networks)

비선형 다층 구조의 함수 근사

\[
y = f^{(2)}\left( W^{(2)} \cdot f^{(1)}(W^{(1)} \cdot \mathbf{x} + \mathbf{b}^{(1)}) + \mathbf{b}^{(2)} \right)
\]

상호작용 항 (interaction term)

두 속성 간의 곱을 통한 관계

\[
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 (x_1 \cdot x_2) + \varepsilon
\]

다변량 정규분포 (multivariate normal)

여러 속성 간의 공분산 행렬로 표현

\[
\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})
\]

직접 관찰법 (Direct Observation)

연구자가 대상의 행동이나 특성을 직접 관찰하여 기록하는 방법. 자연적 상황에서의 실제 행동이나 사건을 있는 그대로 수집.

설문조사법 (Survey Method)

구조화된 질문지를 활용하여 개인의 의견, 행동, 경험 등을 수집하는 방법. 대규모 모집단에서 빠르게 데이터를 수집하기에 적합.

인터뷰법 (Interview Method)

연구자가 대상자와 직접 대면하여 질의응답을 통해 데이터를 얻는 방법. 구조적(structured), 반구조적(semi-structured), 비구조적(unstructured) 인터뷰 방식이 있음.

기록 데이터 분석법 (Archival Records Analysis)

이미 존재하는 공식적인 기록, 문서, 보고서, 행정자료 등을 이용해 데이터를 수집하는 방법. 객관적이고 반복 가능한 관측을 제공.

이차 데이터 활용법 (Secondary Data Analysis)

기존 연구나 데이터베이스에서 수집된 데이터를 재분석하거나 활용하여 데이터를 구성.

센서 데이터 수집법 (Sensor-Based Data Collection)

센서나 자동 측정 장비를 활용하여 연속적으로 환경적, 생리적, 행동적 데이터를 자동 기록. 객관성과 정확성이 높은 데이터 수집에 적합.

웹 크롤링(Web Crawling) 및 웹 스크레이핑(Web Scraping)

인터넷의 공개된 정보를 자동으로 수집하여 데이터를 구축. 온라인 콘텐츠, 소셜 미디어, 뉴스, 포럼 데이터 수집 등에 많이 활용.

한우 근내지방도 생성 모델 추론 (유전자형 제외) 

변수 정의

$x_1$은 등심지방함량 (%)

$x_2$는 설도지방함량 (%)

$x_3$는 도체중 (kg)

$y$는 근내지방도 (1~9 등급)

선형회귀 생성 모델

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \varepsilon$$

$$\varepsilon \sim \mathcal{N}(0, \sigma^2)$$

선형회귀 생성 모델 추론 예

$$
y = 0.8 + 0.4 x_1 + 0.2 x_2 + 0.01 x_3 + \varepsilon$$

$$\varepsilon \sim \mathcal{N}(0, 0.4^2)$$