DATA SCIENCE - p값 : 27
eISSN 0000-0000

데이터 용어

용어영문 용어표기 예표기 설명유사 용어용어 설명
변수variable$x$, $y$영 이탤릭 소문자특성(feature), 속성(attribute),
항목(item), 지표(indicator),
측정값(measurement),
필드(field), 인자(factor)

변화하는 값을 표현하거나 정의하는 데 사용

代數式에서 어떤 값이 들어갈 수 있는 자리

확률변수random variable, probability variable$X$, $Y$영 이탤릭 대문자확률적변수(stochastic variable),
랜덤변수 (random variable),
통계변수(statistical variable)
관측을 통해 얻으며 확률이 할당되는 미리 정해지지 않은 결과: 결과가 이산적이면 이산확률변수(Discrete Random Variable), 연속적이면 연속확률변수 (Continuous Random Variable)
상수constant$a$, $b$, $\cdots$영 이탤릭 소문자고정값, 불변량, 스칼라자연수, 정수, 실수, 복소수
객체objectMyCase
myCase
영 pascal case: 클래스 명
영 camel case: 인스턴스 명
인스턴스(instance), 엔터티(entity)보통 추상적이거나 범용적인 대상, 컴퓨터과학에서는 데이터와 그 데이터를 처리하는 함수를 포함하는 캡슐화된 개념
개체individualmyCase영 camel case: 인스턴스 명객체(object), 엔터티(entity),
인스턴스(instance)

개별적으로 식별되거나 고유한 특성을 가진 하나의 요소, 객체를 특정할 때 사용

개체가 생성(추출)되면 집단(group)을 이룸

개체의 연속형 속성은 실수(real number)로 표현

개체는 연속형 속성 별 연속확률분포를 가질 수 있음

개체의 범주형 속성은 개체가 속하는 집단명(범주명)으로 표현

개체는 범주형 속성 별 이산확률분포를 가질 수 있음

요소elementmyelement영 소문자원소독립변수
속성attributemyattribute영 소문자특성개체의 특성, the feature of object
변량으로 표현
집단groupmyGroup영 camel case집합순서가 없는 범주
집단은 부분집단을 가짐
집단은 확률을 가질 수 있음
수준levelmyLevel영 camel case 카테고리순서가 있는 범주
범주categorymyCategory영 camel case카테고리순서가 없는 카테고리나 수준
모집단population$P$, $N$영 대문자생성기

모든 가능한 관측치나 결과의 집합, 연구에서 관심을 갖는 대상

모집단은 모수(parameter)로 설명

표본sample$S = \{x_1, x_2, \dots, x_{50}\}$영 대문자와 집합샘플

표본(sample)은 모집단(population)이 실현된 집단(group)

모집단을 표현하는 모집단의 일부 개체의 집합, 표본은 실질적인 분석 대상

표본을 통해 모집단의 특성을 추정

표본은 통계량(statistic)으로 설명

표집sampling

$S=\{\{x_{11}, x_{12}\}, \{x_{21}, x_{22}\}, \cdots , \{x_{91}, x_{92}\}\}$

표본크기가 2인 표본을 9개 추출한 표집

영 대문자와 부분집합의 합집합샘플링, 추출(extraction)

모집단에서 일부 데이터를 선택하는 과정

표집을 통해 얻은 데이터 집합은 표본(sample)

데이터프레임data frame

df = pd.DataFrame(data)

df <- data.frame(c1 = c(1, 2), c2 = c(“A”, “B”))

DataFrame: 파이썬

data.frame: R

데이터구조

데이터 프레임의 각 열은 변수명과 변수값

개체 또는 집단을 행으로 속성을 열로 표현

데이터프레임은 개체의 속성을 나타내는 1행과 r개체의 속성값의 나머지행

빈도수frequency$f$, $n$영 이탤릭 소문자도수, 빈도, Count

변수의 일종

범주 또는 그룹별 개체의의 출현 빈도

분포를 파악하는 기본적인 수단

독립변수independent variable$x$영 이탤릭 소문자예측독립변수(predictor variable),
입력변수(input variable),
설명변수(explanatory variable),
조작변수(manipulated variable),
피처(feature),
원인변수
다른 변수(종속변수)의 변화에 영향을 주는 변수
종속변수dependent variable$y$영 이탤릭 소문자결과변수(outcome variable),
반응변수(response variable),
출력변수(output variable),
타겟변수(target variable),
예측대상변수(predicted variable),
결과변수
독립변수에 의해 그 값이 결정되거나 영향을 받는 변수
인자argument$\arg$영 소문자 $\arg$인수함수에 전달되어 함수를 특정하는 함수의 속성
매개변수parameter$b_i$: 표본회귀계수
$\beta_i$: 모회귀계수

영 이탤릭 소문자

그리스 이탤릭 소문자

파라미터함수의 속성
함수function$f$영 이탤릭 소문자Mapping (매핑),
Transformation (변환),
Operator (연산자)
입력값 $x$를 받아 출력값$f(x)$를 계산하는 대수식
회귀함수regression function$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon$$Y$는 종속변수
$X_i$는 독립변수
$\epsilon$은 회귀모델이 설명하지 못하는 무작위변동
평균으로의 회귀집단의 회귀점, 회귀선, 회귀면
집단 생성모델의 회귀계수($\beta$) 1차 회귀계수는 독립변수가 독립적이고 배타적일 때는 가중치($w$)가 됨