Q-dataset : 2
Q&A : 23
Quiz : 180
0000-0000

[ Q$\&$A ]

조건부사건(A|B)과 곱사건(A$\cap$B)의 표본공간은 같은가?

CONTENTS

양적데이터는 수치로 표현되는 정보입니다. 질적데이터는 수치로 표현되지 않는 정보입니다.

양적데이터는 간격척도와 비례척도로 표현됩니다. 질적데이터는 명목척도와 순서척도로 표현됩니다. 도수데이터는 비례척도로 표현됩니다.

Data type

표현방식에 따른 데이터종류

질적데이터는 수치가 아닌 기호로 표현된 데이터입니다. 질적데이터는 명목척도와 순서척도로 구한 데이터입니다. 양적데이터는 수치로 표현된 데이터입니다. 양적데이터는 간격척도와 비례척도로 구한 데이터입니다.

질적데이터

질적데이터는 수치로 표현되지 않은 데이터(관측값)입니다. 질적데이터는 명목척도와 순서척도로 관측한 데이터입니다. 질적데이터는 수치가 아닌 기호로 표현됩니다. 질적데이터는 개체명, 개체가 속하는 범주명, 순서와 같이 관측대상의 질적 정의를 의미합니다. 숫자를 기호로 취급하여 개체의 이름(명목)을 정의한 질적데이터도 있습니다. 질적데이터는 명목척도와 순서척도로 관측한 관측값입니다.

질적/양적데이터와 도수데이터 비교

데이터는 변수(변수명과 변수값)을 관측한 결과입니다. 데이터는 개체나 범주의 속성을 표현한 양적데이터와 질적데이터가 있으며 범주의 속성인 범주에 속하는 개체의 도수(빈도수, frequency)를 표현한 도수데이터가 있습니다.

Fig 1. 질적/양적데이터와 도수데이터 비교

Table 1. 질적/양적데이터와 도수데이터 비교

데이터종류척도관측대상관측값 의미관측대상의 속성 형태관측대상 – 관측대상의 속성 예시관측값 예시

질적데이터

(qualitative)

명목척도

(nominal scale)

범주

(category)

명목

범주형

(nominal)

회사 – 산업분류

사람 – 성별

{ 전자, 전기, 화공, 기계, 식품 }

{ 남, 여 }

개체

(indivisual)

명목범주형

대한민국 국민 – 주민번호

신청자 – ID

{ 210427-XXXXXXX, …  }

{ ID-1, … , ID-100 }

순서척도

(ordinal scale)

범주순서순서가 있는 범주형

음식점 – 서비스질

의류 – 크기

응시자 – 석차등급

{ 상, 중, 하 }

{ XS, S, M, L, XL }

{ 1 등급, … , 5등급}

개체순서순서가 있는 범주형개인용 컴퓨터 – Serial Number{ 001, 002, … , 200 }

양적데이터

(quantitative)

간격척도

(interval scale)

범주위치

연속형

(continuous)

국가 – 시간대{ 1 동경시간대, … , 12 서경시간대 }
개체위치연속형사람 – 수명{ y ; 0년 < y < 135년 }

비례척도

(ratio scale)

범주크기연속형한국인 – 기대수명{ y ; 55.3세 < y < 86.5세 }
개체크기연속형

사람 – 키

딸기 – 당도

{ y ; y > 100 cm }

{ y ; 0 Brix < y < 100 Brix }

도수데이터

(frequecy)

빈도척도

(frequency scale)

범주도수

이산형

(discrete)

공장 –  1일 불량품수{ 1 개, …  }

상대빈도척도

(ratio scale)

범주상대도수연속형

딸기 – 용액 100 g 당 설탕의 무게

대한민국 국민 – 고혈압 비율

{ y ; 0 g < y < 100 g }

{ P ; 0 % < p < 100 % }

Terminology

데이터

데이터는 질적 또는 양적 변수값의 집합입니다. 데이터와 정보 또는 지식은 종종 같은 의미로 사용하지만 데이터를 분석하면 정보가 된다고 볼 수 있습니다. 데이터는 일반적으로 연구의 결과물로 얻어집니다. 한편, 데이터는 경제(매출, 수익, 주가 등), 정부(예 : 범죄율, 실업률, 문맹율)와  비정부기구(예 : 노숙자 인구 조사)등 다양한 분야에서도 나타납니다. 그리고 데이터를 수집 및 분석하고 시각화할 수 있습니다.

일반적인 개념의 데이터는 응용이나 처리에 적합한 형태로 표현되거나 코딩됩니다. 원시 데이터 (“정리되지 않은 데이터”)는  “정리”되기 전의 숫자 또는 문자의 모음입니다. 따라서 데이터의 오류를 제거하려면 원시 데이터에서 데이터를 수정해야 합니다. 데이터 정리는 일반적으로 단계별로 이루어지며 한 단계의 “정리 된 데이터”는 다음 단계의 “원시 데이터”가 됩니다. 현장 데이터는 자연적인  “현장”에서 수집되는 원시 데이터입니다. 실험 데이터는 관찰 및 기록을 통한 과학적 조사에서 생성되는 데이터입니다. 데이터는 디지털 경제의 새로운 자원입니다.

Reference

Data – Wikipedia