● 인공지능, 분석/21.08 nipa_AI실무과정

[AI 응용 ML] 이론 | 1.2 자료 형태란? | 수치형자료 범주형자료

0ver-grow 2021. 8. 30. 15:44
반응형

자료 형태 왜 알아야 하는가?

머신러닝은 데이터를 바탕으로 한 분석 방식.

고로, 자료 형태 파악하는 것이 머신러닝 활용의 필수 과정

 

다음 질문에 대해 대답할 수 있어야한다.

현재, 데이터가 어떻게 구성되어 있는가?

현재, 어떤 모델을 사용해야 하는가?

데이터 전처리는 어떻게 하는가?

 

자료 형태

1. 수치형

2. 범주형

1. 수치형

✔ 공통특징

- 양적

- 수치 측정 가능

 

✔ 수치형 종류

1-1. 수치형 中 연속형

- 연속적 관측값

- 3.1415923878... 

 

1-2. 수치형 中 이산형

- 셀 수 있는 관측값

- 게시글 수, 상품 수

 

2. 범주형

✔ 공통특징

- 질적

- 수치 측정 불가

 

2-1. 순위형 자료

- 범주 사이 순서가 의미 있음

- A+, A-, A0, ...

 

2-2. 명목형 자료

- 범주 사이 순서 무의미

- A, B, AB, O형

✔ 주의할 것

숫자 표현으로 수치형/범주형을 구분짓지 않음.

질적 자료인 범주형도 남녀 성별 구분 시,

남자를 1, 여자를 0으로 표현하는 경우가 있기 때문.

이 때 1,0은 상수(number)가 아닌 상징적 의미.


수치형 자료

수치를 통한 자료 요약

평균

평균의 특징

퍼진 정도의 측도 (표준편차, 분산)

분산

표준편차

히스토그램

히스토그램 특징


범주형 자료

요약이 필요한 이유?

1. 다수 범주가 반복 관측됨

2. 관측값 크기보다 포함 범주에 관심이 더 큼

범주에 속하는 관측값 개수 측정

각 범주가 차지하는 비율 파악

효율적인 범주 간 차이점 비교

 

예시.

도수분포표

 

 

반응형