● 인공지능, 분석/21.08 nipa_AI실무과정

[AI 응용 ML] 이론 | 2.1 전처리

0ver-grow 2021. 8. 31. 13:31
반응형

머신러닝 데이터 전처리 이해

범주형, 수치형 데이터 전처리

 

머신러닝은 4단계로 진행됨

전처리 과정에서 머신러닝에 사용될 수 있는 형태로 데이터를 가공함

 

데이터 전처리의 역할

전처리는 왜 필요할까?

데이터 변환 때문.

실제 데이터는 다양한 형태로 존재한다.

기존 데이터는 머신러닝 모델이 이해할 수 있는 형태가 아님

전처리를 통해 머신러닝 모델이 이해할 수 있는 "수치형 자료"로 변환!

 

데이터 정제는 왜 필요할까?

이상치란?

소수점 나이

예시. 소수점 나이는 있을 수 없음

 

결측값이란?

NaN

 

데이터 분리란?

학습용 데이터와 평가용 데이터로 분리함.

 

왜 데이터 분리하지?

원본 데이터 전체를 학습 데이터로 활용하면

학습 데이터에 편향된 채 학습이 되기에 

학습 데이터와 조금 다른 경우 정확성이 떨어질 수 있기 때문.

 

 

반응형