반응형
머신러닝 데이터 전처리 이해
범주형, 수치형 데이터 전처리
머신러닝은 4단계로 진행됨
전처리 과정에서 머신러닝에 사용될 수 있는 형태로 데이터를 가공함
데이터 전처리의 역할
전처리는 왜 필요할까?
데이터 변환 때문.
실제 데이터는 다양한 형태로 존재한다.
기존 데이터는 머신러닝 모델이 이해할 수 있는 형태가 아님
전처리를 통해 머신러닝 모델이 이해할 수 있는 "수치형 자료"로 변환!
데이터 정제는 왜 필요할까?
이상치란?
소수점 나이
예시. 소수점 나이는 있을 수 없음
결측값이란?
NaN
데이터 분리란?
학습용 데이터와 평가용 데이터로 분리함.
왜 데이터 분리하지?
원본 데이터 전체를 학습 데이터로 활용하면
학습 데이터에 편향된 채 학습이 되기에
학습 데이터와 조금 다른 경우 정확성이 떨어질 수 있기 때문.
반응형
'● 인공지능, 분석 > 21.08 nipa_AI실무과정' 카테고리의 다른 글
[AI 응용 ML] 실습 | 2.3 명목형 자료 변환_수치맵핑 (0) | 2021.08.31 |
---|---|
[AI 응용 ML] 이론 | 2.2 범주형 자료 전처리 (0) | 2021.08.31 |
[AI 응용 ML] 실습 | 1.7 수치형 자료의 요약 - 히스토그램 (0) | 2021.08.30 |
[AI 응용 ML] 실습 | 1.6 수치형 자료의 요약 - 표준편차 (0) | 2021.08.30 |
[AI 응용 ML] 실습 | 1.5 수치형 자료의 요약 - 평균 (0) | 2021.08.30 |