본문 바로가기
● 인공지능, 분석/20.08 K-ICT

[K-ICT] Scikit-learn

by 0ver-grow 2020. 8. 12.
반응형

- 머신러닝 라이브러리 Scikit-learn API 활용하기

- 회귀 모델 : 수치형 데이터 예측, 주택 가격 예측, 주가 예측 등

- 분류 모델 : 범주형 데이터 예측, 문자 인식 바탕 스팸 메일 구분

 

 

Feature : 특징, 칼럼, 열

n_features : 특징, 칼럼, 열의 개수

sample : 표본, 행

n_samples : 표본, 행의 개수

 

이를 위해선 X,y의 행의 길이(n_samples)가 동일해야한다.

 

특징행렬인 X를 통해 훈련을 하고

대상벡터인 y를 예측해서 찾아낸다.

(특징행렬인 X의 1행의 피쳐로 y를 예측한다.)

분류문제면 이산형이 들어갔을 것이고

회귀문제면 연속수치형이 들어갔을 것

A. seed값을 주는 이유는 난수를 생성할 때, 동일한 데이터를 재현하기 위해서는 난수값이 일치해야한다.

그래야 동일한 유사난수를 만들 수 있음.

고로 RandomState를 쓸 때는 seed값을 고정하는게 좋다

 

B. RadomState객체를 만들었으므로, 이를 이용해 rand함수를 생성해서 5개의 랜덤정보를 가진 1차원 배열

ndarray형태

 

C. x를 특징행렬로 쓰고 y를 대상 벡터로 쓰려면 형태변환이 필요해.

행,열을 바꿔서 5행 1열이 됨

1차원 배열구조에서 2차원 배열구조로 변화함

 


Seaborn : matplotlib 라이브러리의 플러그인 역할. 시각화 라이브러리

 

반응형