반응형
- 머신러닝 라이브러리 Scikit-learn API 활용하기
- 회귀 모델 : 수치형 데이터 예측, 주택 가격 예측, 주가 예측 등
- 분류 모델 : 범주형 데이터 예측, 문자 인식 바탕 스팸 메일 구분
Feature : 특징, 칼럼, 열
n_features : 특징, 칼럼, 열의 개수
sample : 표본, 행
n_samples : 표본, 행의 개수
이를 위해선 X,y의 행의 길이(n_samples)가 동일해야한다.
특징행렬인 X를 통해 훈련을 하고
대상벡터인 y를 예측해서 찾아낸다.
(특징행렬인 X의 1행의 피쳐로 y를 예측한다.)
분류문제면 이산형이 들어갔을 것이고
회귀문제면 연속수치형이 들어갔을 것
A. seed값을 주는 이유는 난수를 생성할 때, 동일한 데이터를 재현하기 위해서는 난수값이 일치해야한다.
그래야 동일한 유사난수를 만들 수 있음.
고로 RandomState를 쓸 때는 seed값을 고정하는게 좋다
B. RadomState객체를 만들었으므로, 이를 이용해 rand함수를 생성해서 5개의 랜덤정보를 가진 1차원 배열
ndarray형태
C. x를 특징행렬로 쓰고 y를 대상 벡터로 쓰려면 형태변환이 필요해.
행,열을 바꿔서 5행 1열이 됨
1차원 배열구조에서 2차원 배열구조로 변화함
Seaborn : matplotlib 라이브러리의 플러그인 역할. 시각화 라이브러리
반응형
'● 인공지능, 분석 > 20.08 K-ICT' 카테고리의 다른 글
데이터분석활동과 DIKW피라미드 (0) | 2021.06.15 |
---|---|
비지도학습관련 사이트 (0) | 2020.08.12 |
[K-ICT] 머신러닝을 위한 통계학 (0) | 2020.08.11 |
[K-ICT] 머신러닝 개념, Numpy, Pandas, Matplotlib 개념 (0) | 2020.08.11 |