본문 바로가기
반응형

● 인공지능, 분석/20.08 K-ICT5

데이터분석활동과 DIKW피라미드 2021. 6. 15.
[K-ICT] Scikit-learn - 머신러닝 라이브러리 Scikit-learn API 활용하기 - 회귀 모델 : 수치형 데이터 예측, 주택 가격 예측, 주가 예측 등 - 분류 모델 : 범주형 데이터 예측, 문자 인식 바탕 스팸 메일 구분 Feature : 특징, 칼럼, 열 n_features : 특징, 칼럼, 열의 개수 sample : 표본, 행 n_samples : 표본, 행의 개수 이를 위해선 X,y의 행의 길이(n_samples)가 동일해야한다. 특징행렬인 X를 통해 훈련을 하고 대상벡터인 y를 예측해서 찾아낸다. (특징행렬인 X의 1행의 피쳐로 y를 예측한다.) 분류문제면 이산형이 들어갔을 것이고 회귀문제면 연속수치형이 들어갔을 것 A. seed값을 주는 이유는 난수를 생성할 때, 동일한 데이터를 재현하기 위해서는 난수값이 일치.. 2020. 8. 12.
비지도학습관련 사이트 [ML with Python] 3장 비지도 학습과 데이터 전처리 - 군집 3.5 군집 subinium.github.io 2020. 8. 12.
[K-ICT] 머신러닝을 위한 통계학 머신러닝과 통계학은 닮은 점이 많다. 데이터 수집, 분석, 해석, 표현 과정뿐만 아니라 용어, 이론까지! 통계학은 수학이므로 머신러닝과 통계 모델을 다루는 과정에서 수학 이론에 대한 이해가 필요하다 대부분의 통계분석은 표본을 통해 진행함. 표본 대상의 통계 분석이 비용면에서 효율적 모집단은 인구총조사. 펜스밖은 이상치. 이상치가 들어간 상태에서 통계분석을 하게되면 통계 결과의 신뢰성을 잃는다. IQR은 이상치를 판별하여 통계 결과의 신뢰성을 높임 문제 4등분 = 4분위수(백등분 = 백분위수) 4등분하려면 5개의 숫자가 필요해 0, 25, 50, 75, 100 현재 우리가 검정해야하는 것? 표본이 하나라서 단일 표본이다. 이를 단일 표본 t검정, one sample t Test라고 한다. 정규분포를 따르는.. 2020. 8. 11.
[K-ICT] 머신러닝 개념, Numpy, Pandas, Matplotlib 개념 기존 프로그램 : 프로그래밍 언어를 이용, 정해진 규칙을 수행하는 것 머신러닝 : 프로그램이 데이터를 학습하여 규칙을 만들어 수행 머신러닝이란 1. 데이터로 부터 학습하도록 컴퓨터를 프로그래밍하는 분야 2. 명시적 프로그래밍없이 컴퓨터 스스로 학습하는 능력을 부여 3. 과거경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 CS 분야 4. 관측 패턴을 일반화하거나 샘플을 통해 새 규칙을 생성하는 목표를 가짐 머신러닝이 적용된 프로그램 자율주행차, 알파고, 음성인식명령, 문자인식 머신러닝을 사용하는 이유? 우선 전통적인 방법을 살펴보자 1. 문제를 찾고 연구, 분석한다. 2. 해결책을 만들기 위해 직접 규칙을 작성한다. (if 조건문) 예를들어, 조건문을 토대로 스팸 메일 필터 작성 3. 평가 진행 .. 2020. 8. 11.
반응형