본문 바로가기
반응형

● 인공지능, 분석120

[AI 응용 ML] 이론 | 2.5 수치형 자료 전처리 수치형 자료란? 스케일링의 정규화 좌측, 변환 전에서 feature_3의 범주는 1 ~ 200까지이나 우측, 정규화 변환 후 0.1 ~ 0.5까지의 범주를 지님 이를 통해, 머신러닝안에서 공정하게 비교가 가능해짐 스케일링의 표준화 앞서 정규화에선 feature_3의 값이 0~1의 값을 지녔다면 표준화에선 -2 ~ 2의 값을 지님 표준화란, 평균이 0, 표준편차가 1이므로 -2 ~ 2사이의 값을 지니는 분포로 바뀜. 표준화를 통해 머신러닝상에서 공정한 경쟁이 이뤄지게함 범주화란? 변수의 값보다 범주가 중요한 경우 사용 시험 점수 예측이 아닌 점수가 평균 이상인지 이하인지를 찾을 때 이상, 이하에 대한 범주를 구하고자할 때 사용. 2021. 8. 31.
[AI 응용 ML] 실습 | 2.4 명목형 자료 변환_더미방식 명목형 자료 변환하기 - 더미 방식 명목형 자료를 수치형 자료로 변환하는 방식으로 더미 방식이 있습니다. titanic 데이터에서 범주형 자료인 Embarked 데이터는 S, Q, C 3가지 값을 가지고 있습니다. 이를 더미 방식을 사용하여 변환해봅시다. titanic 데이터 구성 지시사항 Embarked의 S, Q, C데이터를 더미를 사용하여 변환하고 dummies에 저장해 봅시다. 문제 import pandas as pd from elice_utils import EliceUtils elice_utils = EliceUtils() # 데이터를 읽어옵니다. titanic = pd.read_csv('./data/titanic.csv') print('변환 전: \n',titanic['Embarked'].h.. 2021. 8. 31.
[AI 응용 ML] 실습 | 2.3 명목형 자료 변환_수치맵핑 명목형 자료 변환하기 - 수치 맵핑 머신러닝의 입력으로 사용하기 위하여 명목형 자료를 수치형 자료로 변환할 필요가 있습니다. titanic 데이터에서 범주형 자료인 성별(Sex) 데이터는 male, female 값을 가지고 있습니다. 이를 0, 1 인 수치형 자료로 변환해 봅시다. titanic 데이터 구성 문제 import pandas as pd from elice_utils import EliceUtils elice_utils = EliceUtils() # 데이터를 읽어옵니다. titanic = pd.read_csv('./data/titanic.csv') print('변환 전: \n',titanic['Sex'].head()) """ 1. replace를 사용하여 male -> 0, female -> .. 2021. 8. 31.
[AI 응용 ML] 이론 | 2.2 범주형 자료 전처리 명목형 자료 / 순서형 자료 명목형 : 의미 없는 범주 크기 (각 범주는 상징성) 순서형 : 의미 있는 범주 크기 (각 범주는 수치성) 1은 생존, 0은 사망처럼 숫자를 범주로 활용 명목형 자료_수치맵핑변환 1. 범주를 0 또는 1로 맵핑 2. 범주를 0, 1, 2로 변환 명목형 자료_더미 기법 0은 No, 1은 Yes를 의미한다. 변수를 추가하여 0, 1로 맵핑. 수치맵핑은 칼럼 하나에 범주를 작성했다면 더미기법은 범주의 갯수 만큼의 칼럼을 생성해서 모두 작성함 순서형 자료_수치맵핑 주관적인 것을 수치화 시킴. 크기 차이를 통해 데이터를 강조함 이 수치의 크기가 머신러닝 결과에 영향을 미침 2021. 8. 31.
[AI 응용 ML] 이론 | 2.1 전처리 머신러닝 데이터 전처리 이해 범주형, 수치형 데이터 전처리 머신러닝은 4단계로 진행됨 전처리 과정에서 머신러닝에 사용될 수 있는 형태로 데이터를 가공함 데이터 전처리의 역할 전처리는 왜 필요할까? 데이터 변환 때문. 실제 데이터는 다양한 형태로 존재한다. 기존 데이터는 머신러닝 모델이 이해할 수 있는 형태가 아님 전처리를 통해 머신러닝 모델이 이해할 수 있는 "수치형 자료"로 변환! 데이터 정제는 왜 필요할까? 이상치란? 소수점 나이 예시. 소수점 나이는 있을 수 없음 결측값이란? NaN 데이터 분리란? 학습용 데이터와 평가용 데이터로 분리함. 왜 데이터 분리하지? 원본 데이터 전체를 학습 데이터로 활용하면 학습 데이터에 편향된 채 학습이 되기에 학습 데이터와 조금 다른 경우 정확성이 떨어질 수 있기 때문. 2021. 8. 31.
[AI 응용 ML] 실습 | 1.7 수치형 자료의 요약 - 히스토그램 지시사항 코드 입력창에 히스토그램을 그리는 코드를 입력해주세요. plt.hist(coffee) 문제 import numpy as np import pandas as pd import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() # 카페인 데이터 coffee = np.array([202,177,121,148,89,121,137,158]) fig, ax = plt.subplots() """ 1. 히스토그램을 그리는 코드를 작성해 주세요 """ # 히스토그램을 출력합니다. plt.show() fig.savefig("hist_plot.png") elice_utils.send_image("hist_plo.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.6 수치형 자료의 요약 - 표준편차 수치형 자료의 요약 중 퍼진정도의 측도를 나타내주는 요약통계량인 표준편차 지시사항 coffee에 저장된 카페인 함량 값들의 표준편차를 계산해서 cf_std 에 저장해서 확인해봅시다. 표준편차 계산 함수 statistics의 stdev 함수는 표준편차를 계산하여 리턴합니다. 입력으로 numpy array를 입력하여 계산할 수 있습니다. std = stdev(array) 문제 from statistics import stdev import numpy as np coffee = np.array([202,177,121,148,89,121,137,158]) """ 1. 표준편차 계산 """ cf_std = None # 소수점 둘째 자리까지 반올림하여 출력합니다. print("Sample std.Dev : ", r.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.5 수치형 자료의 요약 - 평균 지시사항 coffee에 저장된 카페인 함량 값들의 평균을 계산하여 cf_mean 에 저장해봅시다. 힌트 평균 계산 함수 np.mean 함수는 평균을 계산하여 리턴합니다. 입력으로 numpy array를 입력하여 계산할 수 있습니다. mean = np.mean(array) 문제 import numpy as np coffee = np.array([202,177,121,148,89,121,137,158]) print(coffee) """ 1. 평균계산 """ cf_mean = None # 소수점 둘째 자리까지 반올림하여 출력합니다. print("Mean :", round(cf_mean,2)) 정답 import numpy as np coffee = np.array([202,177,121,148,89,121,13.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.4 범주형 자료의 요약 - 막대그래프 [실습1]에서 계산했던 술자리 참석 빈도의 도수를 한 눈에 보기 쉽도록 그래프를 그리겠습니다. 앞선 실습의 결과를 통해 막대 그래프를 그려보겠습니다. [실습1]의 도수 결과 지시사항 참석 비율(ratio)을 기준으로 막대그래프 막대의 크기를 다르게 하는 코드를 작성하여 출력하세요. plt.bar(labels,ratio)​ Tips! plt.show() 함수는 만든 그래프를 보여주는 역할입니다. 아래 코드는 엘리스 플랫폼에서 그림 파일을 출력하기 위한 코드입니다! fig.savefig("bar_plot.png") elice_utils.send_image("bar_plot.png") 주어진 코드 from elice_utils import EliceUtils import matplotlib.pyplot as .. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.3 범주형 자료의 요약 - 도수분포표 범주형 자료를 요약하기 위해 도수분포표를 출력해보겠습니다. A, B, C, D, E 이 다섯 명의 술자리 참여 횟수가 기록된 데이터를 저장한 파일인 drink.csv 파일을 이용하여 누가 제일 술자리에 자주 나왔는지 value_counts() 함수로 계산한 도수로 확인해봅시다. drink.csv파일은 두 가지 구성 요소가 있습니다. Attend : 참석한 경우 1, 참석하지 않은 경우 0 Name : 참석자의 이름 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 도수계산 함수 value_counts() 함수는 pandas Series의 도수를 구하여 출력하는 함수입니다. 아래와 코드.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.2 자료 형태란? | 수치형자료 범주형자료 자료 형태 왜 알아야 하는가? 머신러닝은 데이터를 바탕으로 한 분석 방식. 고로, 자료 형태 파악하는 것이 머신러닝 활용의 필수 과정 다음 질문에 대해 대답할 수 있어야한다. 현재, 데이터가 어떻게 구성되어 있는가? 현재, 어떤 모델을 사용해야 하는가? 데이터 전처리는 어떻게 하는가? 자료 형태 1. 수치형 2. 범주형 1. 수치형 ✔ 공통특징 - 양적 - 수치 측정 가능 ✔ 수치형 종류 1-1. 수치형 中 연속형 - 연속적 관측값 - 3.1415923878... 1-2. 수치형 中 이산형 - 셀 수 있는 관측값 - 게시글 수, 상품 수 2. 범주형 ✔ 공통특징 - 질적 - 수치 측정 불가 2-1. 순위형 자료 - 범주 사이 순서가 의미 있음 - A+, A-, A0, ... 2-2. 명목형 자료 - 범주.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.1 인공지능/머신러닝 개론 | 지도학습, 비지도학습, 강화학습 목표 1. 데이터전처리 ~ 평가방식 학습. 머신러닝 전반 학습 2, 지도학습 (회귀 및 분류) 알고리즘 학습 3. 자료 형태의 이해 4. 데이터 전처리 머신러닝? 컴퓨터가 스스로 학습 능력갖게 하는 것 빅데이터 분석툴. 기존 통계학, 시각화 기법 한계 해결. 훈련 데이터와 정답 데이터가 있다면 : 지도학습 없다면 : 비지도학습 강화학습이란? 시행착오(Trial and Error)를 통해 학습하는 방법 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘. 기존의 신경망들이 라벨(정답)이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상(Reward)이라는 개념을 사용하여 가중치와 편향을 학습 목적은 최적의 행동양식 또는 정책을 학습하는 것 ex. 알파고 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 6 2021. 8. 30.
[직딩잇템] 어서와 데이터는 처음이지 - 데이터 개념 5 | 모평균 모표준편차 표본평균 표본표준편차 표본수치 통계에서 쓰이는 기호와 용어 모수치와 표본수치에 대해 알아보자. 그전에 개념 복습 1. 모집단 : 더보기 구하고 싶은 전체 데이터 2. 표집(샘플링) : 더보기 모집단 중 일부를 선택하여 얻어진 데이터 3. 무선표집 (랜덤샘플링) : 더보기 표집 시 특정 기준없이 무작위로 뽑아내는 표집 방법 4. 표집수(N) : 더보기 표집 시 뽑는 데이터의 개수 5. 표본(샘플) : 더보기 표집으로 뽑은 데이터 A. 모평균(뮤) 모집단의 평균(모평균) : 모집단이 있을 때, 모집단의 데이터로 구해낸 평균 모평균을 구하는 공식 여기서의 시그마 : 모든 것을 더함 B. 모표준편차(시그마) 모집단의 표준편차 (모표준편차) 모표준편차도 시그마라고 불림. A. 모평균(뮤), B. 모표준편차(시그마) 구하려면 모집단 데이터가 있.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 4 | 랜덤샘플링, 무선표집, 편향, 불편향 랜덤샘플링 == 무선표집 샘플링 시 기준을 두지 않고 무작위로 추출하는 과정 왜 해야하지? 샘플링 잘못하면 일어나는 참사(편향,bias)를 예방하기 위함 편향? 샘플링할 때, 특정 기준을 두고 샘플링하여 데이터가 한 쪽으로 치우치는 현상. 불편향? 편향의 반대말 우리의 목표 샘플 데이터! 질 좋은 데이터 왜 불편향인 랜덤 샘플링을 써야할까? 디테일한 기준을 세워버리게되면 그 샘플데이터는 문제가 발생함. 랜덤 샘플링을 사용하지 않았을 때, 편향 데이터 사례 1936년 미대선 : 루즈벨트 vs 랜던 A. 리터러리 다이제스트의 예측 대규모 설문조사 1000만명에게 일일이 전화 걸기 3분의 1에 해당하는 260만명에게 투표 응답 얻음 설문조사 분석결과? 랜던이 이길 것. B. 조지 갤럽의 예측 260만개의 데이.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 3 | 모집단, 표본, 표집수, 랜덤샘플링 데이터 수집은 어떻게 하는가? 모집단과 랜덤 샘플링 빅데이터를 어떻게 하면 잘 활용할 수 있을까? 현실적으로 데이터는 막 쌓인 더미 이지만 단순히 쌓기만 하면 안됨. 데이터를 제대로 활용할 수 있게 쌓여야함 즉, 왜 이 데이터를 수집하는지 알아야함 데이터 수집시 조건 1. 왜 하는지 2. 무엇을 위해서 할 것인지 Garbage in Garbage Out 질 좋은 데이터를 결정하는 것? 1. 요구조건. 어떤 결과를 어떻게 얻고 싶은지 명확하게 정의 질 좋은 데이터는 요구조건에 달려있음 아무렇게나 쌓인 데이터에 대한 전통적 통계 접근방법? 요구목적을 해결하기 위해 정확히 어떤 공식을 쓸 것인가 현재 가지고 있는 데이터를 파악하자. 표형태로 되어야 분석이 가능 키 데이터만 있으면 구할 수 있음 요구목적을 확실.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 2 | 빅데이터, 머신러닝, 학습방법 빅데이터와 머신러닝 시대. 무엇을 배워야할까? 다양한 기술과 이론들이 접목된 짬뽕분야 빅데이터란, 엄청나게 많은 데이터 대량으로 축적된 데이터 덩어리 머신러닝이란, 빅데이터를 이용하여 데이터를 분석하는 기법(방법론, 알고리즘) 중 하나. 구체적인 방법론(How 목표 수치 얻어?) 이자 수학공식 목적이 아닌 수단 머신러닝 사용법 1. 목적을 정의한다. 2. 목적에 맞는 데이터 확보 3. 적절한 머신러닝 기법 활용 결과의 정확성이 달라짐. 필요 기본 스킬 3가지 1. 통계 통계의 기초 부분을 먼저학습 후 필요할 때 추가적으로 학습할 것 공식, 원리까지 알 필요 없음 통계 하나만 해도 배울게 많기 때문 2. 수학 - 선형대수 (행렬의 확장판 - 미분 머신러닝에서 현재까지 틀린 정도를 계산할 때 쓰임 3. 도구.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 1 | 데이터분석, 데이터 분석 순서 데이터분석, 다음 2가지 부터 시작하자. 1. 목적을 구체적으로 정의할 것. 2. 데이터의 기본적인 특성과 문제점 파악하기. 1. 구체적 분석 목적의 정의 분석, 왜 해야하는거지 어떤 문제를 어떻게 해결하고 싶은가 어떤 결과를 원하고 싶은지를 명확히 할 것 일반적인 데분 순서는 다음과 같아. 목표정의 > 전처리 > 알고리즘 서택 및 분석 > 검증 및 테스트 예시> 낡은 홈피 개편 어떻게? 고객 데이터를 바탕으로 새 홈페이지가 고객들에게 만족감을 줄 수 있는지를 분석 여기서 만의 의미를 어떻게 정의할 것인가? 무엇으로 만족도를 측정할 것인가. 애매한 단어를 미리 정의할 것. 2. 데이터의 기본적인 특성과 문제점을 파악하라. 데이터는 어떻게 생겼는가? 데이터의 특성 파악. 데이터의 단순 수치, 통계적 특성,.. 2021. 8. 30.
반응형