본문 바로가기
반응형

분류 전체보기514

[AI 응용 ML] 실습 | 2.8 결측값 처리하기 결측값 처리하기 결측값이 있는 데이터는 일반적으로 머신러닝의 입력으로 사용할 수 없습니다. 그렇기에 데이터 전 처리 과정에서는 삭제 또는 대체 방식으로 결측값을 처리합니다. 이번 실습에서는 titanic 데이터에서 과반수 이상의 데이터가 결측값으로 존재하는Cabin 변수를 삭제합니다. 이 후, 나머지 변수에 존재하는 결측값을 처리하기 위하여 결측값이 존재하는 샘플들을 제거합니다. pandas의 DataFrame에서 특정 변수(columns)를 삭제하기 위해서는 drop사용합니다. DataFrame.drop(columns=[변수명]) DataFrame에서 결측값이 있는 샘플을 제거하기 위해서는 dropna를 사용합니다. DataFrame.dropna() titanic 데이터 구성 지시사항 drop 을 사용.. 2021. 8. 31.
[AI 응용 ML] 이론 | 2.7 데이터 정제 및 분리 결측값 처리하기 이상치 처리하기 데이터 분리는 왜 필요할까? 지도학습 데이터 분리 지도학습은 한 번 더 데이터를 분리해야됨 예시) 공부시간 대비 시험점수를 예측해보자. 이 때, 예측대상인 시험점수 데이터가 레이블 데이터 예측을 위해 필요한 공부시간 데이터가 피쳐 데이터 다음 가설에서 레이블(Label) 데이터는 무엇일까? 정답 2021. 8. 31.
[AI 응용 ML] 실습 | 2.6 수치형 자료 변환하기_정규화 / 표준화 수치형 자료 변환하기 - 정규화 수치형 자료의 경우 다른 수치형 자료와 범위를 맞추기 위해 정규화 또는 표준화를 수행합니다. 이번 실습에서는 titanic 데이터에서 수치형 자료인 Fare 데이터를 정규화해보겠습니다. 정규화 공식 titanic 데이터 구성 지시사항 normal 함수를 완성하고 Fare 데이터를 정규화하여 Fare에 저장합니다. 문제 import pandas as pd from elice_utils import EliceUtils elice_utils = EliceUtils() """ 1. 정규화를 수행하는 함수를 구현합니다. """ def normal(data): data = None return data # 데이터를 읽어옵니다. titanic = pd.read_csv('./data/t.. 2021. 8. 31.
[AI 응용 ML] 이론 | 2.5 수치형 자료 전처리 수치형 자료란? 스케일링의 정규화 좌측, 변환 전에서 feature_3의 범주는 1 ~ 200까지이나 우측, 정규화 변환 후 0.1 ~ 0.5까지의 범주를 지님 이를 통해, 머신러닝안에서 공정하게 비교가 가능해짐 스케일링의 표준화 앞서 정규화에선 feature_3의 값이 0~1의 값을 지녔다면 표준화에선 -2 ~ 2의 값을 지님 표준화란, 평균이 0, 표준편차가 1이므로 -2 ~ 2사이의 값을 지니는 분포로 바뀜. 표준화를 통해 머신러닝상에서 공정한 경쟁이 이뤄지게함 범주화란? 변수의 값보다 범주가 중요한 경우 사용 시험 점수 예측이 아닌 점수가 평균 이상인지 이하인지를 찾을 때 이상, 이하에 대한 범주를 구하고자할 때 사용. 2021. 8. 31.
[AI 응용 ML] 실습 | 2.4 명목형 자료 변환_더미방식 명목형 자료 변환하기 - 더미 방식 명목형 자료를 수치형 자료로 변환하는 방식으로 더미 방식이 있습니다. titanic 데이터에서 범주형 자료인 Embarked 데이터는 S, Q, C 3가지 값을 가지고 있습니다. 이를 더미 방식을 사용하여 변환해봅시다. titanic 데이터 구성 지시사항 Embarked의 S, Q, C데이터를 더미를 사용하여 변환하고 dummies에 저장해 봅시다. 문제 import pandas as pd from elice_utils import EliceUtils elice_utils = EliceUtils() # 데이터를 읽어옵니다. titanic = pd.read_csv('./data/titanic.csv') print('변환 전: \n',titanic['Embarked'].h.. 2021. 8. 31.
[AI 응용 ML] 실습 | 2.3 명목형 자료 변환_수치맵핑 명목형 자료 변환하기 - 수치 맵핑 머신러닝의 입력으로 사용하기 위하여 명목형 자료를 수치형 자료로 변환할 필요가 있습니다. titanic 데이터에서 범주형 자료인 성별(Sex) 데이터는 male, female 값을 가지고 있습니다. 이를 0, 1 인 수치형 자료로 변환해 봅시다. titanic 데이터 구성 문제 import pandas as pd from elice_utils import EliceUtils elice_utils = EliceUtils() # 데이터를 읽어옵니다. titanic = pd.read_csv('./data/titanic.csv') print('변환 전: \n',titanic['Sex'].head()) """ 1. replace를 사용하여 male -> 0, female -> .. 2021. 8. 31.
[AI 응용 ML] 이론 | 2.2 범주형 자료 전처리 명목형 자료 / 순서형 자료 명목형 : 의미 없는 범주 크기 (각 범주는 상징성) 순서형 : 의미 있는 범주 크기 (각 범주는 수치성) 1은 생존, 0은 사망처럼 숫자를 범주로 활용 명목형 자료_수치맵핑변환 1. 범주를 0 또는 1로 맵핑 2. 범주를 0, 1, 2로 변환 명목형 자료_더미 기법 0은 No, 1은 Yes를 의미한다. 변수를 추가하여 0, 1로 맵핑. 수치맵핑은 칼럼 하나에 범주를 작성했다면 더미기법은 범주의 갯수 만큼의 칼럼을 생성해서 모두 작성함 순서형 자료_수치맵핑 주관적인 것을 수치화 시킴. 크기 차이를 통해 데이터를 강조함 이 수치의 크기가 머신러닝 결과에 영향을 미침 2021. 8. 31.
[AI 응용 ML] 이론 | 2.1 전처리 머신러닝 데이터 전처리 이해 범주형, 수치형 데이터 전처리 머신러닝은 4단계로 진행됨 전처리 과정에서 머신러닝에 사용될 수 있는 형태로 데이터를 가공함 데이터 전처리의 역할 전처리는 왜 필요할까? 데이터 변환 때문. 실제 데이터는 다양한 형태로 존재한다. 기존 데이터는 머신러닝 모델이 이해할 수 있는 형태가 아님 전처리를 통해 머신러닝 모델이 이해할 수 있는 "수치형 자료"로 변환! 데이터 정제는 왜 필요할까? 이상치란? 소수점 나이 예시. 소수점 나이는 있을 수 없음 결측값이란? NaN 데이터 분리란? 학습용 데이터와 평가용 데이터로 분리함. 왜 데이터 분리하지? 원본 데이터 전체를 학습 데이터로 활용하면 학습 데이터에 편향된 채 학습이 되기에 학습 데이터와 조금 다른 경우 정확성이 떨어질 수 있기 때문. 2021. 8. 31.
[AI 응용 ML] 실습 | 1.7 수치형 자료의 요약 - 히스토그램 지시사항 코드 입력창에 히스토그램을 그리는 코드를 입력해주세요. plt.hist(coffee) 문제 import numpy as np import pandas as pd import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() # 카페인 데이터 coffee = np.array([202,177,121,148,89,121,137,158]) fig, ax = plt.subplots() """ 1. 히스토그램을 그리는 코드를 작성해 주세요 """ # 히스토그램을 출력합니다. plt.show() fig.savefig("hist_plot.png") elice_utils.send_image("hist_plo.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.6 수치형 자료의 요약 - 표준편차 수치형 자료의 요약 중 퍼진정도의 측도를 나타내주는 요약통계량인 표준편차 지시사항 coffee에 저장된 카페인 함량 값들의 표준편차를 계산해서 cf_std 에 저장해서 확인해봅시다. 표준편차 계산 함수 statistics의 stdev 함수는 표준편차를 계산하여 리턴합니다. 입력으로 numpy array를 입력하여 계산할 수 있습니다. std = stdev(array) 문제 from statistics import stdev import numpy as np coffee = np.array([202,177,121,148,89,121,137,158]) """ 1. 표준편차 계산 """ cf_std = None # 소수점 둘째 자리까지 반올림하여 출력합니다. print("Sample std.Dev : ", r.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.5 수치형 자료의 요약 - 평균 지시사항 coffee에 저장된 카페인 함량 값들의 평균을 계산하여 cf_mean 에 저장해봅시다. 힌트 평균 계산 함수 np.mean 함수는 평균을 계산하여 리턴합니다. 입력으로 numpy array를 입력하여 계산할 수 있습니다. mean = np.mean(array) 문제 import numpy as np coffee = np.array([202,177,121,148,89,121,137,158]) print(coffee) """ 1. 평균계산 """ cf_mean = None # 소수점 둘째 자리까지 반올림하여 출력합니다. print("Mean :", round(cf_mean,2)) 정답 import numpy as np coffee = np.array([202,177,121,148,89,121,13.. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.4 범주형 자료의 요약 - 막대그래프 [실습1]에서 계산했던 술자리 참석 빈도의 도수를 한 눈에 보기 쉽도록 그래프를 그리겠습니다. 앞선 실습의 결과를 통해 막대 그래프를 그려보겠습니다. [실습1]의 도수 결과 지시사항 참석 비율(ratio)을 기준으로 막대그래프 막대의 크기를 다르게 하는 코드를 작성하여 출력하세요. plt.bar(labels,ratio)​ Tips! plt.show() 함수는 만든 그래프를 보여주는 역할입니다. 아래 코드는 엘리스 플랫폼에서 그림 파일을 출력하기 위한 코드입니다! fig.savefig("bar_plot.png") elice_utils.send_image("bar_plot.png") 주어진 코드 from elice_utils import EliceUtils import matplotlib.pyplot as .. 2021. 8. 30.
[AI 응용 ML] 실습 | 1.3 범주형 자료의 요약 - 도수분포표 범주형 자료를 요약하기 위해 도수분포표를 출력해보겠습니다. A, B, C, D, E 이 다섯 명의 술자리 참여 횟수가 기록된 데이터를 저장한 파일인 drink.csv 파일을 이용하여 누가 제일 술자리에 자주 나왔는지 value_counts() 함수로 계산한 도수로 확인해봅시다. drink.csv파일은 두 가지 구성 요소가 있습니다. Attend : 참석한 경우 1, 참석하지 않은 경우 0 Name : 참석자의 이름 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 도수계산 함수 value_counts() 함수는 pandas Series의 도수를 구하여 출력하는 함수입니다. 아래와 코드.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.2 자료 형태란? | 수치형자료 범주형자료 자료 형태 왜 알아야 하는가? 머신러닝은 데이터를 바탕으로 한 분석 방식. 고로, 자료 형태 파악하는 것이 머신러닝 활용의 필수 과정 다음 질문에 대해 대답할 수 있어야한다. 현재, 데이터가 어떻게 구성되어 있는가? 현재, 어떤 모델을 사용해야 하는가? 데이터 전처리는 어떻게 하는가? 자료 형태 1. 수치형 2. 범주형 1. 수치형 ✔ 공통특징 - 양적 - 수치 측정 가능 ✔ 수치형 종류 1-1. 수치형 中 연속형 - 연속적 관측값 - 3.1415923878... 1-2. 수치형 中 이산형 - 셀 수 있는 관측값 - 게시글 수, 상품 수 2. 범주형 ✔ 공통특징 - 질적 - 수치 측정 불가 2-1. 순위형 자료 - 범주 사이 순서가 의미 있음 - A+, A-, A0, ... 2-2. 명목형 자료 - 범주.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.1 인공지능/머신러닝 개론 | 지도학습, 비지도학습, 강화학습 목표 1. 데이터전처리 ~ 평가방식 학습. 머신러닝 전반 학습 2, 지도학습 (회귀 및 분류) 알고리즘 학습 3. 자료 형태의 이해 4. 데이터 전처리 머신러닝? 컴퓨터가 스스로 학습 능력갖게 하는 것 빅데이터 분석툴. 기존 통계학, 시각화 기법 한계 해결. 훈련 데이터와 정답 데이터가 있다면 : 지도학습 없다면 : 비지도학습 강화학습이란? 시행착오(Trial and Error)를 통해 학습하는 방법 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘. 기존의 신경망들이 라벨(정답)이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상(Reward)이라는 개념을 사용하여 가중치와 편향을 학습 목적은 최적의 행동양식 또는 정책을 학습하는 것 ex. 알파고 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 6 2021. 8. 30.
[직딩잇템] 어서와 데이터는 처음이지 - 데이터 개념 5 | 모평균 모표준편차 표본평균 표본표준편차 표본수치 통계에서 쓰이는 기호와 용어 모수치와 표본수치에 대해 알아보자. 그전에 개념 복습 1. 모집단 : 더보기 구하고 싶은 전체 데이터 2. 표집(샘플링) : 더보기 모집단 중 일부를 선택하여 얻어진 데이터 3. 무선표집 (랜덤샘플링) : 더보기 표집 시 특정 기준없이 무작위로 뽑아내는 표집 방법 4. 표집수(N) : 더보기 표집 시 뽑는 데이터의 개수 5. 표본(샘플) : 더보기 표집으로 뽑은 데이터 A. 모평균(뮤) 모집단의 평균(모평균) : 모집단이 있을 때, 모집단의 데이터로 구해낸 평균 모평균을 구하는 공식 여기서의 시그마 : 모든 것을 더함 B. 모표준편차(시그마) 모집단의 표준편차 (모표준편차) 모표준편차도 시그마라고 불림. A. 모평균(뮤), B. 모표준편차(시그마) 구하려면 모집단 데이터가 있.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 4 | 랜덤샘플링, 무선표집, 편향, 불편향 랜덤샘플링 == 무선표집 샘플링 시 기준을 두지 않고 무작위로 추출하는 과정 왜 해야하지? 샘플링 잘못하면 일어나는 참사(편향,bias)를 예방하기 위함 편향? 샘플링할 때, 특정 기준을 두고 샘플링하여 데이터가 한 쪽으로 치우치는 현상. 불편향? 편향의 반대말 우리의 목표 샘플 데이터! 질 좋은 데이터 왜 불편향인 랜덤 샘플링을 써야할까? 디테일한 기준을 세워버리게되면 그 샘플데이터는 문제가 발생함. 랜덤 샘플링을 사용하지 않았을 때, 편향 데이터 사례 1936년 미대선 : 루즈벨트 vs 랜던 A. 리터러리 다이제스트의 예측 대규모 설문조사 1000만명에게 일일이 전화 걸기 3분의 1에 해당하는 260만명에게 투표 응답 얻음 설문조사 분석결과? 랜던이 이길 것. B. 조지 갤럽의 예측 260만개의 데이.. 2021. 8. 30.
반응형