본문 바로가기
반응형

● 인공지능, 분석/21.08 nipa_AI실무과정25

[AI 응용 ML] 실습 | 1.3 범주형 자료의 요약 - 도수분포표 범주형 자료를 요약하기 위해 도수분포표를 출력해보겠습니다. A, B, C, D, E 이 다섯 명의 술자리 참여 횟수가 기록된 데이터를 저장한 파일인 drink.csv 파일을 이용하여 누가 제일 술자리에 자주 나왔는지 value_counts() 함수로 계산한 도수로 확인해봅시다. drink.csv파일은 두 가지 구성 요소가 있습니다. Attend : 참석한 경우 1, 참석하지 않은 경우 0 Name : 참석자의 이름 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 아래 그림은 drink.head(), drink.info()코드의 출력 형태 입니다. 도수계산 함수 value_counts() 함수는 pandas Series의 도수를 구하여 출력하는 함수입니다. 아래와 코드.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.2 자료 형태란? | 수치형자료 범주형자료 자료 형태 왜 알아야 하는가? 머신러닝은 데이터를 바탕으로 한 분석 방식. 고로, 자료 형태 파악하는 것이 머신러닝 활용의 필수 과정 다음 질문에 대해 대답할 수 있어야한다. 현재, 데이터가 어떻게 구성되어 있는가? 현재, 어떤 모델을 사용해야 하는가? 데이터 전처리는 어떻게 하는가? 자료 형태 1. 수치형 2. 범주형 1. 수치형 ✔ 공통특징 - 양적 - 수치 측정 가능 ✔ 수치형 종류 1-1. 수치형 中 연속형 - 연속적 관측값 - 3.1415923878... 1-2. 수치형 中 이산형 - 셀 수 있는 관측값 - 게시글 수, 상품 수 2. 범주형 ✔ 공통특징 - 질적 - 수치 측정 불가 2-1. 순위형 자료 - 범주 사이 순서가 의미 있음 - A+, A-, A0, ... 2-2. 명목형 자료 - 범주.. 2021. 8. 30.
[AI 응용 ML] 이론 | 1.1 인공지능/머신러닝 개론 | 지도학습, 비지도학습, 강화학습 목표 1. 데이터전처리 ~ 평가방식 학습. 머신러닝 전반 학습 2, 지도학습 (회귀 및 분류) 알고리즘 학습 3. 자료 형태의 이해 4. 데이터 전처리 머신러닝? 컴퓨터가 스스로 학습 능력갖게 하는 것 빅데이터 분석툴. 기존 통계학, 시각화 기법 한계 해결. 훈련 데이터와 정답 데이터가 있다면 : 지도학습 없다면 : 비지도학습 강화학습이란? 시행착오(Trial and Error)를 통해 학습하는 방법 실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘. 기존의 신경망들이 라벨(정답)이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상(Reward)이라는 개념을 사용하여 가중치와 편향을 학습 목적은 최적의 행동양식 또는 정책을 학습하는 것 ex. 알파고 2021. 8. 30.
[AI 기본 데분] 이론 | 1.4 Pandas | loc : 명시적 인덱싱 | iloc : 암묵적 인덱싱 명시적 : 어떤 인덱스가 있는지를 알고 있을 때. 특정 인덱스를 지정해서 호출. 암묵적 : 어떤 인덱스가 있는지 모를때. DataFrame에서 Column하나를 잘라내면? Series. Series + Series + ... = DataFrame DataFrame안에 들어있는 Column과 Value값들도 알고 있다면? 조건 추출이 가능하다! Column 추가하기 DataFrame에 데이터를 추가하는 다양한 방법 1. 리스트로 추가하기 2. 딕셔너리로 추가하기 Column 추가 후 초기화하기 > Column 값 수정하기 Column 삭제 import numpy as np import pandas as pd print("Masking & query") df = pd.DataFrame(np.random.ra.. 2021. 8. 22.
[AI 기본 데분] 이론 | 1.3 Pandas | 인덱스 및 칼럼명 지정 | 딕셔너리타입 | 시리즈 vs 데이터프레임 Series : 하나의 컬럼 값을 가짐 DataFrame : 복수의 Series가 모여 여러 개의 컬럼값을 가짐. 여러개의 행과열을 이룸 기존 인덱스는 0,1,2,3,... 식이었으나 인덱스 이름을 다음과 같이 지정하여 변경이 가능하다. 변수명 = 불러온데이터.set_index('변경할 인덱스명_리스트타입') 또한 일반적으로 딕셔너리를 데이터 프레임 형태로 수정하기 위해서 딕셔너리 -> 시리즈 -> 데이터 프레임 순으로 진행되나 (현 자료사진처럼) 딕셔너리 -> 데이터프레임으로 바로 진행할 수 있다. 2021. 8. 22.
[AI 기본 데분] 이론 | 1.2 Pandas 기본 Series 데이터 pandas? 파이썬 라이브러리 구조화된 데이터를 효과적으로 처리하고 저장 Array계산에 특화된 Numpy 기반으로 설계 2021. 8. 21.
[AI 기본 데분] 이론 | 1.1 Numpy : Indexing & Slicing # 1. Indexing을 통해 값 2를 출력해보세요. answer1 = matrix[0,1] # 2. Slicing을 통해 매트릭스 일부인 9, 10을 가져와 출력해보세요. # 앞이 행, 뒤는 열 # 인덱스2번 행전체에서, 인덱스0,1까지의 열에 해당되는 값 answer2 = matrix[2:,:2] # 3. Boolean indexing을 통해 5보다 작은 수를 찾아 출력해보세요. answer3 = matrix[matrix < 5] # 4. Fancy indexing을 통해 두 번째 행만 추출하여 출력해보세요. answer4 = matrix[[1]] # 위에서 구한 정답을 출력해봅시다. print(answer1) print(answer2) print(answer3) print(answer4) impo.. 2021. 8. 15.
반응형