본문 바로가기
● 인공지능, 분석/20.07 edwith_DS with Python

2.2 판다스 치트시트를 활용한 기초 익히기

by 0ver-grow 2020. 7. 6.
반응형

파이썬의 대표 분석 라이브러리 pandas

수식을 통해 시각화하는 도구

panner data system의 약자

panner data = 행열, 엑셀유사 데이터를 다루는 것

엑셀과 유사함

엑셀로도데이터분석가능하지만이를이용하는이유?

1. 엑셀로는 힘든 대용량의 데이터를 판다스는 분석할 수 있기 때문

2. 주피터노트북에 소스코드작성시 파일만 로드하면 기존소스 재사용 가능

3. 월,주별 반복 작업은주피터노트북에 작성 후 사용가능

추천하는 학습문서 2가지

1. 10minutes to pandas문서를따라해볼것을추천(따라해보는데2,3시간소요되지만책한권 읽은것과 유소한효과)

2. 2장의 문서로 이뤄진pandas cheat sheet 문서 추천. 이 문서에있는것만익혀도판다스를사용할때무리가없음

판다스 불러오기

import pandas as pd

dataframe 공식문서불러오기_하단처럼 2가지 방법이 있다

1. pd.DataFrame?

2. pd.DataFrame(Shift+tab+tab)

pandas cheat sheet문서로 학습해보자

DataFrame

Series

Subset

행을 기준으로 값가져오기

칼럼을 기준으로 값가져오기

2가지 방법

1. 대괄호를 한번해서 가져오는 Series형태_1개 칼럼
2. 대괄호를 두번해서 가져오는 DataFrame형태_2개 이상 칼럼, 리스트형태로 감싸줄 것

 

 


Summarize Data

데이터 프레임의 형태를 다음과 같이 바꿔서 진행해보자

 

Reshaping_정렬,드랍

mpg는 공개데이터셋

 

axis에 대한 설명을 읽어보자

Group Data

pivot vs pivot table

pivot : 행에 있는 데이터를 열로 보낼 수 있음, 데이터 요약 가능, 형태만 바꿈
pivot table : 값을 연산할 수 있음

pivot_table을 하기에 앞서 Groupby부터 해보자
Groupby

어떤 컬럼값을 기준으로 그룹바이해서평균값 등등 수치계산가능하다

1) "a" 컬럼값을 기준으로 Groupby하여 "b"의 컬럼값 평균값 구하기 

df.groupby(["a"])["b"].mean()

pivot_table
2) pivot_table로 평균값 구하기

먼저 기존 데이터프레임을 보면 행이 4개
pivot_table기본형태

입력해보자
pd.pivot_table(df, index="a")

b값으로평균값구함. 그룹화(합쳐서 평균)되어 행이 3개
설명서를보면 기본값은 평균값구하기임

칼럼 a를 그룹화하면 기본적으로 평균값이 적용된다.
칼럼 a의 요소는 4,5,6,4
4가 2번 등장한다.

4가 등장하는 1,4 인덱스의 b의 값은 7,9이다.
7,9의 평균값은 (7+9)/2 = 8 이다.

하단처럼 values="b"를 추가해도 동일하게 나온다.

총합구하기

앞에선 기본적으로 평균값을 구하도록했지만
aggfunc을 sum으로 바꿔 총합을 출력한다.

Plotting_데이터시각화


데이터를 가지고 다양한 시각화를 해보실 수 있습니다.

df.까지입력후 tab키를 누르면 여러 기능이나온다

1) 꺾은선 그래프 그리기

2) 막대그래프 그리기

3) 밀도함수 그리기

반응형