● 인공지능, 분석/21.07 코드잇_DS과정

3-3. DataFrame 이론 | pandas의 데이터 타입

0ver-grow 2021. 9. 9. 17:13
반응형

pandas DataFrame에는 다양한 종류의 데이터를 담을 수 있습니다. 

dtypes를 사용해서 각 column이 어떤 데이터 타입을 보관하는지 확인할 수 있는데요.

 

import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])

print(my_df.dtypes)

###
name             object
english_score     int64
math_score        int64
dtype: object
###

위 경우 'name' column은 object라는 데이터 타입을 보관하고,

'english_score'와 'math_score' column은 int64라는 데이터 타입을 보관하는 거죠.

보시다시피 한 column 내에서는 모든 값이 동일한 데이터 타입입니다.

pandas의 dtype들

pandas에 담을 수 있는 dtype(데이터 타입) 몇 가지를 살펴봅시다.

 

dtype 설명
int64 정수
float64 소수
object 텍스트
bool 불린(참과 거짓)
datetime64 날짜와 시간
category 카테고리

 

csv파일은 ,(comma)를 기준으로 열이 구분된다.

컬럼명이 있는 행(첫 행)을 header라고 한다.

read_csv를 사용하면 첫 행을 헤더로 자동 인식한다.

import pandas as pd
df = pd.read_csv('file.csv')

만약 헤더가 없다면, 하단처럼 header=None값을 넣어줘야한다.

헤더값이 None이면 0,1,2,... 순으로 칼럼명이 기재된다.

import pandas as pd
df = pd.read_csv('file.csv', header=None)

 

row명 변경하기.

0번째 칼럼을 row명으로 지정해보자

import pandas as pd
df = pd.read_csv('file.csv', index_col=0)
반응형