본문 바로가기
● 인공지능, 분석/20.10 NIPA_주가예측

[Pandas] 월드컵 1

by 0ver-grow 2020. 10. 12.
반응형

데이터 분석이란?

데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미합니다.

데이터 분석은 보통 아래의 단계로 이루어집니다.

  • 주제 선정
  • 데이터 구조 파악
  • 데이터 전처리
  • 데이터 분석 구현

주제 선정

어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세웁니다.

데이터 구조 파악

데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 합니다.

또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있습니다.

데이터 전처리

데이터를 분석하기 전, 필요한 변수만을 추출하거나 기존의 변수로 새로운 변수를 계산하여 만들기도 합니다.

데이터의 결측값과 이상값이 있다면, 이 단계에서 올바르게 제거하여야 데이터 분석 결과를 올바르게 확인할 수 있습니다.

데이터 분석

주제 선정 단계에서 세운 가설을 numpy, pandas 등으로 데이터를 연산, 가공하여 가설을 입증하거나 원하는 정보를 얻어내는 것을 구현 하는 단계입니다.

얻어낸 정보를 효과적으로 보여주기 위해 시각화를 하기도 합니다.

 

반응형