본문 바로가기
● 인공지능, 분석/21.08 러닝클라우드 이론

[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 1 | 데이터분석, 데이터 분석 순서

by 0ver-grow 2021. 8. 30.
반응형

데이터분석, 다음 2가지 부터 시작하자.

1. 목적을 구체적으로 정의할 것.

2. 데이터의 기본적인 특성과 문제점 파악하기.

 

1. 구체적 분석 목적의 정의

분석, 왜 해야하는거지

어떤 문제를 어떻게 해결하고 싶은가

어떤 결과를 원하고 싶은지를 명확히 할 것

 

일반적인 데분 순서는 다음과 같아.
목표정의 > 전처리 > 알고리즘 서택 및 분석 > 검증 및 테스트



예시>
낡은 홈피 개편

어떻게?
고객 데이터를 바탕으로 새 홈페이지가 고객들에게 만족감을 줄 수 있는지를 분석

 

여기서 만의 의미를 어떻게 정의할 것인가?
무엇으로 만족도를 측정할 것인가.
애매한 단어를 미리 정의할 것.

 

2. 데이터의 기본적인 특성과 문제점을 파악하라.

데이터는 어떻게 생겼는가?
데이터의 특성 파악.
데이터의 단순 수치, 통계적 특성, 협업 용어, 히스토리, 전문 용어에 대한 이해 및 실무자들의 면담을 수반함.

모든 데이터는 문제가 있음
고로, 데이터를 정확히 이해하고 목표에 맞춰 문제들을 해결해나감.
데이터를 어떻게 다듬느냐(전처리)에 따라 분석의 정확도가 달라짐. 

 

데이터를 잘못쓰고 있는 경우에 대해 알아보자.
시각화 자체, 그래프를 그리는 것 자체는 중요한 것이 맞음
데이터에 대한 이해부터하고 그래프 그릴 것

목적정의, 데이터의 문제나 상태를 파악한 뒤에 그래프 그릴 것

다음 데이터의 문제점을 살펴보고 다음 가설을 증명해보자.
가설 : 풍속이 강하면 미세먼지의 양이 줄어들까?

그래프만 보면 x축이 오른쪽으로 갈수록 (풍속이 강해질수록)

y축이 줄어드는 것 같음. 즉, 미세먼지 양이 줄어드는 것 같음.

즉, 바람이 아주 강한 날에 대한 데이터가 부족함.

1년 중 바람이 매우 강한 날이 몇 번이나 될까?

 

이 패턴이 알려주는 것.

미세먼지와 풍속 간의 관계성이 아닌 뒤로 풍속이 강해질수록 데이터가 없다는 의미.

 

이 상황에선 어떻게 해야될까?

개수자체가 없기에 패턴을 파악할 수 없는 상황이므로 데이터를 지워야한다.

전처리 후 그래프를 보자.

풍속이 얼마든 미세먼지는 높을수도 낮을수도 있다.

결론

이번 강의 요약

반응형