본문 바로가기
● 인공지능, 분석/21.08 러닝클라우드 이론

[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 3 | 모집단, 표본, 표집수, 랜덤샘플링

by 0ver-grow 2021. 8. 30.
반응형

데이터 수집은 어떻게 하는가?

모집단과 랜덤 샘플링

 

빅데이터를 어떻게 하면 잘 활용할 수 있을까?

현실적으로 데이터는 막 쌓인 더미 이지만 단순히 쌓기만 하면 안됨.

데이터를 제대로 활용할 수 있게 쌓여야함

즉, 왜 이 데이터를 수집하는지 알아야함

 

데이터 수집시 조건

1. 왜 하는지

2. 무엇을 위해서 할 것인지

 

Garbage in Garbage Out

 

질 좋은 데이터를 결정하는 것?

1. 요구조건.

어떤 결과를 어떻게 얻고 싶은지 명확하게 정의

질 좋은 데이터는 요구조건에 달려있음

 

아무렇게나 쌓인 데이터에 대한 전통적 통계 접근방법?

 

요구목적을 해결하기 위해  정확히 어떤 공식을 쓸 것인가

 

현재 가지고 있는 데이터를 파악하자.

표형태로 되어야 분석이 가능

키 데이터만 있으면 구할 수 있음

 

요구목적을 확실하게 파악하자.

현재 요구목적은 20대 성인의 평균 키를 구하는 것.

만약 20대 성인의 인구가 100만명이라치자.

 

여기서 100만명에 대한 데이터를 모집단이라고 한다.

모집단 : 전체 집단

모집단은 요구조건에 맞는 구하고 싶은 데이터 전체를 의미

 

하지만 100만명에 해당하는 모집단 데이터는 존재하지 않는다.

 

그럼 대안은 뭘까?

부분으로 전체를 유추하면 된다.

우리 목표인 20대 평균키를 구하기 위해 랜덤샘플링(무작위 추출)을 쓰자.

- 랜덤샘플링 : 어떤 기준으로 뽑지 않고 랜덤으로 난수를 돌려서 선택함.

 

모집단인 20대 전체 성인 중 100명의 키 height 값을 뽑자 : 샘플링 (모집단에서 표본뽑는 과정)

우린 100명만 뽑았으니 표집수(N)은 100이다.

즉, 우린 100개의 데이터를 뽑았다.

반응형