본문 바로가기
● 인공지능, 분석/21.08 러닝클라우드 이론

[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 4 | 랜덤샘플링, 무선표집, 편향, 불편향

by 0ver-grow 2021. 8. 30.
반응형

랜덤샘플링 == 무선표집

샘플링 시 기준을 두지 않고 무작위로 추출하는 과정

 

왜  해야하지?

샘플링 잘못하면 일어나는 참사(편향,bias)를 예방하기 위함

 

편향?

샘플링할 때, 특정 기준을 두고 샘플링하여 데이터가 한 쪽으로 치우치는 현상.

 

불편향?

편향의 반대말

우리의 목표 샘플 데이터!

질 좋은 데이터

 

왜 불편향인 랜덤 샘플링을 써야할까?

디테일한 기준을 세워버리게되면

그 샘플데이터는 문제가 발생함.

 

랜덤 샘플링을 사용하지 않았을 때, 편향 데이터 사례

1936년 미대선 : 루즈벨트 vs 랜던

 

A. 리터러리 다이제스트의 예측

대규모 설문조사

1000만명에게 일일이 전화 걸기

3분의 1에 해당하는 260만명에게 투표 응답 얻음

설문조사 분석결과?

랜던이 이길 것.

 

B. 조지 갤럽의 예측

260만개의 데이터와는 별도로

5만개의 데이터를 샘플링하여 결과를 얻음.

루즈벨트가 이길 것.

 

최종 결과는 루즈벨트의 압승

5만개의 데이터가 260만개의 데이터보다 정확도가 높았음.

 

왜?

A가 진행한 대규모 설문조사의 문제점은 바로 전화 설문 조사.

1936년 가정집에 전화가 있는 곳은 부르주아들.

부르주아들만 대상으로 260만개의 편향된 데이터를 확보하여 결론을 내림.

but, 표 수에선 전화기가 없는 사람들이 더 많았음

 

편향에 빠진 데이터 수집은 GIGO!

데이터의 속성 자체가 한쪽으로 치우쳐버리는 통계에선 편향, Bias라고 함

데이터의 양이 중요한게 아니라 질이 더 중요하다.

 

질이 좋은 데이터, 즉 편향되지 않은 데이터(불편향 데이터)를 확보해야한다.

 

편향이라는 대참사를 줄이는 방법은?

요구조건, 목표를 제대로 파악할 것

 

다시 본론으로 돌아와서 다음 가설을 증명해보자.

우리나라 20대 성인은 대체로 키가 몇인가?

이를 위해 우린 샘플링 데이터를 이용하여 평균을 구해보고자 한다.

이 샘플링 데이터는 일반적으로 랜덤 샘플링으로 진행한다.

 

우리의 목표 : 우리나라 성인의 평균키 파악하기.

최적의 방법 : 랜덤 샘플링 (편향이 일어나지 않게 기준을 두지 않음. 아예 기준을 두지 않고 랜덤으로 뽑기)

 

이 가설을 증명하기 위해, 서울에서만 데이터를 확보한다면?

제대로 된 결과물을 얻을 수 없음.

GIGO

성별, 초중후반, 식습관, 환경 등등 키에 편향을 일으킬 수 있는 조건은 많음

이 모든 조건을 만족하는 어떤 기준을 세울 순 없음.

 

 

반응형