본문 바로가기
반응형

● 인공지능, 분석/21.08 러닝클라우드 이론6

[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 6 2021. 8. 30.
[직딩잇템] 어서와 데이터는 처음이지 - 데이터 개념 5 | 모평균 모표준편차 표본평균 표본표준편차 표본수치 통계에서 쓰이는 기호와 용어 모수치와 표본수치에 대해 알아보자. 그전에 개념 복습 1. 모집단 : 더보기 구하고 싶은 전체 데이터 2. 표집(샘플링) : 더보기 모집단 중 일부를 선택하여 얻어진 데이터 3. 무선표집 (랜덤샘플링) : 더보기 표집 시 특정 기준없이 무작위로 뽑아내는 표집 방법 4. 표집수(N) : 더보기 표집 시 뽑는 데이터의 개수 5. 표본(샘플) : 더보기 표집으로 뽑은 데이터 A. 모평균(뮤) 모집단의 평균(모평균) : 모집단이 있을 때, 모집단의 데이터로 구해낸 평균 모평균을 구하는 공식 여기서의 시그마 : 모든 것을 더함 B. 모표준편차(시그마) 모집단의 표준편차 (모표준편차) 모표준편차도 시그마라고 불림. A. 모평균(뮤), B. 모표준편차(시그마) 구하려면 모집단 데이터가 있.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 4 | 랜덤샘플링, 무선표집, 편향, 불편향 랜덤샘플링 == 무선표집 샘플링 시 기준을 두지 않고 무작위로 추출하는 과정 왜 해야하지? 샘플링 잘못하면 일어나는 참사(편향,bias)를 예방하기 위함 편향? 샘플링할 때, 특정 기준을 두고 샘플링하여 데이터가 한 쪽으로 치우치는 현상. 불편향? 편향의 반대말 우리의 목표 샘플 데이터! 질 좋은 데이터 왜 불편향인 랜덤 샘플링을 써야할까? 디테일한 기준을 세워버리게되면 그 샘플데이터는 문제가 발생함. 랜덤 샘플링을 사용하지 않았을 때, 편향 데이터 사례 1936년 미대선 : 루즈벨트 vs 랜던 A. 리터러리 다이제스트의 예측 대규모 설문조사 1000만명에게 일일이 전화 걸기 3분의 1에 해당하는 260만명에게 투표 응답 얻음 설문조사 분석결과? 랜던이 이길 것. B. 조지 갤럽의 예측 260만개의 데이.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 3 | 모집단, 표본, 표집수, 랜덤샘플링 데이터 수집은 어떻게 하는가? 모집단과 랜덤 샘플링 빅데이터를 어떻게 하면 잘 활용할 수 있을까? 현실적으로 데이터는 막 쌓인 더미 이지만 단순히 쌓기만 하면 안됨. 데이터를 제대로 활용할 수 있게 쌓여야함 즉, 왜 이 데이터를 수집하는지 알아야함 데이터 수집시 조건 1. 왜 하는지 2. 무엇을 위해서 할 것인지 Garbage in Garbage Out 질 좋은 데이터를 결정하는 것? 1. 요구조건. 어떤 결과를 어떻게 얻고 싶은지 명확하게 정의 질 좋은 데이터는 요구조건에 달려있음 아무렇게나 쌓인 데이터에 대한 전통적 통계 접근방법? 요구목적을 해결하기 위해 정확히 어떤 공식을 쓸 것인가 현재 가지고 있는 데이터를 파악하자. 표형태로 되어야 분석이 가능 키 데이터만 있으면 구할 수 있음 요구목적을 확실.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 2 | 빅데이터, 머신러닝, 학습방법 빅데이터와 머신러닝 시대. 무엇을 배워야할까? 다양한 기술과 이론들이 접목된 짬뽕분야 빅데이터란, 엄청나게 많은 데이터 대량으로 축적된 데이터 덩어리 머신러닝이란, 빅데이터를 이용하여 데이터를 분석하는 기법(방법론, 알고리즘) 중 하나. 구체적인 방법론(How 목표 수치 얻어?) 이자 수학공식 목적이 아닌 수단 머신러닝 사용법 1. 목적을 정의한다. 2. 목적에 맞는 데이터 확보 3. 적절한 머신러닝 기법 활용 결과의 정확성이 달라짐. 필요 기본 스킬 3가지 1. 통계 통계의 기초 부분을 먼저학습 후 필요할 때 추가적으로 학습할 것 공식, 원리까지 알 필요 없음 통계 하나만 해도 배울게 많기 때문 2. 수학 - 선형대수 (행렬의 확장판 - 미분 머신러닝에서 현재까지 틀린 정도를 계산할 때 쓰임 3. 도구.. 2021. 8. 30.
[직딩잇템]어서와 데이터는 처음이지 - 데이터 개념 1 | 데이터분석, 데이터 분석 순서 데이터분석, 다음 2가지 부터 시작하자. 1. 목적을 구체적으로 정의할 것. 2. 데이터의 기본적인 특성과 문제점 파악하기. 1. 구체적 분석 목적의 정의 분석, 왜 해야하는거지 어떤 문제를 어떻게 해결하고 싶은가 어떤 결과를 원하고 싶은지를 명확히 할 것 일반적인 데분 순서는 다음과 같아. 목표정의 > 전처리 > 알고리즘 서택 및 분석 > 검증 및 테스트 예시> 낡은 홈피 개편 어떻게? 고객 데이터를 바탕으로 새 홈페이지가 고객들에게 만족감을 줄 수 있는지를 분석 여기서 만의 의미를 어떻게 정의할 것인가? 무엇으로 만족도를 측정할 것인가. 애매한 단어를 미리 정의할 것. 2. 데이터의 기본적인 특성과 문제점을 파악하라. 데이터는 어떻게 생겼는가? 데이터의 특성 파악. 데이터의 단순 수치, 통계적 특성,.. 2021. 8. 30.
반응형