결정을 위한 통계학
복잡한 세상에서
결정의 어려움을 겪지 않는다면
그게 더 이상한 일이 아닐까요?
이 복잡한 세상을 숫자로 표현하기 위한
여러 가지 방법을 찾아냅니다.
그리고 이 방법들을 모아서
여기에 ‘통계’라는 이름을 붙였습니다.
하나를 가르치면 열을 안다.
공부를 하면,
똑같은 문제뿐만 아니라
비슷한 문제도 해결할 수 있는
총명한 사람들을 두고 하는 말입니다.
망원경이 있다고 눈이 필요 없어지는 것은 아닙니다.
머신러닝은 우리의 두뇌가 가진 중요한 기능인 판단능력을 확장해서
우리의 두뇌가 더욱 빠르고 정확하게 결정할 수 있게 돕는 기가 막힌 도구입니다.
지식
해결하고자 하는 문제가 없다면,
지식은 목적 없는 수단에 불과
이제 우리는 자신의 궁리가
단지 몽상이 아니라
혁명이 될 수 있는
놀라운 시대에 우리는 살고 있습니다.
머신러닝
사람이 학습하듯이
기계를 학습시켜서
정확한 판단력을 갖게 한다는 점
‘머신러닝’이란 판단력(모델)을 기계에게
부여하는 기술
모델
판단력을 의미하는 모델.모델은 머신러닝을 이해하는 중요한 열쇠
다양한 것을 먹는 과정에서 먹어도 되는 것과 먹으면 안 되는 것, 먹고 싶은 것과 먹기 싫은 것을 알게 됩니다.이런 과정을 통해서 갖게 된 판단능력을 ‘교훈’이라고 부릅니다.
과학자들은 현상을 관찰합니다.
그리고 그 현상을 설명할 수 있는 이유를 추측합니다.
이것을 ‘가설’이라고 합니다.그 가설을 검증하기 위해서 여러 가지 실험을 진행합니다.
실험 결과가 도출된 후,
가설에 모순이 없다면 이론으로 인정됩니다.
이론 덕분에 낙하하고 있는 물체가 10초 후에는 어디에 있을지도 예측할 수 있습니다.
교훈과 이론은 판단력의 다른 이름이라고도 볼 수 있습니다.
‘머신러닝’이란 판단력을 기계에게 부여하는 기술
이 모델을 만드는 ‘과정’을 ‘학습(Learning)’이라고 부르기로 했습니다.
학습이 잘 되어야 좋은 모델을 만들 수 있고,
모델이 좋아야 더 좋은 추측을 할 수 있습니다.
프로그램
컴퓨터가 알아들을 수 있도록 순서대로 입력하는 것
사물 인터넷(IoT, Internet of Things)
인터넷으로 사물을 제어한다
‘머신러닝’을 도입하면 어떤 기능을 실행할 것인가를
장치 스스로 판단
데이터를 수집한 후에 그 데이터의 의미를 ‘머신러닝’의 모델이 판단
사물에 지능을 부여해서 스스로 동작하는 마법
이 많은 사물들에 컴퓨터가 탑재되고 있습니다.
컴퓨터와 컴퓨터는 인터넷으로 연결되고 있고요.
온도와 판매량 사이의 관계를 표현하는 공식입니다. 다른 말로는 판매량을 예측할 수 있는 모델
현실의 데이터는 이렇게 단순하지 않습니다. 판매량은 요일이나 날짜에 영향을 받을 수도 있고, 경쟁자나 유행에도 영향을 받을 수 있습니다.
머신러닝을 도입한다면 머신러닝이 자동으로 공식을 만들어 줄 수 있습니다. 과거에는 과학자와 수학자들도 간신히 하던 일을, 이렇게 작은 나의 문제에도 적용할 수 있게 된 것입니다.
환경 : 독서실, 온도
불만족 : 온도가 왔다갔다, 수동으로 조작해야함
꿈 : 사람들의 행동, 추워하는 모션, 더워하는 모션을 보고 파악해서 적정온도를 점진적으로 맞춰나가기
현실의 수많은 기술은 작가들이 꿈꿔온 것들이 기술자들에 의해 현실화 된 것
0에 1억을 곱해보세요. 0이 되죠?
아무것도 모르는 사람은, 아무리 많은 경험을 해도, 그 경험이 지식이 되어서 쌓이지 않습니다.
교양과 직업의 갈림길.
교양을 쌓은 당신은 자신의 인생을 바치고 있는 분야와 머신러닝이 어떻게 어깨동무를 할 수 있는지에 대해서도 많은 것을 생각하고 느끼기 시작할 것입니다.
오늘 몇 잔의 레모네이드가 팔릴지 예측하고 싶다면 무엇을 해야 할까요?
현실을 데이터로 표현할 수만 있다면, 컴퓨터의 엄청난 힘으로 데이터를 처리할 수 있게 됩니다.
그 처리 방법 중의 하나가 머신러닝입니다. 머신러닝으로 무엇인가를 하려면 당연히 데이터가 필요.
우선 복잡한 현실에서 관심사만 뽑아서 단순한 데이터로 만들어야 합니다.
이를 통해서 현실을 변화시키는 일을 하는 것이
‘데이터 산업’입니다.
‘데이터 산업’은 크게 데이터 과학(Science)과 데이터 공학(Engineering)으로 분리해볼 수 있습니다.
데이터 과학은 데이터를 만들고, 만들어진 데이터를 이용하는 일을 합니다.
데이터 공학은 데이터를 다루는 도구를 만들고, 도구를 관리하는 일을 합니다.
‘인류가 만든 시각화 도구 중에서 가장 위대한 것이 무엇이냐’
1. 표
2. 좌표평면
엑셀이나 데이터베이스와 같은 도구에 표를 옮겨담으면 컴퓨터가 가진 엄청난 저장 용량과 처리 속도를 이용해서 강력한 표 로봇을 만들 수 있습니다.
여기에 머신러닝을 투입한다면 인간만이 지닐 수 있다고 여겨졌던 통찰력을 기계도 발휘할 수 있게 됩니다.
표는 데이터들의 모임. 그래서 표를 데이터 셋(data set)이라고도 부릅니다.
데이터 셋을 잘 살펴보면 각각의 행은
각각의 ‘하루’를 나타냅니다.
열은 ‘그 하루의 특징’을 나타냅니다.
o 행(row)
- 개체(instance)
- 관측치(observed value)
- 기록(record)
- 사례(example)
- 경우(case)
o 열(column)
- 특성(feature)
- 속성(attribute)
- 변수(variable)
표 속에 구속된 데이터에서 의미있는 정보를 뽑아낼 수 있어야 합니다.
이에 능한 사람을 통찰력이 있다고 합니다. 단지 많이 아는 사람이 아니라, 통찰력 있는 사람이 되기 위해서는 대가가 따릅니다.
그 대가는 독립변수(원인)와 종속변수(결과)라는 말의 의미를 이해하는 것.
변수
변수는 영어로 variable이라고 합니다. ‘변할 수 있는'이라는 뜻이죠.
누군가 표에 대해서 이야기하면서 변수를 언급하면 그것은 열을 이야기하는 것입니다.
의 표에서 온도의 값은
이렇게 달라지고 있습니다.
표에서 열을 왜 변수라고 하는지 아시겠지요?
- 독립변수 = 원인이 되는 열
- 종속변수 = 결과가 되는 열
원인은 결과와 상관없이 일어나는 사건입니다.
판매량 때문에 온도가 달라질리가 없잖아요?
결과에 영향을 받지 않는 독립적인 사건입니다.
하지만 결과는 원인에 종속되어서 발생한 사건입니다.
서로 상관있는 특성(Feature/Column)들
한쪽의 값이 바뀌었을 때, 다른 쪽의 값도 바뀐다면,
두 개의 특성은 ‘서로 관련이 있다’고 추측할 수 있습니다.
모든 인과관계는 상관관계입니다.
하지만, 모든 상관관계가 인과관계인 것은 아닙니다.
적은 수의 데이터를 가지고 상관관계가 있다고
단정하면 안됩니다.
특성들 사이의 관계를 파악하는 일이란
실전에서는 매우 엄격한 기준을 가지고,
다양한 통계기법을 동원해야 하는 고되고,
중요한 작업이라는 점을 기억하세요.
환경 : 독서실, 온도
불만족 : 온도가 왔다갔다, 수동으로 조작해야함
꿈 : 사람들의 행동, 추워하는 모션, 더워하는 모션을 보고 파악해서 적정온도를 점진적으로 맞춰나가기
독립변수 : 모션
종속변수 : 온도
모션을 달리하면 온도가 바뀐다.
학습을 할 때
‘이 많은 것을 언제 다 공부하나?’라는 생각이 든다면
무언가 잘못되고 있는 것입니다.
‘언젠가 필요할 때 공부하고,
지금은 어떤 분야가 있는지 구경해보자.’라고 생각해주세요.
절망감 대신 설렘으로 공부를 대할 수 있을 것입니다.
공부를 그만두고 싶은
생각이 드는 지점이 나타날 것입니다.
이런 감정이 드는 것은 인내심이 부족하기 때문이 아닙니다.
이 정도 공부면 충분하다는 뇌의 명령입니다.
우리의 뇌에는 어떤 행위의 경제성을 판단하는,
고도로 정교한 모델이 내장되어 있는 것 같습니다.
이 모델이 ‘지금 하고 있는 행위는 경제성이 없어’라고 결정하면
1차 경고로 지루함을 발송합니다.
'● 인공지능, 분석 > 20.08 생코_머신러닝' 카테고리의 다른 글
생활코딩_머신러신개념_분류_지도학습_회귀/분류 (0) | 2020.08.18 |
---|---|
생활코딩_Tensor_LOSS _Work Book (0) | 2020.08.18 |
생활코딩_Tensorflow_02_보스턴집값예측 (0) | 2020.08.18 |
생활코딩_Tensorflow_DeepLearning_01 (0) | 2020.08.17 |
생활코딩_오렌지3를 활용한 데이터 분석 (0) | 2020.08.17 |