본문 바로가기
반응형

● 인공지능, 분석120

[경영선택] 비즈니스를 위한 핵심 AI/Data Science 개념 살펴보기머신러닝과 다른 접근방법의 차이. 머신러닝과 데이터 과학 이해하기 빅데이터분석 - 그로스해킹 - 마케팅분야 - 상관관계를 찾는 분석 방법 correlation - 큰데이터를 통해 현상을 발견하여 A하면 B일 것이다. - 의사결정시 사용함 통계분석 - 목표 : 실제 세계를 이해, 해석하는데 중점을 둠 - 현실을 통계치, 수치로 모형으로 만들어 이해,해석한다. - 기술 기법 중 머신러닝과 유사한 것이 있음 - 주로 적은 데이터를 가지고 진행함 인공지능분석 - 예측과 패턴을 분석하는 것 - 얼마나 예측을 잘하는지 - 알고싶은 패턴을 잘 만드는지가 중요함 - 모형의 성능, 정확도가 중요 - 많은 데이터가 있다는 가정하에 많은 데이터로 학습하여 모형을 만들고 이 모형의 정확도, 성능을 중시함 2020. 12. 8.
[DA와 ML] 06 회귀분석기법 미션 : X, Y 입력받기 이론 개념 [DA와 ML] 선형회귀법이란? 회귀분석이란? Linear Regression (선형회귀법) 종속변수 y : 스칼라로 표현 독립변수 X : 벡터 형식으로 표현 이 두 변수 간의 관계를 표현하기 위한 알고리즘이다. 독립변수 X가 스칼라 값일 경우 (즉 1차원 벡터일 0ver-grow.tistory.com 해답 2. Numpy 사용하기 Numpy 시작하기 import numpy def matrix_tutorial(): # 3×4 의 크기를 가진 2차원 배열 선언 A = numpy.array([[1,4,5,8], [2,1,7,3], [5,4,5,9]]) return A print(matrix_tutorial()) 행렬변환 import numpy de.. iamdaisy.tistory.com impo.. 2020. 10. 13.
[DA와 ML] 선형회귀법이란? 회귀분석이란? Linear Regression (선형회귀법) 종속변수 y : 스칼라로 표현 독립변수 X : 벡터 형식으로 표현 이 두 변수 간의 관계를 표현하기 위한 알고리즘이다. 독립변수 X가 스칼라 값일 경우 (즉 1차원 벡터일 경우) 특별히 단순회귀분석 (simple linear regression) 이라고 부릅니다. 단순회귀분석에서 데이터는 X와 y의 쌍의 집합으로 표현되며, 독립변수 X가 스칼라값이기 때문에 데이터는 2차원 평면에 표시할 수 있습니다. 회귀분석은 - 여러 기계학습 알고리즘 중 이해하기 쉬운 알고리즘입니다. - 관찰된 변수들에 대해 독립변수와 종속변수 사이의 관계를 나타내는 선형 관계식을 구하는 알고리즘입니다. - 독립변수가 바뀜에 따라 종속변수가 어떻게 변하는지를 분석하는 것입니다. - 시간과.. 2020. 10. 13.
[DA와ML_05.PY lib활용한 기초 행렬 미션] 전치행렬(transpose), 역행렬(linalg) 2. Numpy 사용하기Numpy 시작하기 import numpy def matrix_tutorial(): # 3×4 의 크기를 가진 2차원 배열 선언 A = numpy.array([[1,4,5,8], [2,1,7,3], [5,4,5,9]]) return A print(matrix_tutorial()) 행렬변환 import numpy de..iamdaisy.tistory.comimport numpy def matrix_tutorial(A): # 2 : A의 전치행렬 B를 생성 B = A.transpose() try: #3 - 1 : B의 역행렬을 구해 C로 저장 C = numpy.linalg.inv(B) except: #3 - 2 : 에러 발생시 return "not invertible" # 4 : C안.. 2020. 10. 13.
[Pandas 월드컵] 데이터 프레임 칼럼 (dataframe column) 추가 import pandas as pd import numpy as np import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) ''' 출력 형식을 위한 스켈레톤 코드입니다. 아래 줄 부터 문제에 맞는 코드를 작성해주세요. ''' # WorldCups.csv파일을 pandas의 DataFrame으로 만들어보세요 world_cups = pd.read_csv("WorldCups.csv") # .. 2020. 10. 12.
[Pandas 월드컵] csv 파일을 dataframe 출력하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) ''' 출력 형식을 위한 스켈레톤 코드입니다. 아래 줄 부터 문제에 맞는 코드를 작성해주세요. ''' # WorldCups.csv파일을 pandas의 DataFrame으로 만들어보세요. world_cups = pd.read_csv("WorldCups.csv") #.. 2020. 10. 12.
[Pandas] 월드컵 1 데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미합니다. 데이터 분석은 보통 아래의 단계로 이루어집니다. 주제 선정 데이터 구조 파악 데이터 전처리 데이터 분석 구현 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세웁니다. 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 합니다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있습니다. 데이터 전처리 데이터를 분석하기 전, 필요한 변수만을 추출하거나 기존의 변수로 새로운 변수를 계산하여 만들기도 합니다. 데이터.. 2020. 10. 12.
[matplot] 토끼와 거북이가 달리기 시합 토끼와 거북이가 달리기 시합을 하기로 했어요. 공정한 경쟁을 위해서 1초마다 토끼와 거북이의 위치를 다른 동물이 기록하기로 하고 경주를 했네요. 그 위치 데이터가 csv파일로 저장되어 있어요. 우리는 csv 파일을 읽어서 토끼와 거북이의 시간별 위치를 그래프로 시각화 해보고자 합니다! from elice_utils import EliceUtils from matplotlib import pyplot as plt import pandas as pd plt.rcParams["font.family"] = 'NanumBarunGothic' elice_utils = EliceUtils() def main(): # 아래 경로에서 csv파일을 읽어서 시각화 해보세요 # 경로: "./data/the_hare_and_t.. 2020. 10. 12.
[Pandas 심화] 피리부는 사나이 문제 피리부는 사나이 Q) 피리부는 사나이를 따라간 어린이들 중 남자 어린이와 여자 어린이의 평균 연령을 표로 출력 피리부는 사나이 데이터에서 아이들만 골라내는 데 마스킹 연산을, 피리부는 사나이를 따라간 아이들의 일차별 연령을 계산하는 데 groupby 함수를, 아이들의 일차별 연령을 성별로 나누어 표로 출력하는 데 pivot table을 이용할 수 있습니다. import pandas as pd import numpy as np import numpy as np def main() : # 파일을 읽어서 코드를 작성해보세요 # 경로: "./data/the_pied_piper_of_hamelin.csv" df = pd.read_csv("./data/the_pied_piper_of_hamelin.csv") chi.. 2020. 10. 12.
[Pandas 심화] MultiIndex, 다중 인덱싱(계층적 인덱싱) 행 인덱스 계층적으로 만들기 열 인덱스 계층적으로 만들기 다중 인덱스 칼럼의 인덱스 탐색하기 죽으면 0 살아있으면 1 class가 컬럼 데이터 sex가 인덱스 데이터 aggfunc으로 평균값을 구함. 이를 클래스별 값으로 활용 다음 데이터 중에서 "월별"을 인덱스 데이터 "내역"을 칼럼 데이터로 활용 values로 분류할 칼럼들을 리스트 형태로 삽입 ''' 실행 버튼을 눌러 멀티 인덱스를 활용한 데이터 프레임을 출력해보세요. 인덱스가 A와 B, 1과 2로 나뉘어져 있는 경우에 출력되는 결과와 멀티 인덱스가 있는 테이블의 인덱싱 방법을 확인해보세요. ''' import numpy as np import pandas as pd df1 = pd.DataFrame( np.random.randn(4, 2), in.. 2020. 10. 11.
[Pandas 심화] DataFrame, 조건으로 검색하기 마스킹 연산 DataFrame 2020. 10. 11.
[Numpy] DataFrame 정렬 sort_values를 통해 col1의 컬럼이 정렬됨. 기본값은 오름차순 내림차순은 이렇게 False값을 넣어야 된다. 다른 컬럼값과 같은 순서로 정렬해보자 col2를 기준으로 오름차순 정렬을 해보자 그럼 col1,col3컬럼은 col2컬럼과 같은 행에 있는 값들이 정렬된다. Q) 굳이 col2, col1을 입력할 필요가 있나? col2만 입력해도 되지 않나? 뭐가 다른가? 2020. 10. 9.
[Pandas 기초] Series, Dataframe, loc, iloc, slicing, dictionary = {object : value} Series = dic에 index가 추가된 것 object = pd.Series(dic) Dataframe = Series의 집합 object = pd.Dataframe({ 'DF1' : Dataframe1 'DF2' : Dataframe2 }) Indexing / Slicing loc : 명시적인 인덱스를 참조하는 인덱싱/슬라이싱 china만 인덱스값만 뽑아줘 => country.loc['china'] china의 title이 인덱스가 됨. iloc는 앞에서부터 인덱싱을 가지고 있게 하여 이를 참조함 칼럼 제목 만드는 방법 리스트로 추가하는 방법 딕셔너리로 추가하는 방법 특정 값 변경하기 DraFrame 칼럼 추가하기 Series 와 DataFra.. 2020. 10. 5.
[NumPy] Numpy란? 고성능의 수치 계산 라이브러리 py에서 대규모 다차원 배열을 다룰 수 있는 라이브러리 N차원의 배열 객체를 지원 효율적인 데이터 분석을 도와줌 데이터의 대부분은 숫자 배열 list VS numpy - 리스트에 비해 빠른 연산, 효율적인 메모리 사용 - list와 달리 numpy의 array는 단일타입 (float64) list(range(10)) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] import numpy as np np.array([1, 2, 3, 4, 5]) # array([1, 2, 3, 4, 5]) 실습 numpy library에서 자주 사용되는 함수들로는 np.array - 배열생성 np.zeros - 0이 들어있는 배열 생성 np.ones - 1이 들어있는 배열 생성 np.. 2020. 10. 5.
[NumPy] numpy 문제 풀기. 0의 갯수 세기 문제import numpy as np daily_liar_data = [0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0] # 양치기 소년이 거짓말을 몇 번 했는지 구하여 출력해주세요. def main() : # 코드 작성 if.. 2020. 10. 5.
[NumPy] numpy, 집계함수, 요약, 통계, sum, min, max, mean, std / axis에 따른 방향 집계 : 데이터에 대한 요약 통계를 볼 수 있다. 2020. 10. 5.
[NumPy] numpy, np, 브로드캐스팅 연산(Broadcasting) Broadcasting 행렬에 따라서 연산하기 (행렬,연산) 다음과 같은 경우 다른 차원의 데이터로도 연산이 가능하다. (3,3) + (1,3) = (3,3) shape이 다른 array연산하기 퀴즈 A = np.arange(6).reshape(3,2) B = np.arange(3).reshape(3,1) print(A+B) 정답 [[0 1] [3 4] [6 7]] 퀴즈 import numpy as np ''' [[0] [1] [2] [3] [4] [5]] 배열 A와 [0 1 2 3 4 5] 배열 B를 선언하고, 덧셈 연산해보세요. ''' # 정답 A = np.arange(6).reshape(6,1) B = np.arange(6) print(A+B) 2020. 10. 5.
[NumPy] numpy와 array, 함수, 행렬 def 함수 array의 size가 크다면?? 이전에 만든 함수를 적용했을 때는 5.3초 소요. 하지만 이 함수는 더 큰 사이즈에서는 사용하기 힘들어 하지만 numpy는 자체적으로 complie된 함수를 사용하여 빠르게 처리가능! numpy에서 제공하는 기본 연산 2020. 10. 5.
반응형