본문 바로가기
반응형

분류 전체보기514

[필기정보정리] 국가기술 빅데이터 분석기사 필기 시험 과목 및 내용, 시험시간, 합격 기준 정리 국가기술 빅데이터 분석기사 필기 시험 과목 및 내용 정리 제1과목 : 빅데이터 분석 기획 필기과목명 주요항목 세부항목 세세항목 1. 빅데이터 분석 기획 (20문제) 빅데이터의 이해 빅데이터 개요 및 활용 빅데이터의 특징 빅데이터의 가치 데이터 산업의 이해 빅데이터 조직 및 인력 빅데이터 기술 및 제도 빅데이터 플랫폼 빅데이터와 인공지능 개인정보 법,제도 개인정보활용 데이터분석 계획 분석방안수립 분석 로드맵 설정 분석 문제 정의 데이터 분석 방안 분석 작업 계획 데이터 확보 계획 분석 절차 및 작업 계획 데이터 수집 및 저장 계획 데이터 수집 및 전환 데이터 수집 데이터 유형 및 속성 파악 데이터 변환 데이터 비식별화 데이터 품질 검증 데이터 적재 및 저장 데이터 적재 데이터 저장 제2과목 : 빅데이터 탐.. 2020. 11. 9.
국가기술 빅데이터 분석기사(빅분기) 시험이란? 국가기술 빅데이터 분석기사 시험에 대해 알아보자. 관련 근거 국가기술자격법 및 동법 시행령 빅데이터분석기사 정의 빅데이터 이해를 기반으로 빅데이터 분석 기획, 빅데이터 수집·저장·처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 말한다. 빅데이터분석기사의 필요성 전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가·기업의 주요 전략분야로 부상하고 있다. 국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다. 이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다. 빅데이터분석기사의 직무 대용량의 데이터 집합.. 2020. 11. 9.
구글 로그인, 메일 보내기 자동화 (selenium, webdriver, actionchains) 2020. 5. 6. 실습 전 할 것 1. 내 크롬브라우저에 맞는 크롬드라이버를 다운 2. 실습하고자 하는 파이썬 파일에 해당 크롬 드라이버를 넣고 실습시작 => 실습(실행)파일과 동일한 루트에 넣으면 따로 루트 지정필요없이 => driver = webdriver.Chrome()만으로 실행가능 다음 코드를 입력 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains # 쭉 연결할 수 있게함 import time driver = webdriver.Chrome() url = "https://google.com.. 2020. 11. 8.
selenium 자동화 수집하기 2020. 5. 6 오류 from selenium import webdriver driver = webdriver.Chrome() 까지 입력하자 WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home오류 해결 검색진행 내 크롬브라우저환경에 맞는 chromedriver다운 후 해당 주소 복사 정상 실행 크롬드라이버의 위치를 삽입 후 정상 실행 from selenium import webdriver driver = webdriver.Chrome(executable_path=r"C:\dev_python\Web.. 2020. 11. 8.
Anaconda 다운로드 받기, Jupyter Notebook 설치하기 Anaconda Download아나콘다(Anaconda)를 다운받아보자 Anaconda | Individual EditionAnaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine.www.anaconda.com위 사이트로 접속한 뒤 스크롤을 내려보면 하단과 같은 창이 나타난다.이 중 본인의 OS에 해당되는 설치파일을 다운받으면 끝! Jupyter Notebook InstallAnaconda를 설치했으니 이제는 쥬피터노트북(Jupyter Notebook)을 설치해보자!Project JupyterThe Jupyter Noteb.. 2020. 11. 8.
다중 if문 x = 12 if x > 10 : if x % 2 == 1 : print("x는 10이상의 홀수") elif x % 2 == 0 : print("x는 10이상의 짝수") 2020. 10. 15.
함수란? 함수란? 프로그래밍에서 함수(function)란 하나의 특별한 목적의 작업을 수행하기 위해 독립적으로 설계된 프로그램 코드의 집합으로 정의할 수 있습니다. C 프로그램은 이러한 함수들로 구성되며, 포함된 함수들을 사용하여 프로그램의 목적을 달성하게 됩니다. 함수를 사용하는 이유 함수를 사용하는 가장 큰 이유는 바로 반복적인 프로그래밍을 피할 수 있기 때문입니다. 프로그램에서 특정 작업을 여러 번 반복해야 할 때는 해당 작업을 수행하는 함수를 작성하면 됩니다. 그리고서 프로그램이 필요할 때마다 작성한 함수를 호출하면 해당 작업을 반복해서 수행할 수 있습니다. 또한, 프로그램을 여러 개의 함수로 나누어 작성하면, 모듈화로 인해 전체적인 코드의 가독성이 좋아집니다. 그리고 프로그램에 문제가 발생하거나 기능의 .. 2020. 10. 14.
[DA와 ML] 06 회귀분석기법 미션 : X, Y 입력받기 이론 개념 [DA와 ML] 선형회귀법이란? 회귀분석이란? Linear Regression (선형회귀법) 종속변수 y : 스칼라로 표현 독립변수 X : 벡터 형식으로 표현 이 두 변수 간의 관계를 표현하기 위한 알고리즘이다. 독립변수 X가 스칼라 값일 경우 (즉 1차원 벡터일 0ver-grow.tistory.com 해답 2. Numpy 사용하기 Numpy 시작하기 import numpy def matrix_tutorial(): # 3×4 의 크기를 가진 2차원 배열 선언 A = numpy.array([[1,4,5,8], [2,1,7,3], [5,4,5,9]]) return A print(matrix_tutorial()) 행렬변환 import numpy de.. iamdaisy.tistory.com impo.. 2020. 10. 13.
[DA와 ML] 선형회귀법이란? 회귀분석이란? Linear Regression (선형회귀법) 종속변수 y : 스칼라로 표현 독립변수 X : 벡터 형식으로 표현 이 두 변수 간의 관계를 표현하기 위한 알고리즘이다. 독립변수 X가 스칼라 값일 경우 (즉 1차원 벡터일 경우) 특별히 단순회귀분석 (simple linear regression) 이라고 부릅니다. 단순회귀분석에서 데이터는 X와 y의 쌍의 집합으로 표현되며, 독립변수 X가 스칼라값이기 때문에 데이터는 2차원 평면에 표시할 수 있습니다. 회귀분석은 - 여러 기계학습 알고리즘 중 이해하기 쉬운 알고리즘입니다. - 관찰된 변수들에 대해 독립변수와 종속변수 사이의 관계를 나타내는 선형 관계식을 구하는 알고리즘입니다. - 독립변수가 바뀜에 따라 종속변수가 어떻게 변하는지를 분석하는 것입니다. - 시간과.. 2020. 10. 13.
[DA와ML_05.PY lib활용한 기초 행렬 미션] 전치행렬(transpose), 역행렬(linalg) 2. Numpy 사용하기Numpy 시작하기 import numpy def matrix_tutorial(): # 3×4 의 크기를 가진 2차원 배열 선언 A = numpy.array([[1,4,5,8], [2,1,7,3], [5,4,5,9]]) return A print(matrix_tutorial()) 행렬변환 import numpy de..iamdaisy.tistory.comimport numpy def matrix_tutorial(A): # 2 : A의 전치행렬 B를 생성 B = A.transpose() try: #3 - 1 : B의 역행렬을 구해 C로 저장 C = numpy.linalg.inv(B) except: #3 - 2 : 에러 발생시 return "not invertible" # 4 : C안.. 2020. 10. 13.
[Pandas 월드컵] 데이터 프레임 칼럼 (dataframe column) 추가 import pandas as pd import numpy as np import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) ''' 출력 형식을 위한 스켈레톤 코드입니다. 아래 줄 부터 문제에 맞는 코드를 작성해주세요. ''' # WorldCups.csv파일을 pandas의 DataFrame으로 만들어보세요 world_cups = pd.read_csv("WorldCups.csv") # .. 2020. 10. 12.
[Pandas 월드컵] csv 파일을 dataframe 출력하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils() pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000) ''' 출력 형식을 위한 스켈레톤 코드입니다. 아래 줄 부터 문제에 맞는 코드를 작성해주세요. ''' # WorldCups.csv파일을 pandas의 DataFrame으로 만들어보세요. world_cups = pd.read_csv("WorldCups.csv") #.. 2020. 10. 12.
[Pandas] 월드컵 1 데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미합니다. 데이터 분석은 보통 아래의 단계로 이루어집니다. 주제 선정 데이터 구조 파악 데이터 전처리 데이터 분석 구현 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세웁니다. 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 합니다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있습니다. 데이터 전처리 데이터를 분석하기 전, 필요한 변수만을 추출하거나 기존의 변수로 새로운 변수를 계산하여 만들기도 합니다. 데이터.. 2020. 10. 12.
[matplot] 토끼와 거북이가 달리기 시합 토끼와 거북이가 달리기 시합을 하기로 했어요. 공정한 경쟁을 위해서 1초마다 토끼와 거북이의 위치를 다른 동물이 기록하기로 하고 경주를 했네요. 그 위치 데이터가 csv파일로 저장되어 있어요. 우리는 csv 파일을 읽어서 토끼와 거북이의 시간별 위치를 그래프로 시각화 해보고자 합니다! from elice_utils import EliceUtils from matplotlib import pyplot as plt import pandas as pd plt.rcParams["font.family"] = 'NanumBarunGothic' elice_utils = EliceUtils() def main(): # 아래 경로에서 csv파일을 읽어서 시각화 해보세요 # 경로: "./data/the_hare_and_t.. 2020. 10. 12.
[Pandas 심화] 피리부는 사나이 문제 피리부는 사나이 Q) 피리부는 사나이를 따라간 어린이들 중 남자 어린이와 여자 어린이의 평균 연령을 표로 출력 피리부는 사나이 데이터에서 아이들만 골라내는 데 마스킹 연산을, 피리부는 사나이를 따라간 아이들의 일차별 연령을 계산하는 데 groupby 함수를, 아이들의 일차별 연령을 성별로 나누어 표로 출력하는 데 pivot table을 이용할 수 있습니다. import pandas as pd import numpy as np import numpy as np def main() : # 파일을 읽어서 코드를 작성해보세요 # 경로: "./data/the_pied_piper_of_hamelin.csv" df = pd.read_csv("./data/the_pied_piper_of_hamelin.csv") chi.. 2020. 10. 12.
[Pandas 심화] MultiIndex, 다중 인덱싱(계층적 인덱싱) 행 인덱스 계층적으로 만들기 열 인덱스 계층적으로 만들기 다중 인덱스 칼럼의 인덱스 탐색하기 죽으면 0 살아있으면 1 class가 컬럼 데이터 sex가 인덱스 데이터 aggfunc으로 평균값을 구함. 이를 클래스별 값으로 활용 다음 데이터 중에서 "월별"을 인덱스 데이터 "내역"을 칼럼 데이터로 활용 values로 분류할 칼럼들을 리스트 형태로 삽입 ''' 실행 버튼을 눌러 멀티 인덱스를 활용한 데이터 프레임을 출력해보세요. 인덱스가 A와 B, 1과 2로 나뉘어져 있는 경우에 출력되는 결과와 멀티 인덱스가 있는 테이블의 인덱싱 방법을 확인해보세요. ''' import numpy as np import pandas as pd df1 = pd.DataFrame( np.random.randn(4, 2), in.. 2020. 10. 11.
[Pandas 심화] DataFrame, 조건으로 검색하기 마스킹 연산 DataFrame 2020. 10. 11.
[Numpy] DataFrame 정렬 sort_values를 통해 col1의 컬럼이 정렬됨. 기본값은 오름차순 내림차순은 이렇게 False값을 넣어야 된다. 다른 컬럼값과 같은 순서로 정렬해보자 col2를 기준으로 오름차순 정렬을 해보자 그럼 col1,col3컬럼은 col2컬럼과 같은 행에 있는 값들이 정렬된다. Q) 굳이 col2, col1을 입력할 필요가 있나? col2만 입력해도 되지 않나? 뭐가 다른가? 2020. 10. 9.
반응형