본문 바로가기
○ 빅데이터분석기사/1과목 : 빅데이터 분석 기획

[빅데이터 분석 기사 필기 요약] 1.1.2 빅데이터의 이해 : 데이터 산업의 이해, 빅데이터 조직 및 인력.

by 0ver-grow 2020. 11. 11.
반응형

오늘 학습할 내용

  • 빅데이터 기술 및 제도 : 01. 빅데이터 플랫폼
  • 빅데이터 기술 및 제도 : 02. 빅데이터와 인공지능
  • 빅데이터 기술 및 제도 : 03. 개인정보 법, 제도
  • 빅데이터 기술 및 제도 : 04. 개인정보활용

A. 빅데이터 플랫폼

빅데이터 플랫폼이란?

다양한 데이터를 수집, 분석, 처리하여 지식을 추출 ▶ 이를 기반으로 지능화된 서비스를 제공하는데 필요한 ICT 환경

 

빅데이터 플랫폼의 구성

  • 빅데이터 처리 플랫폼 기술 : 데이터 수집, 지식 발굴시 필요한 기술
  • 빅데이터 컴퓨팅 인프라 기술 : 대용량dml 고속 저장 공간, 컴퓨팅 파워 등 컴퓨터 기반을 제공하는 기술

빅데이터 플랫폼이 빅데이터 처리를 위해선 다음 능력이 필요함

  • 확장성있는 대용량 처리
  • 이기종 데이터 수집 및 통합 처리
  • 빠른 데이터 접근 및 처리
  • 대량의 데이터를 저장 관리
  • 대량의 이기종 데이터 분석

빅데이터 처리 플랫폼이란?

데이터 수집, 저장 관리, 처리 및 분석 및 시각화의 각 단계를 지원하는 SW이며 이를 통해 구현함

 

빅데이터 분석 프로세스 절차

1. 빅데이터 수집

단순히 데이터를 확보하는 기술이 아닌 정제(수집,분석,변환)된 데이터를 확보하는 과정을 의미함.

 

빅데이터 수집의 3단계

  1. 수집 대상 데이터 선정
  2. 수집 세부계획 수립
  3. 데이터 수집 실행

2. 빅데이터 저장/관리

빅데이터 저장이란?

검색 및 수집한 데이터를 분석에 적합한 방식으로 보관하는 것으로 데이터 수정, 삭제, 읽어 오는 방법을 제공하는 것

 

빅데이터 저장의 분류

  • 빅데이터 전처리(pre-processing) : 수집한 데이터를 필터링, 유형변환, 정제 등의 과정
  • 빅데이터 후처리(post-processing) : 분석에 용이하도록 데이터를 변환, 통합, 축소 등의 과정
  • 빅데이터 저장 : 저장할 데이터의 포맷 등 유형을 검토한 뒤, 데이터에게 유리한 방식(NoSQL, RDB, 분산 파일 시스템 등)으로 저장하는 과정

3. 빅데이터 처리

빅데이터에서 유의미한 정보를 찾기 위한 데이터 가공, 분석을 지원하는 과정

저장 데이터의 적시 처리 지원

빅데이터 처리 과정시 고려할 점

  • 데이터 규모(Value)를 위한 확장성 지원
  • 데이터 생성/처리 속도(Velocity)를 위한 처리 시간 단축 , 실시간 처리 지원
  • 데이터 다양성(Variety)을 위한 정형, 비정형 데이터 처리 지원

빅데이터 일괄 처리 : 빅데이터를 여러 서버로 분산하여 각 서버에서 처리 후 다시 결과를 정리함. 이를 위해 분산, 병렬 기술 방식을 사용함. (하둡의 맵리듀스, MS의 드라이애드가 대표적)

 

빅데이터 실시간 처리 : 정형, 비정형 데이터를 동시에 효율적으로 실시간 처리함. 이를 이벤트 기반 실시간 처리 기술, 스트림 처리 기술이라고 함

 

4. 빅데이터 분석(을 위한 3단계)

분석 계획 수립

  • 분석을 통해 목적을 명확하게 정의 ▶ 분석 절차, 분석 기법에 대한 시나리오 작성
  • 분석 인프라 구축 방안, 아웃소싱(외부위탁) 방안 등 결정

분석 시스템 구축

  • 저장 서버, 처리 서버를 포함하는 분석 시스템의 하드웨어 인프라를 구축.

분석 실행

  • 기존의 분석 기법들의 알고리즘을 개선하여 빅데이터 분석에 활용
  • 데이터 마이닝, 텍스트 마이닝, SNS 분석, 최적화 등이 대표적인 예

5. 빅데이터 분석 시각화

  • 빅데이터 속의 의미를 직관적으로 표현하는 기술
  • 어떤 시각화 도구로 어떻게 표현하느냐에 따라 직관이 달라짐

 

6. 빅데이터 폐기

데이터를 삭제하는 단계

하드웨어적 폐기

  • 하드디스크 파기는 물리적 논리적 공간 전체를 파기하므로 특정 데이터 삭제는 어려움

소프웨어적 폐기

  • 다른 데이터를 덮어쓰는 방법으로 폐기

B. 빅데이터와 인공지능

인공지능(AI, Artificial Intelligence)이란?

사람과 유사한 지능을 가질 수 있도록 인간의 학습 능력, 추론 능력, 지각 능력, 자연어 이해 능력 등을 컴퓨터 프로그램으로 실현하는 기술

ICT기술의 발전과 ICBMA(IoT,Cloud,Bigdata, Moblie, AI)로 급속한 성장 중

인공지능의 원재료인 데이터. 데이터의 폭증(빅데이터)으로 인해 인공지능도 급속한 발전을 이룸

빅데이터는 인공지능에게 필수적

 

인공지능의 역할

  • 약한 인공지능(weak AI, narrow AI) : 자율성이 없음. 스스로 판단을 못함. 음성인식기술처럼 단순히 정보를 이해, 처리하는 정도의 기능만을 수행
  • 강한 인공지능(strong AI) : 인공지능의 기능 + 자율성. 학습한 정보로 스스로 판단, 결정함. 감정, 자아의식, 양심 등의 능력을 갖춤. 오늘날 인공지능이 지향하는 것

인공지능의 역사

인공지능과 관련된 연구는 1950년대 진행. 1980년대 인공신명망 구조를 적용한 인공지능으로 발전했으나 컴퓨팅 능력 및 데이터가 부족함. 

2010년대에 들어서면서 통계 기반의 기계학습과 심층학습을 이용한 딥러닝 알고리즘이 개발되면서 컴퓨터가 스스로 학습하여 최적화된 방식으로 문제를 해결할 수 있는 수준으로 발전

 

기계학습(머신러닝)이란?

  • AI의 한 분야
  • 여러 데이터를 이용하여 학습한 내용을 기반으로 새 데이터에 대한 적절한 작업을 수행할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
  • 학습 모델을 제공하여 데이터를 분류
  • 컴퓨터를 사람처럼 학습시켜 스스로 규칙성을 찾도록 하는 기술
  • 예시. 강아지 사진 데이터로 학습한 뒤, 입력한 사진이 강아지인지 아닌지 분류하도록 만듦.
  • 맞춤형 광고, 음성인식 등으로 활용
  • 주어진 데이터를 사람이 먼저 분류하고 컴퓨터가 인식할 수 있도록한 뒤, 컴퓨터가 데이터에포함된 특징을 분석하고 축적함

딥러닝(Deep-Learning, 심층학습)이란?

 

  • 인간의 뉴런과 비슷한 인공신경망(Neural Network) 방식으로 정보를 처리
  • 분류를 통한 예측이 핵심.
  • 수많은 데이터 속에서 패턴을 발견하여 사람이 사물을 분류하듯 컴퓨터가 분류함.
  • 사물 정보나 데이터를 수집, 분류하는데 사용하는 기술
  • 현재, 사람에 의한 빅데이터 분석을 넘어 AI에 의한 빅데이터 분석, 사고가 가능함
  • 최근 IT 기업들이 딥러닝을 이용하여 사진, 영상, 음성정보를 분류하는 이유는 풍부한 데이터의 양과 정확성이 높기 때문.
  • 학습 모델을 제공하여 데이터를 분류
  • 이미지를 구분하기 위해서 필요한 기술
  • 딥러닝은 기계학습에서 사람이 개입하던 분류 작업을 딥러닝 알고리즘을 이용하여 컴퓨터가 스스로 분석해서 해결하는 방식
  • 기계학습에 비해 방대한 양의 데이터 연산과 처리 능력을 요구하기에 높은 사양의 CPU 등 HW가 필요함.

C. 개인정보 법, 제도

개인정보와 관련된 법 제도

  • 데이터 개인정보보호 가이드라인 (2015) : 공개된 개인정보 또는 이용내역 정보 등을 전자적으로 설정된 체계에 의해 수집,저장,조합, 분석 처리하여 새 정보를 생성함에 있어서 이용자의 프라이버시 등을 보호하고 안전한 이용환경을 조성하는 것을 목적으로 한다. 개인정보 오남용 방지. 안전한 개인정보 활용방안을 제시함
  • 개인정보 비식별 조치 가이드라인 (2016) : 정부 3.0 및 빅데이터 활용 확산에 따른 데이터 활용가치 증대, 개인정보 보호 강화에 대한 사회적 요구 지속, '보호와 활용'을 동시에 모색하는 세계적 정책 변화에 적극 대응하고자 하는 목적. 개인정보를 비식별 조치하여 이용하거나 제공하려는 사업자 등이 준수하여야 할 조치 기준을 제시한 것
  • 데이터 3법 (2020) : <개인정보보호법>, <정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)>, <신용정보의 이용 및 보호에 관한 법률(신용정보법)> 이 3가지를 통칭하는 법.
  • 가명처리 가이드라인 (2020.08) : 개인정보보호법 제28조의2에 근거하여 개인정보의 처리목적 범위 내에서 동의 없이 가명정보를 처리하는 과정에서 발생할 수 있는 개인정보 오·남용을 방지하고 데이터 산업 활성화를 위한 안전한 가명정보 활용방안을 안내

 

D. 개인정보 활용

이를 위해선 앞서 제시한 개인정보와 관련된 법, 제도를 준수해야 함

  • 데이터 개인정보보호 가이드라인 (2015)
  • 개인정보 비식별 조치 가이드라인 (2016)
  • 데이터 3법 (2020)
  • 가명처리 가이드라인 (2020.08)

[빅데이터 분석 기사 필기 요약] 1.1.1 빅데이터의 이해 : 빅데이터 개요 및 활용

[빅데이터 분석 기사 필기 요약] 1.2.1 데이터 분석 계획 : 데이터 분석 방안 수립

반응형