본문 바로가기
● 인공지능, 분석/19.12 BoostCamp_디지털마케팅

[FC] 그로스해킹_크롤링편

by 0ver-grow 2019. 12. 13.
반응형

파이썬이란?
인터프리터언어 객체지향언어
직관적, 가독성 좋은 키워드

파이썬의 장점?
다양한 표준, 써드파티 라이브러리 -> 이미 많이 만들어놓은 코드모음만 활용해도 시간절약
여러 플랫폼에서 동작함, 독립적임
충분히 제공되는 API문서 업데이트

인스타그램의 기술블로그는 파이썬으로 개발 공유

크롤링?
검색에 맞는 데이터를 가지고 오고 DB화하거나 파일로만듦
데이터를 추출하는 것을 의미
원하는 데이터만을 뽑아서 가공하는 것

 


크롤링?
웹 상에 데이터를 긇어 모으는 작업
추출,가공작업

가능한 사이트?
브라우저를 통해 볼 수 있는 모든 웹 사이트들임
관리자권한의 사이트는 할 수 없음
웹 자원을 추출하는 것이므로 css,html,js지식이 필요
DOM 트리구조를 분석할 수 있는 능력필수

학습순서는
1. 웹사이트 구조 분석
2. 크롤링 코드 작성 
3. 파일 저장 및 데이터 분석

1. 웹사이트 구조 분석

하지않고 단순히 데이터 요청하는 것은 Open API임. 특정 부분에 대해 개발 권한을 준것을 의미함
예시가 구글맵. get방식으로 호출하면 띄워준다.
데이터 타입은 2가지
-xml이란 구조로 된 것도 있어
-json이란 파일로 요청하면 다른 모습으로 제공해줌

open API특징
많은 양의 데이터를 빠르게 가져올 수 있음
제공하지 않으면 데이터 못 가져옴
많은 양의 데이터가 필요할 시 금액이 발생함

크롤링 시나리오?
웹 상에 어떤 데이터를 어떻게 가져올지 정하는 작업
웹 사이트마다 다른 방식이 필요
크롤링할 웹 사이트에 미리 접속해서 URL등을 분석
전체적인 로직에 대한 흐름 변화는 거의 없기에 미리 학습이 필요함


 

반응형