[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling]

검색엔진이 크롤링을 이용함

구글봇, 빙봇

이 봇들이 여러 사이트를 돌아다니면서 사이트에 연결된 페이지를 복사해서 DB에 복사해서 검색이 잘되도록 분류함

크롤링

1. 정보를 수집 후 가공해서 사용 : 스크래핑

2. 크롤링 봇을 이용한 복사 수집

크롤러가 읽어도 되는 정보와 읽지 않았으면 하는 정보를 Robots.txt에 기재함.

크롤러는 Robts.txt를 따르지만 따르지 않는 악성 크롤러도 있다.

실습

모듈 : 복잡한 기능을 편리하게 만든 함수 (import random)

pip : 모듈을 다운받기 위해 pip라는 명령어를 사용

셀리니움 : 브라우저를 열어 접속한 뒤 html을 긁어옴

1. chrome://version 을 검색해서 버전을 확인

2. chorme webdriver download를 입력해서 1.에서 확인한 버전을 찾고 OS버전에 맞는 것을 찾아서 다운

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

저작자표시

'○ 크롤링, 자동화 > Selenium' 카테고리의 다른 글

selenium 자동화 수집하기 (0)	2020.11.08
Anaconda 다운로드 받기, Jupyter Notebook 설치하기 (0)	2020.11.08
네이버 카페 크롤 - 01 로그인 하기 (0)	2020.08.30
[김플 스튜디오] 구글 로그인, 메일 보내기 자동화 (selenium, webdriver, actionchains) (1)	2020.05.06
[김플 스튜디오] selenium : 크롬 검색 자동화 (0)	2020.05.06

DataPlanet

[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling]

실습

'○ 크롤링, 자동화 > Selenium' 카테고리의 다른 글

티스토리툴바

[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling]

실습

'○ 크롤링, 자동화 > Selenium' 카테고리의 다른 글

관련글

티스토리툴바