본문 바로가기
● 크롤링, 자동화/Selenium

[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling]

by 0ver-grow 2020. 8. 30.
반응형

검색엔진이 크롤링을 이용함

구글봇, 빙봇

이 봇들이 여러 사이트를 돌아다니면서 사이트에 연결된 페이지를 복사해서 DB에 복사해서 검색이 잘되도록 분류함

 

 

크롤링

1. 정보를 수집 후 가공해서 사용 : 스크래핑

2. 크롤링 봇을 이용한 복사 수집

 

 

크롤러가 읽어도 되는 정보와 읽지 않았으면 하는 정보를 Robots.txt에 기재함.

크롤러는 Robts.txt를 따르지만 따르지 않는 악성 크롤러도 있다.

 

실습

모듈 : 복잡한 기능을 편리하게 만든 함수 (import random)

pip : 모듈을 다운받기 위해 pip라는 명령어를 사용

셀리니움 : 브라우저를 열어 접속한 뒤 html을 긁어옴

 

1. chrome://version 을 검색해서 버전을 확인

2. chorme webdriver download를 입력해서 1.에서 확인한 버전을 찾고 OS버전에 맞는 것을 찾아서 다운

 

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

 

 

 

반응형