○ 크롤링, 자동화/Selenium
[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling]
0ver-grow
2020. 8. 30. 21:45
반응형
검색엔진이 크롤링을 이용함
구글봇, 빙봇
이 봇들이 여러 사이트를 돌아다니면서 사이트에 연결된 페이지를 복사해서 DB에 복사해서 검색이 잘되도록 분류함
크롤링
1. 정보를 수집 후 가공해서 사용 : 스크래핑
2. 크롤링 봇을 이용한 복사 수집
크롤러가 읽어도 되는 정보와 읽지 않았으면 하는 정보를 Robots.txt에 기재함.
크롤러는 Robts.txt를 따르지만 따르지 않는 악성 크롤러도 있다.
실습
모듈 : 복잡한 기능을 편리하게 만든 함수 (import random)
pip : 모듈을 다운받기 위해 pip라는 명령어를 사용
셀리니움 : 브라우저를 열어 접속한 뒤 html을 긁어옴
1. chrome://version 을 검색해서 버전을 확인
2. chorme webdriver download를 입력해서 1.에서 확인한 버전을 찾고 OS버전에 맞는 것을 찾아서 다운
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
반응형