반응형
검색엔진이 크롤링을 이용함
구글봇, 빙봇
이 봇들이 여러 사이트를 돌아다니면서 사이트에 연결된 페이지를 복사해서 DB에 복사해서 검색이 잘되도록 분류함
크롤링
1. 정보를 수집 후 가공해서 사용 : 스크래핑
2. 크롤링 봇을 이용한 복사 수집
크롤러가 읽어도 되는 정보와 읽지 않았으면 하는 정보를 Robots.txt에 기재함.
크롤러는 Robts.txt를 따르지만 따르지 않는 악성 크롤러도 있다.
실습
모듈 : 복잡한 기능을 편리하게 만든 함수 (import random)
pip : 모듈을 다운받기 위해 pip라는 명령어를 사용
셀리니움 : 브라우저를 열어 접속한 뒤 html을 긁어옴
1. chrome://version 을 검색해서 버전을 확인
2. chorme webdriver download를 입력해서 1.에서 확인한 버전을 찾고 OS버전에 맞는 것을 찾아서 다운
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
반응형
'● 크롤링, 자동화 > Selenium' 카테고리의 다른 글
selenium 자동화 수집하기 (0) | 2020.11.08 |
---|---|
Anaconda 다운로드 받기, Jupyter Notebook 설치하기 (0) | 2020.11.08 |
네이버 카페 크롤 - 01 로그인 하기 (0) | 2020.08.30 |
[김플 스튜디오] 구글 로그인, 메일 보내기 자동화 (selenium, webdriver, actionchains) (1) | 2020.05.06 |
[김플 스튜디오] selenium : 크롬 검색 자동화 (0) | 2020.05.06 |