본문 바로가기
○ 크롤링, 자동화/BeautifulSoup

[잔재미] 파이썬을 이용한 웹 크롤링(Web Crawling) 어플리케이션 만들기. 4강

by 0ver-grow 2020. 1. 13.
반응형

뷰티풀소프>
파서역할이 강함
html문서에서 정볼르 가져올때 네비게이션이 잘됨
자동으로 웹 유니코드 변환하여 출력함
한국은 특별한 인콛ㅇ 을 사용해서 데이터가 깨진경우가 있는데 이걸 쓰면 덜 겪음
데이터를가져올때 데이터를 가져올때 유니코드롤 한번변환하면 별 탈없이 사용가능

스크래피>
기능더많음
웹에서 데이터를 들고와서 처리함
프레임웍형태
전체적인 웹으로 가져오김
파이프라인통해 후처리, 필터링해줌
로깅정보를 통해 잘 처리되고있는지 확인가능
이 기능들을 뷰티풀에서 쓸 수있지만 따로 만들어줘야함

뷰티풀소프사용하기
www.crummy.com 에서 사용방법 볼 것

from vs4 import beautifulsoup
soup = beautifulsoup(html_doc, 'html-parser') #문서:html_doc, 

soup.title
soup.title.name
soup.title.string
soup.p
soup.find_all()

정규표현식도 사용가능


반응형