반응형
뷰티풀소프>
파서역할이 강함
html문서에서 정볼르 가져올때 네비게이션이 잘됨
자동으로 웹 유니코드 변환하여 출력함
한국은 특별한 인콛ㅇ 을 사용해서 데이터가 깨진경우가 있는데 이걸 쓰면 덜 겪음
데이터를가져올때 데이터를 가져올때 유니코드롤 한번변환하면 별 탈없이 사용가능
스크래피>
기능더많음
웹에서 데이터를 들고와서 처리함
프레임웍형태
전체적인 웹으로 가져오김
파이프라인통해 후처리, 필터링해줌
로깅정보를 통해 잘 처리되고있는지 확인가능
이 기능들을 뷰티풀에서 쓸 수있지만 따로 만들어줘야함
뷰티풀소프사용하기
www.crummy.com 에서 사용방법 볼 것
from vs4 import beautifulsoup
soup = beautifulsoup(html_doc, 'html-parser') #문서:html_doc,
soup.title
soup.title.name
soup.title.string
soup.p
soup.find_all()
정규표현식도 사용가능
반응형
'○ 크롤링, 자동화 > BeautifulSoup' 카테고리의 다른 글
[잔재미코딩] 3. naver stock_select, 2차 필터하기 (0) | 2020.02.27 |
---|---|
[잔재미코딩] 2-1 select를 활용한 크롤링 (0) | 2020.02.26 |
[잔재미] 파이썬을 이용한 웹 크롤링(Web Crawling) 어플리케이션 만들기. 3강 (0) | 2020.01.13 |
[FC] 14. 크롤링 자료 엑셀저장 / openpyxl / load_workbook / (0) | 2019.06.30 |
[FC] 12. 태그없앤 상세한 크롤링 / BeautifulSoup / select / find_all / get_text() (0) | 2019.06.30 |