반응형
크롤링을 위한 사전작업
import os,re
import urllib.request as ur
from bs4 import BeautifulSoup as bs
대상은 다음 뉴스창
news = 'https://news.daum.net/'
긁어올 대상의 class명(속성값)은 item_issue
soup = bs(ur.urlopen(news).read(), 'html.parser')
soup.find_all('div', {"class":"item_issue"})
반복문을 통해 출력해보자
for i in soup.find_all('div',{"class":"item_issue"}) :
print(i.text)
2. 하이퍼 링크 추출하기
하이퍼 링크가 있는 a태그 5개를 출력해보자
soup.find_all('a')[:5]
여기서 보면 a태그안에 href가 URL링크를 담고 있고 span태그안에 제목이 있는 것을 알 수 있다.
고로, href 속성값을 추출해보자.
이를 위해 객체.get('href)를 이용한다.
반응형
'● 인공지능, 분석 > 20.12 생활 프로그래밍' 카테고리의 다른 글
[6. 크롤링] 뉴스 제목, 뉴스 링크 추출하기 (0) | 2021.01.18 |
---|---|
beautifulsoup 설치하기. (0) | 2021.01.15 |
[5. 분석] 파이썬 데이터 분석 패키지 시작 (0) | 2021.01.12 |
[4. CSV] 번역 내용 저장하기 (0) | 2021.01.12 |
[4. CSV] 부동산 실거래가 분석하기. 조건 필터링 / 별도로 저장하기 (0) | 2021.01.11 |