○ 인공지능, 분석/20.12 생활 프로그래밍
[6.크롤링] 기사제목 및 링크 출력 (1)
0ver-grow
2021. 1. 18. 18:17
반응형
크롤링을 위한 사전작업
import os,re
import urllib.request as ur
from bs4 import BeautifulSoup as bs
대상은 다음 뉴스창
news = 'https://news.daum.net/'
긁어올 대상의 class명(속성값)은 item_issue
soup = bs(ur.urlopen(news).read(), 'html.parser')
soup.find_all('div', {"class":"item_issue"})
반복문을 통해 출력해보자
for i in soup.find_all('div',{"class":"item_issue"}) :
print(i.text)
2. 하이퍼 링크 추출하기
하이퍼 링크가 있는 a태그 5개를 출력해보자
soup.find_all('a')[:5]
여기서 보면 a태그안에 href가 URL링크를 담고 있고 span태그안에 제목이 있는 것을 알 수 있다.
고로, href 속성값을 추출해보자.
이를 위해 객체.get('href)를 이용한다.
반응형