본문 바로가기
● 인공지능, 분석/20.12 생활 프로그래밍

[6.크롤링] 기사제목 및 링크 출력 (1)

by 0ver-grow 2021. 1. 18.
반응형

크롤링을 위한 사전작업

import os,re
import urllib.request as ur
from bs4 import BeautifulSoup as bs

대상은 다음 뉴스창

news = 'https://news.daum.net/'

긁어올 대상의 class명(속성값)은 item_issue

soup = bs(ur.urlopen(news).read(), 'html.parser')
soup.find_all('div', {"class":"item_issue"})

반복문을 통해 출력해보자

for i in soup.find_all('div',{"class":"item_issue"}) :
    print(i.text)

2. 하이퍼 링크 추출하기

하이퍼 링크가 있는 a태그 5개를 출력해보자

soup.find_all('a')[:5]

여기서 보면 a태그안에 href가 URL링크를 담고 있고 span태그안에 제목이 있는 것을 알 수 있다.

고로, href 속성값을 추출해보자.

이를 위해 객체.get('href)를 이용한다.

 

 

반응형