[6.크롤링] 기사제목 및 링크 출력 (1)

import os,re
import urllib.request as ur
from bs4 import BeautifulSoup as bs

대상은 다음 뉴스창

news = 'https://news.daum.net/'

긁어올 대상의 class명(속성값)은 item_issue

soup = bs(ur.urlopen(news).read(), 'html.parser')
soup.find_all('div', {"class":"item_issue"})

반복문을 통해 출력해보자

for i in soup.find_all('div',{"class":"item_issue"}) :
    print(i.text)

하이퍼 링크가 있는 a태그 5개를 출력해보자

soup.find_all('a')[:5]

여기서 보면 a태그안에 href가 URL링크를 담고 있고 span태그안에 제목이 있는 것을 알 수 있다.

고로, href 속성값을 추출해보자.

이를 위해 객체.get('href)를 이용한다.

[6. 크롤링] 뉴스 제목, 뉴스 링크 추출하기 (0)	2021.01.18
beautifulsoup 설치하기. (0)	2021.01.15
[5. 분석] 파이썬 데이터 분석 패키지 시작 (0)	2021.01.12
[4. CSV] 번역 내용 저장하기 (0)	2021.01.12
[4. CSV] 부동산 실거래가 분석하기. 조건 필터링 / 별도로 저장하기 (0)	2021.01.11

DataPlanet