본문 바로가기
● 크롤링, 자동화/BeautifulSoup

[beautifulsoup] 네이버 모바일 검색 결과를 크롤링한 뒤, csv 파일로 저장하자.

by 0ver-grow 2021. 5. 4.
반응형

1. 모바일 HTML 태그를 살펴보자

제목이 a태그에 속해있다

 

 

2. URL을 살펴보자

URL을 보면 검색어가 쿼리스트링 형태로 나타나있다.

 

 

이 URL을 그대로 가져와 복붙하면 다음처럼 아스키코드로 나타난다.

 

 

검색어는 query= 문 뒤에 나오며 아스키 코드로 나타난다는 점에 주목하자.

 

query값에 search 변수를 삽입하여

입력한 검색어에 해당되는 데이터를 불러오도록 만들자.

 

여기서!

URL은 아스키코드 형태로 나타나야하므로

아스키코드로 변환시켜주는 quote_plus를 활용하여

quote_plus(search) 를 입력하자.

 

 

3. 크롤링 시작하기

html 변수 = 링크를 읽어들인다.

soup 변수 = html태그를 저장 html 변수에서 html만을 저장한다.

total 변수 = 클래스명 api_txt_lines 과 클래스명 total_tit로 된 모든 태그를 가져온다.

 

맛보기1

첫번째 인덱스만 출력해보자.

 

 

맛보기2 

반복문에 text, attrs를 사용하여 텍스트와 링크만을 뽑아온다.

 

출력결과

 

정상적으로 출력된다면 다음 과정을 진행하자.

맛보기3

이중리스트를 사용하여

한 리스트에 텍스트, 링크 1개씩 저장하자.

즉, [[제목1,링크1],[제목2,링크2], ...] 구조로 저장된다.

 

첫번째 인덱스만 출력해보자

 

 

출력 결과

 

 

4. csv로 저장하기

 

 

 

 

 

반응형