본문 바로가기
● 크롤링, 자동화/BeautifulSoup

[잔재미] 파이썬을 이용한 웹 크롤링(Web Crawling) 어플리케이션 만들기. 3강

by 0ver-grow 2020. 1. 13.
반응형

OS : Ubuntu 16.04 # 서버는 리눅스,우분투에서 많이 다룸
Language : Python2.7
Library : BeautifulSoup, Scrapy
etc : virtualenv, virtualenvwrapper (python은 버전별로 lib달라, lib따라 버전맞춰줘야하는 문제. 이를 편하게 하기 위해 가상환경사용, 문제발생시 가상환경만 지우면됨)


순서는 다음과 같다.
아, 그리고 sudo 를 이용해서 설치하는 패키지들은 pip과는 다르게 리눅스환겨전체에 설치되는 것임

1. sudo apt-get install update
2. sudo apt-get install build-essential # 개발위한 기본패키지, 기본 라이브러리 존재
3. sudo apt-get install python-pip #pip 패키지 매니저 설치
4. sudo apt-get install virtualenvwrapper #가상환경설치, 가상환경을 이용해서 상황에 맞게 파이썬 버전사용가능

# virtalenv에서 간단한 설정하기
5. vi .bashrc #해당 파일 제일 하단에 다음 코드 추가 # 코드를 추가하려면 알파벳 i(입력하기)를 누르면 되고, 삭제하고싶은게 있으면 해당위치에서 그냥 입력하면 ins처럼 지워진다.

fi
export WORKON_HOME=SHOWME/.virtualenvs  #virtualenv에서 사용할 홈디렉터리설정. 대부분의 유저들이 해당 디렉터리에 설정함
source /usr/local/bin/virtualenvwrapper.sh #virtualenv,wrapper를 편리하게 사용해주기 위한 명령어
:wq # esc누르고 콜론(:) 누르면 나오는 상태, 이를 입력해서 저장 후 종료한다.

+. https://hyeonstorage.tistory.com/274 리눅스명령어 참고

6. vi .bashrc # vitualenv가 실행됨
===> 그런데 여기서 문제발생. /usr/local/bin/virtualenvwapper.sh : 그런 파일이나 디렉터리가 없습니다.
===> 이때는 다음명령어를 사용해서 파일의 위치를 찾아, 이 위치로 바꾸자. find /usr -name virtualenvwrapper.sh
===> 출처 : https://beomi.github.io/2016/12/28/HowToSetup-Virtualenv-VirtualenvWrapper/

7.  mkvirtualenv oneq # oneq라는 이름을 가진 가상환경을 만들어보자


이 가상환경에서는 설치하면 여기서만 동작함
deactivate # 가상환경 나오기
workon oneq # oneq 가상환경 들어오기 

8. # 뷰티풀소프 설치이전에 lxml이란 파서가 필요. 파서란 웹에있는 html을 분석해주는 것
sudo apt-get install libxml2-dev libxslt-dev python-dev zliblg-dev 
# 그러나필자는 zliblg-dev를 안씀. 왜냐면 없다고 떠서
# pip를 활용하면 가상환경은 동일설치가능

9. > sudo apt-get install python-lxml

10. > pip install lxml
#파이썬 환경에서 lxml이 설치됨. 그런데 이를 입력하니 파이썬 업그레이드를 하란다. 2.7버전은 이미 업데이트가 끝났다고 한다. 앞으로의 pip는 2.7버전을 지원하지 않는다고 한다.


만들어둔 가상환경인 oneq로 들어가보자
여기 필요한 모든 라이브러리가 다 설치된다.
시스템이나 작업환경 상관없이 유지할 수 있다.


이제 BeautifulSoup를 설치해보자
oneq가상환경에 들어간 상태에서 진행할 것!
11. > sudo apt-get install beautifulsoup4
12. > sudo apt-get install libffi-dev libssl-dev
13. > pip install scrapy

반응형