본문 바로가기
● 크롤링, 자동화/BeautifulSoup

[잔재미코딩] 6. 로그인이 필요한 페이지 크롤링하기

by 0ver-grow 2020. 3. 10.
반응형

로그인이 되어야만 볼수있는페이지에선
일반적인 방식으론 크롤링이 안된다.

그럼어떻게해야할까?

우선 쿠키와 세션에 대해 알아야한다.

 

 


클라이언트에서 요청할때
로그인할때는 쿠키와 세션이 함께 들어가서 요청된다.

아참!
이때 HTTP프로토콜방식으로 주고받는데(요청을할때 요청을만드는 포맷이 있고 응답도 특별한 포맷이있다)
이 때의 기본 포맷이 헤더와 바디

로그인이 필요할경우 헤더에 특별한 정보(쿠키/세션)를 포맷에 맞춰 요청한다.

아이디정보를 자기 피씨, 웹브라우저안에 저장가능
그리고 해당 웹페이지의 URL을 전송할 때 해당 아이디를 헤더에 넣어서 보냄(이를 쿠키라고함.)
쿠키란 아이디와 값처럼 구별할 수 있는 정보를 자기피씨안에 넣은상태. 특히 웹에서 저장관리하는 파일안에 있음

서버는 요청받은 헤더부분을 파악하고 거기에 쿠키관련정보가 있다면 쿠키에 해당하는 응답정보를 실어서 응답함

이 쿠키 방식은 예전방식으로 
어떤 도메인에서 아이디는 이것이다 처럼 가지고 있기에
해킹소지있어
또한 웹브라우저상의 쿠키는 특정저장소이기에 금방 찾을 수 있다.

이런 보안상의 이유로 나온것이 세션이다
세션은 아이디정보를 서버안에 가지고 있기에
이 아이디정보를 서버에서 찾을 수 있도록 특별한 값을 웹브라우저에 저장하도록 만듦
그렇다면 그 특별한 값은 언제 정해질까?
회원가입,로그인할때와 같은 특정 시점에 서버가 해당 값을 생성해서 클라이언트에게 응답으로 전송할 때

 

 

반응형