본문 바로가기
반응형

● 크롤링, 자동화59

[RPA] UiPath로 크롤링하기 UiPath 무료 링크 프로세스 자동화 소프트웨어 - 무료 다운로드 요청하기 UiPath Studio에 무료 평가판을 다운로드하고 60일간 소프트웨어 전체 사용 라이선스를 얻으세요. 이 소프트웨어로 모든 에디션의 기능을 사용해볼 수 있습니다. www.uipath.com 1. 위 링크로 들어가서 회원가입 회사, 직책은 student로 입력 2. 가입한 이메일로 들어가서 스튜디오 다운로드 클릭 3. 스튜디오 설치 후 실행 4. 메일로 날라온 코드번호 입력하기 5. 새프로젝트 시작하기 위치는 C드라이브 바로 아래에 위치한 폴더로 지정 6. 진행하기 Main.xaml 더블클릭해서 실행 Openbrowser를 드래그해서 FlowChart 안쪽으로 넣은 뒤 화살표를 이어준다 오픈 브라우저 더블클릭 > 네이버 url.. 2021. 3. 30.
RPA란? Robotic Process Autimation 단순 반복 업무를 알고리즘화 > SW프로그램으로 구현 > 자동화 '14년 이후 글로벌 금융사를 중심으로 도입되기 시작 통신, 제조, 타 산업으로 확산중 가트너에 따르면 RPA 사용 전망 2018 : 매출액 10억 달러 이상 기업의 60% 2022 : 대기업 85% 이상 저렴하고 신속한 구축과 빠른 ROI(Return On Investment) 짧은 기간에 쉽게 구현 가능 효과 20 ~ 30% 이상의 비용 절감 근무 만족도 제공 업무량 따라 유연 대응 단순 반복 업무 비중 감소 업무 투명성 향상 인간 실수 방지 2016년 금융권 중심 Pilot시작 - 비대면 계좌승인 - 신용등급 조회 등 - 은행마감후 수행하던 입금확인, 수금, 반제처리 업무 대체 2018년.. 2021. 3. 30.
[잔재미] 셀레니움 이미지 크롤링 1. Jupyter Notebook에서 셀레니움 설치 !pip install selenium 2. 크롬 드라이버 다운받기 본인 브라우저 사양에 맞는 것을 다운 ChromeDriver - WebDriver for Chrome WebDriver for Chrome sites.google.com 3. 셀레니움 공홈에서 예시 코드 복붙해서 실행하기 2. Getting Started — Selenium Python Bindings 2 documentation 2.2. Example Explained The selenium.webdriver module provides all the WebDriver implementations. Currently supported WebDriver implementations a.. 2021. 2. 8.
크롤링 후 불필요한 문자들, 특수문자들 제거하기 livedata.tistory.com/17 Python(파이썬)크롤링 한 파일에 불필요한 문자 제거(Web Cralwer) -3 3. 전 시간 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -1 Python(파이썬) 특정 단어포함하는 신문기사 웹 크롤러 만들기(Web Cralwer) -2 여기 까지 출력 되는 것을 해보았습 livedata.tistory.com 2021. 2. 1.
2차원 리스트를 1차원 리스트로 바꾸자 lar542.github.io/Python/2019-07-11-python3/ Python - 2차원 리스트를 1차원 리스트로 만드는 다양한 방법 파이썬을 파이썬답게 파이썬에서 2중 리스트를 flatten하게 만들기 2차원 리스트를 1차원 리스트로 만드는 다양한 방법 my_list = [[1, 2], [3, 4], [5, 6]] # sum 함수 sum(my_list, []) # itertools.chain과 unpacking : 1 lar542.github.io 2021. 2. 1.
[잔재미코딩] [오류/해결] ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end import requests from bs4 import BeautifulSoup headers = {'UserAgent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105' 까지는 정상적으로 실행되지만 하단 코드 실행시 오류 발생. res = requests.get(url, headers=headers) ConnectionError: ('Connection aborted.', RemoteDisconnected('Remot.. 2021. 2. 1.
[잔재미코딩] [복습] naver datalab 크롤링할 URL과 기본 셋팅 import requests from bs4 import BeautifulSoup as bs headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} url = 'https://datalab.naver.com/keyword/realtimeList.naver?where=main' res = requests.get(url,headers=headers) soup = bs(res.content, 'html.parser') 크롤링 대상 위 대상을 find_all로 찾아보자 1순위부터 후순위 .. 2021. 2. 1.
구글 로그인, 메일 보내기 자동화 (selenium, webdriver, actionchains) 2020. 5. 6. 실습 전 할 것 1. 내 크롬브라우저에 맞는 크롬드라이버를 다운 2. 실습하고자 하는 파이썬 파일에 해당 크롬 드라이버를 넣고 실습시작 => 실습(실행)파일과 동일한 루트에 넣으면 따로 루트 지정필요없이 => driver = webdriver.Chrome()만으로 실행가능 다음 코드를 입력 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains # 쭉 연결할 수 있게함 import time driver = webdriver.Chrome() url = "https://google.com.. 2020. 11. 8.
selenium 자동화 수집하기 2020. 5. 6 오류 from selenium import webdriver driver = webdriver.Chrome() 까지 입력하자 WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home오류 해결 검색진행 내 크롬브라우저환경에 맞는 chromedriver다운 후 해당 주소 복사 정상 실행 크롬드라이버의 위치를 삽입 후 정상 실행 from selenium import webdriver driver = webdriver.Chrome(executable_path=r"C:\dev_python\Web.. 2020. 11. 8.
Anaconda 다운로드 받기, Jupyter Notebook 설치하기 Anaconda Download아나콘다(Anaconda)를 다운받아보자 Anaconda | Individual EditionAnaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine.www.anaconda.com위 사이트로 접속한 뒤 스크롤을 내려보면 하단과 같은 창이 나타난다.이 중 본인의 OS에 해당되는 설치파일을 다운받으면 끝! Jupyter Notebook InstallAnaconda를 설치했으니 이제는 쥬피터노트북(Jupyter Notebook)을 설치해보자!Project JupyterThe Jupyter Noteb.. 2020. 11. 8.
네이버 카페 크롤 - 01 로그인 하기 목표 : 네이버 카페 특정 키워드 검색 결과 받아오기 순차 1. 로그인 - time.sleep(20) 수동으로 진행 2. 카페 이동 3. 검색어 검색 4. 결과 출력 깃허브 2020. 8. 30.
[나도코딩] 가격비교 사이트, 나도 만들 수 있다! 잼있게 파이썬으로 하는 크롤러 제작 [Crawling] 검색엔진이 크롤링을 이용함 구글봇, 빙봇 이 봇들이 여러 사이트를 돌아다니면서 사이트에 연결된 페이지를 복사해서 DB에 복사해서 검색이 잘되도록 분류함 크롤링 1. 정보를 수집 후 가공해서 사용 : 스크래핑 2. 크롤링 봇을 이용한 복사 수집 크롤러가 읽어도 되는 정보와 읽지 않았으면 하는 정보를 Robots.txt에 기재함. 크롤러는 Robts.txt를 따르지만 따르지 않는 악성 크롤러도 있다. 실습 모듈 : 복잡한 기능을 편리하게 만든 함수 (import random) pip : 모듈을 다운받기 위해 pip라는 명령어를 사용 셀리니움 : 브라우저를 열어 접속한 뒤 html을 긁어옴 1. chrome://version 을 검색해서 버전을 확인 2. chorme webdriver download를 입력해.. 2020. 8. 30.
[나도코딩] 파이썬 코딩 무료 강의 (활용편3) - 웹 크롤링? 웹 스크래핑! 4. find_all, for 문 활용 1-1 네이버 웹툰 전체목록 가져오기 import requests from bs4 import BeautifulSoup url = "https://comic.naver.com/webtoon/weekday.nhn" res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, "lxml") class : "title"인 모든 엘리먼트를 찾자 # class : "title"인 모든 엘리먼트를 찾자 # find는 그 조건에 해당되는 첫번째 엘리먼트만 찾음 # find_all은 조건에 해당되는 모든 엘리먼트 찾음 cartoons = soup.find_all("a",attrs={"class":"title"}) for cartoon .. 2020. 8. 29.
[나도코딩] 파이썬 코딩 무료 강의 (활용편3) - 웹 크롤링? 웹 스크래핑! 3 : attrs, find, class, sibling, siblings 10. 웹툰 크롤링 : attrs, find, class !pip install beautifulsoup4 # 구글 분석 파서 !pip install lxml import requests from bs4 import BeautifulSoup url = "https://comic.naver.com/webtoon/weekday.nhn" res = requests.get(url) res.raise_for_status() # 가져온 html문서(res.text)를 lxml파서를 통해 BS객체를 만든 것 soup = BeautifulSoup(res.text, "lxml") print(soup.title) print(soup.title.get_text()) # 태그뺴고 텍스트만 출력 결과 네이버 만화 > 요일별 웹.. 2020. 8. 28.
[나도코딩] 파이썬 코딩 무료 강의 (활용편3) - 웹 크롤링? 웹 스크래핑! 2 : User Agent 9.User Agent 헤더정보에 따라 스마트폰용, 데스크탑용 페이지가 달라진다. UserAgent를 바꾸면 막힌 URL도 뚫을 수 있다. 404이어도 파일을 가져오니까 일단 #res.raise_for_status()를 주석처리하고 진행한다. 그리고 해당 html 파일을 보면 코드가 짧고, 외계어가 쓰여진 것을 확인할 수 있다. 브라우저에 따라 UserAgent값이 다르다. 크롬으로 User agent string을 입력했을 때 익스플로러로 ~ 입력했을 때 크롬 브라우저에서 작업하므로 크롬용 UserAgent를 사용하자 headers코드를 추가해서 UserAgent를 넣어주자. 이제 관련 ~html파일을 열어보면 정상적으로 받아진 것을 볼 수 있다. 10. 네이버 웹툰 크롤링 2020. 8. 27.
[나도코딩] 파이썬 코딩 무료 강의 (활용편3) - 웹 크롤링? 웹 스크래핑! 1 : HTML, X-Path, Request, re(정규식) 크롤링 : 웹에서 허용된 링크를 따라가면서 마주잡이로 끌어옴 스크래핑 : 필요한 것만 뽑는 것 HTML : 집의 골격 CSS : 인테리어, 예쁘게 JS : 내부 생활, 생동감있게 웹 스크래핑을 보면서 반드시 HTML의 골격, 구조를 이해해야만 한다. HTML에 대해 알아보자 Hyper Text Markup Language X Path에 대해 알아보자 unique한 값으로 간편하게 찾는 경로를 의미함 1. 전체 경로를 써서 찾는 경우 왜냐? 비슷한 태그, 엘리먼트 중 어떤 것을 지칭하는지 명확하게 하기 위함 위처럼 특정하기 위해서 길게 쓰는 경우도 있지만 2. 클래스,id 속성 등의 unique한 특징으로 찾는 경우 unique한 값으로 줄여서 쓰는 경우도 있다. 일반적으로는 id, class속성으로 특징.. 2020. 8. 26.
조코딩 AI 03. Zeplin을 활용한 반응형 웹앱 제작 0. 제플린은 나중에 활용 1. 부트스트랩을 활용한다 get startd에서 head태그 부분을 복사한다 지난 시간에 만든 index.html파일의 head에 넣어주고 기존 헤드태그는 지원주되 기존 헤드태그의 link태그는 title태그 밑에 넣어준다. js코드도 그대로 가져온다. 3. 이제 부트스트랩을 활용하여 네비바를 만들어보자 navbar를 검색하여 나온 코드를 복사 후 index.html의 body태그에 넣는다. 4. 네비게이션 바 수정하기 제플린에서 보이는 것처럼 나타내고 싶다. 제플린에서 Alt를 누르면 %단위로 나타난다. 브라우저의 개발자 도구에서도 %단위로 수정해보자 5. 클래스를 만들어서 직접 %간격을 추가하자 index.html에 nav-distance클래스를 만들고 style.css에.. 2020. 5. 26.
조코딩 AI.2 Teachable Machine 동물상 찾기 참고 : 크롤링한 사진에서 얼굴 전처리 작업하기 연예인 얼굴 인식 서비스를 만들어보자 #1 - 학습 데이타 준비하기 연예인 얼굴 인식 서비스를 만들어보자 #1 - 학습데이타 준비하기 조대협 (http://bcho.tistory.com) CNN 에 대한 이론 공부와 텐서 플로우에 대한 기본 이해를 끝내서 실제로 모델을 만들어보기로 하였�� bcho.tistory.com [조코딩] 완성형 서비스 만들기 - 2 참고 : 조코딩 - 웹캠 없이 Teachable Machine으로 나와 닮은 동물상 찾기 | 수익형 웹, 앱 만들기 2강https://www.youtube.com/watch?v=OI3fZJHQF8Y&list=PLU9-uwewPMe2-vtJAgWB6SNhHcTj velog.io 1. Teachable M.. 2020. 5. 20.
반응형