<퀴즈>
1. ___ 라이브러리를 통해 엑셀 파일 처리 가능
2. 엑셀 파일 처리 위해 ___ 단위로 처리 가능
<정답>
1. openpyxl
2. cell
말뭉치? corpus
자연어 처리 위한 분류된 언어의 표본 집합
언어의 빈도와 분포도를 확인할 수 있는 자료를 말함
자연어 연구 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합
konlpy
한국어 말뭉치 처리위한 패키지 모음. 오픈소스
konlpy설치하기
pip3 install konlpy
konlpy중에서 사용할 Okt(Open Korean Text)패키지.
Okt(Open Korean Text) 주요 메서드 2가지
pos (문자열, 품사)를 튜플로 반환
nouns 문자열의 명사 리스트로 반환
konlpy를 설치부터하고 진행해보자
혹시라도 Building wheel for JPype1 (setup.py) ... error 가 발생할 경우
해결방안을 볼 것
다음과 같이 입력해준다.
python main.py를 입력하여 실행해보자
그러나
에러 발생 : ImportErrorImportError: numpy.core.multiarray failed to import
에러 발생 : No JVM shared library file (jvm.dll) found
에러 발생 : Could not reserve enough space for 1048576KB object heap
정상적으로 실행이 된다면 다음과 같이 출력된다.
이번에는 pos의 정규화 인자인 norm을 사용하여 해시태그를 인식시켜보자
문자열안에 해시태그가 섞여있는 상태에서 해시태그만을 추출해보자
문자열을 고유명사끼리 추출
<퀴즈>
1. ___ 은 자연어 처리 위해 분류된 언어 표본 집합
2. ___ 은 라이브러리 통해 말뭉치 처리 가능
3. Twitter 패키지의 ___ 메서드는 품사 정보 제공
'● 크롤링, 자동화 > BeautifulSoup' 카테고리의 다른 글
[FC] 14. 크롤링 자료 엑셀저장 / openpyxl / load_workbook / (0) | 2019.06.30 |
---|---|
[FC] 12. 태그없앤 상세한 크롤링 / BeautifulSoup / select / find_all / get_text() (0) | 2019.06.30 |
[FC] 8. 예외처리 / 문법 에러 / try ~ except / finally / raise Exception (0) | 2019.06.26 |
[FC] 7. 함수 / 가변 인자 / 별칭 인자 / 다중 반환 값 / def / default (0) | 2019.06.26 |
6. 문자열 처리 (0) | 2019.06.26 |