본문 바로가기
● 크롤링, 자동화/BeautifulSoup

[FC] 10. 파이썬 말뭉치 처리 / konlpy / Okt / pos / nouns

by 0ver-grow 2019. 6. 27.
반응형

<퀴즈>

1. ___ 라이브러리를 통해 엑셀 파일 처리 가능

2. 엑셀 파일 처리 위해 ___ 단위로 처리 가능

 

<정답> 

1. openpyxl

2. cell

 

말뭉치? corpus

자연어 처리 위한 분류된 언어의 표본 집합

언어의 빈도와 분포도를 확인할 수 있는 자료를 말함

자연어 연구 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

 

konlpy

한국어 말뭉치 처리위한 패키지 모음. 오픈소스

한국어사이트

깃허브

 

konlpy설치하기

pip3 install konlpy

 

konlpy중에서 사용할 Okt(Open Korean Text)패키지.

 

Okt(Open Korean Text) 주요 메서드 2가지

pos (문자열, 품사)를 튜플로 반환

nouns 문자열의 명사 리스트로 반환

 

konlpy를 설치부터하고 진행해보자

혹시라도 Building wheel for JPype1 (setup.py) ... error 가 발생할 경우

해결방안을 볼 것

 

다음과 같이 입력해준다.

 

python main.py를 입력하여 실행해보자

그러나

에러 발생 : ImportErrorImportError: numpy.core.multiarray failed to import 

문제 해결

에러 발생 : No JVM shared library file (jvm.dll) found

문제 해결

에러 발생 : Could not reserve enough space for 1048576KB object heap

문제 해결

 

정상적으로 실행이 된다면 다음과 같이 출력된다.

 

이번에는 pos의 정규화 인자인 norm을 사용하여 해시태그를 인식시켜보자

 

문자열안에 해시태그가 섞여있는 상태에서 해시태그만을 추출해보자

문자열을 고유명사끼리 추출

 

<퀴즈>

1. ___ 은 자연어 처리 위해 분류된 언어 표본 집합

2. ___ 은 라이브러리 통해 말뭉치 처리 가능

3. Twitter 패키지의 ___ 메서드는 품사 정보 제공

 

반응형