● 인공지능, 분석/21.08 nipa_AI실무과정

[AI 응용 ML] 이론 | 7.1 이미지 처리, 딥러닝, 자연어 처리

0ver-grow 2021. 9. 7. 11:39
반응형

이미지 처리를 위한 데이터 전 처리

우리 주변의 이미지 처리 기술 예시

이미지 전 처리하기

모두 같은 크기를 갖는 이미지로 통일 

1) 가로 세로 픽셀 사이즈를 표현하는 해상도 통일 

2) 색을 표현하는 방식 통일 (RGB, HSV, Gray-scale, Binary, …)

이미지 처리를 위한 딥러닝 모델

기존 다층 퍼셉트론 기반 신경망의 이미지 처리 방식

합성곱 신경망(Convolution Neural Network)

작은 필터를 순환시키는 방식 

이미지의 패턴이 아닌 특징을 중점으로 인식

합성곱 신경망의 구조

입력 이미지의 특징을 추출, 분류하는 과정으로 동작

이미지에서 어떠한 특징이 있는 지를 구하는 과정 

필터가 이미지를 이동하며 새로운 이미지 (피쳐맵)를 생성

피쳐맵의 크기 변형 : Padding, Striding

Pooling Layer

이미지의 왜곡의 영향(노이즈)를 축소하는 과정

Fully Connected Layer

추출된 특징을 사용하여 이미지를 분류

분류를 위한 Softmax 활성화 함수

마지막 계층에 Softmax 활성화 함수 사용
a+b+c+d+e+f = 1, a,b,c,d,e,f >=0

정리

Convolution Layer 는 

특징을 찾아내고, 

Pooling Layer 는 

처리할 맵(이미지) 크기를 줄여준다. 

이를 N 번 반복한다.
반복할 때마다 줄어든 영역에서의 특징을 찾게 되고, 

영역의 크기는 작아졌기 때문에 빠른 학습이 가능해진다.

 

합성곱 신경망 기반 다양한 이미지 처리 기술

자연어 처리를 위한 데이터 전 처리

자연어 처리 예시

자연어 처리 과정

1. 자연어 전 처리 (Preprocessing)
2. 단어 표현 (Word Embedding)
3. 모델 적용하기 (Modeling)

 

자연어 전 처리 방법

원 상태 그대로의 자연어는 전처리 과정이 필요함
a. Noise canceling 

b. Tokenizing 

c. StopWord removal

 

a. 오류 교정(Noise Canceling)

자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정

“안녕하 세요. 반갑 스니다.”
=> “안녕하세요. 반갑습니다.”

b. 토큰화(Tokenizing)

문장을 토큰(Token)으로 나눔, 

토큰은 어절, 단어 등으로 목적에 따라 다르게 정의

“딥러닝 기초 과목을 수강하고 있습니다.”
=> ['딥', '러닝', '기초', '과목', '을', '수강', '하고', '있습니다', '.']

c. 불용어 제거(StopWord removal)

불필요한 단어를 의미하는 불용어(StopWord) 제거

한국어 stopword 예시)
아, 휴, 아이구, 아이쿠, 아이고, 쉿, 그렇지 않으면, 그러나, 그런데, 하지만, ...

Bag of Words

자연어 데이터에 속해있는 단어들의 가방.

단어들이 얼마나 언급되었는지 카운팅.

토큰 시퀀스(Token Sequence)

Bag of words에서 단어에 해당되는 인덱스로 변환 

모든 문장의 길이를 맞추기 위해 기준보다 짧은 문장에는 패딩을 수행

자연어 처리를 위한 딥러닝 모델

워드 임베딩(Word Embedding)의 정의

단순하게 Bag of Words의 인덱스로 정의된 토큰들에게 의미를 부여하는 방식

기존 다층 퍼셉트론 신경망의 자연어 분류 방식

자연어 분류를 위한 순환 신경망(Recurrent Neural Network)

기존 퍼셉트론 계산과 비슷하게 X 입력 데이터를 받아 Y를 출력

순환 신경망의 입출력 구조

출력 값을 두 갈래로 나뉘어 신경망에게 ‘기억’ 하는 기능을 부여

순환 신경망 기반 자연어 분류 예시

정리

임베딩은 토큰의 특징을 찾아내고, 

RNN 이 전 토큰의 영향을 받으며 학습한다.

순환 신경망 기반 다양한 자연어 처리 기술

 

 

 

반응형