Deep Learning/밑딥2(자연어 처리)
-
순환 신경망 RNNDeep Learning/밑딥2(자연어 처리) 2021. 7. 23. 22:08
CBOW 모델의 문제점 Tom was watching TV in his room. Mary came into the room. Mary said hi to ?. 문장의 길이가 길면 앞의 단어가 무시될 수 있다. You say ? and I say hello. 맥락 단어의 순서가 무시된다. (you, say)와 (say, you)는 행렬곱층을 거쳐 평균을 하면 같은 값이 나온다. 이러한 문제를 해결한 모델이 RNN (Recurrent Neural Network)이다. RNN RNN은 순환하는 경로가 있어 데이터가 끊임없이 순환한다. 과거의 정보를 기억하는 동시에 최신 데이터로 갱신한다. 아무리 문장의 길이가 길더라도 맨앞의 단어의 정보를 기억할 수 있다는 뜻이다. RNN을 시각 단위로 나열하면 아래와같이 ..
-
추론 기반 기법Deep Learning/밑딥2(자연어 처리) 2021. 7. 16. 17:35
추론 기반 기법의 개요 추론 기반 기법은 통계 기반 기법과 달리 단어에서 문맥 또는 문맥에서 단어를 예측하는 방법이다. You ? goodbye and I say hello. You say ? and I say hello. You say goodbye ? I say hello. You say goodbye and ? say hello. You say goodbye and I ? hello. You say goodbye and I say ?. CBOW(continous bag-of-words)모델 CBOW 모델은 맥락으로부터 target을 추측하는 용도의 신경망이다. 입력층에는 추론할 단어의 맥락의 원핫 벡터이다. 은닉층에서는 평균을 구한다. 정답 레이블은 추론할 단어의 원핫 벡터이다. 편향과 활성화 함수..
-
자연어와 단어의 분산 표현Deep Learning/밑딥2(자연어 처리) 2021. 7. 16. 17:11
자연어 처리란 한국어와 영어 등 우리가 평소에 쓰는 말을 자연어(natural language)라고 한다. 자연어 처리(Natural Language Processing : NPL)는 우리의 말을 컴퓨터에게 이해시키기 위한 기술 이다. 단어의 의미 단어는 의미의 최소 단위이다. 컴퓨터에게 단어의 의미를 이해시키는 세 가지 기법이 있다. 시소러스를 활용한 기법 통계 기반 기법 추론 기반 기법(word2vec) 분산 표현 통계 기반 기법을 살펴보면서 말뭉치(corpus)를 이용한다. 말뭉치는 간단히 말하면 대량의 텍스트 데이터이다. 말뭉치 전처리 전처리란 텍스트 데이터를 단어로 분할하고 그 분할된 단어들을 단어 ID 목록으로 변환하는 일이다. text = 'You say goodbye and I say he..