Note

Word2Vec 본문

Deep Learning/NLP

Word2Vec

알 수 없는 사용자 2021. 9. 2. 22:49
728x90

Word2Vec은 추론 기반 방법이다.

여기서 사용하는 추론이란 주변 단어나 맥락이 주어졌을 때, 무슨 단어가 들어가는지를 추측하는 것이다.

 

통계기반 방법의 단점

  • 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생한다.
  • 한 번에 학습 데이터 전체를 진행한다.
  • 학습을 통해서 개선하기가 어렵다.

Word2Vec은 위 단점을 보완하기 위한 방법이다.

 

정의

- 단어간 유사도를 반영하여 단어를 벡터로 바꿔주는 임베딩 방법론이다. 원-핫 벡터 형태의 sparse matrix가 가지는 단점을 보완하기 위해 저 차원의 공간에 벡터로 매핑하는 것이 특징이다.

- Word2Vec은 비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다라는 가정을 기반으로 학습을 진행한다.

 

1) CBOW

주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법.

출처 : 밑바닥부터 시작하는 딥러닝2

  • 주변 단어 : you, goodbye
  • 중심 단어 : 예측해야할 단어

 

2) Skip-gram

중심 단어를 가지고 주변에 있는 단어들을 예측하는 방법.

출처 : 밑바닥부터 시작하는 딥러닝2

  • 주변 단어 : 예측해야할 단어
  • 중심 단어 : say

 

'Deep Learning > NLP' 카테고리의 다른 글

케라스의 texts_to_matrix()  (0) 2022.05.05
LSA & LDA  (0) 2021.09.06
유사도  (0) 2021.08.05
언어 모델 (Language Model)  (0) 2021.08.02
정규 표현식 ( Regular Expression )  (0) 2021.07.29
Comments