Note
Word2Vec 본문
728x90
Word2Vec은 추론 기반 방법이다.
여기서 사용하는 추론이란 주변 단어나 맥락이 주어졌을 때, 무슨 단어가 들어가는지를 추측하는 것이다.
통계기반 방법의 단점
- 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생한다.
- 한 번에 학습 데이터 전체를 진행한다.
- 학습을 통해서 개선하기가 어렵다.
Word2Vec은 위 단점을 보완하기 위한 방법이다.
정의
- 단어간 유사도를 반영하여 단어를 벡터로 바꿔주는 임베딩 방법론이다. 원-핫 벡터 형태의 sparse matrix가 가지는 단점을 보완하기 위해 저 차원의 공간에 벡터로 매핑하는 것이 특징이다.
- Word2Vec은 비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다라는 가정을 기반으로 학습을 진행한다.
1) CBOW
주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법.
- 주변 단어 : you, goodbye
- 중심 단어 : 예측해야할 단어
2) Skip-gram
중심 단어를 가지고 주변에 있는 단어들을 예측하는 방법.
- 주변 단어 : 예측해야할 단어
- 중심 단어 : say
'Deep Learning > NLP' 카테고리의 다른 글
케라스의 texts_to_matrix() (0) | 2022.05.05 |
---|---|
LSA & LDA (0) | 2021.09.06 |
유사도 (0) | 2021.08.05 |
언어 모델 (Language Model) (0) | 2021.08.02 |
정규 표현식 ( Regular Expression ) (0) | 2021.07.29 |
Comments