Note
유사도 본문
728x90
1. 유클리드 거리
유클리드 거리는 좌표 평면 위에서 두 점 사이의 직선거리를 구하는 공식이다.
자연어 처리에서는 단어 사이의 거리를 나타내고자 하기 위해 유클리드 거리를 구한다.
위 식은 다차원에서 유클리드 공식이다.
2. 코사인 유사도
코사인 유사도는 직접적인 거리 방식이 아닌 두 벡터 간의 코사인 각도를 이용한 유사도 방식이다.
코사인 유사도는 -1 에서 1 사이의 값을 가지며, -1은 반대 방향, 0은 유사하지 않음, 1은 유사함을 나타낸다.
3. 자카드 유사도
자카드 유사도는 두 문서에서 공통된 비율로 유사한지를 알아보는 방식이다.
즉, 두 문서의 합집합에서 가지고 있는 공통된 벡터 교집합의 비율로 유사도를 측정하는 것이다.
자카드 유사도는 0에서 1사이 값을 가지며, 1에 가까울수록 두 문서는 유사하다고 할 수 있다.
'Deep Learning > NLP' 카테고리의 다른 글
LSA & LDA (0) | 2021.09.06 |
---|---|
Word2Vec (0) | 2021.09.02 |
언어 모델 (Language Model) (0) | 2021.08.02 |
정규 표현식 ( Regular Expression ) (0) | 2021.07.29 |
표제어 추출 (Lemmatization) (0) | 2021.07.27 |
Comments