Note

유사도 본문

Deep Learning/NLP

유사도

알 수 없는 사용자 2021. 8. 5. 00:28
728x90

1. 유클리드 거리

유클리드 거리는 좌표 평면 위에서 두 점 사이의 직선거리를 구하는 공식이다.

자연어 처리에서는 단어 사이의 거리를 나타내고자 하기 위해 유클리드 거리를 구한다.

출처 : https://wikidocs.net/24654

위 식은 다차원에서 유클리드 공식이다.

 

2. 코사인 유사도

코사인 유사도는 직접적인 거리 방식이 아닌 두 벡터 간의 코사인 각도를 이용한 유사도 방식이다.

코사인 유사도는 -1 에서 1 사이의 값을 가지며, -1은 반대 방향, 0은 유사하지 않음, 1은 유사함을 나타낸다.

출처 https://wikidocs.net/24603

 

3. 자카드 유사도

자카드 유사도는 두 문서에서 공통된 비율로 유사한지를 알아보는 방식이다.

출처 : https://wikidocs.net/24654

즉, 두 문서의 합집합에서 가지고 있는 공통된 벡터 교집합의 비율로 유사도를 측정하는 것이다.

자카드 유사도는 0에서 1사이 값을 가지며, 1에 가까울수록 두 문서는 유사하다고 할 수 있다.

'Deep Learning > NLP' 카테고리의 다른 글

LSA & LDA  (0) 2021.09.06
Word2Vec  (0) 2021.09.02
언어 모델 (Language Model)  (0) 2021.08.02
정규 표현식 ( Regular Expression )  (0) 2021.07.29
표제어 추출 (Lemmatization)  (0) 2021.07.27
Comments