Note
LSA & LDA 본문
728x90
1. 잠재 의미 분석 ( Latent Semantic Analysis, LSA )
토픽 모델링을 위해 최적화된 알고리즘은 아니지만, 아이디어를 제공하여 밑바탕이 된 알고리즘이다.
BoW에 기반한 알고리즘은 기본적으로 단어 빈도수에 기반한 수치화 방법이기 때문에
의미를 고려하지 못한다는 단점이 있는데,
의미를 고려하지 못하는 것을 보완하기 위해 잠재적인 의미를 끌어내는 방법으로 사용한다.
특이값 분해를 통해 차원을 축소하고 축소된 차원에서 근접 단어들을 토픽으로 묶는다.
2. 잠재 디리클레 할당 ( Latent Dirichlet Allocation, LDA )
LDA는 문서 집합으로부터 어떤 토픽이 존재하는지 알아내기 위한 알고리즘이며,
단어의 수는 신경 쓰지 않는다.
즉, 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여
토픽을 추출하는 방법.
'Deep Learning > NLP' 카테고리의 다른 글
20개 뉴스 그룹 데이터 (0) | 2022.05.06 |
---|---|
케라스의 texts_to_matrix() (0) | 2022.05.05 |
Word2Vec (0) | 2021.09.02 |
유사도 (0) | 2021.08.05 |
언어 모델 (Language Model) (0) | 2021.08.02 |
Comments