Note

표제어 추출 (Lemmatization) 본문

Deep Learning/NLP

표제어 추출 (Lemmatization)

알 수 없는 사용자 2021. 7. 27. 23:15
728x90

표제어 추출은 기본 사전형 단어라는 의미를 가지고 있다.

한 단어에서 여러 개의 파생 단어가 나왔을 경우 그 뿌리를 찾아가는 과정이라고 할 수 있다.

어간 추출과는 다르게 단어의 형태가 보존되어 출력되는 것이 특징이다.

하지만 표제어 추출도 완벽하지 않은데 그 이유 중 하나로 해당 단어에 대한 품사 정보가 부족하기 때문이다.

이와 같은 현상을 막기 위해 품사 형태를 지정해주는 방법이 있다.

Lemmatization 예시

am → be, the going → the going, having → have

예시를 보면 이전 포스팅한 어간 추출과는 다르게 대부분의 형태가 잘 유지된 것을 볼 수 있다.

'Deep Learning > NLP' 카테고리의 다른 글

언어 모델 (Language Model)  (0) 2021.08.02
정규 표현식 ( Regular Expression )  (0) 2021.07.29
어간 추출 (Stemming)  (0) 2021.07.27
불용어 (Stopword)  (0) 2021.07.27
정제와 정규화  (0) 2021.07.27
Comments