Note
표제어 추출 (Lemmatization) 본문
728x90
표제어 추출은 기본 사전형 단어라는 의미를 가지고 있다.
한 단어에서 여러 개의 파생 단어가 나왔을 경우 그 뿌리를 찾아가는 과정이라고 할 수 있다.
어간 추출과는 다르게 단어의 형태가 보존되어 출력되는 것이 특징이다.
하지만 표제어 추출도 완벽하지 않은데 그 이유 중 하나로 해당 단어에 대한 품사 정보가 부족하기 때문이다.
이와 같은 현상을 막기 위해 품사 형태를 지정해주는 방법이 있다.
Lemmatization 예시
am → be, the going → the going, having → have
예시를 보면 이전 포스팅한 어간 추출과는 다르게 대부분의 형태가 잘 유지된 것을 볼 수 있다.
'Deep Learning > NLP' 카테고리의 다른 글
언어 모델 (Language Model) (0) | 2021.08.02 |
---|---|
정규 표현식 ( Regular Expression ) (0) | 2021.07.29 |
어간 추출 (Stemming) (0) | 2021.07.27 |
불용어 (Stopword) (0) | 2021.07.27 |
정제와 정규화 (0) | 2021.07.27 |
Comments