Note
어간 추출 (Stemming) 본문
728x90
어간 추출은 말 그대로 어간을 추출하는 작업이다.
정해진 규칙을 보고 단어의 어미를 자르는 작업이라고도 볼 수 있다.
어간 추출 속도는 표제어 추출보다 빠르다.
영어권 언어를 자연어 처리하는 과정에서 어간 추출을 해야 한다면 보통 포터 알고리즘을 많이 사용한다.
Stemming 예시
am → am, the going → the go, having → hav
예시처럼 정해진 규칙을 보고 어미를 자르기 때문에 정확도가 높은 작업은 아니며,
사전에 없는 단어일 가능성도 있다.
'Deep Learning > NLP' 카테고리의 다른 글
정규 표현식 ( Regular Expression ) (0) | 2021.07.29 |
---|---|
표제어 추출 (Lemmatization) (0) | 2021.07.27 |
불용어 (Stopword) (0) | 2021.07.27 |
정제와 정규화 (0) | 2021.07.27 |
토큰화(Tokenization) (0) | 2021.07.25 |
Comments