Deep Learning/NLP
어간 추출 (Stemming)
알 수 없는 사용자
2021. 7. 27. 23:07
728x90
어간 추출은 말 그대로 어간을 추출하는 작업이다.
정해진 규칙을 보고 단어의 어미를 자르는 작업이라고도 볼 수 있다.
어간 추출 속도는 표제어 추출보다 빠르다.
영어권 언어를 자연어 처리하는 과정에서 어간 추출을 해야 한다면 보통 포터 알고리즘을 많이 사용한다.
Stemming 예시
am → am, the going → the go, having → hav
예시처럼 정해진 규칙을 보고 어미를 자르기 때문에 정확도가 높은 작업은 아니며,
사전에 없는 단어일 가능성도 있다.