Note

어간 추출 (Stemming) 본문

Deep Learning/NLP

어간 추출 (Stemming)

알 수 없는 사용자 2021. 7. 27. 23:07
728x90

어간 추출은 말 그대로 어간을 추출하는 작업이다.

정해진 규칙을 보고 단어의 어미를 자르는 작업이라고도 볼 수 있다.

어간 추출 속도는 표제어 추출보다 빠르다. 

영어권 언어를 자연어 처리하는 과정에서 어간 추출을 해야 한다면 보통 포터 알고리즘을 많이 사용한다.

Stemming 예시

am → am, the going → the go, having → hav 

예시처럼 정해진 규칙을 보고 어미를 자르기 때문에 정확도가 높은 작업은 아니며,

사전에 없는 단어일 가능성도 있다.

'Deep Learning > NLP' 카테고리의 다른 글

정규 표현식 ( Regular Expression )  (0) 2021.07.29
표제어 추출 (Lemmatization)  (0) 2021.07.27
불용어 (Stopword)  (0) 2021.07.27
정제와 정규화  (0) 2021.07.27
토큰화(Tokenization)  (0) 2021.07.25
Comments