Note
불용어 (Stopword) 본문
728x90
불용어란
큰 의미가 없는 단어 토큰을 의미하며,
제거하기 위한 작업을 불용어 제거라고 한다.
영어권 언어에서는 i, me, my 같은 단어들이 있다.
NLTK 패키지에서 영어권 언어에 대한 불용어들을 간단히 확인해보면 i, me, my, myself, we, you 등이 있다.
한국어에서 불용어는 불용어 사전을 구축해서 사용하는 것이 좋다.
주로 조사, 접속사가 해당되지만 때에 따라 명사나 형용사가 되기도 한다.
출력된 결과를 보면 위에 문장에서 불용어가 제거된 문장이 아래 문장이다.
아래 문장에서는 he, is, an 이 불용어 처리된 것을 볼 수 있다.
'Deep Learning > NLP' 카테고리의 다른 글
표제어 추출 (Lemmatization) (0) | 2021.07.27 |
---|---|
어간 추출 (Stemming) (0) | 2021.07.27 |
정제와 정규화 (0) | 2021.07.27 |
토큰화(Tokenization) (0) | 2021.07.25 |
Bag of Words(BOW) (0) | 2021.07.16 |
Comments