Note
토큰화(Tokenization) 본문
728x90
토큰(Token)이라고 불리는 단위로 나누는 작업을 토큰화(Tokenization)라고 한다.
자연어 처리에서 토큰화는 단어 토큰화와 문장 토큰화가 있다.
토큰화를 통한 전처리 단계에서 생각해야 할 것들이 있다.
첫째, 특수 문자나 기호를 단순히 다 제거할 것인가?에 대한 고민이다.
특수 문자 자체가 의미를 가지는 경우에는 제거하지 말아야 한다.
예를 들어 화폐를 나타내는 단위나 숫자 표현 등이 있다.
둘째, 줄임말과 단어 내 띄어쓰기가 있는 경우에 대한 고민이다.
대체로 자연어처리 패키지 관련해서 영어가 잘 되어있는데 영어는 줄임말이 많고 띄어쓰기를 포함한 한 단어가 있기 때문에 전처리 과정에서 고려를 해야 한다.
이러한 토큰화는 한국어에서 많은 어려움이 있다.
한국어는 띄어쓰기가 되어 있지 않아도 글을 이해할 수 있으며, 하나의 단어와 다른 단어의 조합으로 이루어진 단어들이 많기 때문이다.
대표적으로 많이 알려진 패키지는 NLTK와 KoNLPy가 있다. 이를 활용해 각 단어에 대한 품사 태깅을 할 수 있고, 형태소 분석과 토큰화가 가능하다.
'Deep Learning > NLP' 카테고리의 다른 글
불용어 (Stopword) (0) | 2021.07.27 |
---|---|
정제와 정규화 (0) | 2021.07.27 |
Bag of Words(BOW) (0) | 2021.07.16 |
텍스트 분석 (0) | 2021.07.16 |
유튜브 댓글 워드 클라우드 (0) | 2021.06.09 |
Comments