Note
정제와 정규화 본문
728x90
정제 (Cleaning) : 자연어 처리에서 정제는 가지고 있는 말뭉치로부터 노이즈 데이터를 제거하는 것을 말한다.
정규화 (Normalization) : 자연어 처리에서 하나의 뜻을 가진 단어도 여러 개의 표현 방법이 존재하는데 이를 통합시켜 같은 단어로 만들어주는 작업을 말한다.
1. 표기가 다른 단어의 통합
US나 USA 같은 단어들은 같은 뜻이지만 표기가 다르다. 이를 하나로 통합해주는 과정이다.
2. 대문자와 소문자
영어는 문장 시작이 대문자로 시작하나 대문자는 큰 의미가 없는 대문자일 확률이 크다. 또는 특정 상황에서만 쓰이기 때문에 대부분 소문자로 변화시켜 통합한다. 하지만 국가명이나 회사 혹은 사람 이름과 같은 대문자를 구분해야 하는 경우는 구분을 해주어야 한다.
3. 등장 빈도가 적은 단어
텍스트에서 너무 적게 등장한 단어는 큰 의미가 없을 가능성이 높다. 마찬가지로 이러한 단어들은 자연어 처리에서 도움이 되지 않을 가능성이 높아 제거해준다.
4. 길이가 짧은 단어
영어권에서는 기본적인 단어들이 한국어보다는 긴 글자로 표현된다. 같은 단어여도 한국어는 사과 두 글자로 표현이 가능하지만 영어권은 apple로 다섯 개의 소문자가 필요하다. 이처럼 영어권에서는 길이가 매우 짧은 단어는 큰 의미가 없을 확률이 크므로 제거해준다. 하지만 한국어에서는 길이가 짧은 단어를 제거하는 것은 좋은 방법이 아니다.
'Deep Learning > NLP' 카테고리의 다른 글
어간 추출 (Stemming) (0) | 2021.07.27 |
---|---|
불용어 (Stopword) (0) | 2021.07.27 |
토큰화(Tokenization) (0) | 2021.07.25 |
Bag of Words(BOW) (0) | 2021.07.16 |
텍스트 분석 (0) | 2021.07.16 |
Comments