Note

텍스트 분석 본문

Deep Learning/NLP

텍스트 분석

알 수 없는 사용자 2021. 7. 16. 16:11
728x90

텍스트 분석 머신러닝 프로세스

 

1. 텍스트 분석이란?

머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행한다.

 

2. 텍스트 분석 주요 영역

  • 텍스트 분류 - 특정 분류 / 카테고리에 속하는 것을 예측하는 기법
  • 감성 분석 -  텍스트에 표현되는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법
  • 텍스트 요약 - 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법
  • 텍스트 군집화와 유사도 측정 - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법

 

3. 텍스트 전처리(텍스트 정규화)

  • Cleansing - 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거
  • Tokenization - 문장이나 단어 토큰화, N-gram
  • 필터링 /  불용어 제거 / 철자 수정 - 분석에 불필요한 단어 제거 및 잘못된 철자 수정
  • Stemming / Lemmatization - 어근(단어 원형) 추출, 의미론적 기반에서 단어 원형 추출

 

4. N - gram

문장을 개별 단어 별로 하나씩 토큰화 할 경우 문맥적인 의미 무시 가능성이 있다.

연속된 n개의 단어를 하나의 토큰화 단위로 분리하는 방법

'Deep Learning > NLP' 카테고리의 다른 글

불용어 (Stopword)  (0) 2021.07.27
정제와 정규화  (0) 2021.07.27
토큰화(Tokenization)  (0) 2021.07.25
Bag of Words(BOW)  (0) 2021.07.16
유튜브 댓글 워드 클라우드  (0) 2021.06.09
Comments