목록텍스트분석 (2)
Note
1. Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도 값을 부여한 후 피쳐 값으로 추출하는 방식. 2. Bag of Words(BOW) 구조 문장 1 : My wife likes to watch baseball games and my daughter likes to watch baseball games too 문장 2 : My wife likes to play baseball 문장 1과 문장 2에 대해서 중복을 제거하고 고유한 인덱스를 부여한다. and, baseball, daughter, games, likes, my, play, to, too, watch, wife 위의 순서대로 0번부터 10번의 번호를 부여하는 방법. 3. Bag of Words..

1. 텍스트 분석이란? 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행한다. 2. 텍스트 분석 주요 영역 텍스트 분류 - 특정 분류 / 카테고리에 속하는 것을 예측하는 기법 감성 분석 - 텍스트에 표현되는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법 텍스트 요약 - 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법 텍스트 군집화와 유사도 측정 - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 3. 텍스트 전처리(텍스트 정규화) Cleansing - 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거 Tokenization - 문장..