목록Deep Learning/NLP (23)
Note
1. Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도 값을 부여한 후 피쳐 값으로 추출하는 방식. 2. Bag of Words(BOW) 구조 문장 1 : My wife likes to watch baseball games and my daughter likes to watch baseball games too 문장 2 : My wife likes to play baseball 문장 1과 문장 2에 대해서 중복을 제거하고 고유한 인덱스를 부여한다. and, baseball, daughter, games, likes, my, play, to, too, watch, wife 위의 순서대로 0번부터 10번의 번호를 부여하는 방법. 3. Bag of Words..

1. 텍스트 분석이란? 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행한다. 2. 텍스트 분석 주요 영역 텍스트 분류 - 특정 분류 / 카테고리에 속하는 것을 예측하는 기법 감성 분석 - 텍스트에 표현되는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법 텍스트 요약 - 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법 텍스트 군집화와 유사도 측정 - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 3. 텍스트 전처리(텍스트 정규화) Cleansing - 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거 Tokenization - 문장..

필요한 라이브러리를 임포트하고 앞에서 저장한 엑셀 파일을 불러온다. 데이터를 불러온 모습이다. 정규표현식을 통해서 알파벳을 제외하고 모든 문자를 제거한 모습이다. 워드 클라우드를 위해 필요 없는 칼럼을 제거하고 문자열 데이터로 변환한 모습이다. 워드 클라우드를 설치해준다. 원하는 이미지를 array의 형태로 불러온다. 불러온 이미지의 형태. 이미지는 원하는 것으로 바꿀 수 있다. 의미 없는 용어 stopword를 설정해준다. 즉, 워드 클라우드에서 제거하고 싶은 단어. 워드 클라우드를 실행하면 이러한 형태로 나오고 윈도우에 맞는 폰트를 설정해야 한다. 검색을 통해서 다른 폰트로 설정 가능하다. 이미지를 실행시키면 위에 있던 사진에 단어들이 나열된 모습을 볼 수 있다.