목록Note (462)
Note
불용어란 큰 의미가 없는 단어 토큰을 의미하며, 제거하기 위한 작업을 불용어 제거라고 한다. 영어권 언어에서는 i, me, my 같은 단어들이 있다. NLTK 패키지에서 영어권 언어에 대한 불용어들을 간단히 확인해보면 i, me, my, myself, we, you 등이 있다. 한국어에서 불용어는 불용어 사전을 구축해서 사용하는 것이 좋다. 주로 조사, 접속사가 해당되지만 때에 따라 명사나 형용사가 되기도 한다. 출력된 결과를 보면 위에 문장에서 불용어가 제거된 문장이 아래 문장이다. 아래 문장에서는 he, is, an 이 불용어 처리된 것을 볼 수 있다.
1. 연관분석 연관분석이란 말 그대로 데이터 안에서 어떠한 연관을 가지고 있는지 찾아내는 것이다. 크게 두 가지로 정의할 수 있습니다. 첫 번째, 얼마나 같이 구매되는가? 두 번째, 한 아이템을 구매하는 사람이 특정 아이템을 구매하는가? 이와 같은 규칙을 찾아내는 것이 연관분석이며, 장바구니 분석이라고도 한다. 2. 연관분석 평가 지표 support (지지도) 항목 A의 전체 거래 건수 중에 모두를 포함하는 거래 건수의 비율. = 항목 A를 모두 포함하는 거래 수 / 전체 거래수 confidence (신뢰도) 항목 A를 포함하는 거래 중에서 B도 포함하는 거래 비율. = A와 B를 모두 포함하는 거래 수 / A가 포함된 거래 수 (조건부 확률) 신뢰도가 높을수록 유용한 규칙일 가능성이 높다. lift (..
정제 (Cleaning) : 자연어 처리에서 정제는 가지고 있는 말뭉치로부터 노이즈 데이터를 제거하는 것을 말한다. 정규화 (Normalization) : 자연어 처리에서 하나의 뜻을 가진 단어도 여러 개의 표현 방법이 존재하는데 이를 통합시켜 같은 단어로 만들어주는 작업을 말한다. 1. 표기가 다른 단어의 통합 US나 USA 같은 단어들은 같은 뜻이지만 표기가 다르다. 이를 하나로 통합해주는 과정이다. 2. 대문자와 소문자 영어는 문장 시작이 대문자로 시작하나 대문자는 큰 의미가 없는 대문자일 확률이 크다. 또는 특정 상황에서만 쓰이기 때문에 대부분 소문자로 변화시켜 통합한다. 하지만 국가명이나 회사 혹은 사람 이름과 같은 대문자를 구분해야 하는 경우는 구분을 해주어야 한다. 3. 등장 빈도가 적은 단..
1. 추천 시스템이란? 사용자의 과거 행동 데이터나 다른 데이터를 바탕으로 사용자에게 필요한 정보나 제품 등을 추천해주는 시스템이다. 이를 개인 사용자 맞춤형 추천과 서비스를 제공하는 것을 개인화라고 한다. 2. 추천 시스템 알고리즘 1) 협업 필터링 (CF, Collaborative Filtering) 구매한 제품에 대해 각 소비자에게 평가를 받고 평가 패턴이 비슷한 소비자를 집단화하고 그 집단에 속한 소비자들의 취향을 활용하는 기술. 단점으로는 소비자 평가 관련 데이터를 수집하기 어려울 수 있다. 2) 내용 기반 필터링 (CB, Content Based) 제품의 내용을 분석해서 추천하는 기술. 텍스트 정보가 많은 제품을 분석하여 비슷한 키워드에 해당하는 것을 추천할 때 많이 사용되는 기술이다. 3) ..
토큰(Token)이라고 불리는 단위로 나누는 작업을 토큰화(Tokenization)라고 한다. 자연어 처리에서 토큰화는 단어 토큰화와 문장 토큰화가 있다. 토큰화를 통한 전처리 단계에서 생각해야 할 것들이 있다. 첫째, 특수 문자나 기호를 단순히 다 제거할 것인가?에 대한 고민이다. 특수 문자 자체가 의미를 가지는 경우에는 제거하지 말아야 한다. 예를 들어 화폐를 나타내는 단위나 숫자 표현 등이 있다. 둘째, 줄임말과 단어 내 띄어쓰기가 있는 경우에 대한 고민이다. 대체로 자연어처리 패키지 관련해서 영어가 잘 되어있는데 영어는 줄임말이 많고 띄어쓰기를 포함한 한 단어가 있기 때문에 전처리 과정에서 고려를 해야 한다. 이러한 토큰화는 한국어에서 많은 어려움이 있다. 한국어는 띄어쓰기가 되어 있지 않아도 글..