목록머신러닝 (24)
Note
언어 모델이란? 단어 또는 문장에 확률을 할당하는 것을 하는 모델이다. 즉, 이전 단어 다음에 어떤 단어가 올 확률이 가장 높은 것인지를 찾아내는 것이다. 다른 유형으로는 두 사이에 어떤 단어가 올 확률이 높은 것인지를 찾는 모델이 있다. 흔히 말하는 언어 모델링은 주어진 단어를 토대로 주어지지 않은 단어를 예측하는 것이다. 단어 시퀀스에 확률을 할당해줄 때, 기본적으로 문장의 흐름이 자연스러운 쪽에 확률을 높게 할당한다. 기계 번역, 오타 교정, 음성 인식 등에서 문장의 구성이 좀 더 자연스러운 쪽으로 높은 확률을 할당한다. 예를 들면, '떠났다'와 '쩌났다'가 있다고 한다면 '떠났다'에 더 높은 확률을 할당하는 것이다. 이처럼 번역 과정, 오타, 음성 인식에서도 같이 활용된다. 크게 통계적 언어 모델..

1. 연관분석 연관분석이란 말 그대로 데이터 안에서 어떠한 연관을 가지고 있는지 찾아내는 것이다. 크게 두 가지로 정의할 수 있습니다. 첫 번째, 얼마나 같이 구매되는가? 두 번째, 한 아이템을 구매하는 사람이 특정 아이템을 구매하는가? 이와 같은 규칙을 찾아내는 것이 연관분석이며, 장바구니 분석이라고도 한다. 2. 연관분석 평가 지표 support (지지도) 항목 A의 전체 거래 건수 중에 모두를 포함하는 거래 건수의 비율. = 항목 A를 모두 포함하는 거래 수 / 전체 거래수 confidence (신뢰도) 항목 A를 포함하는 거래 중에서 B도 포함하는 거래 비율. = A와 B를 모두 포함하는 거래 수 / A가 포함된 거래 수 (조건부 확률) 신뢰도가 높을수록 유용한 규칙일 가능성이 높다. lift (..
1. Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도 값을 부여한 후 피쳐 값으로 추출하는 방식. 2. Bag of Words(BOW) 구조 문장 1 : My wife likes to watch baseball games and my daughter likes to watch baseball games too 문장 2 : My wife likes to play baseball 문장 1과 문장 2에 대해서 중복을 제거하고 고유한 인덱스를 부여한다. and, baseball, daughter, games, likes, my, play, to, too, watch, wife 위의 순서대로 0번부터 10번의 번호를 부여하는 방법. 3. Bag of Words..

1. 텍스트 분석이란? 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행한다. 2. 텍스트 분석 주요 영역 텍스트 분류 - 특정 분류 / 카테고리에 속하는 것을 예측하는 기법 감성 분석 - 텍스트에 표현되는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법 텍스트 요약 - 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법 텍스트 군집화와 유사도 측정 - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 3. 텍스트 전처리(텍스트 정규화) Cleansing - 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거 Tokenization - 문장..

최적의 모델은 낮은 분산과 낮은 편향을 가진 것이다. 모델을 학습하다 보면 과대 적합이나 과소 적합을 쉽게 만날 수 있다. 하지만, 둘의 관계가 상충관계(Trade-off)가 존재한다. 즉, 어느 한쪽이 높아지면 다른 한쪽은 낮아진다는 뜻이다. 실제 데이터들은 이를 모두 만족할 수 없기 때문에 어느정도 선을 정하는 것이 필요하다. 편향이 높고 분산이 낮으면 과소적합이며, 분산이 높고 편향이 낮으면 과대 적합이다. 위 그림처럼 어느 지점을 지나면 테스트 셋의 에러도 증가하기 때문에 최적의 점을 찾아야 한다. 이것은 분석하는 사람의 과제이다. 위 그림이 과소 적합과 과대 적합, 적절한 모델을 나타낸 그림을 잘 설명해 주었다.