목록파이썬 (62)
Note
협업 필터링의 유형은 최근접 이웃 기반은 크게 사용자 기반과 아이템 기반으로 나뉜다. 최근접 이웃 기반 사용자 기반 특정 사용자와 비슷한 고객들을 기반으로 비슷한 고객들이 선호하는 또 다른 상품을 추천한다. 특정 사용자와 비슷한 상품을 구매해온 고객들은 비슷한 부류의 고객으로 간주한다. 예시) 비슷한 고객들이 구매한 상품 목록 아이템 기반 특정 상품과 유사한 좋은 평가를 받은 비슷한 상품을 추천한다. 사용자들에게 특정 상품과 비슷한 평가를 받은 품목들은 비슷한 상품으로 간주한다. 예시) 상품을 구매한 다른 고객들이 구매한 다른 상품 목록 일반적으로 사용자 기반보다는 아이템 기반이 더 사용된다. 같은 상품을 구매한 사람을 유사한 사람으로 판단하기 어렵기 때문이다. CF 구현 순서 아이템 - 사용자 행렬 데..
1. 유클리드 거리 유클리드 거리는 좌표 평면 위에서 두 점 사이의 직선거리를 구하는 공식이다. 자연어 처리에서는 단어 사이의 거리를 나타내고자 하기 위해 유클리드 거리를 구한다. 위 식은 다차원에서 유클리드 공식이다. 2. 코사인 유사도 코사인 유사도는 직접적인 거리 방식이 아닌 두 벡터 간의 코사인 각도를 이용한 유사도 방식이다. 코사인 유사도는 -1 에서 1 사이의 값을 가지며, -1은 반대 방향, 0은 유사하지 않음, 1은 유사함을 나타낸다. 3. 자카드 유사도 자카드 유사도는 두 문서에서 공통된 비율로 유사한지를 알아보는 방식이다. 즉, 두 문서의 합집합에서 가지고 있는 공통된 벡터 교집합의 비율로 유사도를 측정하는 것이다. 자카드 유사도는 0에서 1사이 값을 가지며, 1에 가까울수록 두 문서는..
언어 모델이란? 단어 또는 문장에 확률을 할당하는 것을 하는 모델이다. 즉, 이전 단어 다음에 어떤 단어가 올 확률이 가장 높은 것인지를 찾아내는 것이다. 다른 유형으로는 두 사이에 어떤 단어가 올 확률이 높은 것인지를 찾는 모델이 있다. 흔히 말하는 언어 모델링은 주어진 단어를 토대로 주어지지 않은 단어를 예측하는 것이다. 단어 시퀀스에 확률을 할당해줄 때, 기본적으로 문장의 흐름이 자연스러운 쪽에 확률을 높게 할당한다. 기계 번역, 오타 교정, 음성 인식 등에서 문장의 구성이 좀 더 자연스러운 쪽으로 높은 확률을 할당한다. 예를 들면, '떠났다'와 '쩌났다'가 있다고 한다면 '떠났다'에 더 높은 확률을 할당하는 것이다. 이처럼 번역 과정, 오타, 음성 인식에서도 같이 활용된다. 크게 통계적 언어 모델..
1. FP - Growth 알고리즘이란? Apriori 알고리즘의 속도 측면 단점을 개선한 알고리즘이다. Apriori 알고리즘과 비슷한 속도를 내지만 FP Tree 구조를 사용해 빠른 속도를 가진다. 단점으로는 동일하게 발생하는 아이템 집합을 찾는 데는 유용하지만 연관성을 찾기는 어렵고 또한, 설계가 어려운 단점이 있다. 2. 원리 1) 모든 거래를 확인하여 , 각 아이템의 지지도를 계산하고 최소 지지도 이상 해당하는 아이템만 선택한다. 2) 전체 거래에서 빈도가 높은 순으로 정렬한다. 3) 부모 노드 중심으로 자식 노드를 추가해가면서 tree를 생성한다. 4) 새로운 아이템이 발생하면 부모 노드부터 시작하고, 그렇지 않으면 기존 노드에서 확장한다. 5) 모든 거래에 대해 반복하고 tree 생성 후에 ..
1. 정규 표현식이란? 특정 규칙이 있는 텍스트 데이터를 좀 더 간편하고 빠르게 전처리 할 수 있는 방식이다. 2. 문법 문자 규칙 의미 \(역슬래쉬) 문자 자체 \d 모든 숫자( = [0-9] ) \D 숫자를 제외한 모든 문자 ( = [^0-9] ) \s 공백을 의미 ( = [\t\n\r\f\v] ) \S 공백을 제외한 문자 ( = [^\t\n\r\f\v] ) \w 문자 또는 숫자 ( = [a-zA-z0-9] ) \W 문자 또는 숫자가 아닌 문자 ( = [^a-zA-z0-9] ) ^문자가 오면 해당하는 것을 제외하고 라는 것을 알 수 있다. 특수 문자 의미 . 한 개의 임의 문자 ( \n은 제외 ) ? 앞에 문자가 있을수도 없을수도 있다.( 0 or 1개 ) * 앞에 문자가 무한개로 있을수도 없을수도 ..