목록추천시스템 (8)
Note
주제 : 고객 맞춤형 제철 특산물 추천 시스템 기간 : 2021.07 ~ 2021.10 직책 : 팀장 담당 업무 : 프로젝트 총괄, 자료 조사, 데이터 전처리, 데이터 분석, 알고리즘 적용 기술 구현 : 머신러닝 - 사이킷런 CBF, CF, SURPRISE 패키지 딥러닝 - Tensorflow.Keras 느낀 점 특산물 데이터가 적은 편이었고 이로 인해 알고리즘의 성능도 좋은 편은 아니었다. 추천 시스템에 관심 있어서 선택한 주제로 실제 데이터 수집부터 알고리즘 적용까지 해 본 첫 프로젝트! 관심 있는 분야 공부를 더 열심히 해야 할 것 같다!
Surprise는 추천 시스템 구현 패키지이다. 설치방법 1) pip install scikit-surprise 2) conda install -c conda-forge scikit-surprise ( Anaconda 환경 추천 ) random_pred.NormalPredictor 학습 데이터의 분포가 정규분포라고 가정한 상태에서 평점을 무작위로 추출하는 알고리즘 baseline_only.BaselineOnly 사용자의 평점평균과 아이템의 평점평균을 모델화하여 예측하는 알고리즘 knns.KNNBasic 기본적인 이웃을 고려한 CF 알고리즘 knns.KNNWithMeans 사용자의 평가 성향을 고려한 CF 알고리즘 knns.KNNWithZScore 사용자의 평가 성향을 표준화시킨 CF 알고리즘 knns.K..

Word2Vec은 추론 기반 방법이다. 여기서 사용하는 추론이란 주변 단어나 맥락이 주어졌을 때, 무슨 단어가 들어가는지를 추측하는 것이다. 통계기반 방법의 단점 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생한다. 한 번에 학습 데이터 전체를 진행한다. 학습을 통해서 개선하기가 어렵다. Word2Vec은 위 단점을 보완하기 위한 방법이다. 정의 - 단어간 유사도를 반영하여 단어를 벡터로 바꿔주는 임베딩 방법론이다. 원-핫 벡터 형태의 sparse matrix가 가지는 단점을 보완하기 위해 저 차원의 공간에 벡터로 매핑하는 것이 특징이다. - Word2Vec은 비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다라는 가정을 기반으로 학습을 진행한다. 1) CBOW 주변에 있는 단어들을 가지고 중간에 있는..
협업 필터링의 유형은 최근접 이웃 기반은 크게 사용자 기반과 아이템 기반으로 나뉜다. 최근접 이웃 기반 사용자 기반 특정 사용자와 비슷한 고객들을 기반으로 비슷한 고객들이 선호하는 또 다른 상품을 추천한다. 특정 사용자와 비슷한 상품을 구매해온 고객들은 비슷한 부류의 고객으로 간주한다. 예시) 비슷한 고객들이 구매한 상품 목록 아이템 기반 특정 상품과 유사한 좋은 평가를 받은 비슷한 상품을 추천한다. 사용자들에게 특정 상품과 비슷한 평가를 받은 품목들은 비슷한 상품으로 간주한다. 예시) 상품을 구매한 다른 고객들이 구매한 다른 상품 목록 일반적으로 사용자 기반보다는 아이템 기반이 더 사용된다. 같은 상품을 구매한 사람을 유사한 사람으로 판단하기 어렵기 때문이다. CF 구현 순서 아이템 - 사용자 행렬 데..

1. FP - Growth 알고리즘이란? Apriori 알고리즘의 속도 측면 단점을 개선한 알고리즘이다. Apriori 알고리즘과 비슷한 속도를 내지만 FP Tree 구조를 사용해 빠른 속도를 가진다. 단점으로는 동일하게 발생하는 아이템 집합을 찾는 데는 유용하지만 연관성을 찾기는 어렵고 또한, 설계가 어려운 단점이 있다. 2. 원리 1) 모든 거래를 확인하여 , 각 아이템의 지지도를 계산하고 최소 지지도 이상 해당하는 아이템만 선택한다. 2) 전체 거래에서 빈도가 높은 순으로 정렬한다. 3) 부모 노드 중심으로 자식 노드를 추가해가면서 tree를 생성한다. 4) 새로운 아이템이 발생하면 부모 노드부터 시작하고, 그렇지 않으면 기존 노드에서 확장한다. 5) 모든 거래에 대해 반복하고 tree 생성 후에 ..