Note

연관분석 (Association Analysis) 본문

Machine Learning/Recommender system

연관분석 (Association Analysis)

알 수 없는 사용자 2021. 7. 27. 00:53
728x90

1. 연관분석

연관분석이란 말 그대로 데이터 안에서 어떠한 연관을 가지고 있는지 찾아내는 것이다.

크게 두 가지로 정의할 수 있습니다.

첫 번째, 얼마나 같이 구매되는가?

두 번째, 한 아이템을 구매하는 사람이 특정 아이템을 구매하는가?

이와 같은 규칙을 찾아내는 것이 연관분석이며, 장바구니 분석이라고도 한다.

2. 연관분석 평가 지표

support (지지도)

항목 A의 전체 거래 건수 중에 모두를 포함하는 거래 건수의 비율.

= 항목 A를 모두 포함하는 거래 수 / 전체 거래수

출처 : https://ratsgo.github.io/

 

confidence (신뢰도) 

항목 A를 포함하는 거래 중에서 B도 포함하는 거래 비율.

= A와 B를 모두 포함하는 거래 수 / A가 포함된 거래 수 (조건부 확률)

출처 : https://ratsgo.github.io/

신뢰도가 높을수록 유용한 규칙일 가능성이 높다.

 

lift (향상도) 

A가 주어지지 않았을 때의 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율.

출처 : https://ratsgo.github.io/

1보다 크거나 작다면 두 항목 사이에 관계가 있고, 서로 독립일 경우 1의 향상도를 가진다.

 

3. 규칙 생성

가능한 모든 경우의 수를 탐색해서 지지도, 신뢰도, 향상도가 높은 규칙들을 찾아내는 방식.

상품이 3개일 때, 경우의 수는 3C1 + 3C2 + 3C3을 다 더한 거와 같다.

즉, 3 + 3 + 1 = 7로 전체 7가지 경우의 수를 가진다.

규칙 수의 기하급수적 증가

모든 경우의 수를 고려하기 때문에 아이템 수가 증가할수록 규칙의 수는 기하급수적으로 증가하여 모든 경우의 수를 고려해야 하는 문제점이 발생한다.

'Machine Learning > Recommender system' 카테고리의 다른 글

Surprise 패키지  (0) 2021.09.15
협업 필터링 ( Collaborative Filtering, CF )  (4) 2021.08.09
FP - Growth 알고리즘  (0) 2021.07.29
Apriori 알고리즘  (0) 2021.07.27
추천시스템 개요  (0) 2021.07.25
Comments