브라이틱스(Brightics)에서 연관규칙 분석(Association Rules)을 하는 방법을 알아본다.
Machine Learning
※ 본 내용은 Load
함수 블럭에서 association_rules_mart.csv 파일을 불러온 후에 진행한다.
※ association_rules_mart.csv 다운받기 [클릭]
개요
추천시스템의 여러 이론 중에서 연관규칙 분석은 특정 사용자의 선택 데이터를 기반으로 어떤 규칙이 있는지 알아보는 방법이다. 동시에 복수의 선택을 한 것을 기반으로 할 수도 있고 순차적으로 선택한 결과를 하나의 쌍으로 묶어 이를 기반으로 분석할 수 있다. 보통 이 것을 사용자의 구매 데이터(거래 데이터, transaction data)를 기반으로 분석을 실시하기 때문에 장바구니 분석(Basket Analysis)이라는 별칭도 있다.
이론
향후 보충 예정
각종 지표
각 규칙을 평가하기위한 지표는 많다. 그 중 대표적인 세 가지 지표는 지지도(Support), 신뢰도(Confidence), 향상도(Lift) 이다.
지지도(Support)
신뢰도(Confidence)
향상도(Lift)
확신도(Conviction)
설정
Association Rule
블럭의 설정 창은 다음과 같다.
-Input Type
: 입력 특성. 입력은 User - single item/User - multiple items/Array 중에서 선택할 수 있으며, 기본값은 User - single item이다.
-Item Columns
: Input Type
설정을 User - multiple items으로 했을 때 나타나며, 구매 아이템 정보가 있는 변수를 지정
-User Column
: Input Type
설정을 User - single items으로 했을 때 나타나며, 고객 정보가 있는 변수를 지정
-Item Column
: Input Type
설정을 User - single items으로 했을 때 나타나며, 구매 아이템 정보가 있는 변수를 지정
-Min Support
: 최소 지지도(Support) 기준
-Min Confidence
: 최소 신뢰도(Confidence) 기준
-Min Lift
: 최소 향상도(Lift) 기준
-Max Lift
: 최대 향상도(Lift) 기준
-Min Conviction
: 최소 확신도(Conviction) 기준
-Max Conviction
: 최대 확신도(Conviction) 기준
-Group By
: 특정 변수를 기준으로 연산을 별도로 실시
결과
데이터 중복 제거 후 사용자 고유 식별자(ID)와 구매 항목(Item) 변수를 각각 User Column
과 Item Column
항목에 지정한 후 지지도와 신뢰도를 0.005로 설정하여 확인한 결과는 다음과 같다.