본문 바로가기
Computer Science/데이터마이닝

[Model-based Collaborative Filtering] 1

by 큌 2024. 6. 18.
반응형

모델 기반 방법 기본 사항

모델 기반 방법이 있는 이유는 무엇입니까?

• CF는 기존의 분류나 회귀 문제로 해석할 수 있습니다.

• n - 1개의 열은 피쳐 변수이고 마지막 열은 레이블 변수인 m×n 행렬이 있습니다.

• 모델 기반 방법은 지도 또는 비지도 방법을 사용하여 등급 매트릭스에서 생성됩니다.

• 훈련 단계는 예측 단계와 명확하게 구분됩니다.

• 예제

• 규칙 기반 방법, 베이즈 분류기, 회귀 모형

• 잠재 요인 모형

요약: 사용자 항목 등급 매트릭스

• 사용자 항목 등급 매트릭스 R ∈ ℝ m×n이 제공됩니다.

• R: 사용자-항목 등급 행렬(mxn 행렬) • 사용자별 누락된 항목의 등급을 예측합니다.

분류 대 행렬 완성

• 등급 매트릭스의 일부 항목이 누락될 수 있습니다.

모델 기반 방법의 특성

• 이웃 기반 방법은 사용자 수 또는 항목 수에 대해 2차 시간 복잡성이 필요합니다.

• 장점

• 훈련 및 효율성: 일반적으로 훈련된 모델을 구축하는 전처리 단계에서 더 빠릅니다.

• 공간 효율성: 학습된 모델의 크기가 원래 등급 매트릭스보다 훨씬 작습니다.

• 기존 분류 모델을 행렬 완성 문제에 일반화하는 방법은 무엇입니까?

• 등급 매트릭스에서 누락된 항목을 처리하는 것이 중요합니다.

예: 모델 기반 방법

• 규칙 기반 모델

• 협회규칙마이닝

• 확률론적 모델

• 네이비 ï 베이즈 분류기

• 회귀 모형

• 예측 변수 하나의 기울기

• 잠재 요인 모형

• 행렬 인수분해 모형

규칙 기반 모델

연결 규칙 마이닝이란 무엇입니까?

• 대규모 트랜잭션 데이터에서 규칙과 같은 관계를 식별하는 데 사용되는 일반적인 기법

• 빈번한 패턴 분석이라고도 합니다.

• 함께 자주 구매하는 품목은 무엇입니까?

• 예제

• 기저귀 ⇒ 맥주 [0.5, 0.75] (지지력, 자신감) 연결 규칙 마이닝이란 무엇입니까?

• 데이터에서 고유 규칙 찾기 • 어떤 제품을 함께 구매하는 경우가 많습니까?

• 맥주랑 기저귀?

• 물건을 산 후 이후의 구매는 무엇입니까?

• 응용 프로그램

• 바스켓 데이터 분석, 교차 마케팅

• 카탈로그 디자인, 판매 캠페인 분석

• 웹로그(클릭스트림) 분석

• DNA 염기서열 분석

바스켓 모델

• 큰 바구니 세트가 제공됩니다.

• 품목은 슈퍼마켓에서 판매되는 제품입니다.

• 각 바구니는 한 번의 거래를 위해 고객이 구매하는 제품과 같은 품목 세트입니다.

• 목표: 연결 규칙, 즉 if-then rule을 발견하고자 합니다!

예: 바스켓 모델

• 품목 = 상품

• 바구니 = 누군가 구입한 제품 세트 • X를 산 아마존 사람들도 Y를 샀습니다.

• 응용 프로그램

• 일반적인 고객이 매장을 탐색하고 유혹적인 아이템을 배치하는 방법을 알려줍니다.

• 기저귀로 판매를 진행하고 맥주 가격을 인상합니다.

용어.

• 항목 집합: 항목 집합, 즉 k-itemset X = {X1, …, Xk}

• 서포트

• (절대) X의 지지 또는 지지 수

• 항목 집합 X가 발생하는 빈도

• (상대적) 지원은 X와의 거래에서 차지하는 비율입니다.

• 트랜잭션에 X가 포함될 확률

• 최소 지원: X의 지원이 최소 지원 임계값 이상이면 항목 집합 X가 자주 발생합니다.

• 모델을 구축하기 전에 미리 정의되어 있습니다.

용어.

• 목표: 최소한의 지원으로 모든 규칙 X ⇒ Y 찾기 및 자신감.

• 지원 : X ⇒ Y에 대한 거래 확률 • 신뢰도: X ⇒ Y에 대한 조건부 확률

예: 빈발 패턴

• 밀크 ⇒ 빵 (받침 : 0.6, 자신감 : 1.0) • 브레드 ⇒ 우유 (지지대 : 0.6, 자신감 : 0.75) CF에 대한 연결 규칙 활용

• 1단계: 사전에 지정된 최소 지원 및 최소 신뢰 수준에서 모든 연결 규칙을 발견합니다.

• 2단계: 규칙 집합은 모델로 특정 사용자에 대한 권장 사항을 수행하는 데 사용됩니다.

• 대상 사용자가 주어지면 모든 관련 연결 규칙을 찾습니다.

• 규칙의 선행 X에 있는 항목이 사용자가 선호하는 항목의 하위 집합이면 연결 규칙이 실행됩니다.

• 해고된 모든 규칙은 신뢰도가 낮은 순서로 정렬됩니다.

• 첫 번째 k 항목은 권장 사항에 사용됩니다.

CF에 대한 연결 규칙 활용

• 예제

• 최소 지지도: 0.5, 최소 신뢰도: 0.6 • 사용자가 "다이퍼"를 구입하면 "맥주"가 권장됩니다.

세션 기반 권장 사항

• 사용자 프로파일 또는 전체 이력 기본 설정의 존재를 요구하지 않습니다.

• 진행 중인 세션에서 사용자의 상호 작용에만 근거하여 권장 사항을 제공합니다.

단순 연결 규칙(AR)

• 최대 규칙 크기가 2인 결합 규칙 마이닝 기법의 단순화된 버전입니다.

• 두 개의 동시 발생 항목 i와 j의 빈도를 세어 봅니다.

• 순차적인 순서는 중요하지 않습니다.

• 청바지를 클릭한 후 어떤 아이템을 추천하시나요?

마르코프 체인스(MC)

• 한 세션에서 두 개의 후속 항목 간의 전환 확률을 고려합니다.

• 사용자가 아이템 i를 본 직후 아이템 j를 본 빈도를 세어봅니다.

마르코프 체인스(MC)

• 청바지를 클릭한 후 어떤 아이템을 추천하시나요?

순차 규칙(SR)

• MC 또는 AR의 변형

• i와 j 사이에 다른 항목이 나타나도 세션에서 항목 i 뒤에 항목 j가 있는 경우 규칙을 고려합니다.

가중치 체계는 두 개의 순차적 항목 사이의 거리를 고려합니다.

�1" � = 1/� 여기서 �은 두 항목 사이의 단계 수에 해당합니다.

순차 규칙(SR)

• 품목의 무게는 위치에 따라 감소합니다.

반응형