모델 기반 방법 기본 사항
모델 기반 방법이 있는 이유는 무엇입니까?
• CF는 기존의 분류나 회귀 문제로 해석할 수 있습니다.
• n - 1개의 열은 피쳐 변수이고 마지막 열은 레이블 변수인 m×n 행렬이 있습니다.
• 모델 기반 방법은 지도 또는 비지도 방법을 사용하여 등급 매트릭스에서 생성됩니다.
• 훈련 단계는 예측 단계와 명확하게 구분됩니다.
• 예제
• 규칙 기반 방법, 베이즈 분류기, 회귀 모형
• 잠재 요인 모형
요약: 사용자 항목 등급 매트릭스
• 사용자 항목 등급 매트릭스 R ∈ ℝ m×n이 제공됩니다.
• R: 사용자-항목 등급 행렬(mxn 행렬) • 사용자별 누락된 항목의 등급을 예측합니다.
분류 대 행렬 완성
• 등급 매트릭스의 일부 항목이 누락될 수 있습니다.
모델 기반 방법의 특성
• 이웃 기반 방법은 사용자 수 또는 항목 수에 대해 2차 시간 복잡성이 필요합니다.
• 장점
• 훈련 및 효율성: 일반적으로 훈련된 모델을 구축하는 전처리 단계에서 더 빠릅니다.
• 공간 효율성: 학습된 모델의 크기가 원래 등급 매트릭스보다 훨씬 작습니다.
• 기존 분류 모델을 행렬 완성 문제에 일반화하는 방법은 무엇입니까?
• 등급 매트릭스에서 누락된 항목을 처리하는 것이 중요합니다.
예: 모델 기반 방법
• 규칙 기반 모델
• 협회규칙마이닝
• 확률론적 모델
• 네이비 ï 베이즈 분류기
• 회귀 모형
• 예측 변수 하나의 기울기
• 잠재 요인 모형
• 행렬 인수분해 모형
규칙 기반 모델
연결 규칙 마이닝이란 무엇입니까?
• 대규모 트랜잭션 데이터에서 규칙과 같은 관계를 식별하는 데 사용되는 일반적인 기법
• 빈번한 패턴 분석이라고도 합니다.
• 함께 자주 구매하는 품목은 무엇입니까?
• 예제
• 기저귀 ⇒ 맥주 [0.5, 0.75] (지지력, 자신감) 연결 규칙 마이닝이란 무엇입니까?
• 데이터에서 고유 규칙 찾기 • 어떤 제품을 함께 구매하는 경우가 많습니까?
• 맥주랑 기저귀?
• 물건을 산 후 이후의 구매는 무엇입니까?
• 응용 프로그램
• 바스켓 데이터 분석, 교차 마케팅
• 카탈로그 디자인, 판매 캠페인 분석
• 웹로그(클릭스트림) 분석
• DNA 염기서열 분석
바스켓 모델
• 큰 바구니 세트가 제공됩니다.
• 품목은 슈퍼마켓에서 판매되는 제품입니다.
• 각 바구니는 한 번의 거래를 위해 고객이 구매하는 제품과 같은 품목 세트입니다.
• 목표: 연결 규칙, 즉 if-then rule을 발견하고자 합니다!
예: 바스켓 모델
• 품목 = 상품
• 바구니 = 누군가 구입한 제품 세트 • X를 산 아마존 사람들도 Y를 샀습니다.
• 응용 프로그램
• 일반적인 고객이 매장을 탐색하고 유혹적인 아이템을 배치하는 방법을 알려줍니다.
• 기저귀로 판매를 진행하고 맥주 가격을 인상합니다.
용어.
• 항목 집합: 항목 집합, 즉 k-itemset X = {X1, …, Xk}
• 서포트
• (절대) X의 지지 또는 지지 수
• 항목 집합 X가 발생하는 빈도
• (상대적) 지원은 X와의 거래에서 차지하는 비율입니다.
• 트랜잭션에 X가 포함될 확률
• 최소 지원: X의 지원이 최소 지원 임계값 이상이면 항목 집합 X가 자주 발생합니다.
• 모델을 구축하기 전에 미리 정의되어 있습니다.
용어.
• 목표: 최소한의 지원으로 모든 규칙 X ⇒ Y 찾기 및 자신감.
• 지원 : X ⇒ Y에 대한 거래 확률 • 신뢰도: X ⇒ Y에 대한 조건부 확률
예: 빈발 패턴
• 밀크 ⇒ 빵 (받침 : 0.6, 자신감 : 1.0) • 브레드 ⇒ 우유 (지지대 : 0.6, 자신감 : 0.75) CF에 대한 연결 규칙 활용
• 1단계: 사전에 지정된 최소 지원 및 최소 신뢰 수준에서 모든 연결 규칙을 발견합니다.
• 2단계: 규칙 집합은 모델로 특정 사용자에 대한 권장 사항을 수행하는 데 사용됩니다.
• 대상 사용자가 주어지면 모든 관련 연결 규칙을 찾습니다.
• 규칙의 선행 X에 있는 항목이 사용자가 선호하는 항목의 하위 집합이면 연결 규칙이 실행됩니다.
• 해고된 모든 규칙은 신뢰도가 낮은 순서로 정렬됩니다.
• 첫 번째 k 항목은 권장 사항에 사용됩니다.
CF에 대한 연결 규칙 활용
• 예제
• 최소 지지도: 0.5, 최소 신뢰도: 0.6 • 사용자가 "다이퍼"를 구입하면 "맥주"가 권장됩니다.
세션 기반 권장 사항
• 사용자 프로파일 또는 전체 이력 기본 설정의 존재를 요구하지 않습니다.
• 진행 중인 세션에서 사용자의 상호 작용에만 근거하여 권장 사항을 제공합니다.
단순 연결 규칙(AR)
• 최대 규칙 크기가 2인 결합 규칙 마이닝 기법의 단순화된 버전입니다.
• 두 개의 동시 발생 항목 i와 j의 빈도를 세어 봅니다.
• 순차적인 순서는 중요하지 않습니다.
• 청바지를 클릭한 후 어떤 아이템을 추천하시나요?
마르코프 체인스(MC)
• 한 세션에서 두 개의 후속 항목 간의 전환 확률을 고려합니다.
• 사용자가 아이템 i를 본 직후 아이템 j를 본 빈도를 세어봅니다.
마르코프 체인스(MC)
• 청바지를 클릭한 후 어떤 아이템을 추천하시나요?
순차 규칙(SR)
• MC 또는 AR의 변형
• i와 j 사이에 다른 항목이 나타나도 세션에서 항목 i 뒤에 항목 j가 있는 경우 규칙을 고려합니다.
가중치 체계는 두 개의 순차적 항목 사이의 거리를 고려합니다.
�1" � = 1/� 여기서 �은 두 항목 사이의 단계 수에 해당합니다.
순차 규칙(SR)
• 품목의 무게는 위치에 따라 감소합니다.
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Model-basedCollaborative Filtering 2] 1 (0) | 2024.06.18 |
---|---|
[Model-based Collaborative Filtering] 2 (0) | 2024.06.18 |
[Neighborhood-based Collaborative Filtering] 3 (0) | 2024.06.18 |
[Neighborhood-based Collaborative Filtering] 2 (0) | 2024.06.17 |
[Neighborhood-based Collaborative Filtering] 1 (0) | 2024.06.17 |