롱테일 아이템 분포
• 사용자는 더 인기 있는 항목을 평가하는 경향이 있습니다.
⇒ 등급 행렬의 누락된 항목은 랜덤하지 않습니다.
• 등급 분포가 누락되었습니다. 무작위가 아닙니다.
• 아이템이 인기가 있을 때 선호 아이템으로 선택될 가능성이 높습니다.
• 선택 편향이 발생합니다.
롱테일 아이템의 영향
• 인기 있는 항목은 유사성을 측정하는 데 큰 영향을 미칩니다.
• 역사용자주파수
• IR에서 사용되는 IDF(Inverse Document Frequency) 개념을 채택합니다.
• 희귀한 품목일수록 무게가 더 높습니다.
• 피어슨 상관계수(Pearson correlation coefficient, PCC)
아이템 기반 CF
• 기본 아이디어: 항목 간의 유사성을 사용합니다.
• 이는 사용자 항목 등급 매트릭스를 대체하는 것과 같습니다.
• 참고: 정규화는 사용자 기반 CF에서도 동일합니다.
• 1단계: 항목 5와 유사한 항목을 찾습니다.
• 2단계: Bob의 등급을 사용하여 항목 5의 등급을 예측합니다.
항목 유사도 측정
• 코사인 유사도 조정
• 사용자 u에 의한 i 항목의 정규화된 등급입니다.
• 사용자가 평가한 모든 항목의 평균입니다
예측하기
예측 함수는
사용자 u에 대한 평균 등급을 고려하는 것이 어떻습니까?
항목 5의 이웃으로부터 가중 평균을 계산합니다.
이웃 기반 방법
• 장점
• 쉽게 구현하고 디버깅할 수 있습니다.
• 항목 기반 방식의 해석 가능성이 눈에 띕니다.
• 새로운 항목/사용자에 대한 증분 근사치가 가능합니다.
• 단점
• 대규모 환경에서는 비현실적입니다.
• 사용자 기반 방법에는 O(m^2)가 필요합니다.
• 데이터 희소성을 해결하는 데 한계가 있습니다.
• 상위 k개의 이웃만 사용됩니다.
• 이웃 기반 방법의 단점을 어떻게 보완합니까?
데이터 희소성 문제
• 냉시동 문제
• 새로운 아이템을 추천하는 방법은?
• 새로운 사용자에게 추천할 사항은 무엇입니까?
• 간단한 접근 방식
• 새 사용자에게 항목 집합의 등급을 지정하도록 요청/강제합니다.
• 초기 단계에서 다른 방법(예: 콘텐츠 기반, 인구 통계학적 또는 개인화된 것이 아님)을 사용합니다.
사용자 기반 CF의 확장성
• m명의 사용자와 n개의 항목이 주어졌을 때, • 두 사용자 간의 상관관계는 O(n)입니다.
• 사용자에 대한 모든 상관 관계는 O(mn)입니다.
• 모든 쌍별 상관 관계는 O(m^2n)입니다.
• 각 사용자에 대해 권장 사항은 O(mn)입니다.
• 사용자 기반 CF 컴퓨팅의 병목 현상은 무엇입니까?
• 사용자의 수와 항목의 수 중 어느 것이 더 큰가요?
사용자 기반 대 아이템 기반 CF
• 아이템 기반 CF가 사용자 기반 CF보다 더 나은 경우가 많습니다.
• 아이템 기반 CF에서는 사용자 자신의 평점을 추천에 사용합니다.
• 추천 시스템에서 실링 공격에 더 강합니다.
• 사용자 기반 CF에서 등급은 다른 사용자로부터 외삽됩니다.
• 아이템 기반 CF는 다음과 같은 구체적인 이유를 제시할 수 있습니다.
• neighbors 항목은 설명에 사용할 수 있습니다.
• 등급 변경에 따라 아이템 기반 CF가 더 안정적입니다.
• # 사용자는 일반적으로 항목의 #보다 큽니다.
• 새로운 사용자는 더 자주 추가될 가능성이 높습니다.
두 가지 방법의 통합
• 기존 방법의 단점
• 사용자 기반 방법은 항목 간 유사성을 무시합니다.
• 항목 기반 방식은 사용자 간 유사성을 무시합니다.
• 사용자와 항목 간의 유사성을 결합하는 방법은 무엇입니까?
두 가지 방법의 통합
• 1단계: 등급 행렬의 행은 평균 중심입니다.
• 2단계: 대상 항목(u,j)의 경우 코사인 계수로 가장 유사한 행/열을 결정합니다.
• 3단계: 유사한 행/열을 사용하여 가중 조합으로 예측합니다.
두 가지 방법의 통합
• 엔트리와이즈 방식으로 유사도 계산 일반화
• 대상 항목의 경우 사용자와 열 간의 유사성 조합 기능을 사용하여 가장 유사한 항목을 결정합니다.
• 가장 유사한 항목의 가중 조합을 사용하여 예측합니다.
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Model-based Collaborative Filtering] 1 (0) | 2024.06.18 |
---|---|
[Neighborhood-based Collaborative Filtering] 3 (0) | 2024.06.18 |
[Neighborhood-based Collaborative Filtering] 1 (0) | 2024.06.17 |
[Introduction toRecommender Systems] 1 (0) | 2024.06.17 |
[Dimensionality Reduction] 3 (0) | 2024.06.17 |