본문 바로가기
Computer Science/데이터마이닝

[Neighborhood-based Collaborative Filtering] 2

by 큌 2024. 6. 17.
반응형

롱테일 아이템 분포

• 사용자는 더 인기 있는 항목을 평가하는 경향이 있습니다.

⇒ 등급 행렬의 누락된 항목은 랜덤하지 않습니다.

• 등급 분포가 누락되었습니다. 무작위가 아닙니다.

• 아이템이 인기가 있을 때 선호 아이템으로 선택될 가능성이 높습니다.

• 선택 편향이 발생합니다.

롱테일 아이템의 영향

• 인기 있는 항목은 유사성을 측정하는 데 큰 영향을 미칩니다.

• 역사용자주파수

• IR에서 사용되는 IDF(Inverse Document Frequency) 개념을 채택합니다.

• 희귀한 품목일수록 무게가 더 높습니다.

• 피어슨 상관계수(Pearson correlation coefficient, PCC)

아이템 기반 CF

• 기본 아이디어: 항목 간의 유사성을 사용합니다.

• 이는 사용자 항목 등급 매트릭스를 대체하는 것과 같습니다.

• 참고: 정규화는 사용자 기반 CF에서도 동일합니다.

• 1단계: 항목 5와 유사한 항목을 찾습니다.

• 2단계: Bob의 등급을 사용하여 항목 5의 등급을 예측합니다.

항목 유사도 측정

• 코사인 유사도 조정

• 사용자 u에 의한 i 항목의 정규화된 등급입니다.

• 사용자가 평가한 모든 항목의 평균입니다

예측하기

예측 함수는

사용자 u에 대한 평균 등급을 고려하는 것이 어떻습니까?

항목 5의 이웃으로부터 가중 평균을 계산합니다.

이웃 기반 방법

• 장점

• 쉽게 구현하고 디버깅할 수 있습니다.

• 항목 기반 방식의 해석 가능성이 눈에 띕니다.

• 새로운 항목/사용자에 대한 증분 근사치가 가능합니다.

• 단점

• 대규모 환경에서는 비현실적입니다.

• 사용자 기반 방법에는 O(m^2)가 필요합니다.

• 데이터 희소성을 해결하는 데 한계가 있습니다.

• 상위 k개의 이웃만 사용됩니다.

• 이웃 기반 방법의 단점을 어떻게 보완합니까?

데이터 희소성 문제

• 냉시동 문제

• 새로운 아이템을 추천하는 방법은?

• 새로운 사용자에게 추천할 사항은 무엇입니까?

• 간단한 접근 방식

• 새 사용자에게 항목 집합의 등급을 지정하도록 요청/강제합니다.

• 초기 단계에서 다른 방법(예: 콘텐츠 기반, 인구 통계학적 또는 개인화된 것이 아님)을 사용합니다.

사용자 기반 CF의 확장성

• m명의 사용자와 n개의 항목이 주어졌을 때, • 두 사용자 간의 상관관계는 O(n)입니다.

• 사용자에 대한 모든 상관 관계는 O(mn)입니다.

• 모든 쌍별 상관 관계는 O(m^2n)입니다.

• 각 사용자에 대해 권장 사항은 O(mn)입니다.

• 사용자 기반 CF 컴퓨팅의 병목 현상은 무엇입니까?

• 사용자의 수와 항목의 수 중 어느 것이 더 큰가요?

사용자 기반 대 아이템 기반 CF

• 아이템 기반 CF가 사용자 기반 CF보다 더 나은 경우가 많습니다.

• 아이템 기반 CF에서는 사용자 자신의 평점을 추천에 사용합니다.

• 추천 시스템에서 실링 공격에 더 강합니다.

• 사용자 기반 CF에서 등급은 다른 사용자로부터 외삽됩니다.

• 아이템 기반 CF는 다음과 같은 구체적인 이유를 제시할 수 있습니다.

• neighbors 항목은 설명에 사용할 수 있습니다.

• 등급 변경에 따라 아이템 기반 CF가 더 안정적입니다.

• # 사용자는 일반적으로 항목의 #보다 큽니다.

• 새로운 사용자는 더 자주 추가될 가능성이 높습니다.

두 가지 방법의 통합

• 기존 방법의 단점

• 사용자 기반 방법은 항목 간 유사성을 무시합니다.

• 항목 기반 방식은 사용자 간 유사성을 무시합니다.

• 사용자와 항목 간의 유사성을 결합하는 방법은 무엇입니까?

두 가지 방법의 통합

• 1단계: 등급 행렬의 행은 평균 중심입니다.

• 2단계: 대상 항목(u,j)의 경우 코사인 계수로 가장 유사한 행/열을 결정합니다.

• 3단계: 유사한 행/열을 사용하여 가중 조합으로 예측합니다.

두 가지 방법의 통합

• 엔트리와이즈 방식으로 유사도 계산 일반화

• 대상 항목의 경우 사용자와 열 간의 유사성 조합 기능을 사용하여 가장 유사한 항목을 결정합니다.

• 가장 유사한 항목의 가중 조합을 사용하여 예측합니다.

반응형