본문 바로가기
Computer Science/데이터마이닝

[Neighborhood-based Collaborative Filtering] 3

by 큌 2024. 6. 18.
반응형

다른 방법과의 토론

오프라인 계산을 줄이는 방법?

• 이웃 기반 방법의 주요 문제는 오프라인 단계의 복잡성입니다.

• 솔루션: 오프라인 가장 가까운 이웃 계산 단계를 오프라인 클러스터링 단계로 대체합니다.

• 동일한 클러스터 내에서 가장 가까운 상위 k개의 피어가 예측에 사용됩니다.

• 쌍별 유사도 계산이 동일한 클러스터 내에서 수행되기 때문에 계산 비용을 절감합니다.

• 등급 매트릭스가 매우 클 때 적은 비용으로 실용적인 대안을 제공합니다.

• 효율성과 정확성 사이에는 균형이 있습니다.

근접 방법을 위한 클러스터링

• 전체 사용자 집합은 여러 사용자 그룹으로 나뉩니다.

• 일반적으로 k-means 클러스터링이 사용됩니다.

• 과제: 등급 매트릭스가 불완전합니다.

차원 축소

• 밀도 높은 저차원 표현을 제공합니다.

• 행 단위 또는 열 단위 잠재 요인을 기준으로 축소된 표현을 만들 수 있습니다.

• m×n 행렬 R을 저차원 공간 k로 변환합니다.

 

• 축소 행렬을 이용한 전체 공정

• 각 희소 n차원 벡터는 밀도가 높은 저차원 벡터로 변환됩니다.

• 각 사용자의 k차원 표현이 결정되면 대상 사용자로부터 유사도가 계산됩니다.

• 저차원 벡터가 밀도가 높기 때문에 더 견고합니다.

• 저차원성을 사용하기 때문에 더 효율적입니다.

• 저차원성에는 간단한 코사인 또는 도트 제품이 사용됩니다.

특이치 분해(SVD)

• 등급 행렬 R은 세 개의 행렬로 분해될 수 있습니다.

• �, �, �: 유니크

• �, �: 열 또는 정규 분포

• ��� = �, ��� = �(�: 아이덴티티 매트릭스) • 열은 직교 단위 벡터입니다.

• S: 대각선

• 항목(단수 값)은 양수입니다.

• 단일 값은 감소하는 순서로 정렬됩니다(�! ≥ �" ≥ ⋯ ≥ 0).

SVD를 이용한 치수축소

• 누락된 항목을 채워 불완전한 행렬을 보강합니다.

• 누락된 항목은 행렬에서 해당 행의 평균으로 추정됩니다.

• Rfull: Augmented Full 매트릭스 • n×n 유사도 행렬 � = �����를 계산합니다 � �����.

• SVD에 대한 �����의 지배적인 기저 벡터를 결정합니다.

• S = P δ P^T, 여기서 P는 n×n 행렬이고 δ는 대각 행렬입니다.

• Pk를 n×k 행렬로 표기하고, P의 열은 다음과 같습니다 가장 큰 고유 벡터.

• PCA는 차원 축소에도 사용할 수 있습니다.

• 축소된 m×k 행렬을 RfullPk로 구축합니다.

예: 증강 매트릭스

• 누락된 등급은 각 사용자의 평균으로 채워집니다

편향 문제

• 전체 행렬은 지정되지 않은 항목을 채워 불완전한 행렬에서 파생됩니다.

• 항목 간 공분산, 즉 등급이 희박한 항목을 왜곡할 수 있습니다.

• 결측 등급을 채운 후 (I1 및 I2)가 (I1 및 I3)보다 높습니다.

솔루션: 직접 행렬 인수분해

• 행렬이 희박한 경우 공분산 추정은 통계적으로 신뢰할 수 없습니다. L

• 등급 행렬에 대해 행렬 인수분해를 직접 적용하는 것은 어떻습니까?

• 축소된 기준뿐만 아니라 축소된 기준으로 등급을 표시합니다.

예: Matlab의 SVD

• 건축물 3등급 SVD

• • Matlab code: [U, S, V] = svds(R, 3, ‘L’)

SVD의 한계

• 과제 #1: 결측치

• 누락된 값을 사용자 평균으로 채우는 것은 정확하지 않을 수 있습니다.

• 과제 2: 확장성

• SVD 계산은 O(m^2n + n^3)입니다.

• 대규모 데이터 세트에는 잘 확장되지 않습니다.

• 과제 #3: 투명성 부족

• 잠재 기능의 의미를 해석하는 것은 쉬운 일이 아닙니다.

잠재 요인 모형

• 행렬 R은 두 개의 잠재 행렬 U와 V의 선형 조합으로 근사화할 수 있습니다.

• R: 사용자-항목 등급 매트릭스(mxn 매트릭스)

• U: 잠재 사용자 행렬(m×k 행렬)

• V: 잠재항목 행렬(n×k 행렬)

• k: 잠재 기능의 수

잠재 요인 모형

• 누락된 값은 신경 쓰지 마십시오.

• 등급 행렬을 두 개의 잠재 행렬로 인수분해합니다.

• 매트릭스 R은 얇은 UV^T의 곱으로 근사화할 수 있습니다.

등급이 지정되지 않은 항목 예측

• 두 행렬 U와 V를 학습한 후 항목 i에서 누락된 사용자 u의 등급을 UuVi^T로 추정합니다.

근린법에 대한 회귀분석

• 사용자 간 유사도 계수를 알 수 없는 매개변수로 대체할 수 있습니다.

• 다음 목적함수를 최소화합니다.

 

• 항목 기반 접근 방식은 항목-항목 상관 관계를 학습합니다.

• 다음 목적함수를 최소화합니다.

희소 선형법(SLIM)

• 사용자-항목 평가 행렬 R을 근사화하여 항목-항목 유사도 행렬 W를 학습합니다.

• 그러나 W의 대각 원소에 대한 제약이 없으면 해가 사소할 수 있습니다.

그래프 모델

• 다양한 그래프 모델을 사용하여 구조적 전이성 또는 순위 결정 방법을 사용하여 유사성을 정의합니다.

• 데이터 희소성 문제를 극복할 수 있습니다.

• 그래프는 사용자, 항목 또는 둘 다에 구축할 수 있습니다.

• 예: 사용자-항목 그래프, 사용자-사용자 그래프, 항목-항목 그래프

• 추천을 위해 랜덤 워크 또는 최단 경로 방법을 활용합니다.

• 최근에는 NGCF 및 LightGCN과 같은 신경 추천 모델에 널리 사용되고 있습니다.

예제: 사용자-항목 행렬에 대한 그래프

• 등급 행렬은 이분 그래프로 나타낼 수 있습니다.

• 에지는 사용자-항목 상호작용을 나타냅니다.

예제: 사용자-항목 행렬에 대한 그래프

• 피드백이 부족한 사용자에게는 사용자의 직접적인 연결이 부족한 정보를 제공합니다.

• 이 문제를 해결하기 위해 사용자-아이템 상호 작용의 고차 연결성을 활용합니다.

하이오더 커넥티비티

• 경로 길이 l이 1보다 큰 모든 노드에서 경로가 대상 노드 u에 도달합니다.

l = 2일 때 대상 사용자는 다른 사용자도 고려합니다.

l = 3일 때 대상 사용자는 다른 항목도 고려합니다.

반응형