다른 방법과의 토론
오프라인 계산을 줄이는 방법?
• 이웃 기반 방법의 주요 문제는 오프라인 단계의 복잡성입니다.
• 솔루션: 오프라인 가장 가까운 이웃 계산 단계를 오프라인 클러스터링 단계로 대체합니다.
• 동일한 클러스터 내에서 가장 가까운 상위 k개의 피어가 예측에 사용됩니다.
• 쌍별 유사도 계산이 동일한 클러스터 내에서 수행되기 때문에 계산 비용을 절감합니다.
• 등급 매트릭스가 매우 클 때 적은 비용으로 실용적인 대안을 제공합니다.
• 효율성과 정확성 사이에는 균형이 있습니다.
근접 방법을 위한 클러스터링
• 전체 사용자 집합은 여러 사용자 그룹으로 나뉩니다.
• 일반적으로 k-means 클러스터링이 사용됩니다.
• 과제: 등급 매트릭스가 불완전합니다.
차원 축소
• 밀도 높은 저차원 표현을 제공합니다.
• 행 단위 또는 열 단위 잠재 요인을 기준으로 축소된 표현을 만들 수 있습니다.
• m×n 행렬 R을 저차원 공간 k로 변환합니다.
• 축소 행렬을 이용한 전체 공정
• 각 희소 n차원 벡터는 밀도가 높은 저차원 벡터로 변환됩니다.
• 각 사용자의 k차원 표현이 결정되면 대상 사용자로부터 유사도가 계산됩니다.
• 저차원 벡터가 밀도가 높기 때문에 더 견고합니다.
• 저차원성을 사용하기 때문에 더 효율적입니다.
• 저차원성에는 간단한 코사인 또는 도트 제품이 사용됩니다.
특이치 분해(SVD)
• 등급 행렬 R은 세 개의 행렬로 분해될 수 있습니다.
• �, �, �: 유니크
• �, �: 열 또는 정규 분포
• ��� = �, ��� = �(�: 아이덴티티 매트릭스) • 열은 직교 단위 벡터입니다.
• S: 대각선
• 항목(단수 값)은 양수입니다.
• 단일 값은 감소하는 순서로 정렬됩니다(�! ≥ �" ≥ ⋯ ≥ 0).
SVD를 이용한 치수축소
• 누락된 항목을 채워 불완전한 행렬을 보강합니다.
• 누락된 항목은 행렬에서 해당 행의 평균으로 추정됩니다.
• Rfull: Augmented Full 매트릭스 • n×n 유사도 행렬 � = �����를 계산합니다 � �����.
• SVD에 대한 �����의 지배적인 기저 벡터를 결정합니다.
• S = P δ P^T, 여기서 P는 n×n 행렬이고 δ는 대각 행렬입니다.
• Pk를 n×k 행렬로 표기하고, P의 열은 다음과 같습니다 가장 큰 고유 벡터.
• PCA는 차원 축소에도 사용할 수 있습니다.
• 축소된 m×k 행렬을 RfullPk로 구축합니다.
예: 증강 매트릭스
• 누락된 등급은 각 사용자의 평균으로 채워집니다
편향 문제
• 전체 행렬은 지정되지 않은 항목을 채워 불완전한 행렬에서 파생됩니다.
• 항목 간 공분산, 즉 등급이 희박한 항목을 왜곡할 수 있습니다.
• 결측 등급을 채운 후 (I1 및 I2)가 (I1 및 I3)보다 높습니다.
솔루션: 직접 행렬 인수분해
• 행렬이 희박한 경우 공분산 추정은 통계적으로 신뢰할 수 없습니다. L
• 등급 행렬에 대해 행렬 인수분해를 직접 적용하는 것은 어떻습니까?
• 축소된 기준뿐만 아니라 축소된 기준으로 등급을 표시합니다.
예: Matlab의 SVD
• 건축물 3등급 SVD
• • Matlab code: [U, S, V] = svds(R, 3, ‘L’)
SVD의 한계
• 과제 #1: 결측치
• 누락된 값을 사용자 평균으로 채우는 것은 정확하지 않을 수 있습니다.
• 과제 2: 확장성
• SVD 계산은 O(m^2n + n^3)입니다.
• 대규모 데이터 세트에는 잘 확장되지 않습니다.
• 과제 #3: 투명성 부족
• 잠재 기능의 의미를 해석하는 것은 쉬운 일이 아닙니다.
잠재 요인 모형
• 행렬 R은 두 개의 잠재 행렬 U와 V의 선형 조합으로 근사화할 수 있습니다.
• R: 사용자-항목 등급 매트릭스(mxn 매트릭스)
• U: 잠재 사용자 행렬(m×k 행렬)
• V: 잠재항목 행렬(n×k 행렬)
• k: 잠재 기능의 수
잠재 요인 모형
• 누락된 값은 신경 쓰지 마십시오.
• 등급 행렬을 두 개의 잠재 행렬로 인수분해합니다.
• 매트릭스 R은 얇은 UV^T의 곱으로 근사화할 수 있습니다.
등급이 지정되지 않은 항목 예측
• 두 행렬 U와 V를 학습한 후 항목 i에서 누락된 사용자 u의 등급을 UuVi^T로 추정합니다.
근린법에 대한 회귀분석
• 사용자 간 유사도 계수를 알 수 없는 매개변수로 대체할 수 있습니다.
• 다음 목적함수를 최소화합니다.
• 항목 기반 접근 방식은 항목-항목 상관 관계를 학습합니다.
• 다음 목적함수를 최소화합니다.
희소 선형법(SLIM)
• 사용자-항목 평가 행렬 R을 근사화하여 항목-항목 유사도 행렬 W를 학습합니다.
• 그러나 W의 대각 원소에 대한 제약이 없으면 해가 사소할 수 있습니다.
그래프 모델
• 다양한 그래프 모델을 사용하여 구조적 전이성 또는 순위 결정 방법을 사용하여 유사성을 정의합니다.
• 데이터 희소성 문제를 극복할 수 있습니다.
• 그래프는 사용자, 항목 또는 둘 다에 구축할 수 있습니다.
• 예: 사용자-항목 그래프, 사용자-사용자 그래프, 항목-항목 그래프
• 추천을 위해 랜덤 워크 또는 최단 경로 방법을 활용합니다.
• 최근에는 NGCF 및 LightGCN과 같은 신경 추천 모델에 널리 사용되고 있습니다.
예제: 사용자-항목 행렬에 대한 그래프
• 등급 행렬은 이분 그래프로 나타낼 수 있습니다.
• 에지는 사용자-항목 상호작용을 나타냅니다.
예제: 사용자-항목 행렬에 대한 그래프
• 피드백이 부족한 사용자에게는 사용자의 직접적인 연결이 부족한 정보를 제공합니다.
• 이 문제를 해결하기 위해 사용자-아이템 상호 작용의 고차 연결성을 활용합니다.
하이오더 커넥티비티
• 경로 길이 l이 1보다 큰 모든 노드에서 경로가 대상 노드 u에 도달합니다.
l = 2일 때 대상 사용자는 다른 사용자도 고려합니다.
l = 3일 때 대상 사용자는 다른 항목도 고려합니다.
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Model-based Collaborative Filtering] 2 (0) | 2024.06.18 |
---|---|
[Model-based Collaborative Filtering] 1 (0) | 2024.06.18 |
[Neighborhood-based Collaborative Filtering] 2 (0) | 2024.06.17 |
[Neighborhood-based Collaborative Filtering] 1 (0) | 2024.06.17 |
[Introduction toRecommender Systems] 1 (0) | 2024.06.17 |