본문 바로가기
반응형

Computer Science/데이터마이닝33

[Model-based Collaborative Filtering] 2 확률론적 모델소개: 확률론적 모델• 확률 이론을 사용하여 사용자 등급을 예측합니다.• 베이즈 분류 모델을 사용할 수 있습니다.• 분류 문제의 경우 미리 정의된 여러 범주 중 하나에 항목을 할당하는 작업입니다.• 대상 사용자가 주어지면 가장 가능성이 높은 등급 값을 계산하는 문제를 해결합니다.베이지안 분류• 통계분류기• 확률적 예측을 수행합니다. 즉, 클래스 멤버 자격 확률을 예측합니다.• 베이즈 정리에 기반을 두고 있습니다.• nave ï Bayes 분류기가 일반적으로 사용됩니다.요약: 베이즈 정리• D를 샘플 및 관련 클래스의 교육 집합이라고 가정합니다.• 각 표본은 d차원 벡터 x = (x1, x2, …, xd)로 표시됩니다 • m개의 클래스 c1, c2, …, cm가 있다고 가정합니다.• 최대 후방.. 2024. 6. 18.
[Model-based Collaborative Filtering] 1 모델 기반 방법 기본 사항모델 기반 방법이 있는 이유는 무엇입니까?• CF는 기존의 분류나 회귀 문제로 해석할 수 있습니다.• n - 1개의 열은 피쳐 변수이고 마지막 열은 레이블 변수인 m×n 행렬이 있습니다.• 모델 기반 방법은 지도 또는 비지도 방법을 사용하여 등급 매트릭스에서 생성됩니다.• 훈련 단계는 예측 단계와 명확하게 구분됩니다.• 예제• 규칙 기반 방법, 베이즈 분류기, 회귀 모형• 잠재 요인 모형요약: 사용자 항목 등급 매트릭스• 사용자 항목 등급 매트릭스 R ∈ ℝ m×n이 제공됩니다.• R: 사용자-항목 등급 행렬(mxn 행렬) • 사용자별 누락된 항목의 등급을 예측합니다.분류 대 행렬 완성• 등급 매트릭스의 일부 항목이 누락될 수 있습니다.모델 기반 방법의 특성• 이웃 기반 방법은 .. 2024. 6. 18.
[Neighborhood-based Collaborative Filtering] 3 다른 방법과의 토론오프라인 계산을 줄이는 방법?• 이웃 기반 방법의 주요 문제는 오프라인 단계의 복잡성입니다.• 솔루션: 오프라인 가장 가까운 이웃 계산 단계를 오프라인 클러스터링 단계로 대체합니다.• 동일한 클러스터 내에서 가장 가까운 상위 k개의 피어가 예측에 사용됩니다.• 쌍별 유사도 계산이 동일한 클러스터 내에서 수행되기 때문에 계산 비용을 절감합니다.• 등급 매트릭스가 매우 클 때 적은 비용으로 실용적인 대안을 제공합니다.• 효율성과 정확성 사이에는 균형이 있습니다.근접 방법을 위한 클러스터링• 전체 사용자 집합은 여러 사용자 그룹으로 나뉩니다.• 일반적으로 k-means 클러스터링이 사용됩니다.• 과제: 등급 매트릭스가 불완전합니다.차원 축소• 밀도 높은 저차원 표현을 제공합니다.• 행 단위 .. 2024. 6. 18.
[Neighborhood-based Collaborative Filtering] 2 롱테일 아이템 분포• 사용자는 더 인기 있는 항목을 평가하는 경향이 있습니다.⇒ 등급 행렬의 누락된 항목은 랜덤하지 않습니다.• 등급 분포가 누락되었습니다. 무작위가 아닙니다.• 아이템이 인기가 있을 때 선호 아이템으로 선택될 가능성이 높습니다.• 선택 편향이 발생합니다.롱테일 아이템의 영향• 인기 있는 항목은 유사성을 측정하는 데 큰 영향을 미칩니다.• 역사용자주파수• IR에서 사용되는 IDF(Inverse Document Frequency) 개념을 채택합니다.• 희귀한 품목일수록 무게가 더 높습니다.• 피어슨 상관계수(Pearson correlation coefficient, PCC)아이템 기반 CF• 기본 아이디어: 항목 간의 유사성을 사용합니다.• 이는 사용자 항목 등급 매트릭스를 대체하는 것과 .. 2024. 6. 17.
반응형