추천자 모델 평가
평가에 관한 주요 질문
• 추천은 잘 되나요?
• 사용자들은 추천 아이템을 좋아합니까?
• 매출이 증가합니까?
• 서비스에 가장 적합한 알고리즘은 무엇입니까?
• 평가를 위한 적절한 설계가 중요하지만 너무 어렵습니다.
• 평가는 종종 다면적입니다.
• 하나의 기준으로는 설계자의 많은 목표를 달성할 수 없습니다.
• 잘못된 설계는 추천 모델의 실제 성능을 과소평가하거나 과대평가할 수 있습니다.
온라인 평가
• 사용자 연구
• 시험 과목을 적극적으로 모집합니다.
• 추천 시스템과 상호 작용하여 작업을 수행합니다.
• 대규모 사용자를 모집하는 것은 어렵고 비용이 많이 듭니다.
• 모집된 사용자는 편향될 수 있습니다. 즉, 실제 사용자의 대표가 아닙니다.
• 온라인평가 : A/B테스트
• 사용자는 종종 상용 시스템의 실제 사용자입니다.
• 채용 과정에서 발생하는 편견에 덜 민감합니다.
• 일반적으로 공개적으로 액세스할 수 없습니다.
• 창업 과정에서 이 방법을 사용하는 것은 제한적입니다.
• 시스템 독립 벤치마크로 일반화할 수 없는 경우가 많습니다.
• 최근에는 다무장 도적 추천과 관련이 있습니다.
예: A/B 시험
• 사용자를 두 그룹 A와 B로 분할합니다.
• 그룹 A에 대해 하나의 모델을 사용하고 그룹 B에 대해 다른 모델을 사용합니다.
• 두 그룹에 대한 다른 모든 조건을 유지합니다.
• 두 그룹의 전환율을 비교합니다.
전환율: 사용자가 추천 아이템을 선택하는 빈도.
오프라인 평가
• 오프라인 평가
• 과거 데이터(예: 별 등급 또는 클릭 로그) • 시간 정보, 즉 타임스탬프는 등급과 연관될 수 있습니다.
• 어드밴티지
• 실제 사용자에게 액세스할 필요가 없습니다.
• 추천 모델 테스트에 가장 많이 사용되는 방법입니다.
• 불이익
• 그들은 사용자의 실제 성향을 측정하지 않습니다.
• 데이터가 시간이 지남에 따라 진화함에 따라 미래에 대한 예측을 반영하지 못할 수 있습니다.
예: 오프라인 평가
• 사용자 항목 등급 매트릭스가 제공됩니다.
• 일반적으로 예측 결과와 실제 결과의 차이를 측정합니다.
• 등급예측
• Top-N 추천
교육/검정 세트에 대한 데이터 분할
• 데이터를 교육 및 테스트 세트로 분할
• Training set : 모델 파라미터 설정에 사용
• Validation set : 테스트 세트를 시뮬레이션하기 위한 교육 세트의 부분 집합
• 모델 선택 및 파라미터 튜닝
• 테스트 세트 : 성능평가에 사용
• Train/test set division • 일반적인 비율: 트레인 세트 80% 및 테스트 세트 20%
• N-fold 교차 검증: N-fold, 각 턴에 1-fold가 테스트 세트입니다.
• 일반적인 실수: 모수 조정 및 테스트에 동일한 데이터를 사용합니다.
• 과적합 문제로 인해 정확도를 과대평가합니다.
교육/검정 세트에 대한 데이터 분할
• 성능을 과대평가하거나 과소평가해서는 안 됩니다.
• 등급 매트릭스는 일반적으로 엔트리와이즈 방식으로 샘플링됩니다.
• 임의로 일부 사용자 항목 등급을 숨기고 예측합니다.
추천자 모델 평가
평가에 관한 주요 질문
• 추천은 잘 되나요?
• 사용자들은 추천 아이템을 좋아합니까?
• 매출이 증가합니까?
• 서비스에 가장 적합한 알고리즘은 무엇입니까?
• 평가를 위한 적절한 설계가 중요하지만 너무 어렵습니다.
• 평가는 종종 다면적입니다.
• 하나의 기준으로는 설계자의 많은 목표를 달성할 수 없습니다.
• 잘못된 설계는 추천 모델의 실제 성능을 과소평가하거나 과대평가할 수 있습니다.
온라인 평가
• 사용자 연구
• 시험 과목을 적극적으로 모집합니다.
• 추천 시스템과 상호 작용하여 작업을 수행합니다.
• 대규모 사용자를 모집하는 것은 어렵고 비용이 많이 듭니다.
• 모집된 사용자는 편향될 수 있습니다. 즉, 실제 사용자의 대표가 아닙니다.
• 온라인평가 : A/B테스트
• 사용자는 종종 상용 시스템의 실제 사용자입니다.
• 채용 과정에서 발생하는 편견에 덜 민감합니다.
• 일반적으로 공개적으로 액세스할 수 없습니다.
• 창업 과정에서 이 방법을 사용하는 것은 제한적입니다.
• 시스템 독립 벤치마크로 일반화할 수 없는 경우가 많습니다.
• 최근에는 다무장 도적 추천과 관련이 있습니다.
예: A/B 시험
• 사용자를 두 그룹 A와 B로 분할합니다.
• 그룹 A에 대해 하나의 모델을 사용하고 그룹 B에 대해 다른 모델을 사용합니다.
• 두 그룹에 대한 다른 모든 조건을 유지합니다.
• 두 그룹의 전환율을 비교합니다.
전환율: 사용자가 추천 아이템을 선택하는 빈도.
오프라인 평가
• 오프라인 평가
• 과거 데이터(예: 별 등급 또는 클릭 로그) • 시간 정보, 즉 타임스탬프는 등급과 연관될 수 있습니다.
• 어드밴티지
• 실제 사용자에게 액세스할 필요가 없습니다.
• 추천 모델 테스트에 가장 많이 사용되는 방법입니다.
• 불이익
• 그들은 사용자의 실제 성향을 측정하지 않습니다.
• 데이터가 시간이 지남에 따라 진화함에 따라 미래에 대한 예측을 반영하지 못할 수 있습니다.
예: 오프라인 평가
• 사용자 항목 등급 매트릭스가 제공됩니다.
• 일반적으로 예측 결과와 실제 결과의 차이를 측정합니다.
• 등급예측
• Top-N 추천
교육/검정 세트에 대한 데이터 분할
• 데이터를 교육 및 테스트 세트로 분할
• Training set : 모델 파라미터 설정에 사용
• Validation set : 테스트 세트를 시뮬레이션하기 위한 교육 세트의 부분 집합
• 모델 선택 및 파라미터 튜닝
• 테스트 세트 : 성능평가에 사용
• Train/test set division • 일반적인 비율: 트레인 세트 80% 및 테스트 세트 20%
• N-fold 교차 검증: N-fold, 각 턴에 1-fold가 테스트 세트입니다.
• 일반적인 실수: 모수 조정 및 테스트에 동일한 데이터를 사용합니다.
• 과적합 문제로 인해 정확도를 과대평가합니다.
교육/검정 세트에 대한 데이터 분할
• 성능을 과대평가하거나 과소평가해서는 안 됩니다.
• 등급 매트릭스는 일반적으로 엔트리와이즈 방식으로 샘플링됩니다.
• 임의로 일부 사용자 항목 등급을 숨기고 예측합니다.
• 회상: 완전성의 척도
• 모든 관련 항목 중 관련 항목의 비율을 결정합니다
• 예를 들어, 추천된 모든 좋은 영화의 비율.
F-측정(F-점수)
• F-measure (F1 또는 F-score) • 정밀도와 재현율의 가중 고조파 평균
• When � = 0.5 (�. �. , � = 1.0)
• 왜 고조파 평균입니까?
• 조화 평균은 항상 산술 평균과 기하 평균보다 작거나 같습니다.
• P와 R이 크게 다를 때 조화 평균은 산술 평균보다 최소값에 더 가깝습니다.
정밀도/리콜의 과제
• 정밀도/리콜 문제
• 모든 항목에 대한 지상 진실이 필요합니다.
• 우리가 모든 근거 있는 진실을 가지고 있다면, 왜 추천자들에게 신경을 써야 합니까?
• RS의 일반적인 출력: 순위가 매겨진 항목 목록
• 10등은 교환보다 1등은 교환이 더 중요합니다.
• 순위 측정 기준: 정밀도 및 리콜 확장
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Evaluation ofRecommender Systems] 2 (0) | 2024.06.18 |
---|---|
[Model-basedCollaborative Filtering 2] 2 (0) | 2024.06.18 |
[Model-basedCollaborative Filtering 2] 1 (0) | 2024.06.18 |
[Model-based Collaborative Filtering] 2 (0) | 2024.06.18 |
[Model-based Collaborative Filtering] 1 (0) | 2024.06.18 |