본문 바로가기
Computer Science/데이터마이닝

[Evaluation ofRecommender Systems] 1

by 큌 2024. 6. 18.
반응형

추천자 모델 평가

평가에 관한 주요 질문

• 추천은 잘 되나요?

• 사용자들은 추천 아이템을 좋아합니까?

• 매출이 증가합니까?

• 서비스에 가장 적합한 알고리즘은 무엇입니까?

• 평가를 위한 적절한 설계가 중요하지만 너무 어렵습니다.

• 평가는 종종 다면적입니다.

• 하나의 기준으로는 설계자의 많은 목표를 달성할 수 없습니다.

• 잘못된 설계는 추천 모델의 실제 성능을 과소평가하거나 과대평가할 수 있습니다.

온라인 평가

• 사용자 연구

• 시험 과목을 적극적으로 모집합니다.

• 추천 시스템과 상호 작용하여 작업을 수행합니다.

• 대규모 사용자를 모집하는 것은 어렵고 비용이 많이 듭니다.

• 모집된 사용자는 편향될 수 있습니다. 즉, 실제 사용자의 대표가 아닙니다.

• 온라인평가 : A/B테스트

• 사용자는 종종 상용 시스템의 실제 사용자입니다.

• 채용 과정에서 발생하는 편견에 덜 민감합니다.

• 일반적으로 공개적으로 액세스할 수 없습니다.

• 창업 과정에서 이 방법을 사용하는 것은 제한적입니다.

• 시스템 독립 벤치마크로 일반화할 수 없는 경우가 많습니다.

• 최근에는 다무장 도적 추천과 관련이 있습니다.

예: A/B 시험

• 사용자를 두 그룹 A와 B로 분할합니다.

• 그룹 A에 대해 하나의 모델을 사용하고 그룹 B에 대해 다른 모델을 사용합니다.

• 두 그룹에 대한 다른 모든 조건을 유지합니다.

• 두 그룹의 전환율을 비교합니다.

전환율: 사용자가 추천 아이템을 선택하는 빈도.

오프라인 평가

• 오프라인 평가

• 과거 데이터(예: 별 등급 또는 클릭 로그) • 시간 정보, 즉 타임스탬프는 등급과 연관될 수 있습니다.

• 어드밴티지

• 실제 사용자에게 액세스할 필요가 없습니다.

• 추천 모델 테스트에 가장 많이 사용되는 방법입니다.

• 불이익

• 그들은 사용자의 실제 성향을 측정하지 않습니다.

• 데이터가 시간이 지남에 따라 진화함에 따라 미래에 대한 예측을 반영하지 못할 수 있습니다.

예: 오프라인 평가

• 사용자 항목 등급 매트릭스가 제공됩니다.

• 일반적으로 예측 결과와 실제 결과의 차이를 측정합니다.

• 등급예측

• Top-N 추천

교육/검정 세트에 대한 데이터 분할

• 데이터를 교육 및 테스트 세트로 분할

• Training set : 모델 파라미터 설정에 사용

• Validation set : 테스트 세트를 시뮬레이션하기 위한 교육 세트의 부분 집합

• 모델 선택 및 파라미터 튜닝

• 테스트 세트 : 성능평가에 사용

• Train/test set division • 일반적인 비율: 트레인 세트 80% 및 테스트 세트 20%

• N-fold 교차 검증: N-fold, 각 턴에 1-fold가 테스트 세트입니다.

• 일반적인 실수: 모수 조정 및 테스트에 동일한 데이터를 사용합니다.

• 과적합 문제로 인해 정확도를 과대평가합니다.

교육/검정 세트에 대한 데이터 분할

• 성능을 과대평가하거나 과소평가해서는 안 됩니다.

• 등급 매트릭스는 일반적으로 엔트리와이즈 방식으로 샘플링됩니다.

• 임의로 일부 사용자 항목 등급을 숨기고 예측합니다.

추천자 모델 평가

평가에 관한 주요 질문

• 추천은 잘 되나요?

• 사용자들은 추천 아이템을 좋아합니까?

• 매출이 증가합니까?

• 서비스에 가장 적합한 알고리즘은 무엇입니까?

• 평가를 위한 적절한 설계가 중요하지만 너무 어렵습니다.

• 평가는 종종 다면적입니다.

• 하나의 기준으로는 설계자의 많은 목표를 달성할 수 없습니다.

• 잘못된 설계는 추천 모델의 실제 성능을 과소평가하거나 과대평가할 수 있습니다.

온라인 평가

• 사용자 연구

• 시험 과목을 적극적으로 모집합니다.

• 추천 시스템과 상호 작용하여 작업을 수행합니다.

• 대규모 사용자를 모집하는 것은 어렵고 비용이 많이 듭니다.

• 모집된 사용자는 편향될 수 있습니다. 즉, 실제 사용자의 대표가 아닙니다.

• 온라인평가 : A/B테스트

• 사용자는 종종 상용 시스템의 실제 사용자입니다.

• 채용 과정에서 발생하는 편견에 덜 민감합니다.

• 일반적으로 공개적으로 액세스할 수 없습니다.

• 창업 과정에서 이 방법을 사용하는 것은 제한적입니다.

• 시스템 독립 벤치마크로 일반화할 수 없는 경우가 많습니다.

• 최근에는 다무장 도적 추천과 관련이 있습니다.

예: A/B 시험

• 사용자를 두 그룹 A와 B로 분할합니다.

• 그룹 A에 대해 하나의 모델을 사용하고 그룹 B에 대해 다른 모델을 사용합니다.

• 두 그룹에 대한 다른 모든 조건을 유지합니다.

• 두 그룹의 전환율을 비교합니다.

전환율: 사용자가 추천 아이템을 선택하는 빈도.

오프라인 평가

• 오프라인 평가

• 과거 데이터(예: 별 등급 또는 클릭 로그) • 시간 정보, 즉 타임스탬프는 등급과 연관될 수 있습니다.

• 어드밴티지

• 실제 사용자에게 액세스할 필요가 없습니다.

• 추천 모델 테스트에 가장 많이 사용되는 방법입니다.

• 불이익

• 그들은 사용자의 실제 성향을 측정하지 않습니다.

• 데이터가 시간이 지남에 따라 진화함에 따라 미래에 대한 예측을 반영하지 못할 수 있습니다.

예: 오프라인 평가

• 사용자 항목 등급 매트릭스가 제공됩니다.

• 일반적으로 예측 결과와 실제 결과의 차이를 측정합니다.

• 등급예측

• Top-N 추천

교육/검정 세트에 대한 데이터 분할

• 데이터를 교육 및 테스트 세트로 분할

• Training set : 모델 파라미터 설정에 사용

• Validation set : 테스트 세트를 시뮬레이션하기 위한 교육 세트의 부분 집합

• 모델 선택 및 파라미터 튜닝

• 테스트 세트 : 성능평가에 사용

• Train/test set division • 일반적인 비율: 트레인 세트 80% 및 테스트 세트 20%

• N-fold 교차 검증: N-fold, 각 턴에 1-fold가 테스트 세트입니다.

• 일반적인 실수: 모수 조정 및 테스트에 동일한 데이터를 사용합니다.

• 과적합 문제로 인해 정확도를 과대평가합니다.

교육/검정 세트에 대한 데이터 분할

• 성능을 과대평가하거나 과소평가해서는 안 됩니다.

• 등급 매트릭스는 일반적으로 엔트리와이즈 방식으로 샘플링됩니다.

• 임의로 일부 사용자 항목 등급을 숨기고 예측합니다.

• 회상: 완전성의 척도

• 모든 관련 항목 중 관련 항목의 비율을 결정합니다

• 예를 들어, 추천된 모든 좋은 영화의 비율.

F-측정(F-점수)

• F-measure (F1 또는 F-score) • 정밀도와 재현율의 가중 고조파 평균

• When � = 0.5 (�. �. , � = 1.0)

• 왜 고조파 평균입니까?

• 조화 평균은 항상 산술 평균과 기하 평균보다 작거나 같습니다.

• P와 R이 크게 다를 때 조화 평균은 산술 평균보다 최소값에 더 가깝습니다.

정밀도/리콜의 과제

• 정밀도/리콜 문제

• 모든 항목에 대한 지상 진실이 필요합니다.

• 우리가 모든 근거 있는 진실을 가지고 있다면, 왜 추천자들에게 신경을 써야 합니까?

• RS의 일반적인 출력: 순위가 매겨진 항목 목록

• 10등은 교환보다 1등은 교환이 더 중요합니다.

• 순위 측정 기준: 정밀도 및 리콜 확장

반응형