본문 바로가기
Computer Science/데이터마이닝

[Evaluation ofRecommender Systems] 2

by 큌 2024. 6. 18.
반응형

순위 인식 평가 지표

순위 측정 기준: 위치가 중요합니다

• 리콜 및 정밀도를 확장하여 순위 목록에서 올바른 항목의 위치를 고려합니다.

• 관련 항목은 추천 목록에서 먼저 나타날 때 더 유용합니다.

• 예제

• 할인된 누적 이득, 평균 정밀도

• 스피어맨 상관계수.

관련 vs 추천

• 특정 사용자-아이템 쌍에 대한 관련 항목은 이 항목이 사용자에게 좋은 권장 사항임을 의미합니다.

• 추천 항목은 이 항목이 추천 모델에 의해 사용자에게 제공된다는 것을 의미합니다.

• 추천 품목이 관련 품목과 얼마나 잘 연관되어 있는지 정량화하는 데 관심이 있습니다.

순위 인식 정확도 메트릭

• 정밀도 및 리콜 메트릭을 확장할 수 있습니다.

• 추천 목록에서 해당 항목의 순위를 무시합니다.

• 대표적인 순위 인식 지표

• 평균 역수 순위(MRR)

• 평균 정밀도(MAP)

• 표준화할인누계이익(NDCG)

• 일반적으로 검색 및 추천 시스템에 사용됩니다.

N에서의 정밀도 및 회수

• N에서의 정밀도는 상위 N 집합에서 관련성이 있는 항목의 비율입니다.

• N에서의 리콜은 상위 N 권장 사항에서 발견되는 관련 항목의 비율입니다.

예: Precision@3 및 Recall@3

• 실제 선호하는 영화는 빨간색입니다.

• 상위 3개 항목이 주어졌을 때, 정밀도와 리콜을 3으로 계산하는 방법은 무엇입니까?

평균 역수 순위(MRR)

• 첫 번째 관련 추천의 랭크 ku를 찾습니다.

• 역수 순위는 1/ku로 계산됩니다.

• 순위(k)는 k번째 항목의 순위입니다.

• rel(k)는 k에서 항목이 관련성이 있는 경우 1, 그렇지 않은 경우 0과 동일한 지표입니다.

• 모든 사용자의 평균으로 계산됩니다.

예: 역수 순위(RR)

• 실제 선호하는 영화는 빨간색입니다.

• 상위 3개 항목이 주어졌을 때, 3에서 역수 순위를 계산하는 방법은 무엇입니까?

예: 평균 역수 순위(MRR)

• 두 사용자에 대한 평균 역수 순위를 계산하는 방법은 무엇입니까?

평균 정밀도(AP)

• 리콜 = 0에서 리콜 = 1까지의 간격 동안의 정밀도 평균값 계산.

• prec(k)는 리스트에서 컷오프 k에서의 정밀도입니다.

• rel(k)는 k에서 항목이 관련성이 있는 경우 1, 그렇지 않은 경우 0과 동일한 지표입니다.

• 모든 관련 항목에 대해 정밀도가 계산되는 동안 평균 정밀도로 계산됩니다.

예: 평균 정밀도(AP)

• 추천 시스템은 예측 점수를 기준으로 항목을 정렬합니다.

• 어떤 것이 평균 정밀도에 더 좋습니까?

평균 정밀도(MAP)

• 쿼리의 경우 해당 AP를 계산할 수 있습니다.

• 추천 시스템의 경우 각 사용자가 쿼리를 나타냅니다.

• 모든 사용자의 평균으로 계산됩니다.

정규화 할인 누적 이득

• 이상적인 할인누적이익(IDCG)

• 가정: 항목은 감소하는 순서대로 관련성에 따라 정렬됩니다.

• 실제할인누계이익(DCG)

• 대수감소계수

• pos는 관련성이 축적되는 위치입니다.

• reli는 위치 i에서의 추천 관련성을 반환합니다.

• DCG는 [0, 1]의 간격으로 정규화됩니다.

예: NDCG

• 추천 시스템은 상위 3개 항목을 예측합니다.

정확도 측정지표의 한계

• 사용자는 더 인기 있는 항목을 평가하는 경향이 있습니다.

⇒ 등급 행렬의 누락된 항목은 랜덤하지 않습니다.

• 등급 분포가 누락되었습니다. 무작위가 아닙니다.

• 아이템이 인기가 있을 때 선호하는 아이템으로 간주될 가능성이 높습니다.

• 선택 편향이 발생합니다.

정확성 측정 기준을 넘어서

• 적용 범위: 추천 모델이 모든 사용자에게 몇 가지 항목을 예측할 수 있습니까?

• 롱테일 아이템은 어떻게 다루나요?

• 모델 A는 모델 B보다 더 나은 정확도를 제공합니다.

• 모델 B는 추천하기 쉬운 항목의 부분 집합만 추천합니다.

• 다양성: 추천 품목의 스펙트럼은 얼마나 넓은가?

• 몇 가지 카테고리/장르가 있습니까?

• 몇 명의 다양한 아티스트/작가/판매자가 있습니까?

• 항목 임베딩이 얼마나 다른가(즉, 멀리)?

• 코사인 유사성은 두 항목 간의 유사성에 사용됩니다.

정확성 측정 기준을 넘어서

• 참신함: 사용자를 위한 권장 사항은 얼마나 특이합니까?

• 세렌디피티(Serendipity): 예상치 못한 것에 관련성을 곱한 측정.

• 예상치는 추천 항목이 얼마나 놀라운지를 측정합니다.

반응형