ROC 곡선
• ROC(수신기 작동 특성) 곡선
• 신호 감지 이론에서 유래함
• 참 양성률과 거짓 양성률 사이의 균형을 나타냅니다
• ROC 곡선 아래의 면적은 모델의 정확도를 나타내는 척도입니다
• 테스트 튜플의 순위를 내림차순으로 매깁니다. 포지티브 클래스에 속할 가능성이 가장 높은 튜플이 목록의 맨 위에 나타납니다
• 대각선에 가까울수록(즉, 면적이 0.5에 가까울수록) 모형의 정확도가 떨어집니다
• 세로축은 실제 양의 비율을 나타냅니다
• 가로축은 오탐률을 나타냅니다
• 그림에는 대각선도 표시됩니다
• 완벽한 정확도를 가진 모델의 면적은 1.0입니다.
ROC 곡선을 표시하는 방법
• 참 양성률(TPR) 및 거짓 양성률(FPR) 계산
# of P = 5, # of N = 5 •
• For tuple #1, TPR = 1/5, FPR = 0/5
• 각(TPR, FPR) 쌍에 대해 볼록한 선체로 라인을 연결합니다
• 가장 바깥쪽 부분의 라인 연결
M1과 M2 중 어느 모델이 더 나은가요?
• ROC 곡선이 대각선에 가까울수록 모델의 정확도가 떨어집니다.
정밀도-호출 곡선
• 클래스 k에 속할 확률을 예측하여 테스트 튜플의 순위를 매깁니다
• 순위 목록 정렬 • fort = 1 … N(N = 총 시험 문서 수)
• 목록에서 최상위 문서를 선택합니다.
• 위의 문서는 클래스 k로, 아래의 문서는 클래스 k가 아닌 것으로 분류합니다.
• 정밀도-리콜 번호 계산
• 플롯할 수 있는 정밀도-리콜 값 집합을 생성합니다
• 완벽한 성능: 정밀도 = 1, 리콜 = 1
• ROC와 유사한 개념 정밀도-호출 곡선
• 랜덤 성능 레벨을 갖는 분류기는 수평선을 P / (P + N)로 표시합니다.
• 완벽한 성능 수준을 가진 분류기는 두 직선의 조합을 보여줍니다.
• 어느 것이 더 낫습니까?
• 다른 곡선 위의 곡선은 더 나은 성능 수준을 갖습니다.
AUC 점수
• AUC(정밀도-호출 곡선 아래의 면적) 점수는 정밀도-호출 곡선의 척도가 될 수 있습니다.
• 범위는 0에서 1 사이입니다.
• 랜덤 분류기의 AUC는 P/(P+N)입니다.
• 완벽한 분류기는 1에 해당합니다.
정밀도-리콜 대 ROC
• 고정된 P와 N의 수를 사용하면 ROC 곡선의 A 지점이 정밀도-호출 곡선의 지점에 매핑됩니다.
• 1대1 대응
• ROC 공간에서 하나의 곡선이 다른 곡선을 지배하면 Precision-Recall 공간에서도 한 곡선이 지배한다는 것이 바로 뒤따릅니다.
• 그러나 AUC 점수는 동일한 분류기에 대한 ROC와 Precision Recall 간에 다릅니다.
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Clustering] 2 (0) | 2024.06.17 |
---|---|
[Clustering] 1 (0) | 2024.06.17 |
[Evaluating ClassificationModels] 1 (0) | 2024.06.17 |
[Decision Tree and Naive Bayes] 2 (0) | 2024.06.17 |
[Decision Tree and Naive Bayes] 1 (0) | 2024.06.17 |