본문 바로가기
Computer Science/데이터마이닝

[Evaluating ClassificationModels] 2

by 큌 2024. 6. 17.
반응형

ROC 곡선

• ROC(수신기 작동 특성) 곡선

• 신호 감지 이론에서 유래함

• 참 양성률과 거짓 양성률 사이의 균형을 나타냅니다

• ROC 곡선 아래의 면적은 모델의 정확도를 나타내는 척도입니다 

 

• 테스트 튜플의 순위를 내림차순으로 매깁니다. 포지티브 클래스에 속할 가능성이 가장 높은 튜플이 목록의 맨 위에 나타납니다

• 대각선에 가까울수록(즉, 면적이 0.5에 가까울수록) 모형의 정확도가 떨어집니다

 

• 세로축은 실제 양의 비율을 나타냅니다

• 가로축은 오탐률을 나타냅니다

• 그림에는 대각선도 표시됩니다

• 완벽한 정확도를 가진 모델의 면적은 1.0입니다.

ROC 곡선을 표시하는 방법

• 참 양성률(TPR) 및 거짓 양성률(FPR) 계산 

# of P = 5, # of N = 5 •

• For tuple #1, TPR = 1/5, FPR = 0/5

 

• 각(TPR, FPR) 쌍에 대해 볼록한 선체로 라인을 연결합니다

• 가장 바깥쪽 부분의 라인 연결

 

 M1과 M2 중 어느 모델이 더 나은가요?

• ROC 곡선이 대각선에 가까울수록 모델의 정확도가 떨어집니다.

정밀도-호출 곡선

• 클래스 k에 속할 확률을 예측하여 테스트 튜플의 순위를 매깁니다

• 순위 목록 정렬 • fort = 1 … N(N = 총 시험 문서 수)

• 목록에서 최상위 문서를 선택합니다.

• 위의 문서는 클래스 k로, 아래의 문서는 클래스 k가 아닌 것으로 분류합니다.

• 정밀도-리콜 번호 계산

• 플롯할 수 있는 정밀도-리콜 값 집합을 생성합니다

• 완벽한 성능: 정밀도 = 1, 리콜 = 1

• ROC와 유사한 개념 정밀도-호출 곡선

 

• 랜덤 성능 레벨을 갖는 분류기는 수평선을 P / (P + N)로 표시합니다.

• 완벽한 성능 수준을 가진 분류기는 두 직선의 조합을 보여줍니다.

• 어느 것이 더 낫습니까?

• 다른 곡선 위의 곡선은 더 나은 성능 수준을 갖습니다.

AUC 점수

• AUC(정밀도-호출 곡선 아래의 면적) 점수는 정밀도-호출 곡선의 척도가 될 수 있습니다.

• 범위는 0에서 1 사이입니다.

• 랜덤 분류기의 AUC는 P/(P+N)입니다.

• 완벽한 분류기는 1에 해당합니다.

정밀도-리콜 대 ROC

• 고정된 P와 N의 수를 사용하면 ROC 곡선의 A 지점이 정밀도-호출 곡선의 지점에 매핑됩니다.

• 1대1 대응

• ROC 공간에서 하나의 곡선이 다른 곡선을 지배하면 Precision-Recall 공간에서도 한 곡선이 지배한다는 것이 바로 뒤따릅니다.

• 그러나 AUC 점수는 동일한 분류기에 대한 ROC와 Precision Recall 간에 다릅니다.

반응형

'Computer Science > 데이터마이닝' 카테고리의 다른 글

[Clustering] 2  (0) 2024.06.17
[Clustering] 1  (0) 2024.06.17
[Evaluating ClassificationModels] 1  (0) 2024.06.17
[Decision Tree and Naive Bayes] 2  (0) 2024.06.17
[Decision Tree and Naive Bayes] 1  (0) 2024.06.17