본문 바로가기
반응형

Computer Science92

[Clustering] 1 리뷰: 비지도 학습데이터의 잠재적 의미 표현 찾기클러스터링: 데이터 내에서 유사한 예제의 그룹을 검색예: K-평균 클러스터링차원 축소: 고차원 공간에서 더 낮은 차원 공간으로 데이터를 투영예: 주성분분석(PCA)밀도 추정: 입력 공간 내의 데이터 분포를 결정예: 가우시안 혼합 모델(GMM)행렬 완성: 부분적으로 관찰된 행렬의 누락된 항목을 채움예: LRA(low-rank approximation)클러스터 분석이란?클러스터: 데이터 개체 모음동일한 그룹 내에서 서로 유사(또는 관련)함다른 그룹의 튜플과 유사하지 않음(또는 관련 없음)클러스터 분석(또는 클러스터링, 데이터 세분화)데이터에 포함된 특성에 따른 데이터 간 유사성 정의유사한 데이터 튜플을 클러스터로 그룹화좋은 클러스터링이란 무엇입니까?좋은 클러스.. 2024. 6. 17.
[Evaluating ClassificationModels] 2 ROC 곡선• ROC(수신기 작동 특성) 곡선• 신호 감지 이론에서 유래함• 참 양성률과 거짓 양성률 사이의 균형을 나타냅니다• ROC 곡선 아래의 면적은 모델의 정확도를 나타내는 척도입니다  • 테스트 튜플의 순위를 내림차순으로 매깁니다. 포지티브 클래스에 속할 가능성이 가장 높은 튜플이 목록의 맨 위에 나타납니다• 대각선에 가까울수록(즉, 면적이 0.5에 가까울수록) 모형의 정확도가 떨어집니다 • 세로축은 실제 양의 비율을 나타냅니다• 가로축은 오탐률을 나타냅니다• 그림에는 대각선도 표시됩니다• 완벽한 정확도를 가진 모델의 면적은 1.0입니다.ROC 곡선을 표시하는 방법• 참 양성률(TPR) 및 거짓 양성률(FPR) 계산 # of P = 5, # of N = 5 •• For tuple #1, TPR .. 2024. 6. 17.
[Evaluating ClassificationModels] 1 선형 기저 함수 모형회귀 분석을 위한 가장 간단한 선형 모형 매개변수의 선형 함수: w0, w1, …, wd • 또한 입력 변수의 선형 함수입니다.• 는 기저 함수로 알려져 있습니다.선형 기저 함수 모형• 다양한 기저함수모델다항식 곡선 피팅해당 레이블이 있는 1차원 관찰로 구성된 훈련 데이터를 고려합니다 다항 함수는 x의 비선형 함수이지만 계수 w의 선형 함수입니다.어떤 M을 선택해야 할까요? 모델 선택 M을 감안할 때, 무엇을 선택해야 합니까?파라미터 선택Ground truth(녹색): sinx다항식 곡선 피팅• 선형 최소 제곱과 유사하게 제곱합 오차 함수를 최소화합니다.데이터에 맞는 몇 가지 적합성• M = 9일 때 교육 데이터를 완벽하게 맞췄습니다과적합M = 9의 경우 훈련 오차가 0입니다.다항식에.. 2024. 6. 17.
[Decision Tree and Naive Bayes] 2 과적합을 피하기 위한 두 가지 방법 • 프리프루닝• 양호도 측정값이 임계값 아래로 떨어질 경우 노드를 분할하지 마십시오.• 적절한 임계값을 선택하기 어렵습니다.• 후가지치기• "다 자란" 나무에서 가지를 제거합니다.• 교육 데이터와 다른 데이터 세트를 사용하여 "최상의 가지치기 트리"를 결정합니다.네이비 ï 베이즈 분류기베이지안 분류• 통계분류기• 확률적 예측을 수행합니다. 즉, 클래스 멤버 자격 확률을 예측합니다.• 기초: 베이즈 정리에 기초함 • 정확도• 간단한 베이지안 분류기인 ï베 베이즈 분류기는 의사결정 트리와 비슷한 성능을 갖습니다.베이지안 정리 기초• 훈련 데이터 X가 주어지면 가설 a의 사후 확률 P(H | X)는 베이즈 정리를 따릅니다: • P(X|H)(우도): 가설이 성립한다고 가정할 .. 2024. 6. 17.
반응형