본문 바로가기
반응형

Computer Science/데이터마이닝33

[Dimensionality Reduction] 1 차원 축소란 무엇입니까?• 차원의 저주• 차원이 증가함에 따라 데이터 희소성도 증가합니다.• 정보 손실을 최소화하여 차원 수를 줄일 수 있는 방법은 무엇입니까?• 가정• 고차원 공간의 데이터는 저차원 부분 공간 위에 있거나 근처에 있을 수 있습니다.• 확률 밀도는 지지하는 저차원 공간에서 멀어짐에 따라 매우 빠르게 감소합니다.차원 축소란 무엇인가?차원 축소는 고차원 데이터 세트에서 의미 있는 정보를 유지하면서 데이터의 차원을 줄이는 과정입니다. 차원 축소는 데이터를 더 쉽게 시각화하고, 계산 복잡도를 줄이며, 모델의 과적합(overfitting)을 방지하는 데 유용합니다.차원의 저주"차원의 저주(Curse of Dimensionality)"는 고차원 공간에서 데이터 분석 및 모델링이 어려워지는 현상을 말.. 2024. 6. 17.
[Clustering] 2 K-Medoids 클러스터링K-Medoids 클러스터링은 데이터를 여러 개의 군집으로 나누는 비지도 학습 알고리즘 중 하나입니다. K-Means와 유사하지만, 군집의 중심(centroid) 대신 실제 데이터 포인트(메도이드, medoid)를 사용한다는 점에서 차이가 있습니다. K-Medoids는 특히 이상치(outlier)에 덜 민감하여 보다 안정적인 군집화를 제공하는 특징이 있습니다.  1. 임의로 k개의 개체를 초기 메도이드로 선택설명: 처음에 k개의 메도이드(중심 포인트)를 선택해야 합니다. 이는 K-Medoids 알고리즘에서 군집의 중심 역할을 하는 포인트입니다.방법: 데이터셋에서 임의로 k개의 데이터를 선택합니다. 이 데이터들은 초기 메도이드가 됩니다.주의사항: 메도이드는 실제 데이터 포인트여야.. 2024. 6. 17.
[Clustering] 1 리뷰: 비지도 학습데이터의 잠재적 의미 표현 찾기클러스터링: 데이터 내에서 유사한 예제의 그룹을 검색예: K-평균 클러스터링차원 축소: 고차원 공간에서 더 낮은 차원 공간으로 데이터를 투영예: 주성분분석(PCA)밀도 추정: 입력 공간 내의 데이터 분포를 결정예: 가우시안 혼합 모델(GMM)행렬 완성: 부분적으로 관찰된 행렬의 누락된 항목을 채움예: LRA(low-rank approximation)클러스터 분석이란?클러스터: 데이터 개체 모음동일한 그룹 내에서 서로 유사(또는 관련)함다른 그룹의 튜플과 유사하지 않음(또는 관련 없음)클러스터 분석(또는 클러스터링, 데이터 세분화)데이터에 포함된 특성에 따른 데이터 간 유사성 정의유사한 데이터 튜플을 클러스터로 그룹화좋은 클러스터링이란 무엇입니까?좋은 클러스.. 2024. 6. 17.
[Evaluating ClassificationModels] 2 ROC 곡선• ROC(수신기 작동 특성) 곡선• 신호 감지 이론에서 유래함• 참 양성률과 거짓 양성률 사이의 균형을 나타냅니다• ROC 곡선 아래의 면적은 모델의 정확도를 나타내는 척도입니다  • 테스트 튜플의 순위를 내림차순으로 매깁니다. 포지티브 클래스에 속할 가능성이 가장 높은 튜플이 목록의 맨 위에 나타납니다• 대각선에 가까울수록(즉, 면적이 0.5에 가까울수록) 모형의 정확도가 떨어집니다 • 세로축은 실제 양의 비율을 나타냅니다• 가로축은 오탐률을 나타냅니다• 그림에는 대각선도 표시됩니다• 완벽한 정확도를 가진 모델의 면적은 1.0입니다.ROC 곡선을 표시하는 방법• 참 양성률(TPR) 및 거짓 양성률(FPR) 계산 # of P = 5, # of N = 5 •• For tuple #1, TPR .. 2024. 6. 17.
반응형