본문 바로가기
반응형

Computer Science/기계학습23

[Classification 1] 3. Classification algorithms - KNN Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 3. Classification algorithms - KNN K-NEAREST NEIGHBOR ALGORITHM 3.1 Classification example 주어진 표는 분류 문제의 예시를 나타내며, 훈련 데이터와 테스트 샘플로 구성되어 있다. 훈련 데이터 각 행은 하나의 샘플을 나타내며, 'v1=strength'과 'v2=smooth'는 특성(Feature). 'y=.. 2024. 4. 21.
[Classification 1] 2. Data split in supervised learning Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 2. Data split in supervised learning 2.1 Over-fitting training data 과적합(over-fitting) 모델이 훈련 데이터에 너무 잘 맞춰져 있어서, 새로운 데이터나 테스트 데이터에 대해서는 잘 작동하지 않는 현상. 이는 모델이 훈련 데이터의 패턴뿐만 아니라 노이즈까지 학습해버려, 일반화(generalization) 능력이 .. 2024. 4. 21.
[Classification 1] 1. Introduction to supervised learning approach Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 1. INTRODUCTION TO SUPERVISED LEARNING 1.1 Supervised learning 지도 학습은 주어진 입력(X)에 대해 예측하고자 하는 출력(Y)을 예측하는 학습 방법. (Task: given X, predict Y) 이 과정에서 사용되는 데이터는 레이블이 지정된 데이터, 즉 X(입력)와 Y(출력) 모두가 포함된 데이터. "예측 결과(Y)"를 .. 2024. 4. 21.
[Exploratory Data Analysis] 3. Exploratory data analysis (2) 2024.04.21 - [Computer Science/기계학습] - [Exploratory Data Analysis] 3. Exploratory data analysis (1) Content Data Data quality Exploratory data analysis Numerical summary Graphical summary 3.14 Exploring categorical variables 범주형 변수를 탐색할 때, 중심 경향성을 측정하는 한 가지 방법은 '최빈값'을 사용하는 것. 최빈값은 데이터 세트에서 가장 자주 발생하는 값을 의미. 범주형 데이터의 경우, 수치적 요약 통계보다는 표를 사용하여 데이터를 검토하는 것이 더 일반적. 범주형 데이터를 분석할 때 자주 사용되는 표 중 하나는 '교차 .. 2024. 4. 21.
반응형