본문 바로가기
반응형

Computer Science100

[Classification 1] 2. Data split in supervised learning Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 2. Data split in supervised learning 2.1 Over-fitting training data 과적합(over-fitting) 모델이 훈련 데이터에 너무 잘 맞춰져 있어서, 새로운 데이터나 테스트 데이터에 대해서는 잘 작동하지 않는 현상. 이는 모델이 훈련 데이터의 패턴뿐만 아니라 노이즈까지 학습해버려, 일반화(generalization) 능력이 .. 2024. 4. 21.
[Classification 1] 1. Introduction to supervised learning approach Content Introduction to supervised learning approach Data split in supervised learning Classification algorithms KNN & distance measures Decision tree Random Forest, Ensemble approach SVM 1. INTRODUCTION TO SUPERVISED LEARNING 1.1 Supervised learning 지도 학습은 주어진 입력(X)에 대해 예측하고자 하는 출력(Y)을 예측하는 학습 방법. (Task: given X, predict Y) 이 과정에서 사용되는 데이터는 레이블이 지정된 데이터, 즉 X(입력)와 Y(출력) 모두가 포함된 데이터. "예측 결과(Y)"를 .. 2024. 4. 21.
[Exploratory Data Analysis] 3. Exploratory data analysis (2) 2024.04.21 - [Computer Science/기계학습] - [Exploratory Data Analysis] 3. Exploratory data analysis (1) Content Data Data quality Exploratory data analysis Numerical summary Graphical summary 3.14 Exploring categorical variables 범주형 변수를 탐색할 때, 중심 경향성을 측정하는 한 가지 방법은 '최빈값'을 사용하는 것. 최빈값은 데이터 세트에서 가장 자주 발생하는 값을 의미. 범주형 데이터의 경우, 수치적 요약 통계보다는 표를 사용하여 데이터를 검토하는 것이 더 일반적. 범주형 데이터를 분석할 때 자주 사용되는 표 중 하나는 '교차 .. 2024. 4. 21.
[Exploratory Data Analysis] 3. Exploratory data analysis (1) Content Data Data quality Exploratory data analysis Numerical summary Graphical summary 3.1 Exploratory Data Analysis (EDA) 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터에 대한 일반적인 이해를 얻기 위해 수행하는 과정. 이 과정은 데이터 분석의 초기 단계에서 특히 유용 detect outliers (e.g., assess data quality) 데이터의 질을 평가하고 이상치를 감지. 이를 통해 데이터가 분석에 적합한지 평가. test assumptions 가정을 검증. 예를 들어, 데이터가 정규 분포를 따르는지, 아니면 치우친 분포를 가지는지 확인할 수 있다. ide.. 2024. 4. 21.
반응형