본문 바로가기
Computer Science/데이터마이닝

[Data Preprocessing]

by 큌 2024. 4. 23.
반응형

1.Major Tasks in Data Preprocessing

  • 데이터 전처리에서의 주요 작업은 데이터를 분석하기 전에 데이터를 정제하고 준비하는 과정.
    • 이 과정은 데이터의 품질을 높이고 분석의 정확도를 향상시킴.
  • 데이터 전처리의 주요 작업들:
    • 데이터 정제(Data cleaning)
      • 누락된 값 채우기, 잡음이 있는 데이터를 부드럽게 하기, 이상치 식별 또는 제거하기 등을 포함.
      • 데이터 정제의 목적은 데이터의 정확성과 일관성을 높이는 것.
        • 예를 들어, 누락된 값은 특정 규칙이나 평균값을 이용해 채울 수 있으며, 이상치는 데이터의 전반적인 패턴에서 벗어나는 값으로, 분석에 영향을 미칠 수 있기 때문에 제거하거나 따로 처리.
    • 데이터 통합(Data integration): 여러 데이터베이스나 파일을 하나의 데이터베이스로 통합하는 작업.
      • 이 과정은 서로 다른 출처에서 온 데이터를 결합하여 통합된 정보를 제공.
      • 데이터 통합은 중복된 데이터를 제거하고 데이터의 일관성을 유지.
    • 데이터 축소(Data reduction)
      • 불필요한 차원을 제거하거나 고차원 데이터를 압축하여 데이터의 크기를 줄이는 작업.
      • 데이터 축소는 데이터 분석의 효율성을 높이고, 저장 공간을 절약하며, 계산 비용을 줄일 수 있다.
        • 예를 들어, 차원 축소 기법은 많은 변수를 가진 데이터에서 중요한 정보만을 추출하여 분석의 복잡성을 줄일 수 있다.
    • 데이터 변환(Data transformation)
      • 연속적인 값을 이산적인 값으로 변환하는 작업.
      • 데이터 변환은 데이터의 형태를 분석 목적에 맞게 조정하는 것을 목표.
        • 예를 들어, 연령과 같은 연속적인 변수를 '청소년', '성인', '노인'과 같은 범주로 나누어 분석의 용이성을 높임.

2.Data Cleaning

  • 데이터 정제란 실세계의 데이터가 종종 오류를 포함하고 있기 때문에 매우 중요한 과정입니다.
  • 데이터는 실세계에서 dirty:
    • 잘못된 데이터: 인간이나 컴퓨터의 오류, 전송 오류 등으로 인해 데이터가 잘못 입력될 수 있다.
      • 예를 들어, 데이터 입력 과정에서의 실수로 인해 잘못된 정보가 기록될 수 있다.
    • 불완전한 데이터: 속성 값이 누락되었거나, 오직 집계 데이터만을 포함할 수 있습니다.
      • 예를 들어, 직업란이 비어있는 경우(데이터 누락)와 같습니다.
  • 잡음이 있는 데이터: 잡음, 오류, 이상치를 포함할 수 있다.
    • 예를 들어, 급여가 "-10"으로 기록된 경우(오류)와 같다.
  • 일관성 없는 데이터: 코드나 이름에서 불일치가 발생할 수 있다.
    • 예를 들어, 나이가 "42"인데 생일이 "2010년 3월 7일"로 기록되어 있는 경우, 또는 평가가 "1, 2, 3"에서 "A, B, C"로 변경된 경우와 같다.
  • 이러한 문제를 해결하기 위해 데이터 정제 과정에서는 누락된 값의 채움, 잡음이나 오류의 수정, 이상치의 식별 및 제거, 일관성 없는 데이터의 조정 등이 이루어짐.

3.How to Handle Missing Data

  • 다음은 누락된 데이터를 처리하는 방법:
  • 튜플 무시하기: 이 방법은 주로 클래스 라벨이 누락된 경우에 사용.
    • 그러나 속성별로 누락된 값의 수가 크게 다를 때는 효과적이지 않음.
  • 자동으로 채우기: 전역 상수나 속성의 평균값을 사용하여 누락된 값을 자동으로 채울 수 있다.
  • 같은 클래스에 속하는 모든 샘플에 대해 평균을 선택하여 사용하는 방법도 있습니다. 확률 기반 접근법: 가장 가능성 있는 값을 찾습니다. 이는 확률적 방법을 통해 결정되며, 누락된 값을 예측하는 데 사용됩니다.
  • 추론 기반 방법: 선형 회귀(linear regression), k-최근접 이웃(k-nearest neighbor)과 같은 추론 기반 방법을 사용하여 누락된 값을 추정할 수 있다.
  • 이러한 방법은 누락된 데이터를 보다 정확하게 추정하기 위해 기존 데이터의 패턴을 분석.
  • 데이터의 누락된 부분을 처리하는 방법은 상황에 따라 달라질 수 있으며, 특정 방법이 데이터의 특성과 분석 목적에 가장 적합한지 고려하는 것이 중요.

4.Noisy Data

  • 잡음 데이터란 측정된 변수에서 발생하는 무작위 오류나 변동을 의미합니다.
  • 잘못된 속성 값은 다음과 같은 여러 원인으로 인해 발생할 수 있습니다:
  • 불량한 데이터 수집 도구: 데이터를 수집하는 과정에서 사용하는 기기나 도구의 오류로 인해 잘못된 데이터가 생성될 수 있습니다.
  • 데이터 입력 문제: 데이터를 수동으로 입력하는 과정에서 발생할 수 있는 실수나 오류로 인해 잘못된 값이 입력될 수 있습니다.
  • 데이터 전송 문제: 데이터를 한 위치에서 다른 위치로 전송하는 과정에서 발생할 수 있는 오류로 인해 데이터가 손상될 수 있습니다. 기술적 한계: 사용하는 기술의 한계로 인해 데이터가 정확하게 측정되지 않거나 기록되지 않을 수 있습니다.
  • 명명 규칙의 불일치: 데이터를 기록하는 과정에서 사용되는 명명 규칙의 불일치로 인해 데이터 간에 일관성이 결여되어 오류가 발생할 수 있습니다. 잡음 데이터는 데이터 분석 과정에서 정확도와 신뢰성에 부정적인 영향을 미칠 수 있으므로, 데이터를 분석하기 전에 이러한 잡음을 식별하고 처리하는 것이 중요합니다.

5.How to Handle Noisy Data

  • Noisy data 처리 방법에는 여러 가지가 있습니다.
  • 여기 몇 가지 방법을 소개합니다: Binning (빈닝) 방법: 데이터를 먼저 정렬하고 동일한 빈도를 갖는 구간(빈)으로 나눕니다.
  • 그 다음, 각 빈에 대해 평균값으로 부드럽게 하거나, 중앙값으로 부드럽게 하거나, 빈의 경계값으로 부드럽게 할 수 있습니다.
  • 추론 기반 방법: 회귀(Regression): 데이터를 회귀 함수에 맞추어 데이터를 부드럽게 합니다.
  • 이 방법은 데이터의 추세를 파악하여 노이즈를 줄이는 데 도움이 됩니다.
  • 클러스터링(Clustering): 이상치를 감지하고 제거합니다.
  • 데이터를 비슷한 그룹으로 나누어 이상치를 찾아내는 방법입니다.
  • 컴퓨터와 인간의 검사 결합: 의심스러운 값들을 컴퓨터를 통해 감지한 다음, 인간이 검사하여 처리합니다(예: 가능한 이상치 처리).
  • 이 방법은 데이터에 대한 인간의 직관과 경험을 활용하여 노이즈를 처리하는데 유용합니다.
  • 노이즈 데이터를 처리하는 것은 데이터 분석의 정확도와 신뢰도를 높이는 데 매우 중요합니다. 위의 방법들을 적절히 활용하여 데이터의 품질을 향상시킬 수 있습니다. 노이즈 데이터를 처리하는 방법 중 하나는 Binning 방법입니다.
  • 이 방법은 데이터를 정렬한 다음 동일한 빈도수를 가진 구간(Bins)으로 나누고, 그 구간 내에서 데이터를 평활화하는 과정을 포함합니다.
  • 예를 들어, 가격 데이터가 다음과 같이 정렬되어 있다고 가정해 봅시다:
  • 4, 8, 15, 21, 21, 24, 25, 28, 34. 이 데이터를 동일한 빈도수를 가진 세 개의 구간으로 나눌 수 있습니다:
  • Bin 1: 4, 8, 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34 이제, 이 구간 내에서 데이터를 평활화할 수 있는 두 가지 방법이 있습니다:
  • 평균값으로 평활화하기: 각 구간의 평균값을 구하고, 그 평균값으로 구간 내의 모든 값을 대체합니다.
  • 결과: Bin 1: 9, 9, 9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29 구간 경계값으로 평활화하기: 구간 내의 최소값과 최대값을 사용하여 구간 내의 모든 값을 대체합니다. 이때, 각 값은 자신에게 더 가까운 경계값으로 대체됩니다. 결과: Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34 이와 같은 방법을 통해 데이터 내의 노이즈를 줄이고 데이터의 일반적인 경향을 더 잘 파악할 수 있습니다.
  • 노이즈가 있는 데이터를 처리하는 또 다른 방법은 회귀(Regression)와 클러스터링(Clustering)을 활용하는 것입니다.
  • 회귀(Regression): 데이터에 가장 잘 맞는 회귀 함수를 찾아서 데이터를 이 함수에 맞추어(smooth) 노이즈를 줄입니다. 이 방법은 데이터의 전반적인 경향성을 파악하여 노이즈를 완화하는 데 도움을 줍니다. 예를 들어, 선형 회귀는 데이터 포인트들 사이의 선형 관계를 모델링하여 노이즈를 줄일 수 있습니다. 클러스터링(Clustering): 데이터를 비슷한 특성을 가진 그룹으로 분류하여 노이즈를 식별하고 제거할 수 있습니다. 클러스터링은 데이터 포인트들 사이의 유사성을 기반으로 그룹을 형성하기 때문에, 이상치(outliers)를 쉽게 식별할 수 있습니다. 이상치는 주변 데이터 포인트들과 현저하게 다른 데이터 포인트를 말합니다. 클러스터링을 통해 이러한 이상치를 감지하고 제거함으로써 데이터의 퀄리티를 향상시킬 수 있습니다. 이 두 방법을 사용함으로써, 노이즈가 있는 데이터를 보다 효과적으로 처리하고 데이터 분석의 정확도를 높일 수 있습니다. 데이터의 특성과 분석 목적에 따라 적절한 방법을 선택하는 것이 중요합니다.

6.Data Integration

  • 데이터 통합 과정에서 종종 중복 데이터가 발생합니다.
  • 이러한 중복은 여러 데이터베이스를 통합할 때 자주 발생하는 문제로, 다음과 같은 두 가지 주요 원인이 있습니다.
  • 엔티티 식별 문제: 같은 엔티티나 속성이 다른 데이터베이스에서 서로 다른 이름으로 표현될 수 있습니다.
  • 예를 들어, 한 데이터베이스에서는 '연간 수익'을 'annual revenue'로 표기할 수 있지만, 다른 데이터베이스에서는 'yearly income'으로 표기할 수 있습니다.
  • 유도 가능한 데이터: 한 테이블의 속성이 다른 테이블에서 유도 가능한 속성일 수 있습니다.
  • 예를 들어, '월간 수익'과 '연간 수익'처럼 한 속성이 다른 속성으로부터 계산되어 나올 수 있습니다.
  • 이러한 중복 속성은 상관 분석을 통해 탐지할 수 있습니다.
  • 상관 분석을 통해 데이터 간의 관계를 분석하고, 이를 통해 중복되는 속성을 식별할 수 있습니다.
  • 범주형 데이터의 경우: 카이제곱 검정(Chi-squared test)을 사용하여 두 범주형 변수 사이의 독립성을 검정할 수 있습니다.
  • 두 변수가 서로 관련이 없다면, 하나의 변수가 다른 변수의 중복이라고 볼 수 없습니다.
  • 수치형 데이터의 경우: 공분산, 피어슨 상관 계수(Pearson Correlation Coefficient, PCC)와 같은 통계적 방법을 사용하여 두 수치형 변수 사이의 상관 관계를 분석할 수 있습니다.
  • 두 변수 사이에 높은 상관관계가 있다면, 이는 중복 속성일 가능성이 높습니다.
  • 데이터 통합 과정에서 중복 데이터를 적절히 처리하는 것은 중요합니다.
  • 중복 데이터를 효과적으로 식별하고 제거함으로써 데이터의 정확성과 분석의 효율성을 높일 수 있습니다.

7.Entity Identification Problem

  • 엔티티 식별 문제는 여러 데이터 소스에서 실제 세계의 엔티티를 식별하는 데 있어 발생합니다.
  • 다양한 출처에서 동일한 실세계 엔티티의 속성 값이 다를 수 있습니다.
  • 예를 들어, "Bill Clinton"과 "William Clinton"은 실제로 동일한 인물을 가리키지만, 다른 데이터 소스에서는 이 두 이름이 다른 엔티티로 처리될 수 있습니다.
  • 이 문제를 해결하기 위해서는 여러 데이터 소스에서 동일한 실제 세계 엔티티를 정확하게 식별하고 매칭하는 과정이 필요합니다.
  • 이를 위해, 이름 정규화, 별칭 처리, 엔티티 매칭 알고리즘 등 다양한 기술과 방법이 사용될 수 있습니다.
  • 예를 들어, "Bill"이 "William"의 흔한 별칭임을 인식하고 이를 같은 엔티티로 처리하는 방식 등입니다.
  • 엔티티 식별 문제를 효과적으로 해결하는 것은 데이터 통합 과정에서 중요한 부분입니다.
  • 이를 통해 데이터의 일관성과 정확성을 높일 수 있으며, 결국 더 신뢰할 수 있는 데이터 분석 결과를 얻을 수 있습니다.

8.Chi-squared Test

  • 카이제곱 검정(Chi-squared Test)은 두 변수 간의 관련성 여부를 결정하기 위한 통계적 가설 검정입니다.
  • 이 검정은 두 범주형 변수 사이의 독립성을 평가하는 데 주로 사용됩니다.
  • 즉, 한 변수의 변화가 다른 변수의 변화와 독립적인지, 아니면 어떤 연관이 있는지를 알아보기 위한 방법입니다.
  • 카이제곱 검정의 기본 가설은 다음과 같습니다:
  • 귀무 가설(Null Hypothesis, H0): 두 변수 사이에는 관련성이 없다. (독립적이다) 대립 가설(Alternative Hypothesis, H1): 두 변수 사이에는 관련성이 있다.
  • (독립적이지 않다) 검정 통계량의 샘플 분포는 귀무 가설이 참일 경우 카이제곱 분포를 따릅니다.
  • 카이제곱 값(X^2)이 클수록 두 변수 사이에 관련성이 있을 가능성이 더 높다는 것을 의미합니다.
  • 카이제곱 값은 관측된 빈도와 기대 빈도 간의 차이를 기반으로 계산되며, 이 값이 특정 임계값을 초과하면 귀무 가설을 기각하게 됩니다.
  • 카이제곱 검정은 데이터 분석에서 두 범주형 변수 간의 연관성을 확인할 때 널리 사용되는 중요한 도구입니다.

9.Calculating the Chi-Square Value

  • 카이제곱 값 계산은 다음과 같은 요소를 포함합니다: 자유도(Degree of Freedom, DF): 이는 데이터 내에서 통계적으로 독립적인 값의 수를 의미합니다.
  • 자유도는 주어진 데이터 테이블에 대해 (행의 수 - 1) * (열의 수 - 1)로 계산됩니다.
  • 예를 들어, 2 x 2 테이블의 경우 자유도는 1입니다. P-값: 이는 귀무가설(두 변수가 독립적이라는 가설)이 참일 확률을 나타냅니다.
  • P-값이 주어진 유의 수준(예: 0.05)보다 작으면 귀무가설을 기각하고 두 변수가 독립적이지 않다고 결론 내립니다. 예를 들어, 카이제곱 통계량으로 8.34를 얻었고, 자유도가 1인 경우의 카이제곱 분포에서 유의 수준 0.05의 임계값은 3.84입니다. 여기서 8.34 > 3.84이므로, 이는 두 변수가 독립적이지 않다는 것을 의미하며, 따라서 두 변수 사이에는 관계가 있다고 할 수 있습니다.

10.Example: Chi-Squared Test

이 예제에서는 성별과 체스를 두는 것이 관련이 있는지 없는지를 알아보기 위한 카이제곱 검정을 수행합니다. 주어진 데이터와 p-value를 바탕으로 이 관계를 분석합니다. 데이터는 다음과 같습니다: 체스를 두는 남성은 250명이고, 기대되는 수는 90명입니다. 체스를 두는 여성은 200명이고, 기대되는 수는 360명입니다. 체스를 두지 않는 남성은 50명이고, 기대되는 수는 210명입니다. 체스를 두지 않는 여성은 1000명이고, 기대되는 수는 840명입니다. 전체 참가자는 1500명이며, 이 중 300명이 남성이고 1200명이 여성입니다. 카이제곱 검정의 p-value는 0.01로, 이는 0.05의 일반적인 유의 수준보다 작습니다. 이것은 우리가 성별과 체스를 두는 것 사이에 통계적으로 유의미한 관계가 있다고 결론지을 수 있음을 의미합니다. 즉, 성별과 체스를 두는 것 사이에는 독립적이지 않으며, 관련이 있다고 볼 수 있습니다. 이 예제에서는 기대되는 수치와 실제 수치 사이의 차이를 통해 성별이 체스를 두는 것에 영향을 미치는지 여부를 검증하고 있습니다. 낮은 p-value는 이러한 차이가 우연히 발생할 확률이 매우 낮음을 나타내며, 따라서 성별과 체스를 두는 것 사이에는 상관관계가 있다고 볼 수 있습니다.

11.Example: Chi-Squared Test

이 예제에서는 카이 제곱 검정을 사용하여 성별과 소설 읽기 사이의 관계가 있는지 여부를 판단합니다. 주어진 데이터와 P-값을 기반으로 이 관계를 분석합니다. 데이터는 다음과 같습니다: 소설을 읽는 남성이 100명, 여성이 350명으로 총 450명입니다. 소설을 읽지 않는 남성이 200명, 여성이 850명으로 총 1050명입니다. 참여자는 총 1500명으로, 남성 300명, 여성 1200명입니다. 카이 제곱 검정의 P-값은 0.01로, 일반적인 유의 수준인 0.05보다 작습니다. 이는 성별과 소설 읽기 사이에 통계적으로 유의미한 관계가 있음을 의미합니다. 즉, 성별과 소설 읽기는 독립적이지 않으며 관련이 있다고 볼 수 있습니다. 이 예제는 성별이 소설 읽기에 영향을 미치는지 여부를 예상되는 수와 관찰된 수 사이의 차이를 검토하여 판단합니다. 낮은 P-값은 이러한 차이가 우연히 발생할 확률이 매우 낮음을 나타내므로 성별과 소설 읽기 사이에 상관관계가 있음을 제안합니다.

12.Covariance

  • 공분산은 두 확률 변수의 공동 변동성을 측정하는 수치입니다.
  • 즉, 두 확률 변수가 함께 얼마나 변하는지를 나타냅니다.
  • 이는 두 변수 사이의 선형 관계의 강도와 방향을 파악할 수 있게 해주는 지표 중 하나입니다. 공분산을 계산하는 방법은 다음과 같습니다:
  • 데이터 객체의 수를 n이라고 합시다. A와 B의 평균(또는 기대값)을 각각 MA와 MB라고 합시다.
  • 공분산은 다음 공식으로 계산됩니다: [ 공분산(A, B) = \frac{1}{n} \sum_{i=1}^{n} (A_i - MA) \times (B_i - MB) ] 여기서 (A_i)와 (B_i)는 각각 A와 B의 i번째 데이터 값입니다.
  • 공분산의 값이 양수라면, 두 변수가 함께 증가하는 경향이 있음을 의미합니다.
  • 반면, 공분산이 음수라면, 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있음을 나타냅니다.
  • 공분산의 값이 0에 가까울수록, 두 변수 사이에는 선형 관계가 거의 없다고 볼 수 있습니다.
  • 그러나 공분산의 절대값이 크기만으로는 두 변수 사이의 관계의 강도를 정확히 이해하기 어렵기 때문에, 이를 표준화한 상관계수를 더 자주 사용합니다.
  • 공분산은 두 확률 변수의 공동 변동성을 측정하는 지표입니다. 이는 두 변수가 함께 얼마나 변화하는지를 나타냅니다.
  • 양의 공분산: 만약 cov(A, B) > 0이라면, A와 B 모두 그들의 기대값보다 클 경향이 있습니다.
  • 이는 두 변수가 함께 증가하는 경향이 있음을 의미합니다.
  • 음의 공분산: 만약 cov(A, B) < 0이라면, A가 그의 기대값보다 클 때, B는 그의 기대값보다 작을 가능성이 높습니다. 이는 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있음을 나타냅니다.
  • 독립성: cov(A, B) = 0이라면, 두 변수는 선형적인 관계가 없는 것으로 간주될 수 있습니다.
  • 하지만, cov(A, B) = 0이라고 해서 반드시 A와 B가 독립적이라는 의미는 아닙니다. 두 확률 변수의 공분산이 0인 경우에도 두 변수가 독립적이지 않을 수 있습니다.
  • 즉, 두 변수 사이에 비선형적인 관계가 있을 수 있으며, 이 경우에는 공분산만으로는 이를 파악할 수 없습니다.
  • 참고사항: 일부 확률 변수 쌍은 공분산이 0이지만 독립적이지 않을 수 있습니다.
  • 오직 추가적인 가정(예를 들어, 데이터가 다변량 정규 분포를 따른다는 가정) 하에서만 공분산이 0일 때 독립성을 의미할 수 있습니다.
  • 공분산은 두 변수 간의 관계의 방향성을 알려주지만, 그 관계의 강도를 정확히 이해하기 위해서는 주로 표준화된 상관 계수를 사용합니다.
  • 주식이 같은 산업 동향의 영향을 받는 경우, 그들의 가격이 함께 상승하거나 하락하는지 여부를 파악하는 한 방법은 공분산을 계산하는 것입니다.
  • 공분산이 양수이면 두 주식 가격이 함께 움직이는 경향이 있음을 의미합니다.
  • 즉, 한 주식의 가격이 평균보다 높을 때 다른 주식의 가격도 평균보다 높을 가능성이 높다는 것입니다.
  • 반대로, 공분산이 음수이면 한 주식의 가격이 상승할 때 다른 주식의 가격이 하락할 가능성이 높다는 것을 의미합니다. 제시된 데이터를 바탕으로 공분산을 계산하기 위해, 우선 A와 B의 평균(기대값)을 계산해야 합니다.
  • 그러나, B의 마지막 가격이 누락되어 있어 정확한 공분산 계산이 불가능합니다. 하지만, B의 가격이 일관되게 증가하는 추세를 보이는 것으로부터, A와 B가 같은 산업 동향의 영향을 받는다고 가정할 때, 그들의 가격이 함께 상승하는 경향이 있을 것으로 추측할 수 있습니다.
  • 그럼에도 불구하고, 제공된 데이터만으로는 두 주식 가격의 상관관계의 정확한 강도를 측정할 수 없으며, 마지막 B의 가격 데이터 없이는 정확한 공분산 값을 계산할 수 없다.
  • 하지만 제공된 데이터 포인트들을 기반으로, A와 B 모두 시간이 지남에 따라 가격이 상승하는 경향이 보이므로, 이는 양의 공분산을 시사하며, 따라서 두 주식 가격이 함께 상승할 가능성이 높음을 나타냅니다.

13.Pearson Correlation Coefficient

  • Pearson 상관 계수는 두 변수 X와 Y 사이의 선형 상관 관계를 측정하는 지표입니다.
  • 이 값은 +1과 -1 사이의 값을 가지며, +1은 완전한 양의 선형 상관 관계를, 0은 선형 상관 관계가 전혀 없음을, 그리고 -1은 완전한 음의 선형 상관 관계를 나타냅니다.
  • Pearson 상관 계수를 계산하기 위해서는 데이터 속성 A와 B를 표준화한 다음, 그들의 내적(dot product)을 취합니다.
  • 표준화 과정에서 각 데이터 포인트에서 평균을 빼고, 그 결과를 표준 편차로 나눔으로써 데이터를 정규화합니다.
  • 이렇게 함으로써, 두 변수 간의 관계를 숫자로 명확하게 표현할 수 있으며, 이 숫자는 두 변수가 얼마나 강하게, 그리고 어떤 방향으로 연결되어 있는지를 나타냅니다.
  • 양의 상관 계수 값은 한 변수의 값이 증가할 때 다른 변수의 값도 증가함을 의미하고, 음의 상관 계수 값은 한 변수의 값이 증가할 때 다른 변수의 값이 감소함을 나타냅니다.
  • 상관 계수가 0에 가깝다면, 두 변수 사이에는 선형 관계가 거의 또는 전혀 없다고 해석할 수 있습니다.
  • Pearson 상관 계수는 변수들 사이의 선형적인 관계만을 측정할 수 있으며, 비선형적인 관계는 포착하지 못한다는 점에 유의해야 합니다.
  • Pearson 상관 계수는 두 변수 A와 B 사이의 선형 상관 관계의 강도와 방향을 측정하는 방법입니다.
  • 이 계수는 Pearson의 곱모멘트 상관 계수라고도 불립니다.
  • 상관 계수는 -1부터 +1까지의 값을 가질 수 있으며, 이는 두 변수 사이의 상관 관계의 정도와 방향을 나타냅니다.
  • 상관 계수를 계산하는 방법은 다음과 같습니다:
  • 데이터 집합의 객체 수를 n이라 합니다.
  • A와 B의 평균(또는 기대값)을 각각 MA와 MB라고 합니다.
  • A와 B의 표준편차를 각각 σA와 σB라고 합니다.
  • 상관 계수 (r_{AB})는 다음과 같이 정의됩니다: (r_{AB} > 0)일 경우, A와 B는 양의 상관 관계에 있습니다.
  • 이는 A의 값이 증가함에 따라 B의 값도 증가한다는 것을 의미하며, (r_{AB})의 값이 높을수록 상관 관계가 강하다는 것을 나타냅니다. (r_{AB} < 0)일 경우, A와 B는 음의 상관 관계에 있습니다.
  • 이는 A의 값이 증가함에 따라 B의 값이 감소한다는 것을 의미합니다. (r_{AB} = 0)일 경우, A와 B는 독립적입니다.
  • 즉, 두 변수 사이에 선형 상관 관계가 없다는 것을 의미합니다.
  • 상관 계수는 두 변수 사이의 선형 관계만을 측정할 수 있으며, 비선형 관계는 측정할 수 없다는 점을 유의해야 합니다.
  • 또한, 상관 계수가 높다고 해서 반드시 인과 관계가 있다는 것을 의미하지는 않습니다.

14.Visualizing Correlation Analysis

  • 상관 분석 시각화 상관 분석 결과는 -1부터 1까지의 유사성을 보여주는 산점도로 시각화할 수 있습니다.
  • 이 산점도는 두 변수 간의 관계를 직관적으로 이해하는 데 도움이 됩니다.
  • 상관 계수가 1에 가까우면 점들이 우상향 직선 근처에 모여 있음을 볼 수 있고, -1에 가까우면 점들이 우하향 직선 근처에 모여 있음을 볼 수 있습니다.
  • 상관 계수가 0에 가까우면 점들이 무작위로 흩어져 있어 두 변수 사이에 선형적인 관계가 없음을 나타냅니다.
  • 상관 관계와 인과 관계 상관 관계가 있다고 해서 반드시 인과 관계가 있는 것은 아닙니다.
  • 상관 관계는 두 변수가 함께 변화하는 경향이 있음을 나타내지만, 이것이 한 변수의 변화가 다른 변수의 변화를 직접적으로 일으킨다는 것을 의미하지는 않습니다.
  • 예를 들어, 도시의 병원 수와 차량 절도 수가 양의 상관 관계를 가지고 있다는 것을 발견할 수 있습니다.
  • 그러나 이 두 변수 사이에 인과 관계가 있는 것은 아니며, 실제로 이들은 제3의 변수인 인구수와 인과적으로 연결되어 있을 수 있습니다.
  • 즉, 인구가 많은 도시에서는 병원 수도 많고 차량 절도 발생 수도 많을 가능성이 높습니다.
  • 이처럼 상관 관계를 분석할 때는 항상 인과 관계를 주의 깊게 고려해야 하며, 추가적인 분석이나 실험을 통해 인과 관계를 확인할 필요가 있습니다.

15.Anscombe’s quartet

  • 앤스콤의 사중주(Anscombe's quartet)는 통계학에서 매우 중요한 예시로, 네 개의 서로 다른 데이터 집합이 있음에도 불구하고, 각각의 데이터 집합에 대한 여러 통계적 요약(평균, 분산, 상관관계, 선형 회귀선 등)이 거의 동일하게 나오는 현상을 보여줍니다.
  • 이는 데이터 분석을 할 때, 단순히 수치적 요약에만 의존해서는 안 되며, 데이터를 시각화하는 것의 중요성을 강조합니다.
  • 여기 제시된 앤스콤의 사중주에 대한 속성 값은 다음과 같습니다: x의 평균(mean(x))은 9입니다. x의 분산(variance(x))은 11입니다. y의 평균(mean(y))은 7.5입니다.
  • y의 분산(variance(y))은 4.122입니다. x와 y의 상관관계(correlation(x, y))는 0.816입니다.
  • 선형 회귀선(linear regression line)은 y = 0.5x + 3입니다.
  • 이러한 통계적 요약 값들은 각각의 데이터 집합이 서로 다르게 보일 수 있음에도 불구하고, 통계적으로는 유사한 특성을 가지고 있음을 보여줍니다.
  • 그러나 앤스콤이 지적한 바와 같이, 이 네 개의 데이터 집합은 시각적으로 상당히 다르게 보이므로, 데이터 분석 시 시각화의 중요성을 강조하는 좋은 예시가 됩니다.
  • 데이터의 분포, 이상치, 패턴 등을 파악하기 위해서는 단순히 숫자로 이루어진 요약보다는 시각적 분석이 필수적입니다.

16.Rank Correlation

  • 순위 상관(Rank Correlation)은 두 변수의 다른 순위 간의 순서 관계를 측정하는 방법입니다.
  • 이는 변수들이 서로 어떻게 연관되어 있는지, 특히 순서나 등급이 중요한 경우에 유용합니다.
  • 순위 상관을 측정하는 대표적인 두 방법으로는 켄달의 타우(Kendall's Tau) 거리와 스피어만의 풋룰(Spearman's footrule) 거리가 있습니다.
  • 켄달의 타우(Kendall's Tau) 거리: 켄달의 타우는 두 변수의 순위 사이의 일치와 불일치를 측정합니다. 즉, 두 변수가 얼마나 같은 순서로 배열되어 있는지를 나타내는 상관 계수입니다.
  • 이 방법은 순위 간의 일치하는 쌍과 불일치하는 쌍의 차이를 기반으로 계산됩니다.
  • 켄달의 타우 값이 1에 가까울수록 두 변수의 순위가 완벽하게 일치함을 의미하고, -1에 가까울수록 완전히 반대 순서임을 의미합니다.
  • 스피어만의 풋룰(Spearman's footrule) 거리: 스피어만의 풋룰 거리는 두 순위 집합 사이의 차이를 측정하는 또 다른 방법입니다. 이는 각 객체의 두 순위 사이의 절대 차이의 합으로 계산됩니다.
  • 스피어만의 풋룰 거리는 순위 차이의 크기를 기반으로 하며, 두 순위가 완전히 동일할 경우 거리는 0이 됩니다. 이 방법도 순위 간의 상관 관계를 이해하는 데 유용합니다.
  • 이러한 순위 상관 방법들은 순위 데이터를 분석할 때 중요한 도구로, 순서가 중요한 데이터를 다룰 때 특히 유용.

17.Kendall’s Tau Distance

  • Kendall의 타우 거리와 Spearman의 풋룰 거리에 대해 설명하겠습니다.
  • Kendall의 타우 거리 Kendall의 타우 거리는 순위 역전의 개념을 기반으로 합니다.
  • 순위 역전은 두 요소 (i)와 (j)가 있을 때 (i > j)이고 (\sigma(i) < (\sigma(j))인 상황을 말합니다.
  • 즉, 원래 순서보다 역전된 순위를 갖는 쌍을 의미합니다.
  • Kendall의 타우 거리의 정의는 (\sigma)에서의 역전된 쌍의 수를 세는 것입니다.
  • 이 거리는 순위 간의 일치정도를 측정하는 데 사용되며, 역전된 쌍이 많을수록 거리가 커집니다. 이는 두 순위 사이의 상관관계가 약하다는 것을 의미합니다.
  • Spearman의 풋룰 거리 Spearman의 풋룰 거리는 순위의 변위를 측정합니다. 여기서 변위란, 요소 (i)가 (\sigma)에 의해 이동한 거리, 즉 (|i - \sigma(i)|)를 의미합니다.
  • 이 거리는 각 요소의 원래 순위와 변화된 순위 사이의 절대 차이를 모두 더하여 계산됩니다.
  • Spearman의 풋룰 거리는 순위 간의 차이를 직접적으로 측정하며, 이 또한 두 변수 사이의 상관관계를 이해하는 데 유용합니다.
  • 모든 요소의 변위가 0이면 완벽한 일치를 의미하고, 변위가 클수록 순위 사이의 불일치가 크다는 것을 나타냅니다.
  • 이 두 거리 측정 방법은 순위 데이터를 분석하고, 두 변수 사이의 순위 기반 상관관계를 이해하는 데 중요한 도구입니다.

18.Spearman’s Footrule Distance

  • 스피어만의 발자국 거리(Spearman's Footrule Distance)는 모든 요소의 총 이동 거리를 합산하여 계산합니다.
  • 예를 들어, 각 요소의 이동 거리가 1, 1, 2로 총 이동 거리가 4인 경우가 있을 수 있습니다.
  • 이 방법은 두 순위 사이의 차이를 정량화하여 순위 간의 상관 관계를 이해하는 데 도움이 됩니다.
  • 켄달(Kendall) 대 스피어만(Spearman) 관계에 대해, 두 측정 방법 모두 견고함이 입증되었습니다.
  • 즉, 두 방법은 순위 데이터를 분석할 때 강건한 도구라는 것입니다.
  • 이러한 측정 방법에 가중치를 포함시키는 방법에는 몇 가지 방법이 있습니다:
  • 요소 가중치: 중요한 두 요소를 교환하는 것과 중요하지 않은 두 요소를 교환하는 것은 다르게 취급될 수 있습니다.
  • 예를 들어, 중요한 요소의 순위 변경은 더 큰 가중치를 받아 순위 분석에서 더 큰 영향을 미칠 수 있습니다.
  • 위치 가중치: 목록의 앞부분에 있는 두 요소를 교환하는 것과 목록의 뒷부분에 있는 두 요소를 교환하는 것은 다르게 취급될 수 있습니다.
  • 일반적으로 목록의 앞부분에 있는 요소는 더 중요하게 여겨지며, 이들 간의 교환은 더 큰 가중치를 받아 분석에 영향을 미칠 수 있습니다.
  • 이러한 가중치를 통해 순위 분석은 보다 세밀하고 상황에 맞는 결과를 제공할 수 있습니다.
  • 요소의 중요도나 위치에 따라 가중치를 조정함으로써, 순위 간의 관계를 더 정확하게 평가할 수 있습니다.
반응형

'Computer Science > 데이터마이닝' 카테고리의 다른 글

[Finding Similar Items] 2. Locality Sensitive Hashing  (0) 2024.04.24
[Finding Similar Items]  (0) 2024.04.23
[Data Preprocessing] 2.  (0) 2024.04.23
[TF-IDF] 2.  (0) 2024.04.23
[TF-IDF]  (0) 2024.04.23