본문 바로가기
Computer Science/기계학습

[Unsupervised learning] 1

by 큌 2024. 6. 18.
반응형

지도 학습 대 비지도 학습

• 지도학습에서

– 데이터는 레이블(분류) 또는 출력(회귀)과 함께 제공됩니다 • 비지도 학습에서

– 해당 대상 출력 없음(y) – 데이터에서 패턴 찾기

비지도학습[1]

• 군집분석(군집 분석)

– 특징 유사도별 표본 그룹화

• 치수 축소(차원 축소)

– 관련 없는 기능 제거

– (라벨 정보를 사용하지 않고) 컴팩트하고 더 많은 정보를 제공하는 기능 추출 비지도학습[2]

• 밀도추정

– 확률분포 추정

– 클러스터링 또는 이상치 탐지에 사용 가능

• 이상 탐지

– 전혀 또는 매우 적은 수의 이상 징후 탐지 라벨이 붙은 견본

– 이상치 탐지/OOD(Out-of-Distribution) 탐지 등.

왜 비지도 학습이

• 장점:

– 원시 데이터 및 알 수 없는 데이터 탐색에 적합

– 복잡성 감소

– 레이블이 지정되지 않은 데이터를 훨씬 쉽게 얻을 수 있습니다

• 단점:

– 매우 구체적으로 지정할 수 없습니다 – 정확성이 떨어짐

– 결과를 확인할 수 없습니다 자기지도학습(SSL)

• 자체 감독 – 입력 데이터에서 자체 감독 신호("label")를 자동으로 생성하여 심층 신경망 훈련에 사용합니다

– 예: MLM(Masked Language Modeling) • 왜 자기 지도 학습을 합니까?

– 대규모 모델의 경우 수동으로 레이블이 지정된 방대한 양의 데이터가 필요합니다

– 라벨링 비용이 높습니다(시간이 많이 걸리고 전문 지식이 필요합니다)

– 주석에 비해 레이블이 지정되지 않은 데이터 수집이 용이합니다 비지도 대 자기 지도 학습

• 기존의 비지도 학습 과제

– 클러스터링, 차원 축소 등…

• SSL은 비지도 학습의 하위 집합입니까?

– 예: 수동 라벨을 사용하지 않습니다… – 아닐 수도 있습니다. 감독 신호를 사용합니다...

– SSL을 '감독되지 않음'이라고 부르는 것은 오해의 소지가 있을 수 있습니다… 클러스터 분석

• 그룹의 개체가 서로 유사(또는 관련)하고 다른 그룹의 개체와는 다른(또는 관련 없는) 개체 그룹 찾기 응용 프로그램: 이미지 클러스터링 실제 레이블을 사용하지 않고 유사한 이미지 그룹화 K-평균 클러스터링 알고리즘

• 각 중심을 초기화한 다음 두 단계 사이에서 반복합니다:

– 각 데이터 점을 가장 가까운 중심에 할당합니다 – 클러스터 수단이 되도록 중심을 업데이트합니다

• 가장 간단한 버전은 유클리드 거리를 기반으로 합니다 K-평균 군집화

센터로이드 초기화

각 데이터 점을 가장 가까운 중심에 할당 클러스터 수단이 되도록 중심 업데이트 각 데이터 포인트를 가장 가까운 중심에 재할당 클러스터 수단이 되도록 중심 업데이트 K-평균 클러스터링

• 분할 방법: N개의 객체를 K개의 클러스터로 분할

• 각 군집은 중심점(중심점)과 연결되어 있습니다

• 각 점은 가장 중심이 가까운 클러스터에 할당됩니다

• 클러스터 수 K를 지정해야 합니다

• 기본 알고리즘은 매우 간단합니다

K-평균 클러스터링 – 세부 정보

• 초기 중심체는 종종 무작위로 선택됩니다

– 생성된 클러스터는 실행마다 다릅니다

• 중심은 (일반적으로) 군집 내 점들의 평균입니다

• K-means는 위에서 언급한 공통 유사성 측도에 대해 수렴합니다.

• 대부분의 수렴은 처음 몇 번의 반복에서 이루어집니다.

시간의 복잡성

• 두 개체 간의 계산 거리

– O(d) 여기서 d는 형상의 개수(차원)입니다

• 클러스터 재할당: O(nK) 거리 계산 또는 O(dnK)

• 컴퓨팅 센터로이드: O(dn)

• 반복을 위해 이 작업을 수행합니다 -> O(dnKl)

초기 중심 문제 해결 방안

• 다회 주행

– 일부 점수 측면에서 가장 적합한 모형 선택

– 하지만 확률은 당신 편이 아닙니다

• 가장 광범위하게 분리된 샘플을 초기 중심으로 선택합니다

K-평균 군집화의 문제점

• 빠름

• 매번 다른 클러스터를 얻을 수 있습니다

– 무작위 초기화로 인해

• 관련 없는 기능에 민감함(좋은 기능 표현이 필요함) • 군집의 수를 선택하는 방법은 무엇입니까?

군집 수를 정의하는 방법

• 최적의 솔루션이 하나도 없습니다

• 클러스터링 품질을 평가하거나 두 가지 다른 클러스터링 결과를 비교하기 위한 몇 가지 수치 측정이 있습니다

• 최적의 클러스터링 결과를 추출하기 위해 도메인 지식에 의존하는 경우가 많습니다 왜곡.

• 왜곡(클러스터 내 SSE): 각 클러스터의 중심으로부터의 거리 제곱의 합 – K가 커짐에 따라 SSE가 감소합니다 실루엣(Kaufman and Rousseou, 1990)

• 각 표본 i의 실루엣 계수 s(i): – a(i): 표본 i와 동일한 군집에 있는 모든 다른 점 사이의 평균 거리 – b(i): 표본 i와 가장 가까운 군집의 모든 예제 사이의 평균 거리 실루엣 점수

• -1~1사이

• b(i) >> a(i)인 경우 이상값 1에 가깝습니다 K-평균의 한계: 밀도차

-> 대안 : 가우스혼합모형(GMM) 공분산 행렬과 평균 벡터 학습

K-평균의 한계: 비구형 형상

-> 대안 : Spectrum 클러스터링과 같은 그래프 기반 클러스터링 알고리즘 군집화 결과 해석

• 도메인 지식이 필요한 경우가 많습니다

• 각 군집의 중심을 계산하는 것부터 시작하여 군집 간 중심을 비교하고 각 군집을 특성화합니다

• 시각화

• 가능한 경우 명명

논의

• 가장 중요한 것은 군집 분석 결과가 보고되는 방식에 주의해야 한다는 것입니다

• 이러한 결과를 데이터 세트에 대한 절대적인 진실로 간주해서는 안 됩니다

• 오히려, 그들은 과학적 가설의 개발을 위한 출발점을 구성해야 하며, 가급적이면 독립적인 데이터에 대한 추가 연구가 필요합니다

반응형

'Computer Science > 기계학습' 카테고리의 다른 글

[Unsupervised learning] 2  (0) 2024.06.18
[Transformer] 1  (0) 2024.06.18
[Recurrent neural network]  (0) 2024.06.18
[Convolutional neural network] 2  (0) 2024.06.18
[Convolutional neural network] 1  (0) 2024.06.18