본문 바로가기
Computer Science/기계학습

[Unsupervised learning] 2

by 큌 2024. 6. 18.
반응형

주성분 분석

치수축소

• 동기부여

– 고차원 데이터는 생물정보학, 금융, 이미지 처리 등 다양한 분야에서 보편화되어 있습니다 – 높은 차원성은 과적합, 계산 비용 증가 및 시각화의 어려움을 초래할 수 있습니다 – 차원 축소를 통해 필수 정보를 유지하면서 데이터를 단순화할 수 있습니다 – 소음 감소를 돕고 모델 성능을 향상시킵니다 비지도 차원 축소

• (라벨을 사용하지 않고) 고차원 데이터의 저차원 표현을 찾으려면 어떻게 해야 합니까?

– 입력 : (고차원 데이터)

– 출력:(저차원 표현)

• 주요 기법

– 주성분분석(PCA)

– 오토인코더

– t-SNE, UMAP(시각화 목적) 주성분 분석

• 비지도 선형 변환 기법

– 데이터를 새 좌표계로 변환합니다. 여기서 가장 큰 분산은 첫 번째 주성분 PC1(기준)에 있습니다 – 후속 성분(PC1, ..., PCD)은 직교하고 나머지 분산을 캡처합니다 – 이러한 기저 벡터들의 집합은 투영 행렬 P = [PC1 ... PCD] R을 형성합니다 D×D

• 차원 축소는 투영할 첫 번째 d 성분을 선택하여 수행됩니다 선형 투영 및 재구성

• 투영: 낮은 차원의 새로운 특징 공간에 D차원 벡터 x를 매핑하기 위한 컨스트럭트(Dxd)-차원 행렬 P(d < D) • P를 곱하여 원래 공간에 재구성할 수 있습니다 주성분 분석

• 아이디어 – PCA는 가능한 한 흥미로운 소수의 차원(최대 분산 방향)을 찾습니다 – PCA에 의해 발견되는 각 치수(주성분)는 D 형상의 선형 조합입니다 – 각 축(PC, 투영 행렬 P의 열 벡터)은 서로 직교하며 단위 노름을 갖습니다 최소 재구성 오류에 의한 해결

• 제곱 재구성 오차(입력과 재구성 사이의 L2 거리)를 최소화하는 P 찾기 – 투영 지점:

– 재구성된 점:

• 제약 조건: P의 열은 독립적이어야 하며 단위 놈이 있어야 합니다 • 최적화 문제:

해는 가장 큰 고유값에 해당하는 C의 고유 벡터에 의해 주어집니다 -> 주성분 분석

고유벡터와 고유값

• 선형대수학에서, 선형 변환 (A)의 고유 벡터 (v)는 변환이 적용될 때 스칼라 인자 ( )에 의해 기껏해야 변화하는 0이 아닌 벡터입니다 • 고유값은 고유 벡터의 스케일에 대한 인자입니다 PC를 찾는 방법은?

• SVD(Singular Value Decomposition) 사용 • 단계:

1) 데이터에서 표본 평균 빼기 2) 공분산 행렬 C를 계산합니다 3) C의 d-최대 고유값에 해당하는 고유 벡터 계산

해석

• 점이 선을 따라 잘 퍼지도록 데이터에 적합한 선을 선택합니다(최대 분산이 있는 방향) 또는 동등하게 선까지의 거리 제곱합 최소화(최소 재구성 오차) PCA 해석

• 고유 벡터:

– 최대 분산 부분 공간의 주축 • 고유값:

– 주축을 따라 투영된 입력의 분산 • 추정 치수:

– 유의한(음이 아닌) 고유값의 수 총 및 설명 분산

• 대부분의 정보(분산)를 포함하는 고유 벡터(PC)의 하위 집합을 선택합니다 – 해당 고유값을 기준으로 상위 k개의 고유 벡터에 관심이 있습니다.

• 분산은 고유값의 비율을 설명합니다.

분산설명비율

• 첫 번째 PC에서만 약 40%의 분산을 설명합니다 • 처음 두 대의 PC는 데이터 세트의 분산의 거의 60%를 설명합니다 시각화를 위한 차원 축소

• 시각화

– 학습 전 EDA용

– 모델 교육 후 분석용

(예: 신경망에서 특징 벡터의 시각화) • (주로) 2d 공간에 투영

– PCA

– t-SNE

– UMAP

신경망 기반 차원 축소

• 레이블을 사용하지 않고 신경망을 훈련하는 방법은 무엇입니까?

• 오토인코더(Autoencoder): 예상 출력이 자체 입력인 신경망

– 인코더는 입력을 압축하고 잠재 표현 z를 생성합니다

– 그런 다음 디코더는 이 코드 z만을 사용하여 입력을 재구성합니다

오토인코더

• Input=Output인 신경망 – 따라서 "auto"라는 이름이 붙었습니다(reconst가 입력을 '명령'하기 때문입니다)

– 그러나 입력 표현을 위한 숨겨진 레이어가 있습니다(d!= D)

– 인코더와 디코더의 가중치를 모두 '타이'합니다(및 )

• 교육은 재구성 오류(예: MSE 손실)를 최소화하여 수행됩니다

PCA 대 자동 인코더

• PCA와 자동 인코더 비교

• PCA와 마찬가지로 AE는 재구성 오류를 최소화하기 위해 노력하지만 다음은 제외됩니다:

– AE는 비선형입니다(활성화 기능 사용)

– PCA에는 정규 표준 기준이 필요합니다(P^TP = I)

• AE(중량 매트릭스)에는 이러한 제약 조건이 없습니다

노이즈 제거 자동 인코더(DA)

• 일반 AE와 동일한 구조이지만 손상된 입력에 대해 훈련(입력 구성 요소의 고정된 부분을 임의로 제거)

– 소음에 강합니다

• 예상 대상은 원래 노이즈가 없는 대상입니다.

SDAE(Stacked Denoising Autoencoders)

• DAE를 스택하여 심층적인 아키텍처 구성

– 각 DAE의 숨겨진 레이어를 가져갑니다

– 이 숨겨진 레이어가 다음 레이어가 됩니다

• 교육은 간단합니다(단순한 계층별 교육):

– 각 레이어를 비지도 방식으로 초기화합니다

– 각 레이어의 출력은 다음 레이어에 입력으로 공급됩니다

– 전체 아키텍처 세부 조정

사용사례

• 치수축소

– 전처리 단계 또는 특징 추출기로서 • 데이터 노이즈 제거

• 가변 자동 인코더(VAE) [2014] – 생성 모델로서

• 마스크드 오토인코더 [2022] – 자기 지도 학습

자기지도학습(SSL)

• DNN은 일반적으로 수동으로 레이블이 지정된 방대한 양의 데이터를 필요로 합니다

– 표현 학습은 레이블에 의해 안내(감독)됩니다

– 비용이 많이 소요되며 전문 지식이 필요합니다

• 자기 지도 학습

– 레이블이 지정되지 않은 데이터를 사용한 표현 학습 – 수동으로 레이블이 지정된 데이터 필요 없음 – 자체 감독(Self-supervised)이란 자체 감독을 만드는 것을 말합니다 이미지 패치의 상대적 위치 또는 회전 정도 예측 사전 교육용 SSL

• 빌미 태스크

• 대조학습

• 세대기반학습

빌미 태스크

• "Preptext" 작업은 다운스트림 작업에 적합한 기능을 생성할 수 있습니다

– 이러한 구실 작업의 레이블은 자동으로 생성됩니다

– 지도 학습 목표(예: 분류, 회귀)로 학습

• 예: 회전 예측

SSL: ConvNet 모델은 적용되는 회전을 예측하는 방법을 학습합니다(4방향 분류: 0, 90, 180, 270) 구실 태스크 기반 SSL

예:

1. 빌미 작업: 적용되는 회전을 예측하는 방법을 배웁니다(4방향 분류: 0, 90, 180, 270) 2. 다운스트림 작업: 전이 학습을 사용하고 분류와 같은 예측 작업을 위해 구실 작업에서 학습된 모델을 미세 조정합니다.

레이블이 지정되지 않은 거대한 데이터에 대한 사전 교육.

더 작은 데이터(예: 2K 이미지)로 미세 조정 대조학습

• 불변성: 관련 샘플의 표현(피처 벡터)이 유사해야 합니다

• 대비(선택사항): 관련이 없는 샘플의 표현은 서로 달라야 합니다

 양성 표본을 구성하는 방법(시기) 라벨을 사용할 수 없음)?

• 유사한 표본(예: 동일한 클러스터 내)

• 서로 다른 데이터 증강의 동일한 인스턴스

• 서로 다른 모달리티를 가진 동일한 데이터(예: 다중 뷰 이미지, 이미지/텍스트 쌍) SimCLR : 시각 표현의 대조 학습을 위한 간단한 프레임워크 [ICML 2020] g: 소형 신경망 프로젝션 헤드(MLP) f: 신경망 기반 인코더

데이터 증강(랜덤 크롭, 랜덤 색상 왜곡, 랜덤 가우시안 블러) CLIP: 대조 언어 – 이미지 사전 교육 • 표준 비전 모델은 하나의 작업과 하나의 작업에만 능숙하며, 새로운 작업에 적응하는 데 상당한 노력이 필요합니다 • NLP에서 작업에 구애받지 않는 웹 스케일 사전 교육의 성공을 컴퓨터 비전 도메인으로 이전할 수 있습니까?

• 인터넷에서 수집한 400M(이미지, 텍스트) 쌍으로 사전 교육 – 이미지와 텍스트를 동일한 공간에 공동 임베딩 조인트 임베딩 -> CLIP으로 이미지와 텍스트 벡터를 직접 비교할 수 있습니다

CLIP : 이미지와 텍스트 연결

CLIP 자연어 감독에서 전이 가능한 시각 모델 학습 (2021) • 주요 아이디어: 주어진 이미지의 텍스트 설명을 긍정적인 샘플로 사용 – 멀티모달 임베딩 세대 기반 SSL

교란으로부터 예측

• BERT: 마스크 언어 모델링

• BEiT: BERT 이미지 트랜스포머 사전 교육 [ICLR 2022] – 시각적 토큰 학습 기반

– 마스크된 이미지 토큰 예측

• 마스크된 자동 인코더는

확장 가능한 비전 학습자 [CVPR 2022] 마스크드 오토인코더, 확장 가능한 비전 학습자 [cvpr 2022] • 각 마스크 패치의 픽셀 값 예측(토큰 기반이 아님): L2 손실 사용 • 높은 마스킹비(75%)

• 비대칭 아키텍처: 초대형 트랜스포머 인코더 + 경량 디코더 LMR

• 왼쪽(L): 마스크 이미지

• 중(M): MAE 재구축

• 오른쪽(R): 사실-진실

SSL에 의한 표현 학습

• 추출된 기능을 다운스트림 작업에 사용할 수 있도록 인코더(및 따라서 z)를 학습합니다 • 지도 사전 훈련: 지상 진실 레이블을 사용한 교차 엔트로피와 같은 지도 손실을 기반으로 합니다 • 또는 특히 방대한 데이터 세트가 있는 대규모 모델에서 일반 데이터 기능을 효율적으로 찾기 위해 감독되지 않은 학습(재구성 손실) 또는 자체 감독 학습의 대조적 손실 및 핑계 작업에 자동 인코더를 활용합니다.

멀티모달 표현 학습

• CLIP [Radford et al., 2020]: 이미지 문제 해결을 위한 더 많은 정보 • GPT-4[OpenAI, 2023] 또는 GPT-4o[2024]는 이미지, 문서, OCR 등 다양한 입력을 지원합니다.

• Lama(Large Language Model Meta AI)와 같은 개방형 모델은 멀티모달 작업을 지원하여 보다 광범위한 연구와 응용을 가능하게 합니다 • 많은 비전-언어 사전 훈련 모델이 활발하게 연구되고 있습니다 생성모델: 생성적 적대 네트워크(GAN)

• 2인 게임: 경쟁하면서 배우는 것

– 제너레이터(G): 실제처럼 보이는(가짜) 이미지를 생성하여 판별자를 속이려고 합니다 – 판별기(D): 실제 이미지와 가짜 이미지를 구별해 보십시오 -> 이 둘을 어떻게 모델링할까요? 신경망을 이용해서 생성모형 : 잡음제거 확산확률모형

주요 아이디어: Forward process를 통해 생성된 데이터를 활용하여 (작은 단계의) 역프로세스 학습

반응형

'Computer Science > 기계학습' 카테고리의 다른 글

[Unsupervised learning] 1  (0) 2024.06.18
[Transformer] 1  (0) 2024.06.18
[Recurrent neural network]  (0) 2024.06.18
[Convolutional neural network] 2  (0) 2024.06.18
[Convolutional neural network] 1  (0) 2024.06.18