본문 바로가기
반응형

Computer Science/데이터마이닝33

[Neighborhood-based Collaborative Filtering] 1 협업 필터링(CF)이란?• 추천을 위해 군중의 지혜를 사용하세요.• 추천 시스템에 대한 가장 중요한 접근 방식 • 다양한 알고리즘과 그 변형이 존재합니다.• 대규모 상업용 전자 상거래 사이트에서 널리 사용됩니다.• 책, 영화 및 음악과 같은 많은 영역에 적용할 수 있습니다.이웃 기반 CF• 메모리 기반 알고리즘이라고도 합니다.• 이웃 기반 CF는 주로 k-근접 이웃 방법에서 영감을 받았습니다.• 2가지 타입의 동네 기반 CF• 사용자 기반 이웃 방법: 예측은 대상 사용자에 대한 동료 그룹 등급의 가중 평균에 의해 계산됩니다.• 항목 기반 이웃 방법: 예측은 대상 사용자에 대한 유사 항목의 가중 평균 등급으로 계산됩니다.공동 필터링을 위한 핵심 아이디어(CF)• 제 또래 친구들이 좋아하는 것을 말해주세요... 2024. 6. 17.
[Introduction toRecommender Systems] 1 정보 과부하• 데이터의 폭발적인 증가로 2020년에는 약 40조 기가바이트(또는 40제타바이트)가 발생합니다.• 매 1초마다 1.7MB의 데이터가 생성됩니다.• 구글은 매일 35억건 이상의 검색을 받습니다.• 연간 1.2조 건의 검색 및 초당 40,000건 이상의 쿼리 검색관련 항목에 액세스하는 방법?• 사용자가 관련 항목에 액세스할 수 있도록 하려면 어떻게 해야 합니까?• 풀 모드(검색 엔진) • 사용자가 주도권을 잡습니다.• 임시 정보가 필요합니다.• 푸시 모드(권장 시스템) • 시스템이 주도권을 잡습니다.• 시스템에는 사용자의 잠재적인 정보 요구 사항이 있습니다.권장사항의 가치• 넷플릭스: 보는 영화의 2/3이 추천됩니다.• 아마존: 추천 매출 35%.• 구글 뉴스: 추천은 38% 더 많은 클릭수를.. 2024. 6. 17.
[Dimensionality Reduction] 3 특이치 분해(SVD)• 행렬 R은 세 개의 행렬로 분해될 수 있습니다: • U, S, V: 고유• U, V: 열 또는 정규 분포 • UTU = I, VTV = I (I : 아이덴티티 매트릭스) • 열은 직교 단위 벡터입니다.• S: 대각선• 항목(단수 값)은 양수이며, 감소하는 순서로 정렬됩니다 ( ≥ ≥ ⋯ ≥ 0).입력 데이터 행렬: m x n 행렬 왼쪽 단수 행렬: m x m 행렬 대각행렬 : m x n 행렬, 여기서 대각 원소는 특이값(개념의 강도) 오른쪽 단수 행렬: n x n 행렬SVD의 특성• 항상 행렬 A를 A = USV로 분해할 수 있습니다 • �, �, �: 유니크• U, V: 열 또는 정규 분포 • ��� = �, ��� = �(I: ID 행렬) • 열은 직교 단위 벡터입니다.• � .. 2024. 6. 17.
[Dimensionality Reduction] 2 주성분분석(PCA)• 데이터를 새 좌표계로 전송하는 직교 선형 변환 • 분산을 최대화하는 새 좌표 찾기• 데이터를 새 좌표계로 전송하는 직교 선형 변환 • 데이터 투영에 의한 가장 큰 분산은 첫 번째 좌표(첫 번째 주성분)에 있습니다.• 두 번째로 큰 분산은 두 번째 좌표(두 번째 주성분)에 있습니다.PCA를 계산하는 방법• 1단계: 데이터를 가져옵니다.• 2단계: 평균을 줄입니다.3단계: 공분산 행렬을 계산합니다.• 행렬 X가 주어졌을 때 공분산 행렬을 계산하는 방법은?• 4단계: 공분산 행렬의 고유 벡터와 고유값을 계산합니다.• 5단계: 구성요소 선택 및 특징 벡터 구성 • 새 피쳐 벡터 구성• 근사화를 위해 1차원 공간에 대한 특징 벡터를 줄일 수 있습니다.• 5단계: 새로운 데이터 세트 도출• 최.. 2024. 6. 17.
반응형