정보 과부하
• 데이터의 폭발적인 증가로 2020년에는 약 40조 기가바이트(또는 40제타바이트)가 발생합니다.
• 매 1초마다 1.7MB의 데이터가 생성됩니다.
• 구글은 매일 35억건 이상의 검색을 받습니다.
• 연간 1.2조 건의 검색 및 초당 40,000건 이상의 쿼리 검색
관련 항목에 액세스하는 방법?
• 사용자가 관련 항목에 액세스할 수 있도록 하려면 어떻게 해야 합니까?
• 풀 모드(검색 엔진) • 사용자가 주도권을 잡습니다.
• 임시 정보가 필요합니다.
• 푸시 모드(권장 시스템) • 시스템이 주도권을 잡습니다.
• 시스템에는 사용자의 잠재적인 정보 요구 사항이 있습니다.
권장사항의 가치
• 넷플릭스: 보는 영화의 2/3이 추천됩니다.
• 아마존: 추천 매출 35%.
• 구글 뉴스: 추천은 38% 더 많은 클릭수를 만들어냅니다.
• Spotify: Discover Weekly는 매주 월요일, 2억 명의 사용자에게 이전에 들어본 적이 없는 30곡의 재생 목록을 선물합니다.
권장사항 유형
• 편집 및 손으로 큐레이팅 • 즐겨찾기 목록
• 필수 항목 목록
• 단순 집계
• 가장 인기 있는 최근 업로드 • 개별 사용자 맞춤형
추천 시스템이란?
• 아이템에 대한 사용자의 숨겨진 선호도를 예측하기 위한 정보 필터링 시스템 권장 문제
• 사용자가 아이템을 얼마나 선호할지 자동으로 예측하는 유틸리티 함수를 추정합니다.
• 기준
• 문맥
추천 모델이란?
• 주어진
• 사용자 모델
• 명시적/묵시적 피드백 • 숨겨진 사용자 환경설정 • 상황맥락
• 품목모델
• 품목설명
• 품목특성
• 찾기
• 등급 예측: 등급이 지정되지 않은 항목의 등급을 예측합니다.
• 상위 N개 추천: 등급이 없는 항목 중 상위 N개 항목의 순위를 매깁니다.
명시적 피드백
• 사용자가 좋아하는 것을 직접 묻습니다.
• 예: 스타 등급
• 일반적으로 반별이 있는(또는 없는) 다섯 개의 별 • 업/다운 투표
암시적 피드백
• 사용자 행동으로부터 수집된 데이터 • 구매, 브라우징, 클릭 스루 이력 • 주요 차이점: 사용자 행동이 직접적인 선호도를 표현하지 않습니다.
• 행동이 말이 많습니다!
• 클릭: 포지티브 또는 노이즈 • 클릭되지 않음: 음수 또는 양수 레이블 없음 등급 예측
• 등급이 지정되지 않은 항목에 대한 사용자의 등급을 예측합니다.
• 일반적으로 예측은 사용자의 명시적인 피드백에서 계산됩니다.
상위 N 추천
• 각 사용자에 대해 등급이 지정되지 않은 상위 항목 목록을 추천합니다.
• 일반적으로 사용자의 암묵적 피드백에서 계산됩니다.
추천 모델을 디자인하는 방법?
권장사항에 대한 접근방법 • 내용 기반 추천: 항목 특징 및 설명을 기반으로 추천합니다.
• 공동 필터링: 사용자의 과거 행동만을 기준으로 항목을 추천합니다.
• 사용자 기반: 유사한 사용자를 찾고 좋아하는 것을 추천합니다 • 항목 기반: 이전에 좋아하던 항목과 유사한 항목 찾기 • 사회적 추천: 신뢰 그래프를 기반으로 추천합니다.
• 지식 기반 추천: 지식 그래프를 기반으로 추천합니다.
• 하이브리드: 위의 모든 것을 결합합니다
추천 모델의 카테고리
• 콘텐츠 기반 대 공동 필터링
콘텐츠 기반 추천
• 제가 좋아했던 것과 비슷한 것을 더 보여주세요.
• 앨리스는 영화 A, B, C 세편을 좋아합니다.
• D는 B와 C의 장르가 같기 때문에 Alice는 D를 선호할 가능성이 높습니다 제한사항: 콘텐츠 추천
• 제한된 내용 분석
• 콘텐츠가 자동으로 추출되지 않을 수 있습니다(예: 멀티미디어).
• 도메인 지식 누락
• 키워드가 충분하지 않을 수 있습니다.
• 과특화: 동일한 항목 이상, 너무 유사한 항목 이상 공동 필터링
• 제 또래 친구들이 좋아하는 것을 말해주세요.
• 앨리스는 영화 A, B, C 세편을 좋아합니다.
• 밥은 또한 세편의 영화 A, B, C를 좋아합니다. 게다가 밥은 D를 좋아합니다.
• 그러면 앨리스는 D를 선호할 것 같습니다
제한사항: 공동 필터링
• 모든 종류의 항목에 대해 작동: 기능 선택 없음 • 냉시동 문제
• 시스템에서 일치하는 사용자를 찾기에 충분한 사용자가 필요합니다 • 인기편향
• 독특한 취향을 가진 사람에게 아이템을 추천할 수 없습니다 • 인기 아이템을 추천하는 경향이 있습니다 • 소음의 영향
• 다른 사람들이 사용하는 하나의 계정 소셜 추천
• 사용자와 항목 간의 상호 작용을 사용자 간의 사회적 관계와 결합합니다.
지식 그래프
• 엔티티, 개체 및 이벤트 또는 개념에 대한 상호 연결된 설명 모음을 나타냅니다.
• 링크 및 시맨틱 메타데이터를 통해 데이터를 컨텍스트에 넣습니다.
지식 기반 추천
• 제 요구에 따라 무엇이 적합한지 말씀해 주세요.
• 지식 기반에서 항목 설명 및 도메인 지식 활용 인수분해 기계
• 인수분해 기계(FM)는 사용자 항목 등급을 다양한 상황 인식 기능과 결합할 수 있습니다.
DNN 기반 MF 대 FM
비선형 잠재 특징 표현을 학습합니다.
암시적으로 고차 및 비선형 특징 상호 작용을 학습합니다.
대화 추천
• 기존 온라인 추천의 한계
• 사용자가 아이템을 선호하는 이유를 설명하지 않습니다.
• 대화는 혁명을 가져올 수 있습니다.
대화 추천
• 검색과 추천 사이의 가교를 제공합니다.
검색:
사용자의 의도가 명확하고 쿼리에 의해 명시적으로 표시됩니다 대화 권장 사항:
대화를 통해 사용자 선호도를 추론해 보세요.
권장 사항:
사용자의 의도가 불분명하고 역사에서 암묵적으로 드러납니다.
'Computer Science > 데이터마이닝' 카테고리의 다른 글
[Neighborhood-based Collaborative Filtering] 2 (0) | 2024.06.17 |
---|---|
[Neighborhood-based Collaborative Filtering] 1 (0) | 2024.06.17 |
[Dimensionality Reduction] 3 (0) | 2024.06.17 |
[Dimensionality Reduction] 2 (0) | 2024.06.17 |
[Dimensionality Reduction] 1 (0) | 2024.06.17 |