본문 바로가기
Computer Science/데이터마이닝

[Introduction toRecommender Systems] 1

by 큌 2024. 6. 17.
반응형

정보 과부하

• 데이터의 폭발적인 증가로 2020년에는 약 40조 기가바이트(또는 40제타바이트)가 발생합니다.

• 매 1초마다 1.7MB의 데이터가 생성됩니다.

• 구글은 매일 35억건 이상의 검색을 받습니다.

• 연간 1.2조 건의 검색 및 초당 40,000건 이상의 쿼리 검색

관련 항목에 액세스하는 방법?

• 사용자가 관련 항목에 액세스할 수 있도록 하려면 어떻게 해야 합니까?

• 풀 모드(검색 엔진) • 사용자가 주도권을 잡습니다.

• 임시 정보가 필요합니다.

• 푸시 모드(권장 시스템) • 시스템이 주도권을 잡습니다.

• 시스템에는 사용자의 잠재적인 정보 요구 사항이 있습니다.

권장사항의 가치

• 넷플릭스: 보는 영화의 2/3이 추천됩니다.

• 아마존: 추천 매출 35%.

• 구글 뉴스: 추천은 38% 더 많은 클릭수를 만들어냅니다.

• Spotify: Discover Weekly는 매주 월요일, 2억 명의 사용자에게 이전에 들어본 적이 없는 30곡의 재생 목록을 선물합니다.

권장사항 유형

• 편집 및 손으로 큐레이팅 • 즐겨찾기 목록

• 필수 항목 목록

• 단순 집계

• 가장 인기 있는 최근 업로드 • 개별 사용자 맞춤형

추천 시스템이란?

• 아이템에 대한 사용자의 숨겨진 선호도를 예측하기 위한 정보 필터링 시스템 권장 문제

• 사용자가 아이템을 얼마나 선호할지 자동으로 예측하는 유틸리티 함수를 추정합니다.

• 기준

• 문맥

추천 모델이란?

• 주어진

• 사용자 모델

• 명시적/묵시적 피드백 • 숨겨진 사용자 환경설정 • 상황맥락

• 품목모델

• 품목설명

• 품목특성

• 찾기

• 등급 예측: 등급이 지정되지 않은 항목의 등급을 예측합니다.

• 상위 N개 추천: 등급이 없는 항목 중 상위 N개 항목의 순위를 매깁니다.

명시적 피드백

• 사용자가 좋아하는 것을 직접 묻습니다.

• 예: 스타 등급

• 일반적으로 반별이 있는(또는 없는) 다섯 개의 별 • 업/다운 투표

암시적 피드백

• 사용자 행동으로부터 수집된 데이터 • 구매, 브라우징, 클릭 스루 이력 • 주요 차이점: 사용자 행동이 직접적인 선호도를 표현하지 않습니다.

• 행동이 말이 많습니다!

• 클릭: 포지티브 또는 노이즈 • 클릭되지 않음: 음수 또는 양수 레이블 없음 등급 예측

• 등급이 지정되지 않은 항목에 대한 사용자의 등급을 예측합니다.

• 일반적으로 예측은 사용자의 명시적인 피드백에서 계산됩니다.

상위 N 추천

• 각 사용자에 대해 등급이 지정되지 않은 상위 항목 목록을 추천합니다.

• 일반적으로 사용자의 암묵적 피드백에서 계산됩니다.

추천 모델을 디자인하는 방법?

권장사항에 대한 접근방법 • 내용 기반 추천: 항목 특징 및 설명을 기반으로 추천합니다.

• 공동 필터링: 사용자의 과거 행동만을 기준으로 항목을 추천합니다.

• 사용자 기반: 유사한 사용자를 찾고 좋아하는 것을 추천합니다 • 항목 기반: 이전에 좋아하던 항목과 유사한 항목 찾기 • 사회적 추천: 신뢰 그래프를 기반으로 추천합니다.

• 지식 기반 추천: 지식 그래프를 기반으로 추천합니다.

• 하이브리드: 위의 모든 것을 결합합니다

추천 모델의 카테고리

• 콘텐츠 기반 대 공동 필터링

콘텐츠 기반 추천

• 제가 좋아했던 것과 비슷한 것을 더 보여주세요.

• 앨리스는 영화 A, B, C 세편을 좋아합니다.

• D는 B와 C의 장르가 같기 때문에 Alice는 D를 선호할 가능성이 높습니다 제한사항: 콘텐츠 추천

• 제한된 내용 분석

• 콘텐츠가 자동으로 추출되지 않을 수 있습니다(예: 멀티미디어).

• 도메인 지식 누락

• 키워드가 충분하지 않을 수 있습니다.

• 과특화: 동일한 항목 이상, 너무 유사한 항목 이상 공동 필터링

• 제 또래 친구들이 좋아하는 것을 말해주세요.

• 앨리스는 영화 A, B, C 세편을 좋아합니다.

• 밥은 또한 세편의 영화 A, B, C를 좋아합니다. 게다가 밥은 D를 좋아합니다.

• 그러면 앨리스는 D를 선호할 것 같습니다

제한사항: 공동 필터링

• 모든 종류의 항목에 대해 작동: 기능 선택 없음 • 냉시동 문제

• 시스템에서 일치하는 사용자를 찾기에 충분한 사용자가 필요합니다 • 인기편향

• 독특한 취향을 가진 사람에게 아이템을 추천할 수 없습니다 • 인기 아이템을 추천하는 경향이 있습니다 • 소음의 영향

• 다른 사람들이 사용하는 하나의 계정 소셜 추천

• 사용자와 항목 간의 상호 작용을 사용자 간의 사회적 관계와 결합합니다.

지식 그래프

• 엔티티, 개체 및 이벤트 또는 개념에 대한 상호 연결된 설명 모음을 나타냅니다.

• 링크 및 시맨틱 메타데이터를 통해 데이터를 컨텍스트에 넣습니다.

지식 기반 추천

• 제 요구에 따라 무엇이 적합한지 말씀해 주세요.

• 지식 기반에서 항목 설명 및 도메인 지식 활용 인수분해 기계

• 인수분해 기계(FM)는 사용자 항목 등급을 다양한 상황 인식 기능과 결합할 수 있습니다.

DNN 기반 MF 대 FM

비선형 잠재 특징 표현을 학습합니다.

암시적으로 고차 및 비선형 특징 상호 작용을 학습합니다.

대화 추천

• 기존 온라인 추천의 한계

• 사용자가 아이템을 선호하는 이유를 설명하지 않습니다.

• 대화는 혁명을 가져올 수 있습니다.

대화 추천

• 검색과 추천 사이의 가교를 제공합니다.

검색:

사용자의 의도가 명확하고 쿼리에 의해 명시적으로 표시됩니다 대화 권장 사항:

대화를 통해 사용자 선호도를 추론해 보세요.

권장 사항:

사용자의 의도가 불분명하고 역사에서 암묵적으로 드러납니다.

반응형