본문 바로가기
반응형

Computer Science/데이터마이닝33

[Link Analysis] 1.How to Organize the Web?웹을 구성하는 방법은 시간이 지나면서 변화.첫 번째 시도: 인간이 큐레이션한 웹 디렉토리 초기 인터넷에서는 정보를 조직화하는 주된 방법으로 인간이 직접 웹 사이트를 분류하고 디렉토리에 등록하는 방식을 사용.DMOZ와 LookSmart 같은 서비스는 이러한 방식을 대표하는 예입니다.사용자들은 이 디렉토리를 통해 관심 있는 주제의 웹사이트를 찾을 수 있었습니다.두 번째 시도: 웹 검색 웹의 급격한 성장과 함께, 수동으로 웹 사이트를 분류하는 것은 불가능해졌습니다.대신, 정보 검색 기술이 발달하여 웹 검색 엔진이 등장했습니다.정보 검색은 신문 기사, 특허 등과 같이 작고 신뢰할 수 있는 문서 세트에서 관련 문서를 찾는 기술입니다.그러나 웹은 거대하.. 2024. 4. 24.
[Mining Frequent Patterns, Associations, and Correlations] 2. 1.Constructing a FP-treeFP-tree(빈발 패턴 트리) 구축 절차는 다음과 같습니다:데이터베이스(DB) 스캔: 첫 번째로 데이터베이스를 스캔하여 빈발 1-아이템셋을 찾습니다.이 과정에서 각 아이템의 빈도수를 계산합니다.빈발 아이템 정렬: 찾아낸 빈발 아이템들을 그들의 빈도수에 따라 내림차순으로 정렬합니다.이렇게 하면 가장 빈번하게 발생하는 아이템이 리스트의 맨 앞에 오게 됩니다.FP-tree 구축: 데이터베이스를 다시 한 번 스캔하면서, 정렬된 빈발 아이템 순서에 따라 FP-tree를 구축합니다.각 트랜잭션은 정렬된 순서대로 트리에 추가되며, 이미 트리에 존재하는 경로는 공유하고, 새로운 아이템이 나타나면 새로운 노드를 추가하여 트리를 확장합니다.예를 들어, 최소 지지.. 2024. 4. 24.
[Mining Frequent Patterns, Associations, and Correlations] 1.What is Frequent Pattern Analysis? 자주 발생 패턴 분석(Frequent Pattern Analysis)은 데이터 세트에서 자주 발생하는 패턴(아이템 집합, 부분 순서, 부분 구조 등)을 찾는 과정입니다. 이는 Agrawal, Imielinski, Swami에 의해 자주 발생하는 아이템셋과 연관 규칙 마이닝(context of frequent itemsets and association rule mining)의 맥락에서 제안되었습니다. 이 분석 방법은 데이터 마이닝의 중요한 부분으로, 대용량 데이터에서 의미 있는 정보를 추출하는 데 사용됩니다. 예를 들어, 소매업에서는 고객이 자주 함께 구매하는 상품 집합을 파악하여 판매 전략을 개선하거나, 의학 분야에서는 특정 질병의 발병.. 2024. 4. 24.
[Finding Similar Items] 2. Locality Sensitive Hashing 1.Locality Sensitive Hashing (LSH) 지역 민감 해싱(Locality Sensitive Hashing, LSH)은 유사한 문서들의 짝을 찾는 과정에서 사용. 이 방법은 문서 간의 유사성을 효율적으로 찾기 위해, 유사할 가능성이 높은 signature 짝에 초점. LSH 과정. Shingling 문서에서 k 길이의 문자열 집합을 생성. 이 집합은 문서를 대표하는 집합으로, 문서의 내용을 기반으로 함. Min Hashing 생성된 문자열 집합을 기반으로 짧은 정수 벡터 형태의 signature 을 생성. 이 서명은 원래의 집합을 대표하며, 집합 간의 유사성을 반영. Locality Sensitive Hashing (LSH) Min Hashing을 통해 생성된 signature을 사용.. 2024. 4. 24.
반응형