본문 바로가기
반응형

Computer Science/데이터마이닝33

[Finding Similar Items] 1.What is the Most Similar Image? 가장 유사한 이미지 찾기란, 500만 개의 이미지 중에서 가장 유사한 이미지를 찾는 과제를 말합니다. 이는 장면 완성 문제(Scene Completion Problem)와도 관련이 있습니다. 장면 완성 문제는 이미지 조각들이 포함된 유사한 장면을 찾아내어 이미지를 설득력 있게 완성하는 것을 목표로 합니다. 이러한 과제들의 동기는 이미지를 픽셀 색상의 벡터로 표현할 수 있다는 점에 있습니다. 주요 도전 과제는 고차원 데이터 포인트 x1, x2, ... 등이 주어졌을 때, 가능한 한 효율적으로 유사성을 어떻게 측정할 것인가입니다. 이를 해결하기 위한 방법으로는 다음과 같은 접근 방식이 있습니다: 특징 추출(Feature Extraction): 이미.. 2024. 4. 23.
[Data Preprocessing] 2. 1.Data Reduction 데이터 축소는 데이터 세트의 축소된 표현을 얻는 과정으로, 볼륨은 훨씬 작지만 같은(또는 거의 같은) 분석 결과를 생성합니다. 이는 여러 가지 이유로 필요합니다. 첫째, 데이터베이스나 데이터 웨어하우스는 테라바이트 단위의 데이터를 저장할 수 있습니다. 이러한 방대한 양의 데이터를 처리하는 것은 매우 시간이 많이 걸리고 비효율적일 수 있습니다. 둘째, 복잡한 데이터 분석을 전체 데이터 세트에서 실행하는 데는 매우 오랜 시간이 걸릴 수 있습니다. 데이터 축소를 통해 분석 시간을 단축하고, 저장 공간을 절약하며, 데이터를 더 효율적으로 관리할 수 있습니다. 따라서 데이터 축소는 대규모 데이터 세트를 효율적으로 처리하고 분석하는 데 필수적인 과정입니다. 이를 통해 같은 분석 결과를.. 2024. 4. 23.
[Data Preprocessing] 1.Major Tasks in Data Preprocessing데이터 전처리에서의 주요 작업은 데이터를 분석하기 전에 데이터를 정제하고 준비하는 과정.이 과정은 데이터의 품질을 높이고 분석의 정확도를 향상시킴.데이터 전처리의 주요 작업들:데이터 정제(Data cleaning)누락된 값 채우기, 잡음이 있는 데이터를 부드럽게 하기, 이상치 식별 또는 제거하기 등을 포함.데이터 정제의 목적은 데이터의 정확성과 일관성을 높이는 것.예를 들어, 누락된 값은 특정 규칙이나 평균값을 이용해 채울 수 있으며, 이상치는 데이터의 전반적인 패턴에서 벗어나는 값으로, 분석에 영향을 미칠 수 있기 때문에 제거하거나 따로 처리.데이터 통합(Data integration): 여러 데이터베이스나.. 2024. 4. 23.
[TF-IDF] 2. 1.Document frequency, continued 문서 빈도(Document Frequency, df)는 전체 문서 집합에서 특정 용어가 나타나는 문서의 수를 나타냅니다. 일반적으로 흔한 용어는 드문 용어보다 정보를 제공하는 데 있어 덜 유용하다고 여겨집니다. 예를 들어, 'high', 'increase', 'line'과 같은 자주 나타나는 쿼리 용어들은 문서 집합 내에서 빈번하게 등장합니다. 이러한 용어가 포함된 문서는 해당 용어가 포함되지 않은 문서보다 관련성이 높을 가능성이 있습니다. 그러나 이러한 용어들만으로는 문서의 관련성을 확실히 판단하기 어렵습니다. 따라서, 우리는 흔한 용어에 대해서도 높은 긍정적 가중치를 주되, 드문 용어보다는 낮은 가중치를 부여하고자 합니다. 이를 위해 문서 빈도.. 2024. 4. 23.
반응형