우리에게 벡터 검색이 필요한 이유
September 14, 2023
우리가 사용하는 모바일 애플리케이션이나 웹서비스에는 검색기능이 있습니다. 대부분은 데이터베이스에서 제공하는 기본적인 텍스트 검색이나 Elasticsearch 같은 검색 엔진에서 제공하는 전문 검색(Full-Text Search)을 사용하여 개발 합니다. Full-Text Search는 주로 텍스트 데이터 검색에 사용되는 전통적인 방법 중 하나로 문서, 웹 페이지, 데이터베이스 등에서 특정 키워드, 단어, 구문 등을 찾아내는 데 중점을 두고 있습니다. 주로 키워드 또는 짧은 문장을 입력하여 텍스트 데이터를 검색 하고, 키워드와 일치하는 문서를 찾는 과정을 거치는데, 문맥이나 의미적 유사성을 고려하지는 않습니다.
Read Post
벡터 임베딩 - 모든 데이터를 표현하다
September 13, 2023
벡터 임베딩은 다양한 형태의 데이터(문서, 이미지, 음성, 영상 등)를 숫자 배열로 변환하여 유사성을 측정하는 개념입니다. 예를 들어, 색깔은 RGB 형식으로 나타내는 3차원 벡터 데이터로 표현될 수 있습니다. 이러한 벡터 임베딩을 통해 데이터 간의 거리를 계산하여 유사성을 판단할 수 있습니다. 이는 자연어 처리, 추천 알고리즘 등에서 중요한 역할을 합니다. Transformer 모델을 통해 다양한 데이터를 벡터로 변환할 수 있으며, 이를 활용해 서로 다른 형태의 데이터 간의 유사성도 측정할 수 있습니다. 예를 들어, "고양이"라는 텍스트와 고양이 사진 사이의 유사성을 벡터 공간에서 측정하는 것이 가능합니다.