OpenAI는 왜 Rockset을 인수했을까?

Posted on July 11, 2024
OpenAI는 왜 Rockset을 인수했을까?

들어가기

2024년 6월 21일 OpenAI는 데이터베이스 스타트업 Rockset 인수를 발표했습니다. OpenAI에 따르면 Rockset 인수의 배경은 AI를 더 유용하게 만들기 위한 검색 인프라 개선이라고 합니다. 구체적으로 어떠한 이점 때문에 OpenAI는 Rockset을 인수했을까요?

실시간 데이터분석의 강자 Rockset

우선 Rockset이 무엇을 하는 회사인지 알아보겠습니다. Rockset은 데이터베이스를 개발하는 스타트업으로 Venkat Venkataramani와 Dhruba Borthakur가 2016년에 설립하였습니다. CEO인 Venkataramani는 Rockset 창업 이전에 Facebook과 Oracle에서 근무하였고, CTO인 Borthakur는 Facebook에서 RocksDB를 개발하였습니다.

Facebook이 개발하고 오픈소스로 제공하는 RocksDB는 Key value 데이터베이스로 실시간 데이터 처리에 특화되어 있습니다. Rockset도 RocksDB 코드를 사용하였고 Aeca 또한 RocksDB를 이용하고 있습니다.

한국에서는 Rockset의 인지도가 Snowflake, MongoDB 등 다른 데이터베이스에 비해 비교적 낮지만, Greylock Partners, Sequoia Capital 및 Glynn Capital과 같은 유수의 투자자로부터 총 1억 900만 달러를 투자받고 유니콘으로 부상한 회사입니다.

Rockset은 세계에서 가장 빠른 실시간 검색과 분석을 핵심 가치로 내세우고 있습니다. Kafka, MongoDB, DynamoDB, S3 등의 데이터 저장소로부터 데이터를 수집하고 실시간으로 인덱싱하여 Rockset에 저장, SQL을 사용하여 실시간 검색, 필터링, 벡터 검색을 가능하게 합니다. 기술적으로 분류한다면 Document store를 사용하는 NoSQL에 분석에 특화된 OLAP 데이터베이스입니다.

실시간 데이터 분석과 검색은 다양한 분야에서 유용하게 사용할 수 있습니다. 예를 들어 시청자가 보고 있는 비디오, 댓글, 탐색 중인 제품 등을 실시간으로 트래킹하여 관련성이 가장 높은 영상을 추천해야 하는 라이브 커머스업에서 사용자 데이터의 실시간 분석은 성장 전략의 핵심 요소입니다.

하지만 매시간 변하는 엄청난 양의 데이터를 실시간으로 처리하기 위해서는 변경된 데이터를 지속적으로 업데이트하고 검색하기 위한 인덱싱을 해야 하는데 그 과정에서 많은 시간과 비용이 소모됩니다. 특히 Elasticsearch를 사용한다면 클러스터 관리에 엄청난 리소스가 필요한데, 많은 개발자들이 힘들어하는 과정 중 하나이죠. Rockset이 해결하고자 하는 문제가 위와 같은 실시간 데이터 검색, 분석에 수반되는 지난한 작업들입니다.

OpenAI는 실시간으로 생성되는 엄청난 데이터를 즉시 처리할 수 있는 Rockset의 데이터베이스가 필요했던 것입니다. 언뜻 보기에 LLM의 외부 기억 장치라 할 수 있는 벡터 데이터베이스 제품이 더 필요했을 것 같은데 왜 Rockset을 선택했을까요?

RAG를 위한 데이터인프라

GPT-4o에서 “최근“, ”최신“ 등의 단어를 넣어 프롬프트를 입력하면 LLM이 바로 대답하지 않습니다. 검색을 먼저 수행하고 검색된 결과에 기반하여 답변을 제공합니다. 이렇게 LLM이 학습하지 못한 최신, 전문 영역에 대한 내용을 검색 기반으로 대답하는 것이 검색 증강 생성(RAG)인데, 생성 이전에 방대한 데이터에서 LLM에게 전달할 컨텍스트를 빠르게 검색할 수 있어야 합니다. Rockset의 강력한 검색 성능은 엄청난 양의 데이터에서 원하는 정보를 빠르게 찾아 지연의 최소화, RAG의 응답 속도를 향상시킬 수 있습니다.

또한 확장 가능한 Rockset의 아키텍처를 활용해 새로운 유형의 데이터와 다양한 출처에서 지속적으로 쌓이는 데이터를 원활하게 통합함으로써, 궁극적으로 RAG를 포함한 AI 애플리케이션에 최적화된 백엔드 인프라를 빠르게 구축할 수 있습니다.

이에 반해 벡터 데이터베이스의 대부분은 벡터 데이터 저장과 검색에만 초점이 맞추어져 있습니다. 그러나 현실의 데이터는 벡터로만 존재하지 않고 텍스트로 된 메타 혹은 정형 데이터, 이미지와 같은 바이너리 데이터, JSON과 같은 구조화된 데이터가 포함되어 있고 이러한 데이터를 융합하여 적절한 정보를 추출하는 과정이 필요합니다. 결국 이러한 요구로 벡터 데이터베이스도 메타데이터를 필터링하기 위한 기능 등을 추가하고 있지만 데이터베이스와 검색 엔진의 관점에서 이러한 구현은 배보다 배꼽이 큰 상황이 됩니다. 이런 측면에서 보면 Aeca가 지향하는 방향은 Rockset과 닮아 있습니다. 결국 이러한 요인들이 OpenAI가 벡터 데이터베이스 회사가 아니라 Rockset을 선택함에 영향을 주었을 것으로 추정할 수 있습니다.

AI 모델 성능강화

방대한 데이터를 빠르고 정확하게 처리하는 기술은 그 자체만으로 AI 모델의 경쟁력을 향상시킬 수 있습니다. AI 모델 성능은 얼마나 많은, 얼마나 적합한 데이터를 학습했는지로 결정됩니다. OpenAI는 Rockset의 데이터베이스를 사용하여 다양한 출처에서 실시간으로 쏟아지는 데이터를 즉시 색인하고 질의를 수행하여 학습에 최적화된 데이터로 빠르게 정제할 수 있습니다. 즉, ChatGPT를 더 빠르고 효율적으로 학습하여 모델의 최신성을 유지할 수 있습니다. Rockset 인수를 통해 본업인 LLM 개발 경쟁력을 한층 더 강화할 수 있는 것입니다.

OpenAI의 시장확대

Rockset 인수를 통해 LLM 만으로는 접근할 수 없는 시장으로 외연을 확장할 수 있습니다. 예를 들어 매 순간 거래가 일어나는 금융 거래 시스템, 실시간 이상 탐지 등의 보안 분야, 고객 행동 추적이 중요한 라이브 커머스처럼 최신 정보 의존성이 높은 영역에서는 데이터베이스와 AI 모델의 연동이 반드시 필요합니다. 특히 실시간 데이터 분석과 AI 모델의 결합은 비즈니스 인텔리전스 기능을 극대화하여 새로운 가치를 창출하는 데 중요한 역할을 할 것이며 이는 OpenAI가 B2B 영역에서 새로운 고객을 확보하기 위한 충분한 경쟁력을 제공할 것으로 보입니다.

마치며

OpenAI가 인수한 Rockset이 어떤 회사인지, 인수한 이유가 무엇인지를 살펴보았습니다. 결국 LLM이 엄청난 양의 데이터를 학습하더라도 데이터베이스와 검색 엔진은 여전히 핵심 역할을 수행하고 어쩌면 그 중요성이 과거보다 높아질 수도 있음을 시사한다고 봅니다.

함께 보면 좋을 글

RAG(검색 증강 생성)을 위한 AI 데이터베이스

RAG(검색 증강 생성)을 복잡한 인프라 구축 없이 AI 데이터베이스 하나로 쉽게 만들 수 있습니다.

By Tim Yang|2023-12-11

Aeca가 검색 개발을 쉽게 하는 방법

웹과 모바일 애플리케이션에서 검색은 긍정적인 사용자 경험을 형성하는 핵심기능 입니다. 특히 커머스 서비스에서 검색은 사용자 경험 향상을 넘어, 회사 매출에 직접적인 영향을 미치는 요소 입니다. 상품정보와 콘텐츠의 양이 폭발적으로 증가하는 상황에서 고객이 입력한 검색어에에 부합되는 정보를 적시에 제공하는 검색품질은 애플리케이션과 웹사이트의 성공과 실패를 가를 중요한 요인이 되었습니다. 일반적으로 커머스 서비스에서 상품을 검색하는 고객은 지불의사가 높은 강력한 잠재고객으로 판단합니다. 사용자들이 검색하는 행위와 검색결과에 반응하는 모든 행동에는 고객 자신들의 구매의도, 니즈, 지불의사가 모두 나타나 있다고 보고 있습니다. 통계상으로도 검색을 수행한 사용자의 구매전환율이 그렇지 않은 고객에 비해 2배 이상이며, Total MAU에서 검색을 사용하는 유저의 비율은 20% 이하지만 검색을 한 번 이상 수행한 사용자들에게서 발생하는 매출이 절반이상인 것으로 알려져 있습니다. 또한 첫 검색에 실패한 사용자의 이탈율이 높게 나타나며, 재검색 고객의 구매전환율은 매우 낮게 나타납니다. 즉, 검색은 고객의 지갑을 열기 위한 강력한 수단일 뿐만 아니라 서비스의 지속가능성에도 큰 영향을 미치는 요소 입니다. 그렇다면 검색은 구체적으로 어떻게 고객리텐션과 매출증대, 서비스 개선에 기여할까요?

By Tim Yang|2023-09-12

Copyright © 2024 Aeca, Inc.

Made with ☕️ and 😽 in San Francisco, CA.