自 2019 年成立以来,Arc53 便一直致力于为客户打造预测式 AI/ML 解决方案,应用场景涵盖推荐引擎到欺诈检测等多个领域。而 2022 年 11 月 OpenAI 推出 ChatGPT 后,Arc53 便意识到 AI 的发展轨迹在极短的时间内发生了新的变化。
Arc53 联合创始人 Alex Tushynski 表示,“生成式 AI 迅速赢得市场关注是有迹可循的。开发人员和数据团队转瞬之间就面临挑战,迫使将公司的专有数据导入生成式 AI 模型,并搭建如今所谓的检索增强生成 (RAG) 框架。为此,他们必须拓展新领域,学习新技能。这并非易事,因为他们不仅需要整合公司的所有数据库、数据湖、文件系统和搜索引擎,而且要设法将这些系统中的数据输入到全新的向量存储中。 然后,他们还需要统筹所有要素并构建完整的解决方案。为此,我们想到了一个能够帮助这些团队化繁为简的方法,那就是 DocsGPT。”
DocsGPT 是一款开源文档助手,可以帮助开发人员轻松地在自己的数据上运用自然语言处理(NLP)技术,构建出会话式的用户体验。例如,在公司网站上配置一个客服聊天机器人,或者在内部数据存储库中提供一个接口来帮助员工提高工作效率。
开发人员只需要将其数据源连接到 DocsGPT,即可利用各种嵌入模型和大语言模型 (LLM) 来优化其具体实例。 大语言模型 (LLM) 选项目前包括 ChatGPT 3.5 和 ChatGPT 4.0,以及基于 Mistral 的 DocsGPT-7B。
开发人员不仅可以选择模型,还可以选择在何处部署 DocsGPT。他们可以下载开源代码并在自己的环境中执行,也可以将 DocsGPT 作为 Arc53 的托管服务来使用。
DocsGPT 赋予了开发人员极高的自由度,这从 DocsGPT 的采用率可见一斑。自去年发布以来,DocsGPT 在 GitHub 上共获得 14,000 星数,其社区亦相当活跃,拥有超过 100 位独立撰稿人。 Tushynski 称:“DocsGPT 获得了英国就业及退休保障部、制药行业解决方案提供商 NoDeviation 等 20000 多家用户的青睐。”
Tushynski 及其团队选择了 MongoDB Atlas 作为 DocsGPT 托管服务的数据库。“我们之前已经在许多预测式 AI 项目中使用过 MongoDB。MongoDB 能够灵活地存储各种结构的数据,也可以扩展为庞大的数据集,并且易于开发人员和数据科学家使用,这意味着我们可以更快地交付更为丰富的 AI 驱动解决方案。 利用 MongoDB 来支持 DocsGPT 无疑是最优选择。开发人员将文档连接到 DocsGPT 时,MongoDB 会存储所有元数据以及聊天记录和用户账户信息。”
从 Elasticsearch 迁移到 MongoDB Atlas Vector Search
自 Atlas Vector Search 推出后,DocsGPT 团队便开始将其向量数据库从Elasticsearch 迁移到 MongoDB Atlas。 Tushynski 认为,“MongoDB 是一款卓有成效的 OLTP 数据库,不仅能够处理较高的读写吞吐量,而且可以提供事务保证。如果能将这些功能融入向量搜索和实时生成式 AI 应用,必将创造巨大价值。Atlas 能够以多种方式处理嵌入内容快速变化且高度动态的工作负载,而这是 Elasticsearch 无法比拟的。 Elasticsearch 在将更新合并到现有索引中时有一定延迟,说明该应用经常检索陈旧数据,而这会影响模型输出的质量和可靠性。”
Tushynski 还表示,“我们试用过多款独立的向量数据库。有些数据库的技术水平确实不错,但在配合高度动态的生成式 AI 应用方面,仍然无法满足我们的需求。我们注意到,当用户的应用开始发展壮大之后,用户就会产生调整嵌入模型的想法,而调整嵌入模型时,需要对数据进行重新编码并更新向量搜索索引。例如,我们先将自己的默认嵌入模型从 OpenAI 迁移到了 Hugging Face 上的多个托管开源模型上,现在又迁移到了 BGE 上。MongoDB 以 OLTP 为基础,让流程变得快捷、简单、省事。”
Arc53 联合创始人 Alex Tushynski
“源数据、元数据和向量嵌入在同一个平台上,实现了统一和同步,并且能够通过同一个 API 访问,这帮助用户加快了构建生成式 AI 应用的速度,降低了成本和复杂性。”
Tushynski 在其名为“使用最佳嵌入,壮大 DocsGPT ”(Amplify DocsGPT with optimal embeddings) 的博文中探讨了嵌入模型的重要性。这篇文章通过一个示例描述了某客户如何仅通过更新其嵌入模型,便将测得的用户体验优化了 50%。
“在这一方面,MongoDB Atlas的一大突出特点是它可以娴熟地处理多个嵌入。无需创建单独的集合或表单,MongoDB Atlas就能直接将各种嵌入直接链接到一个或多个大语言模型,这一功能非常实用,”Tushynski 说道。“这种方法不仅简化了数据架构,还避免了数据复制,轻松解决了传统数据库设置过程中普遍存在的难题。MongoDB 为存储和管理多个嵌入提供了便利条件,在不同的大语言模型及其各自的嵌入之间实现了更加无缝且灵活的互动。”
作为 AI 创新者计划的一员,DocsGPT 工程团队不仅可以享有 Atlas 免费积分,还可以获取专业技术知识,为迁移过程保驾护航。AI 创新者计划面向所有使用 MongoDB 构建 AI 解决方案的初创企业。
点击了解AI创新者计划
MongoDB Atlas
MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务,由 MongoDB 数据库的开发团队构建和运维,可以在亚马逊云科技、Microsoft Azure、Google Cloud Platform 云平台上轻松部署、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践,可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和 API 就 可以完成这些工作,由此您可以将更多宝贵的时间花在构建您的应用上。
点击了解更多MongoDB Atlas的相关内容
点击了解更多MongoDB Atlas Vector Search的相关内容