向量数据库这杯“啤酒”与“泡沫”

脑极体 2023-07-28 2583

描述

就像啤酒注定要有泡沫，每一场淘金热都不缺被捧上了时代风口的人。

大模型这一波热潮中，向量数据库就是那个幸运儿。

一方面，技术层面并没有太大突破。向量数据库并不是一种特别新的数据库技术，在AI领域已经应用了七八年，谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。相比N家的卡、液冷的算、全光的网、升级的存，向量数据库在技术方面并没有特别亮眼的突破。

而另一方面，向量数据库的投资热潮又特别旺盛。在上半年成了创业公司、云计算厂商、老牌数据库公司，以及投资人们“群起而攻之”的风口，Pinecone、Chroma 和 Weviate 等向量数据库初创公司都获得了融资，有的融资额高达上亿美元。这在全球经济不明朗的投资形势下，还是非常亮眼的成绩。

不同于GPU卡那样短期内需求坚挺、供不应求，加上摩尔定律的约束，即使有泡沫，也是铁做的。也不同于存算网这类“新基建”，长期投入的战略价值，得到了庙堂和民间的一致重视。

向量数据库，更多是作为一种AI基础技术和产品，开始为大众所知晓。

仅凭这样，就在投资市场上一飞冲天，多少有点让人不安。加上最近，大训模型的热度开始降温，ChatGPT访问量下降，更多大模型已经到地里田间矿井“干活儿”去了。

不禁让人好奇，随着大模型的风口下沉，向量数据库的投资概念还能飞多久，会不会倏忽而来，倏忽而去，留下喝了“一嘴泡沫”的公司和投资人，在风中凌乱呢？

我们就来好好品一品，这一杯啤酒和泡沫。

技术的啤酒

训大模型、用大模型，离不开一系列AI基础设施，所以，作为基础设施之一的向量数据库，确实有点东西。引入向量数据库，是能喝到真材实料的“啤酒”的。

这就有必要先说说这个技术本身。

数据库不用多说，是必不可少的IT基础设施，用于存储和查询各种数据，可以看作是数据的“硬盘”。那么，向量数据库就是更适合AI体质的“硬盘”，有几个特质来说明这一点：

1.必要性。

向量数据库，顾名思义就是专门用于存储和管理向量数据。作为一种数据结构，每个向量都包含多个维度，每个维度代表不同的特征或属性，比如图像的颜色、文本词汇的出现频率等。而AI算法，要从图像、音频和文本等海量的非结构化数据中学习，提取出以向量为表示形式的“特征”，以便模型能够理解和处理。因此，向量数据库比传统的关系型数据库，更适合AI 应用。

2. 高效率。

每个元素都有一个索引，便于访问或修改数值。基于此，向量数据库可以通过将分组和索引，快速找到与给定查询最接近的嵌入，实现高效的相似性搜索，同时减少存储和计算成本。

相比传统单机插件式数据库，向量数据库的检索规模可以提升十倍，支持百万级每秒查询（QPS）的峰值能力，同时延迟控制在毫秒级。

想象一下，如果没有高效的搜索技术支持，一个大语言模型动辄数十亿、上百亿参数，只能处理有限数量的输入数据，无法搜索更大的数据库，那么在AIGC、搜索、广告推荐算法等任务的性能表现就会受限。

一个公开数据是，通过使用云向量数据库，QQ音乐人均听歌时长提升3.2%；腾讯视频有效曝光人均时长提升1.74%；QQ浏览器成本降低37.9%，这些数据的变化就在于检索效率、运行稳定性、运营效率、推荐算法等有了较大的提升。

3.需求大。

随着产业智能化的加速，以及大模型和其他 AI 应用的爆发，各行各业的AI用例不断增多，由此带来了汹涌的数据洪潮和存算任务，向量数据库嵌入向量的长度不受限制，具有良好的扩展性，可以根据AI用例和模型而变化，更好地处理大规模数据集。

而且，向量数据库可以拓展大模型的时间边界和空间边界，让大模型在训练完成后，也可以访问向量数据库的最新信息，了解最近发生的事情。

总的来说，向量数据库就是更适合AI体质的数据库，在AI任务上效果拔群，在机器学习领域中日益流行。

那么问题来了，一些在AI领域积淀已久的科技大厂，如谷歌、微软、Mate以及BAT等大厂，都有向量数据库的技术积累，也都可以向外输出相关能力和产品。此外，一些基于开源技术的数据库创业公司，如Pinecone、Weaviate、Odrant、Chroma近年来打开了市场知名度。

可以说，市场上并不缺乏向量数据库的产品和解决方案。那么2023年，这杯技术啤酒，是怎么咕嘟咕嘟冒出泡沫的呢？

浪潮之巅的泡沫

向量数据库的市场现状，说是“从0到1”，并不为过。

首先，大众市场的认知度才刚刚打开。

此前，向量数据库更多是AI企业在使用，今年才开始为大众所熟知，这离不开一些AI相关企业的推波助澜。今年 3月的 NVIDIA GTC 大会上，黄仁勋首次提及向量数据库，强调向量数据库对大语言模型的重要性。

不是所有企业都有能力自建大模型所需要的基础设施，通过MaaS（模型即服务）业务来训练应用大模型是更灵活的选择，这就要求云厂商提供全栈基础设施。

百度、京东、腾讯、华为等，都在自家的大模型完整基础设施中，提到了向量数据库。目前，云厂商的MaaS业务才刚刚开始走向市场，大模型的产业落地不是一蹴而就的，向量数据库的接受度和规模究竟有多大，还是个未知数。

第二，向量数据库的技术，还没经历“卷生卷死”的迭代。

Pinecone是闭源的领跑者，其他竞争者要么是开源的，比如Weviate，要么是巨头，包括头部云厂商和甲骨文、IBM等老牌数据库厂商，开始构建AI数据库的产品和解决方案。

大厂扎堆竞技，这意味着，如果技术没有大的突破，就会陷入高密度的同质化竞争，从蓝海快速进入红海。而如果技术有颠覆式变革，很多技术壁垒不高、客户认知不强的新入局创业者，很难跟开源生态或技术巨头PK，容易被大浪淘沙。

最后，向量数据库的成本，还没有降到“可规模复制”的程度。

无论是自建向量数据库，还是通过MaaS服务接入，都还达不到“付费可用”的程度。一般来说，企业需要先将非结构化的私密数据进行向量化，产生一个向量的矩阵，再存储到向量数据库里，来供大模型学习和检索。这个过程涉及到大量的工程化，会耗费企业许多开发人员、时间成本。

这就需要云厂商或数据库厂商，提供全链路的工具，来帮助企业完成整个数据向量化、大模型接入的工作，以及减少后续运维的难度。比如Pinecone就凭借良好的开箱即用的产品体验，获得了非常大的增长，B轮估值达到7.5亿美元。

谷歌云、腾讯云、京东云等也都基于内部应用的多年积累，推出了一系列面向外部的工具、框架和应用。但只是迈出了从无到有的第一步，真正成熟还需要让各家“卷起来”。

可以看到，现在这个阶段，热捧向量数据库，确实有AIGC、大模型、云服务等多方面的现实需求，但从“概念普及”到“真正可用”之间，还有不短的距离。这之间的地带，就是泡沫生长的地方。

江湖路远，风高浪急，没有想清楚的创业公司或行业用户，还是别贸然“带资进组”了。

啜饮时代的精酿

如果你是数据库厂商，或者是着急布局大模型和AI应用的企业，希望早点将啤酒喝到嘴里，怎么办呢？

笃定远一点的未来，有些赛道的泡沫比例是相对少的，需求格外旺盛。

市场方面，国产化替代是不错的选择。

科技博弈背景下，加上我国数据库产业的日益繁荣和技术突破，金融、电信、能源、交通等关键基础行业的企业，在数据库选型时，都开始倾向于国产，以保障数据的稳定性和安全性。

国外厂商在向量数据库上有着更早的探索和积累，国产数据库要补齐短板是需要时间的。

目前，BATH这类实力较强的国內科技企业，沉淀了向量数据库的核心自主技术，与其合作研发和定制化开发，针对某些具体场景，提供特定优化的向量数据库产品，加入国产化替代的赛道是成本更低、风险更可控、市场需求明确的选择。

策略方面，加入云生态不要独行。

鉴于向量数据库的商业化前景还不明朗，有业内人士表示，与其投资新的向量数据库项目，还不如关注现有数据库中，有哪些加上向量引擎可以变得更加强大。

云数据库就是其中之一，上云用数赋智是大势所趋，很多政企客户往往会选择公有云或行业云来满足其业务需求，将数据迁移到云上，对云数据库的关注度和接受度上升。

腾讯云、华为云等大型云厂商，具有较高的品牌认知度和市场接受度，具有云原生、AI原生的技术栈和产品体系，经历了海量场景的淬炼和深度优化，和这类云生态一起掘金向量数据库，是更稳妥的方式。

和AI、大模型一样，向量数据库要品出味道，离不开时间的窖藏和酝酿。是在大训模型的热度下降后，像泡沫一样湮灭，还是作为啤酒精酿沉淀下去，等待成为下一代数字基础设施的刚需，被行业客户所啜饮，是留给数据库玩家和买家的选择题。

打开APP阅读更多精彩内容