多模态与AI搜索的全球科技竞速：中国AI，且信天工

脑极体 2024-05-30 2576

描述

从全球视野看，OpenAI、谷歌等AI巨头，以及百度、昆仑万维等中国科技公司，作为推动技术创新的关键力量，成为各自地区AI发展的风向标。

不同地区的AI企业各有千秋，但技术发展的潮水方向却大体相同，那就是：技术做高，产品做广。

所谓技术做高，指的是模型能力的持续进阶。比如今年4月17日开启公测的天工3.0，就是全球首个多模态“超级模型”（Super Model），具备多模态、搜索增强等能力，同期，又接连发布了全球首个开源AI音乐大模型SOTA。而随后5月份OpenAI发布的最新大模型GPT-4o，也强调了多模态大一统的能力，谷歌也在随后的Gemini Astra中展示了类似能力。

所谓产品做广，指的是模型落地需要丰富的软硬件产品作为支撑。这一点上，相比“OpenAI+微软”的合作模式，谷歌、昆仑万维这样“自有模型+自有产品生态”自成一派的厂商，更容易加速AI产品化。比如天工AI在去年就已经推出的中国第一款AI搜索，刚刚上线的全网唯一AI视频转绘功能，天工AI俨然已经实现了AI搜索、文生图、图像处理、AI PPT、AI动漫、AI音乐、AI视频转绘等多元应用，日活跃用户数已经突破百万，成为中国头部AIGC资深玩家。

谷歌也在I/O开发者大会一口气拿出来十来款新品及升级，展现出了极强的商业潜力，会后带动了谷歌的股价上涨。

说到这里，想必读者们已经发现了，昆仑万维的天工AI与谷歌的Gemini，在技术路线和产品能力上具备相似性，而且目前针对C端用户完全免费，而且覆盖各种设备、使用场景的需求。

这让我想到了宋代词人一首鼓励学子“赶考”的词：看蒲质易凋，何如松茂，菊花已老，须是梅开。万事何难，时来得做，且信天工次第排。从今去，愿径游璧水，直上兰台。

如果我们将科技企业的技术创新，看作是一场“赶考”，那么有理由相信，AI搜索、多模态等最新考题，对中国企业并不是很大的困难。只要坚持去做，时机一到，便会如经过寒夜的梅花一般绽放。

至少，最新的AI产品，比如谷歌在海外独占优势的AI搜索，以及时下正处于大模型金字塔尖的多模态，天工3.0都具备上述特性。

从这一点上看，中国AI，终于有了一点“万事何难，时来得做，且信天工”的淡定。

我们不妨借着当下最火的两大AI能力说开去，聊聊昆仑万维天工3.0是如何做到一流水平的，以及天工大模型这一株“AI梅花”开放的过程。

AI搜索：天工3.0与谷歌的独特芬芳

放眼全球，仅有在搜索业务上有底蕴、模型技术上有创新的厂商，比如谷歌、昆仑万维、百度等，以及背靠亚马逊的新秀Perplexity，才能在搜索效率、智能性、个性化体验上取得突破，培育出AI搜索这一独具特色的成果，为用户带来了前所未有的搜索体验。

为什么AI搜索是头部大模型厂商的关键赛点？一是体验优势，传统搜索引擎的精准度不高，用户容易被各种广告和钓鱼帖干扰，在海量信息里大海捞针，搜索效率与体验都急需得到改善；二是流量优势，早在传统互联网时代，搜索引擎就是流量汇聚的入口，也是商业价值的体现，到了AIGC时代，人类创作、AI创作的内容规模更是非线性增长，用户找到想要信息的难度也前所未有地增大，搜索工具变得更为重要，虹吸流量的能力毋庸置疑。

最近的谷歌I/O发布会上，就推出了许多基于Gemini大模型的搜索功能。幸好，通过天工3.0，我们也能欣赏到中国“AI搜索”的独特魅力。

目前，一流水平的AI搜索，有三个能力值得关注：

能力一：多模态，图文并茂的搜索体验。

多模态搜索是一种先进的搜索技术，允许用户通过多种类型的数据（模态）进行搜索查询，能够更全面地理解和响应用户的查询需求，提供更加丰富和准确的搜索结果。目前，仅有昆仑万维、谷歌等少数厂商，可以将文本、图片、音频、脑图等多形态答案集成在一起，给用户图文并茂的搜索体验。

比如，当用户要求大模型提供一个三天的膳食计划：

OpenAI的GPT-4只支持文字版本，菜品啥样全靠用户自己想象：

谷歌最新的Gemini大模型，则支持图文双模态搜索：

天工3.0则支持多模态一体化搜索：

能力二：更强推理，复杂任务轻松搞定。

模型能力的提升，带来了更强的逻辑推理能力，也让搜索从传统的“被动呈现”进阶为AIGC的“主动生成”。比如天工3.0通过4000亿级参数MoE混合专家模型，在模型语义理解、逻辑推理，以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升，从而在实际应用中更加准确和高效地处理信息。

在天工的“搜索增强”模式中，在分析某个具体行业的信息时，或者遇到宽泛问题时，天工AI能够实现总结相关事件、拆解产业链地图等复杂功能，或者拆解问题进行多步骤推理，并以结构化或思维导图以及PPT的形式进行最终展示。

我们一起来试试报志愿相关问题，会发现天工AI可以将问题所涉及的领域逐一推理拆解，这与Gemini重磅出击的多步骤推理完全是一个逻辑。

我们再来举个例子，当用户在搜索A新能源汽车时，想跟B品牌进行参数对比，不需要自己在不同网页间反复横跳，天工3.0支持多个产品横向对比，智能整合全网优质信息，并输出图表，通过AIGC减少用户的操作步骤，让关键信息一览无余。

在此基础上，搜索还可以更进一步吗？让AI帮助用户整理分析既有信息，直接给出深度结果，也就是“搜索+分析+生成”合二为一，从检索工具变成智慧的个人助手，这可能吗？

天工3.0新增的搜索增强、多次调用联网搜索、Agent等能力，支持复杂问题深度拆解，agent智能体能够独立完成规划、调用、组合外部工具及信息，以精准高效地完成产业分析、产品对比等各类复杂需求。

数万字的市场调研报告、高级学术研究、企业研报、白皮书等任务，天工3.0都可以快速完成，并且每个搜索落地页都支持AI速读，一键生成AI摘要和要点提炼，其中有任何不懂的地方，还可以随时通过【聊天】功能向AI助手发起多轮对话提问。

对于平时要阅读大量产业研究报告、AI论文的创作者来说，我明显体会到，这一套搜索增强的“组合拳”，确实能帮日常工作提升效率、减轻负担。搜索的结果还可以用大纲、脑图的丰富形式呈现，非常清晰。

能力三：紧跟时事，搜索生成也可以很有时效性。

大模型的训练周期较长，需要大量数据，而数据集的收集、整理和更新是一个耗时的过程。因此，大多数大模型在发布时都有一个明确的“知识截止日期”，即模型所包含的知识信息只更新到这个日期为止。超过这个日期的信息，模型可能就无法准确提供。

这意味着，用户在搜索一些时效性很强的信息时，比如最新的新闻事件、旅游规划需要的实时信息、航班天气股市等动态信息搜索查询，部分AI搜索提供的结果，可能缺乏准确性和时效性。解决大模型的时效性问题，是昆仑万维、谷歌等头部厂商都在努力的目标。

前不久谷歌的发布会上，就推出了支持“旅游规划”的实时搜索demo，天工3.0的AI搜索产品，则是国内唯一能够支持实时天气、股市、星座运势等信息查询的AI产品，能够同时生成特定卡片和对应文本分析。有了这个功能，真的可以把手机上的n个软件都卸载掉了。

AIGC

从上述三大能力，可以看到基于“超级模型”做出的AI搜索产品，正在前所未有地改变全球用户的搜索体验。AI搜索，已经成为昆仑万维、谷歌等独特的护城河，也是大模型底座上生长出的独特的一枝梅花，散发着“人无我有，人有我强”的技术芬芳。

多模态：超级模型底座上长出的应用繁花

作为全球首个多模态“超级模型（Super Model）”，天工3.0集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体，目前没有任何一款AI工具集这么多模型能力于一身，在多模态领域是当之无愧的先锋。

在天工3.0这棵“梅树”的根基上，昆仑万维凭借“All in AGI 与 AIGC” 战略，已经孕育出了众多的应用花蕾，支持AIGC时代的内容创作。

对于创作者来说，可以通过天工大模型获得多种模态的模型能力，处理多种不同类型的数据输入，包括：

视频模态。天工3.0 AI视频转绘，可以实现自动化的视频生成，将现有的视频内容自动转换成不同的风格或格式，像Sora一样辅助用户实现创意视频项目的制作。

音频数据。天工SkyMusic音乐大模型SOTA，是全球首款对标suno的音乐大模型，通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成，助力音乐创作者生成高质量的AI音乐。尤为特别的是，SOTA支持粤语、成都话、北京话等众多方言，让用户能够更自由地实现音乐表达，传播方言文化。这一大模型的推出，不仅展现了中国在AI音乐生成领域的技术实力，也为音乐产业带来了新的可能性。浅浅展示一段天工AI音乐创作的作品，依然是完全免费，还无需担心版权问题。

智能体。在多模态环境中，智能体可以整合不同模态的信息，提供更加丰富和智能的交互体验。天工3.0支持用户创建智能体，实现个性化的服务和交互体验，是大模型技术应用的一种重要方式，可以推动大模型技术的创新、普及和商业化。

PPT。PPT演示文稿的制作，需要结合文本、图像、图表、视频和音频等多种模态。

天工AI的PPT生成功能可以快速将文本内容转换成PPT幻灯片，提高制作PPT的效率，并且支持WEB端和APP端，意味着无论是在电脑上还是手机上，用户都可以方便地使用这一功能来提升生产力。5分钟做完一份优质的PPT，再也不是难事，而且完全免费，不需要你在下载文件前支付任何费用。

图表。视觉表示的数据，如条形图、饼图、折线图等，在数据分析、信息可视化、商业智能等领域中非常重要。最新的天工3.0大模型，可以自动生成各种图表，并分析结果，自动生成报告或总结，与用户进行互动，提供基于数据的深入见解。

放眼全球大模型竞赛，不同模态的相互补充、统一、协作，可以提供更全面的理解能力，大幅提升AIGC在行业的应用效果。因此，多模态绝对是一个主流方向，无论是OpenAI的GPT系列，还是谷歌的Gemini家族，都以此为发展方向，覆盖多种模态。幸好，天工3.0为代表的中国大模型梯队，也并不逊色。

基于天工系列大模型，昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI社交、AI动漫、AI游戏等AI业务矩阵，AI应用场景的一个个绽放，中国AI的花香已扑面而来。

梅香清且远，AI春已至

值得一提的是，相比OpenAI和谷歌的ToC色彩，中国AI有着更为丰富、广阔的应用场景，不仅ToC应用的用户规模庞大，ToB/ToG政企市场将AIGC作为千行万业提质增效的把手，产业智能的前景也格外广阔。

栽种一棵基础模型的梅树，培育AIGC的应用繁花，天工大模型成为产业智能化的一道风景。昆仑万维作为AI园丁，有着独特的气质：

1.极长的耕耘耐心。

AI创新需要在土壤和时间中蕴育，昆仑万维2019年布局AIGC的前瞻性格局。以AI搜索为例，昆仑万维的自研实力来自长期主义战略。

2.极强的工程能力和产品匠心。

基座模型达到一定参数，接下来比拼的是谁能把工程化、产品化做得更好。以AI搜索为例，“魔鬼都藏在细节中”，比如怎么消除大模型的幻觉，哪些问题深度要求高，哪些问题实时性要求高，做出对应的处理，体现出不同产品的区别，直接影响到用户体验，需要体系化的工程能力和产品设计能力。这一点，天工AI有大量产业实际，比如用天工AI搜索写公文引用官方媒体，获得政府用户的信任。

3.极高的人才密度。

人才是AI创新的前提和基础。只有拥有一支强大的人才队伍，AI企业才能不断推动技术创新，开发出更多有价值的产品和服务，从这一点来说，基础大模型领域呈现出“强者益强”，头部AI巨头大厂与其他中小厂的差距不断拉大。以昆仑万维为例，整个大模型研发中心高级算法工程师多达300人+，其中海内外名校博士100+，大量人才来自微软、阿里、百度，人才规模具备明显实力优势。

昆仑万维作为国内模型技术与工程能力最强、布局最全面的人工智能企业之一，可以打出一套全球AI产品组合拳，一套覆盖ToC/ToB/ToG多个市场的商业组合拳。

“待到山花烂漫时，她在丛中笑”，面对OpenAI和谷歌等世界一流AI巨头，天工AI正绽放出梅花一般自信的微笑。当我们轻嗅着中国AIGC应用的阵阵芬芳，可以说一句：万事何难，且信天工。

体验基于多模态大模型的AI搜索，可前往天工3.0官网。

打开APP阅读更多精彩内容