以下文章来源于谷歌云服务,作者 Google Cloud
从 Chatbot 向 Agentic AI (智能体) 演进的过程中,推理能力的瓶颈 (ReasoningCeiling) 和多模态链路的碎片化是阻碍工程落地的两大难题。本文深度解析昆仑天工旗下天工 Skywork 如何通过 Google 的 Gemini 3 模型家族,并结合 Google Distributed Cloud (GDC) 混合云架构,成功构建面向 Windows 生态的桌面级 Agent,在 GAIA 基准测试中实现全球第一,更助力 Skywork 在海外用户复杂研报生成场景中将端到端延迟降低 63%。
面对多步推理死循环、多模态处理链路割裂以及企业级数据主权三大技术挑战,更好解决海外用户的各种复杂需求,Skywork 技术团队选择与 Google Cloud 深度合作,通过引入 Gemini 3 模型与机密计算技术,完成了底层架构的全面重构。
突破推理天花板: 基于 Gemini 3 DeepThink 的多路径决策
推理死循环与浅层输出: 在早期的海外业务实践中,当 Agent 面对高复杂度的专业任务 (如 "阅读 100 页金融财报并生成符合品牌规范的 PPT") 时,往往受限于模型的单链推理能力,容易陷入逻辑死循环或仅能生成浅层的摘要信息,无法满足 "专家级" 交付标准。
解决方案:
Skywork 引入了 Google Gemini 3 及其 Deep Think 能力。不同于传统的 CoT (思维链),Gemini 3 允许 Agent 在推理阶段同时探索多条潜在的解决路径 (Reasoning Paths),并对中间结果进行自我评估与修正。
● 架构优化: 从单一的 "Prompt-Response" 模式转变为 "Plan-Execute-Reflect" 的自主循环架构。
● 性能实测: 在全球通用的 GAIA (General AI Assistant) Benchmark 中,重构后的 Skywork Agent 以 82.42% 的准确率斩获全球榜首,证明了其在高难度、多步骤现实任务中的鲁棒性。
链路融合: 1M+ 上下文重塑多模态工作流
碎片化模型的延迟累积: 在处理包含图表、视频会议录音和文本的混合数据时,传统方案通常采用 "流水线模式"。这种包含 5 个独立模型的碎片化管道导致了严重的上下文丢失和极高的端到端延迟,难以满足海外用户对极致流畅体验的需求。
解决方案:
Skywork 利用 Gemini 原生的多模态理解能力和 1M+ Token 的超长上下文窗口,将原本割裂的流水线重构为单一的统一数据流。
● 技术实现: 摒弃中间件转译,直接将原生视频流、音频流和文档数据注入 Gemini 模型上下文。
● 效率提升: 复杂深度研究报告的生成时间从 3 小时大幅缩减至 60 分钟以内,生产力效能提升 63%,实现了真正的 "Near Real-time" 交互体验。
混合云架构: Google Distributed Cloud 支撑的数据主权与机密计算
Skywork 的海外市场包括大量对数据隐私极为敏感的金融与法律行业客户。这些 "云犹豫" (Cloud-Hesitant) 型企业要求数据在处理过程中必须满足严格的数据驻留 (Data Residency) 规定。
解决方案:
为了在利用全球云端算力的同时保障数据主权,Skywork 采用了混合云部署策略:
● 边缘部署: 通过 Google Distributed Cloud (GDC),将 Gemini 驱动的 Agent 部署在海外客户的本地环境或边缘节点。
● 机密计算: 启用 Google Cloud 的机密计算节点,确保数据在内存处理态 (Data-in-use) 全程加密,即使是云服务商也无法窥探。这一特性成为 Skywork 成功打开国际高端企业市场的 "敲门砖"。
● 市场反馈: 这一架构成功消除了海外高合规行业的顾虑,在企业级试点项目中实现了 97% 的超高用户留存率。
生态协同: One Google 技术栈的集成优势
Skywork 的技术演进不仅仅是模型的替换,更是对 "One Google" 技术栈的深度集成。
● Google Workspace API 集成: Agent 可直接通过安全 API 操作 Docs、Sheets 和 Slides,将非结构化的推理结果转化为结构化的办公文档。
● MSP 合作伙伴支持: 在架构迁移过程中,Google Cloud 提供了关键的工程化支持,协助团队针对 Gemini 3 的长上下文特性进行了精细化的 Prompt Engineering 调优,确保了复杂任务的高并发稳定性。
结语
从 Claude 迁移至 Gemini 3,天工 Skywork 完成了从 "对话式 AI" 到 "自主智能体 (AutonomousAgent)" 的技术跨越,并成功在出海赛道上建立了领先优势。这一实践证明,在构建面向全球的下一代桌面级 OS Agent 时,原生多模态能力、长上下文推理以及混合云安全架构缺一不可。Google Cloud 提供的全栈 AI 基础设施,正在成为天工 Skywork 规模化落地全球市场的核心引擎。
关于昆仑天工
昆仑天工是昆仑万维旗下子公司,专注 AGI 与 AIGC 业务,是国内少数真正践行全模态输入与全模态输出路径的 AI 公司,也是 AI 行业 "务实主义" 标杆,以实现 AGI 为核心愿景,自研 8 大核心大模型,覆盖文本、视频、音乐、音频、3D 等多领域,构建 "底层架构-技术能力-场景落地" 完整体系。依托底层统一全模态架构,打破模态壁垒,结合海外布局优势,实现 AI 音乐 Mureka、AI 社交 Linky、AI 智能体 Skywork 等业务规模化变现,海外收入占比极高,形成 "研发-落地-变现-迭代" 良性闭环,凭借技术硬实力与商业落地能力,成为 AGI 赛道最具潜力的落地样本。
行业: 科技
地区: 中国
使用的产品: Confidential Computing,Google Workspace API,Google Gemini
全部0条评论
快来发表一下你的评论吧 !