微软科技推出Office Agent多智能体系统

描述

作者:微软全球资深副总裁、微软AI亚太总裁 张祺

今天,我们正式推出 Office Agent —— 一个基于开源技术栈、Anthropic Claude 模型,并采用全新的“TDD-品味驱动开发(Taste-Driven Development)”范式构建的多智能体系统。Office Agent 的目标是帮助用户快速生成高质量内容:精致的 PowerPoint 演示文稿、可直接使用的 Word 文档,和即将推出的动态 Excel 表格。

Office Agent经由多个专用智能体的协同,实现了从规划、撰写到完善的全流程自动化,全面提升了Office内容生产效率。该系统基于通用型智能体架构,已通过行业领先基准测试GAIA认证,性能领先,在处理复杂工作流时兼具可靠性与精细度。

Agent

▲ GAIA 报告结果

AI 服务商 公布的官方指标

Manus:2025 年 3 月 10 日;Genspark:2025 年 4 月 25 日;OpenAI DR:2025 年 2 月 2 日。

说明:L1、L2 和 L3 分别表示难度递增的测试查询,从“最简单”到“最困难”。

01 架构设计

基于开源的多智能体系统编排

在核心架构中,Agent 由多智能体编排引擎驱动:

中央规划智能体:负责协调任务并整合结果

专用智能体(涵盖代码、金融、搜索等领域):并行执行各自任务

安全工具层:集成多种实用工具并提供沙盒环境

基于开源框架和社区创新,Office Agent 实现了高效协同的智能体工作流,兼具日常任务所需的性能与可靠性。

Agent

02 TDD - 品味驱动开发(Taste-Driven Development) 新范式

先立审美之本,后行技艺之工

大多数 AI 智能体生成演示文稿时,仅仅输出原始代码,导致生成的文档版式不均、视觉元素杂乱,用户不得不进行多轮手动修正。Office Agent致力于打造精致、专业的内容,为用户提供更高的价值。

首先,Office Agent 引入了一种全新的创作方法——品味驱动开发(TDD),即以品味为导向的开发理念:

可复用的“品味设计范式”:源自高质量、长期积累的内部内容;

统一的设计语言:确保演示文稿整体风格一致;

即用且美观的输出:兼顾实用性与审美。

借助TDD,Agent在AI生成内容的美学布局上达到了更高标准——以演示文稿生成为例,基于TDD框架,优雅的PPT生成以“品味提炼”为起点:团队分析了海量高质量演示文稿样本,提取其中的核心品味设计蓝图。这些提炼出的先验知识被注入智能体的规划与执行环节,并直接影响其生成的版式、风格与内容。

其次,工作流采用迭代循环。

每则生成内容均须通过“内容自验证模块”进行审校,评估质量与美感。审校反馈会回传给智能体,驱动其自我迭代与优化。最终产出为一组 HTML5 幻灯片,既突出设计的张力,又兼顾结构的规范。为最大化提升生成内容的可用性,团队提供了转换工具,可将HTML5自动转换为PowerPoint格式,以便用户在Microsoft PowerPoint中进一步编辑。

Agent

Office Agent 的流程与输出示例:

神经网络讲座

提示词:“我将进行一场关于神经网络的讲座——能帮我制作教学幻灯片吗?”

未来工作趋势

提示词:“创建一份演示文稿,总结塑造未来工作的全球五大趋势(如 AI 采用、远程办公、基于技能的招聘)。请包含 Microsoft WorkLab 的数据作为参考来源。”

咖啡文化演变

提示词:“制作展示咖啡文化演变的幻灯片。”

供应链韧性转型

提示词:“展示全球企业供应链战略从‘效率优先’向‘韧性优先’的转变。以雅致的世界地图、时间轴图形展示变迁,用精炼的衬线标题和柔和背景烘托整体格调。”

其三,自动主题:高质量输出的新方式。

长期以来,制作演示文稿时,预设主题都是许多用户的默认选择。长期以来,用户制作演示文稿时往往依赖预设主题。预设主题提供了多样性,支持用户个性化表达,却往往牺牲了与用户需求及喜好精准匹配的可能性。传统的假设是,选项越多越好,只要提供足够多的模板,用户总能从诸多选项中找到较为合适的。然而,这未必是最佳的设定。用户或许并不想在无尽的设计中遴选——他们需要的是能够恰到好处展现其思想与创意的设计。

这正是我们设计自动主题(auto theming)的原因。它并不是让用户在一长串预设模板中挑选,而是直接读取内容本身,并生成与之自然契合的设计。结果不只是“又一个主题”,而是“真正合适的主题”。

示例

其四,专家引导的“风格规则“

TDD 固然提升了质量底线,但系统的核心依旧承载着人的判断。在开发过程中,设计师通过审视和打磨示例案例、精选最具代表性的模式,塑造了系统的“审美品味”。这些设计洞察被提炼成风格规则,由智能体在运行时应用,从而保证生成结果既呼应核心指令,又能规模化输出精致的内容。

其五,TDDEval——“品味驱动生成”的基准测试。

为了评估 TDD 在 PowerPoint、Excel 和 Word 中的表现,团队开发了 TDDEval 基准测试。与通用型基准不同,TDDEval确保了知识型工作的广度,涵盖多种测试任务。该基准包括高价值、具有代表性的场景,例如:

创建商业计划书 PPT;

在 Excel 中生成预算预测;

撰写正式的 Word 报告。

同时,它还包含边界场景的测试,从开放性提示到精确分析请求,确保系统具备足够的稳健性。

质量评估采用双重视角框架:

内容质量:评估输出在事实与结构上的完整性,包括:

(a) 是否基于源材料

(b) 主题相关性

(c) 覆盖完整性

(d) 逻辑结构

(e) 实用性

品味评分:衡量美学与体验维度,包括:

(a) 视觉吸引力

(b) 布局与组织

(c) 字体排版质量

(d) 设计一致性

(e) 视觉素材的精选度

结合这两个维度,可以全面评估输出是否既正确又具备专业外观与即用体验。通过同时量化“内容”和“风格”,TDDEval为AI生成的生产力内容设定了更高的质量标准。

03 经验总结

通过打造和测试 Office Agent,我们积累了许多经验,这些经验直接影响了系统的设计与表现。它们并揭示了在真实生产力场景中,让智能体系统做到可靠、精准、实用所需的关键要素。

经验 1:何时应优先采用通用代码执行,而非任务专用工具

虽然任务专用工具在可预测、可重复的场景中表现良好,但通用型智能体需要具备灵活性,并能在多样化的工具调用中实现泛化。为打造高质量的通用智能体,Office Agent 采用“code-first”的方法,即允许模型编写并执行代码(如MP3转写、PDF 文本提取),而不是依赖任务专用工具——虽然专用工具更可控、更稳定,但它们会限制灵活性,影响智能体的泛化能力。

这种设计让智能体更像一名全栈开发者,而不是只会解决单一任务的“专才”。

经验 2:自我验证提升准确性率

对于复杂或多步骤任务,智能体需要定期验证进度并自我评估,以提高准确率:

鼓励模型重述原始问题,并与当前输出进行比对,确保一致性。

插入中间检查点,提升可靠性,尤其适用于需要精确度、筛选或多源信息整合的任务。

人机协作:用户可要求 Office Agent 审查执行结果或生成内容,确认是否符合预期,并提出进一步调整。

经验 3:模拟人类浏览,而非仅抓取内容

浏览器工具应支持类人化的网页导航,而不仅仅是页面抓取:

智能体不仅要提取原始页面内容,还应具备类人浏览能力。

让模型执行以下操作:

点击链接、翻页、滚动长页面;

将每次浏览视为持续的信息收集过程。

将所有中间观察纳入上下文,提升推理能力。

利用基于大语言模型的摘要技术高效压缩长篇内容,在保留关键信息的同时优化上下文记忆。

经验 4:注入偏好知识,提升任务执行质量

虽然LLM拥有广泛的世界知识,但在没有明确引导时,往往难以形成对任务的特定偏好。通过注入先验知识或偏好(如“处理.docx文件时使用python-docx”),可以帮助智能体更快选择最佳执行路径,从而提高一致性和工具选择的合理性。这种引导还能减少幻觉,确保决策基于可靠、经过验证的模式。

04 未来之路

目前,Office Agent 已通过 Frontier 计划向 Microsoft 全球版个人和家庭订阅用户开放,面向商业用户的支持也即将到来。Office Agent是一款“从0到1”的人机协同创作工具,能够从无到有生成高质量、基于研究的内容;而PowerPoint、Word和Excel中的Copilot则继续作为应用内专家,帮助用户在不同应用中进行优化、编辑和迭代。两者结合,能够无缝融入用户的工作流程。

这仅仅是一个开始。我们团队正在推进智能体的编排能力,丰富审美风格库,并将进一步扩展其在微软生态系统中的集成。Office Agent智能体系统不仅仅是任务助手,更将重塑知识型工作的创作、打磨与规模化完成方式。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分