作者 / 语言模型可解释性团队
大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布 Gemma Scope 工具包推动了可解释性科学的发展,该工具旨在帮助研究人员理解我们轻量级开放模型系列 Gemma 2 的内部运作机制。
近期我们正式发布了 Gemma Scope 2: 这是一套全面且开放的可解释性工具套件,适用于从 2.7 亿到 270 亿参数的所有 Gemma 3 模型规模。借助这套工具,我们可以追踪模型整个 "大脑" 中的潜在风险。
据我们了解,这是迄今为止 AI 实验室发布的最大规模可解释性工具开源项目。构建 Gemma Scope 2 共涉及存储约 110PB 数据,训练的参数量更是超过了 1 万亿。
随着 AI 持续发展,我们期待 AI 研究社区运用 Gemma Scope 2 来调试模型涌现行为,借助这些工具更有效地审计与调试 AI 智能体,最终实现加速开发实用且稳健的安全干预方案,以应对越狱攻击、幻觉生成及谄媚倾向等问题。
我们与 Neuronpedia 合作推出的 Gemma Scope 2 交互式演示现已开放体验。
Gemma Scope 2 新功能
可解释性研究旨在揭示 AI 模型的内部运作机制及其训练中习得的算法。随着 AI 的能力日益增强、系统日趋复杂,可解释性对于构建安全可靠的 AI 至关重要。
与上一代工具类似,Gemma Scope 2 如同为 Gemma 系列语言模型配备的显微镜。通过结合稀疏自编码器 (SAEs) 与转码器,研究人员得以深入模型内部,观察其思考内容,溯源这些思维如何形成并与模型行为产生关联。由此,这种洞察力进一步推动对越狱攻击等 AI 安全相关问题的更深入研究,例如揭示模型对外表述的推理过程与其内部真实状态之间的差异。
初代 Gemma Scope 已在模型幻觉、识别模型已知机密信息、训练更安全模型等关键安全研究领域发挥作用,而 Gemma Scope 2 则通过以下重大升级来支持更具雄心的研究:
全规模覆盖: 我们为整个 Gemma 3 系列 (参数规模最高达 270 亿) 提供了一整套完整的工具,这对于研究仅在大规模模型中显现的涌现行为至关重要。例如,此前 270 亿参数的 C2S Scale 模型曾协助科研人员发现潜在的新型癌症治疗路径。尽管 Gemma Scope 2 并未在该模型上进行训练,但这一案例体现了此工具套件未来有望解析的涌现行为类型。
更精细的复杂内部行为解析工具: Gemma Scope 2 包含针对 Gemma 3 模型系列每一层训练的稀疏自编码器与转码器。通过引入跳跃转码器和跨层转码器,让解析贯穿在模型中的多步骤计算与算法变得更加轻松。
先进的训练技术: 我们采用最前沿的训练技术,特别是 Matryoshka 训练技术,该技术能帮助稀疏自编码器识别更有价值的概念,并修正了在初代 Gemma Scope 中发现的部分缺陷。
对话机器人行为分析工具: 对于针对聊天场景微调的 Gemma 3 版本,我们还专门提供定制化的可解释性工具。这些工具有助于分析复杂、多步骤的行为模式,例如越狱攻击、拒绝响应机制以及思维链的忠实度。
推动领域发展
我们希望通过发布 Gemma Scope 2 为 AI 安全研究社区提供一套前沿的可解释性工具,以推动该领域发展。针对那些仅在更大、更先进的大语言模型中出现的现实安全问题,这种全新的开放程度提供了至关重要的解决途径。欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。
全部0条评论
快来发表一下你的评论吧 !