世界数字技术院发布：生成式AI安全测试标准及大语言模型

微云疏影 2024-04-17 2027

描述

　　4月17日公布，第27届联合国科技大会于4月15至19日在瑞士日内瓦举行，期间，世界数字技术院（WDTA）于4月16日发布了多项重要科研成果，包括《生成式人工智能应用安全测试标准》与《大语言模型安全测试方法》两款国际标准。

　　据悉，上述两款标准主要针对大型模型与生成式AI应用领域的安全检测设定了新基准。参与制定工作的单位有OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等多家知名企业，其中，《大语言模型安全测试方法》由蚂蚁集团主导完成。

　　这两份标准为生成式AI应用（特别是基于大语言模型的应用）的安全性测试提供了明确的框架，涵盖了基础模型选取、嵌入和矢量数据库、RAG或检索增强生成、AI应用运行时的安全等多个方面。

　　另一方面，《大语言模型安全测试方法》为大模型自身的安全性评估提供了全面、严谨且实用性强的解决方案，提出了大语言模型的安全风险分类、攻击分类分级方法以及测试方法。据称，该方法能有效应对大语言模型的复杂性，全面测试其防御敌对攻击的能力，帮助开发者和组织识别并修复潜在漏洞，从而提升使用大语言模型构建的人工智能系统的安全性与可靠性。

　　值得注意的是，WDTA是一个总部位于日内瓦的国际非政府组织，遵循联合国的指导原则，致力于推动全球数字技术发展和国际合作。AI STR（安全、可信、负责任）计划是WDTA的核心倡议，旨在保障人工智能系统的安全性、可信性和责任感。

打开APP阅读更多精彩内容