AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

微云疏影 2024-04-19 1372

　　据了解，国际知名人工智能社区MLCommons近期推出了AI Safety人工智能安全基准测试的v0.5版，该测试由多领域专家团队共同打造，以识别并防范AI应用中的潜在风险。

　　随着AI技术的快速发展，相关安全问题也日益凸显。仅过去数周内，便有LastPass公司遭遇音频深度伪造攻击等案例浮出水面。为了应对这一挑战，新推出的AI Safety基准测试将成为模型开发者的有力工具，助力他们构建更为稳固的安全防线。

　　AI Safety基准测试主要通过大型语言模型对各类危险提示词的反应来评估其安全性。该测试的v0.5版已开始收集社区反馈，预计将于今年晚些时候推出正式的v1.0版。

　　v0.5版的AI Safety基准测试主要关注通用聊天文本模型，而v1.0版则将加入针对图像生成模型的测试内容，并初步探讨交互式代理模型的安全测试方法。

　　该测试涵盖了超过43000个测试提示词，采用Meta公司的Llama Guard对大模型的危险提示响应进行评估。这些提示词包括常见模板及危险场景描述短语，覆盖七类安全危害类型，未来还将进一步扩展至至少十三类。

　　最后，AI Safety基准测试将根据测试结果给出五个安全评级，以便用户更好地理解和使用。

打开APP阅读更多精彩内容