AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

描述

  据了解,国际知名人工智能社区MLCommons近期推出了AI Safety人工智能安全基准测试的v0.5版,该测试由多领域专家团队共同打造,以识别并防范AI应用中的潜在风险。

  随着AI技术的快速发展,相关安全问题也日益凸显。仅过去数周内,便有LastPass公司遭遇音频深度伪造攻击等案例浮出水面。为了应对这一挑战,新推出的AI Safety基准测试将成为模型开发者的有力工具,助力他们构建更为稳固的安全防线。

  AI Safety基准测试主要通过大型语言模型对各类危险提示词的反应来评估其安全性。该测试的v0.5版已开始收集社区反馈,预计将于今年晚些时候推出正式的v1.0版。

  v0.5版的AI Safety基准测试主要关注通用聊天文本模型,而v1.0版则将加入针对图像生成模型的测试内容,并初步探讨交互式代理模型的安全测试方法。

  该测试涵盖了超过43000个测试提示词,采用Meta公司的Llama Guard对大模型的危险提示响应进行评估。这些提示词包括常见模板及危险场景描述短语,覆盖七类安全危害类型,未来还将进一步扩展至至少十三类。

  最后,AI Safety基准测试将根据测试结果给出五个安全评级,以便用户更好地理解和使用。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分