Facebook研究人员发布了一个数据集,旨在帮助机器学习开发人员测试算法的偏差。
即使在不同的光照条件下,算法是否能够对不同年龄、性别和肤色的人一视同仁呢?Facebook的AI Red团队近日发布了一个名为“Casual Conversations”的数据集,用于回答这个问题。10兆字节的数据由3011名参与者录制的视频组成;数据集由每人约15个1分钟片段组成,总时长超过45000分钟。视频分别被标记出年龄和性别,由每个参与者自我报告,肤色由训练有素的注解者使用标准比例确定,以及照明条件,也由注解者确定。
Facebook AI Red团队的研究经理Cristian Canton给了我一个简单的例子,说明了开发人员是如何使用数据集的。
“考虑门户(Portal)设备,”他说。(门户是Facebook价值150美元的桌面智能屏幕。)“我们有一个摄像头,可以跟踪人们。如果我现在是工程师来构建这项技术,为了确保它的包容性,我可以获取临时会话数据集,通过门户中的跟踪算法来运行它,并测量它在哪些地方表现不好。比如说,你可能会发现,对于一个特定年龄、肤色或性别的人来说,在昏暗的光线下,这是行不通的。然后我就会知道我的算法对于特定的子组有缺陷。”
Facebook的研究人员在去年的Deepfake Detection Challenge(一项旨在开发自动识别欺诈媒体工具的竞赛)的前五名获奖者身上测试了该数据集。
在近日发布的一篇研究论文和博客文章中,他们报告说,虽然所有五种算法都在与较暗的肤色作斗争,但在年龄、性别和光照条件等方面表现最为一致的模型并不是第一名得主Selim Seferbekov,而是排名第三的团队NTechLab。有趣的是,排名第四的18岁的研究小组最擅长分析的是年龄在45岁以上的年龄组中的受试者的视频。
在不同的人群中表现平平,并不是Deep Fake Challenge的评判标准之一,因为还没有完整的非正式对话数据集。
Said Canton说:“如果我们今天重新开始比赛,也许我们会考虑寻找一个更具包容性的方法。”
Canton说,近日发布的Casual Conversations数据集只是创造人工智能公平所需工作的开始。首先,他指出,这个问题是多方面的,虽然有这样的数据是有帮助的,但这并不是最终的解决办法。
Image: FacebookThese pie charts show the frequency of the different tags for age, gender, apparent skin tone, and lighting conditions in the 45,186 videos that make up the Casual Conversations data set.
至于数据集开发本身,他说,该团队还只是在“漫长旅程的第一步”。我们已经确定了年龄、性别、肤色和光照条件,但(这些视频)都是在美国录制的。如果我们在其他国家录制,我们可能会发现更多我们需要考虑且尚未看到的多样性。”
Canton指出,录音的音频部分也代表了尚未开发的潜力。这些音频文件是通过要求受试者回答简单的对话提示(如“你最喜欢的菜是什么”)而创建的,目前只针对年龄和性别进行标记。“我们还没有对口音进行注释,但这是未来可实现的一个潜在途径。我们确实认为这篇文章可以有一些有趣的结果。不过,我们要测试音频模型的包容性。”
Canton希望,将这些数据公之于众将引发反馈,从而使数据集更丰富、更具包容性。“我很希望看到它得到采用,然后让我的同事和学者告诉我们更多他们的想法。我们希望进行自我批评。有了反馈,我们可以不断改进它。我们希望它成为衡量人工智能公平性的标准方式。”
Canton还希望这个数据集的发展能够树立一个新的标准。他对这个数据集的创建方式感到自豪,包括它是可信来源。他在我们的谈话中多次强调,3000多名受试者的付出是有报酬的,并且他们了解自己的声音和视频图像是如何被使用的,如果他们改变了参与的想法,以后可以退出。
他说:“我们正试图为负责任的人工智能在未来的样子设定一个标准,”他补充说,Facebook团队希望“激励更多的人记录扩充数据集。重要的是要做正确的事情 -- 通过使用正确的工具。”
编辑:lyn
全部0条评论
快来发表一下你的评论吧 !