适度放宽数据要求,让人工智能“吃饱”一点

描述

以文心一言、ChatGPT 为代表的人工智能生成服务方兴未艾,迅速风靡。一方面,人们为它的便利性和智能性惊叹,另一方面,用户对于生成内容会不会造成隐私泄露,会不会出现不和谐内容的忧虑也与日俱增。近日,网信办发布了《生成式人工智能服务管理办法(征求意见稿)》(简称《征求意见稿》),尝试探讨人工智能生成服务的规范问题。这一规定恰逢其时,对于促进生成式人工智能产业发展具有重要意义。但是,我仍然想说,法律法规对于新兴技术的限制应当把握好 " 度 ",既要对生成内容健康性进行有效引导,也不应让技术本身背太多的 " 锅 "。

例如,《征求意见稿》第七条提到 " 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责 "" 数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形 "" 保证数据的真实性、准确性、客观性、多样性 "。这类规定其实在实操上存在很大的困难。

首先,数据真实性、准确性是否属于个人信息,在不同的场景下很难界定。例如,很多新闻都说 " 冯德莱恩是欧洲的‘裸官’ ",欧盟又出来辟谣,这些新闻孰真孰假呢?一位知名医生的履历被挂在医院网站上,这属于 " 个人信息 " 还是 " 公共信息 " 呢?如果生成式人工智能连知名医生的信息也获取不到,它的价值会大打折扣。正是因为界定的模糊性,对海量数据的真实性和准确性进行逐一评判和甄别,几乎变成了不可能的任务。

其次,生成式人工智能技术是一种基于数据驱动的技术,它通过学习大量的数据,来模拟数据中的分布和规律,从而生成新的数据。这种技术本身并不具有判断真实性、准确性、有效性的能力,也不依赖于这些标准来优化自身的性能。因此,要求生成式人工智能服务提供者保证其提供的服务内容真实、准确、有效,实际上对技术存在一定的误解。这种要求会给生成式人工智能服务提供者带来巨大的压力和风险,也会抑制生成式人工智能技术的创新和发展。

生成式人工智能的大量训练数据来自于海量的互联网信息,而互联网信息则来自于千千万万互联网用户和古今中外的资料。正是这丰富而多样的数据来源,赋予其强大的智能。客观来讲,在当下的技术发展阶段,需要让生成式人工智能既 " 吃饱 " 又 " 吃好 ",才能促进其快速发展和进化。如果因难以甄别而将大量的信息弃之不用,无异于因噎废食。如果过于追求 " 真实性 "" 准确性 "" 规避个人信息 ",势必大大缩小模型的数据集数量,导致国内生成式人工智能技术难以有效发展、用户使用体验严重下降,甚至很快被国外的同类平台在技术上远远甩开。

所以,我们应当以长期主义的开放心态来看待生成式人工智能技术。给它以宽容,给它以空间,接受它的不完美。生成式人工智能技术不是一个能够甄别一切假新闻、能够保护所有人隐私的 " 神 " 级技术,但是它的有效发展,却能够实实在在地便利工作与生活,提高社会生产力。这么好的技术,我们一定要占领世界制高点。

法律法规对新兴技术的限制从来都是一个 " 度 " 的问题,过犹不及。对于新生事物,既要有效引导和管理,也要充分鼓励支持。要让生成式人工智能和互联网信息内容更加真实、健康,通过法律法规给生成式人工智能提供方压力只是治 " 标 ",在全社会践行社会主义核心价值观才是治 " 本 "。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分