AI公司处理数据困难,引发版权及道德问题

描述

  本周,两家知名媒体——《华尔街日报》和《纽约时报》对AI公司在获取优质训练数据时遇到的困境进行了深入关注。值得注意的是,报道中提到了关于AI版权法模糊不清的灰色地带。

  通过开发Whisper音频转录模型,OpenAI取得了一项突破性进展,成功转录了超过100万个小时的YouTube视频用于训练GPT-4大型语言模型。其实施的这一过程因涉及版权问题而存在严重法律风险,但OpenAI仍坚持为技术创新设定开拓者的姿态。

  另一位受访者——《泰晤士报》,通过揭露OpenAI总裁Greg Brockman积极参与YouTube视频收集工作的事实,强调此类操作的合法性问题。然而,OpenAI宣布将严格遵守相关法规,谨慎对待每一次行动。为了持续发展,OpenAI正不断尝试从各种渠道获取有益的数据。

  据OpenAI发言人Lindsay Held发表的声明显示,每个模型都在经过精心设计后配备了独特的数据集,目的在于让它们更准确地理解这个世界,能始终保持强大的研发能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.

  相比之下,谷歌对此事持有不同看法。谷歌不认同未经授权就抓取和下载YouTube内容的行为,同时指出,谷歌的robots.txt文件和服务条款坚决禁止此类行为发生。近段时间,YouTube CEO尼尔·莫汉在接受采访时也警告潜在的侵入者,使用YouTube视频训练AI模型的行为违反了其服务条款。

  面对日益激烈的竞争环境,Meta公司同样面临着数据可用性问题。公司AI部门为了提升自身竞争力,甚至开始考虑未经授权使用版权作品,尤其是在面临无法获得足够训练数据之际。维持可持续发展已经成为了当下AI科技行业的当务之急。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分