视频生成模型 Sora 的效果惊艳了全球,从宣布至今,我们时常能够看到各种基于 Sora 生成的视频在互联网上流传,尽管它有一些小瑕疵,但其效果依然引入惊叹。我们已经迫不及待地想像当初 ChatGPT 发布一样能够立即使用上 Sora,然而在近日,据 OpenAI CTO Mira Murati 在采访中表示,Sora 目前还在开发和测试阶段,OpenAI 计划在今年内的某个时间发布 Sora,目前仍在打磨中,且正在进行外部测试。
除了这个发布时间之外,Mira 还披露了 Sora 的其他几个关键信息:
关于 Sora 生成视频的时间:对于 720P 分辨率或 20 秒长视频,生成时间大概在几分钟,这取决于提示的复杂性。
目前视频依然没有声音,但未来 Sora 可能会支持视频音效。
在 Sora 的训练之中,Sora 的数据源是大家颇为关心的问题。当被问及 Sora 训练的素材是否包括 YouTube、Instagram 和 Facebook 上的视频时,Mira Murati 的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称 Sora 的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括 Shutterstock 的内容。
计算资源:Sora 的生成过程相比之前 ChatGPT 需要更多的计算资源,OpenAI 正在致力于优化技术,相信未来应该也会和此前 Altman 所讲的 GPT 一样,成本得到大幅降低,最终能够极大地便于公众使用。
安全性和可靠性:Sora 目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。
内容限制:与 DALL-E 类似,Sora 在生成内容时也会有一些限制,例如不生成公众人物的图像(但 DALL-E 很神奇的是能够生成公司 logo),以避免误导和滥用。
裸露内容:关于裸露内容的处理,提到 OpenAI 正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容。
正在研究对视频进行水印标记,但是相对于水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。
对于 Sora 我们至今依然只能通过它的技术报告论文以及各种讨论里寻找蛛丝马迹,这也给复现 Sora 带来了极大的难度。目前国内潞晨科技、北京大学与兔展已初步实现了 Sora 复现的方案并均已开源,并取得了不错的反馈。除了精准控制这一视频生成的重要模块之外(Sora 本身也正在致力于解决精准控制这一问题),对于复现目前面临的最大难题依然是算力不足和数据源的需求,从 Mira Murati 的分享中我们也可以一窥其未来方向。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !