Sora还在PPT阶段，“中国版Sora”已经开放使用了！

Hobby观察 2024-06-17 6047

电子发烧友网报道（文/梁浩斌）今年春节期间，OpenAI的AI文字生成视频模型Sora惊艳全世界，极高的视频生成效果、长达60秒的视频生成长度，让过去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌团队发布的VideoPoet等各种文生视频模型都黯然失色。

然而，Sora在发布近4个月的时间里，依然没有开放普通用户使用，同时也没有更多的视频案例流出，目前只有官方发布的演示视频。

最近，快手旗下的名为“可灵”的文生视频大模型上线，与Sora不同的是，可灵发布即开放申请使用，目前已经有大量用户获得使用名额，社交平台上已经有不少用户上传了可灵生成的视频，甚至在海外AI圈迅速爆火。

对比Sora，可灵的效果如何？

快手在推出可灵时，很明确地表示可灵是“首个效果对标Sora且面向用户开放的文生视频大模型”。既然对标Sora，那么就要看下双方的实际表现如何了。

首先从生成视频的指标上看，Sora宣称能够输出1080p分辨率，最长60秒的视频，从OpenAI展示出的Demo来看，Sora的强大之处更在于物体模型的稳定，不仅是在单镜头运动中物体建模能够保持一致性，即使是多镜头的画面切换中，依然能够保持色彩、画面风格的一致。

可灵官方宣称的指标是，支持长达2分钟的电影级画面输出，支持720p和1080p视频输出，帧率30fps，同时支持多种宽高比。可灵采用3D时空联合注意力机制，能够更好地建模复杂时空运动，生成较大幅度运动的视频内容，同时能够符合运动规律。

Sora

提示词：小男孩在花园里骑自行车经历秋冬春夏四季变换

在一些演示视频中，也可以看到可灵的物理建模比较稳定，在一分多钟的长镜头画面中，整体画面一致性表现较为理想。

Sora

提示词：微距镜头，火山在一个咖啡杯中喷发

文生视频的一个重要应用就是生成现实中不存在的画面，能够充分将人的想象力转化成视频。Sora发布之初在咖啡杯中的海盗船令人印象深刻，可灵官方演示视频中也有类似的案例。

Sora

提示词：一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

在“吃汉堡”的场景中，Sora此前的演示视频已经较为真实地展示了汉堡的咬痕，但可灵添加了更多细节，不仅是汉堡在被咬后的缺口，同时小男孩咬下汉堡后嘴边残留的碎屑也展现出来了，更加符合物理规律。

不过，目前可灵内测的版本只支持5秒、720p分辨率的视频，有博主测试同样提示词，可灵有时候理解相对Sora会较弱。

比如提示词：动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的，重点是照明和纹理。这幅画的基调是惊奇和好奇，因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉，就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

这串细节描写丰富的提示词，Sora官网展示的效果是这样的：

Sora

而可灵是这样的：

Sora

当然，由于模型的不同，可能可灵的提示词优化方向会与Sora有所区别。

但从效果来看，可灵与Sora已经十分接近，更重要的是，可灵已经开放公众测试，Sora目前依然处于PPT阶段。

文生视频模型即将迎来大爆发？

尽管Sora表现依然有所领先，但此前Sora火爆出圈的短片《气球人》被爆经过大量后期调整，三个人的团队花了1.5至2周的时间才做出来，团队自曝Sora生成的视频素材最终用到影片里的只有1/300。

所以，Sora一直未开放使用或许也有实际效果不如预期的考虑。因此，可灵的强大之处在于，实打实地开放给创作者使用，目前在快手旗下的快影APP中就能申请使用资格，截至6月14日，已经有8万人在排队审核中。

同时，快手上已经出现大量采用可灵制作的短片，通过多个5秒的短镜头拼接而成，实际效果可见即可得。

而近期除了可灵之外，Luma AI也对外开放了其文生视频模型Dream Machine，更是宣称可以输出120秒120帧的高质量视频。

目前文生视频模型，包括可灵、Sora等都采用了Diffusion Transformer作为整体架构，有观点认为，Sora并不是技术性的突破，而是产品性的突破。即文生视频实际上也是大模型应用的一个方向，而Sora就是其中一个突破性产品。

可灵领衔的文生视频模型大规模应用，更是代表着这类产品的新高度。从产品上看，可以预见，未来半年里，国内外可能将会陆续涌现更多高质量的文生视频大模型产品，并大大加快迭代的进度。

文生视频大模型的爆发，将会有很大可能，彻底改变未来短视频创作的生态。

打开APP阅读更多精彩内容