电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长度,让过去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌团队发布的VideoPoet等各种文生视频模型都黯然失色。
然而,Sora在发布近4个月的时间里,依然没有开放普通用户使用,同时也没有更多的视频案例流出,目前只有官方发布的演示视频。
最近,快手旗下的名为“可灵”的文生视频大模型上线,与Sora不同的是,可灵发布即开放申请使用,目前已经有大量用户获得使用名额,社交平台上已经有不少用户上传了可灵生成的视频,甚至在海外AI圈迅速爆火。
对比Sora,可灵的效果如何?
快手在推出可灵时,很明确地表示可灵是“首个效果对标Sora且面向用户开放的文生视频大模型”。既然对标Sora,那么就要看下双方的实际表现如何了。
首先从生成视频的指标上看,Sora宣称能够输出1080p分辨率,最长60秒的视频,从OpenAI展示出的Demo来看,Sora的强大之处更在于物体模型的稳定,不仅是在单镜头运动中物体建模能够保持一致性,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致。
可灵官方宣称的指标是,支持长达2分钟的电影级画面输出,支持720p和1080p视频输出,帧率30fps,同时支持多种宽高比。可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。
提示词:小男孩在花园里骑自行车经历秋冬春夏四季变换
在一些演示视频中,也可以看到可灵的物理建模比较稳定,在一分多钟的长镜头画面中,整体画面一致性表现较为理想。
提示词:微距镜头,火山在一个咖啡杯中喷发
文生视频的一个重要应用就是生成现实中不存在的画面,能够充分将人的想象力转化成视频。Sora发布之初在咖啡杯中的海盗船令人印象深刻,可灵官方演示视频中也有类似的案例。
提示词:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡
在“吃汉堡”的场景中,Sora此前的演示视频已经较为真实地展示了汉堡的咬痕,但可灵添加了更多细节,不仅是汉堡在被咬后的缺口,同时小男孩咬下汉堡后嘴边残留的碎屑也展现出来了,更加符合物理规律。
不过,目前可灵内测的版本只支持5秒、720p分辨率的视频,有博主测试同样提示词,可灵有时候理解相对Sora会较弱。
比如提示词:动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。
这串细节描写丰富的提示词,Sora官网展示的效果是这样的:
而可灵是这样的:
当然,由于模型的不同,可能可灵的提示词优化方向会与Sora有所区别。
但从效果来看,可灵与Sora已经十分接近,更重要的是,可灵已经开放公众测试,Sora目前依然处于PPT阶段。
文生视频模型即将迎来大爆发?
尽管Sora表现依然有所领先,但此前Sora火爆出圈的短片《气球人》被爆经过大量后期调整,三个人的团队花了1.5至2周的时间才做出来,团队自曝Sora生成的视频素材最终用到影片里的只有1/300。
所以,Sora一直未开放使用或许也有实际效果不如预期的考虑。因此,可灵的强大之处在于,实打实地开放给创作者使用,目前在快手旗下的快影APP中就能申请使用资格,截至6月14日,已经有8万人在排队审核中。
同时,快手上已经出现大量采用可灵制作的短片,通过多个5秒的短镜头拼接而成,实际效果可见即可得。
而近期除了可灵之外,Luma AI也对外开放了其文生视频模型Dream Machine,更是宣称可以输出120秒120帧的高质量视频。
目前文生视频模型,包括可灵、Sora等都采用了Diffusion Transformer作为整体架构,有观点认为,Sora并不是技术性的突破,而是产品性的突破。即文生视频实际上也是大模型应用的一个方向,而Sora就是其中一个突破性产品。
可灵领衔的文生视频模型大规模应用,更是代表着这类产品的新高度。从产品上看,可以预见,未来半年里,国内外可能将会陆续涌现更多高质量的文生视频大模型产品,并大大加快迭代的进度。
文生视频大模型的爆发,将会有很大可能,彻底改变未来短视频创作的生态。
全部0条评论
快来发表一下你的评论吧 !