文生视频Pika 1.0爆火！一句话生成视频，普通人也能当“导演”

Carol Li 2023-12-01 3039

描述

电子发烧友网报道（文/李弯弯）11月29日，美国AI初创公司Pika labs发布了全新的文生视频产品Pika 1.0，这款产品能够生成和编辑3D动画、动漫、卡通和电影。用Pika 1.0制作视频几乎不需要任何门槛，用户只需要输入一句话，就可以生成想要的各种风格的视频，并通过简单的描述，更改视频中的形象和风格。

一句话生成视频，颠覆传统视频制作

Pika成立于今年4月，创始人郭文景和联合创始人兼CTO Chenlin Meng，都是斯坦福大学AI Lab博士生。一位专注于NLP（自然语言处理）和图形学，另一位主攻计算机视觉方向，都有生成式AI的学术经历。今年7月，Pika在Discord推出服务器，截至目前用户已超50万，每周能生成数百万个视频。

11月29日，Pika Labs正式推出了最新一代视频生成模型 Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升，还支持 3D 动画、动漫或电影等多种风格视频。此外，用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。

具体来看，Pika 1.0的效果有多惊艳。视频生成方面，可以通过文字生成视频，也可以图片生成视频。比如，只需输入提示词“马斯克穿着太空服，3D动画”，一个动画版本、穿着太空服准备乘坐火箭上太空的马斯克即可生成，外形、动作、背景等元素均十分逼真，可以媲美花大成本制作的3D动画影像。

这是文字生成视频，另外也可以图片配合提示词生成视频，图片为第一帧，再用文字控制动画变化效果和镜头。比如，可以轻松让名画《最后的晚餐》变得生动起来。

除了文字生成视频，图片生成视频，还可以通过原有视频生成更高质量的视频。其展示了一个骑马的黑白原视频，通过Pika 1.0生成了物种不同风格的动画，几乎涵盖现有电影和动画大部分风格，看上去质量效果非常好。

除了视频生成，Pika 1.0还能够进行视频编辑，用户只需要选定编辑区域，就能根据文本提示词修改特定区域。比如，不喜欢视频中的衣服，可以轻松更换衣服的款式和颜色；只需要用鼠标框一下，输入“一副酷酷的太阳镜”，马上就能给视频中的狒狒带上墨镜。

此外，Pika 1.0还能够修改轻松修改视频尺寸。虽然这个技术在AI绘画领域早就实现了，但是目前Pika第一个将其用在视频领域。

总的来说，Pika 1.0的功能包括：文本生成视频、图像生成视频功能，只需要输入简单的文本描述，或上传图像配合文字，就可以创建高质量的视频；视频风格转换；对视频内容进行编辑，更改或者增加图片里面的元素，还能够更改视频的宽高比尺寸等。

据称，当前Pika Labs团队仅有4位全职成员，但兼具学术和创意两个领域的顶尖人才。Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员，拥有顶尖的学术和科研经历；Karli Chen 作为团队第三位创始人及创始工程师拥有CMU的ML&CV硕士学位，Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师；Matan Cohen-Grumi则在创意领域经验丰富。

在正式推出 Pika 1.0的同一天，Pika也公开透露，目前已完成A轮融资，筹资总额达到5500万美元。投资人包括OpenAI创始成员安德烈·卡帕西（Andrej Karpath）、Github前CEO纳特·弗里德曼（Nat Friedman）、Quora创始人亚当·迪安杰罗（Adam D'Angelo）等。

目前Pika 1.0已经开启申请试用，该公司表示，正在努力修改算法进一步改进模型，并开发用于过滤受版权保护材料的模型。另外，目前Pika的产品还是免费的，但最终可能会推出分层订阅模式，付费用户能享受更多功能。同时Pika也在开启招聘计划，包括技术、产品、运营等，预计明年会将团队扩充到20人。

AI视频生成技术的前景及挑战

近段时间，除了Pika 1.0，已经有多家企业发布新的视频生成工具。11月16日，社交媒体巨头Meta发布工具Emu Video，能够基于文本和图像输入生成视频剪辑。几乎同时，字节跳动发布了PixelDance模型，通过描述（纯文本）+首帧指导（图片）+尾帧指导（图片），即可生成包含复杂场景和动作的视频。

11月21日，Runway动态笔刷Motion Brush面世，该工具发布的时候引起不小的关注，其特别之处在于，只需在任意图片上抹一笔，就能让其变成一段动态视频。作为最早探索视频生成领域的领头羊之一，过去一年，Runway 先后发布了 Gen1、Gen2，此次推出的Motion Brush在可靠性上更是又向前迈进一大步。

11月24日，专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion（稳定视频扩散模型），这款模型能够通过现有图片生成视频，是基于之前发布的Stable Diffusion文本转图片模型的延伸。

除此之外，Adobe也在文生视频领域有新动作。日前，该公司宣布已收购AI视频生成创业公司Rephrase.ai，后者主要通过AI技术将文本转换为虚拟形象视频。Adobe高级副总裁兼总经理Ashley Still称，Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。

从Adobe收购Rephrase.ai，及国内外企业纷纷布局AI视频生成领域，可以看到，AI生成内容大潮已经逐渐从文本和图片，进一步转向视频生成。

当前，短视频、短剧市场方兴未艾，AI视频技术的不断成熟和应用，有望让视频创作更简单，成本更低。正如在Pika 1.0发布之际，OpenAI创始成员安德烈·卡帕西（Andrej Karpathy）在X平台发文感慨“每个人都能成为多模式梦想的导演，就像《盗梦空间》中的建筑师一样。”

全世界最大的AI开源社区Hugging Face的CEO克莱门特（Clement）表示：“2024年，某个主流媒体领域将会充斥AI生成的内容。”

AI视频生成有着可想象的美好前景，同时当前来看，它也存在一些挑战。它与此前的AI生成图片有所不同，Pika Labs创始人Demi接受媒体采访时表示，视频有很多和图片不一样的问题，比如要确保视频的流畅性、确保动作，视频比图像更大，需要更大的GPU内存，视频生成需要考虑逻辑问题，还要考虑如何生成，是一帧一帧生成，还是一起生成，现在很多模型是一起生成，生成的视频就很短。如果要一帧一帧生成，要怎么做，其实视频生成有很多图片生成不会面临的新的技术问题。

该公司的联合创世人 Chenlin谈到，虽然视频的每一帧都是一张图片，但比图片困难得多。每一帧的生成质量要高，相邻帧之间还要有关联性。当视频很长时，确保每一帧都协调一致是个相当复杂的问题。在训练时，处理视频数据时要处理多张图片，模型需要适应这种情况。比如，如何将100帧图片传输到GPU上是一个挑战。而在推理时，由于涉及到生成大量帧，推理速度相对于单张图片会更慢，计算成本也会增加。

从目前的情况来看，虽然现在的AI视频生成已经展现出很惊人的效果，不过仍然面临新的挑战，还有需要突破的地方，比如视频的时长，清晰度等等，相关企业对此还需要持续探索。

总结

过去两年，生成式AI大潮席卷全球，图片生成率先火出圈并获得大量使用，不少AI创业企业也因此实现盈利。如今，AI视频生成逐渐成为创业企业及资本追逐的新热点，目前已经有众多企业推出相关产品，随着Pika 1.0的发布，AI视频生成技术也走上了一个新高度。可以想象，随着技术的不断突破，AI视频生成技术将短视频、短剧等行业带来新的可能。

打开APP阅读更多精彩内容