在OpenAI研发出Sora后不久,谷歌Deep Mind团队公开了在世界模型领域的新进展——基础世界模型Genie。该模型主要借鉴非对抗方式进行训练,可根据各类图像乃至草图生成具有丰富动作表现的2D世界,从而实现人们与虚构世界的深度互动。只需输入一张图像,Genie便可构建一个全新的交互环境。
DeepMind指出,Genie有能力根据最新的文生图大模型生成初始帧,再借助Genie的能力赋予这些图像更深层次的含义。Genie作为一个包含110亿参数的基础世界模型,成功研发得益于谷歌声名在外的潜在动作模型,用于推断视频帧间的运动,视频分词器则可以将原始视频帧转化为离散标记,而动态模型则负责预测下一帧的活动情况。
值得注意的是,相较于号称“高清晰度、高真实感”的Sora, Genie似乎更注重潜在行为的预测,而不是极力展现画面的真实性。现阶段,从图像或文本中生成高质量视频尚未成为Genie关注的核心业务点。DeepMind进一步透露,Genie主要围绕“2D平台类游戏及大约率算法”展开应用,这种处理方法具有广泛适应性,可应用于各领域,也可以扩展至更大规模的互联网数据集。
然而,这个还在试验阶段的Genie尚不能视为商业产品问世。据DeepMind人士解释,Genie的训练视频为160x90像素且每秒仅10帧的超低分辨率视频,生成的模拟游戏以每秒1帧的速率运行。因此,实际场景更为复杂且要求更高实时性的商业应用仍需耐心等待解决方案。
全部0条评论
快来发表一下你的评论吧 !