谷歌发布VLOGGER AI模型，实现肖像朗读音频内容

微云疏影 2024-03-19 1601

　　3 月 19 日，Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容，使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。

　　具体来说，VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型，通过 MENTOR 数据库进行训练，涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此，VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。

　　研发团队指出，相较于之前的同类产品，VLOGGER 的独特之处在于无需针对每个使用者进行单独培训，且不受限于人脸检测和裁剪，能产出完整的图像，且能够处理更多元化的情境如可见的身躯或者其他身份特征，这对于真实再现人物交流过程至关重要。

　　谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步，使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外，VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具，并能对已有的电影进行剪辑和表情调整。

打开APP阅读更多精彩内容