谷歌发布VLOGGER AI模型,实现肖像朗读音频内容

描述

  3 月 19 日,Google 在其官方博客上发布了关于 VLOGGER AI 模型的相关信息。这是一款利用用户提供的肖像照片和音频内容,使人物生动地呈现音频内容并具备丰富面部表情的人工智能程序。

  具体来说,VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型,通过 MENTOR 数据库进行训练,涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此,VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的肖像视频。

  研发团队指出,相较于之前的同类产品,VLOGGER 的独特之处在于无需针对每个使用者进行单独培训,且不受限于人脸检测和裁剪,能产出完整的图像,且能够处理更多元化的情境如可见的身躯或者其他身份特征,这对于真实再现人物交流过程至关重要。

  谷歌将 VLOGGER 视为通往“通用聊天机器人”未来的关键一步,使人工智能能以自然的语音、手势和眼神等方式与人类交互。除此之外,VLOGGER 还可用作报告、教育领域以及旁白等方面的辅助工具,并能对已有的电影进行剪辑和表情调整。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分