谷歌推出多模态VLOGGER AI

CHANBAEK 2024-03-22 1725

谷歌最新推出的VLOGGER AI技术引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER AI就能让图片中的人物仿佛真的在朗读这段音频，面部表情丰富，栩栩如生。

VLOGGER AI作为一种专为虚拟肖像设计的多模态Diffusion模型，其强大能力得益于MENTOR数据库的丰富资源。这个数据库收录了超过80万名人物肖像，以及累计超过2200小时的影片，使得VLOGGER能够生成各种种族、年龄、穿着和姿势的肖像影片，极大增加了其适用性和实用性。

谷歌对VLOGGER AI寄予厚望，将其视为迈向“通用聊天机器人”的重要一步。未来，这种AI技术有望通过语音、手势和眼神交流等方式，以更加自然和人性化的方式与人类进行互动。

这一技术的推出不仅展示了谷歌在人工智能领域的深厚实力，也为虚拟形象、影视制作等领域带来了全新的可能性。未来，我们可以期待看到更多由VLOGGER AI生成的生动、真实的虚拟人物形象，在娱乐、教育、广告等多个领域大放异彩。

打开APP阅读更多精彩内容