数字人“复刻”主播爆火网络,接入大模型有望开启实时互动

描述

 

电子发烧友网报道(文/李弯弯)数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。近些年数字人发展迅速,在短视频、直播、金融、医疗等各行业上都有所应用。而且随着AI技术的发展,数字人的生成也越来越容易。

在不久前的深圳国际人工智能展,就有众多企业展示其数字人技术,包括出门问问、华为、元境科技、相芯科技等。在展会期间,电子发烧友网记者与现场工作人员进行了详细交流,发现当前数字人技术和应用已经越来越成熟。

可以说多国语言的数字人

此次展会上,华为重点展示了盘古大模型及其行业应用。在其展台上,记者注意到,华为也展示了其盘古数字人直播案例。基于华为云MetaStudio分身数字人,多语种泛化,一次训练匹配多个语种,及多语言克隆,多语言驱动等特点,万兴科技打造了AIGC“真人”出海营销神器万兴播爆视频版及直播版,结合盘古数字人大模型,其实现母语一次训练、多种语言流畅适配,助力企业轻松出海营销。

数字化时代,跨境电商成为了许多企业发展的新方向。然而,从文化差异、语言问题,再到市场洞察、营销引流、用户运营,跨境电商立足海外市场面临重重压力。但全链路AIGC创作的“万能”助理万兴播爆,解决了外籍演员难找、多语言难适配、制作周期长、成本居高不下等痛点,帮助企业大幅降本增效,轻松出海营销。

大模型

在今年7月的华为开发者大会2023上,华为宣布,基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

除了万兴播爆数字人直播案例之外,现场还展示了多家基于华为云的数字人案例。展会现场,工作人员告诉电子发烧友,目前市面上有很多通过图片、文字生成的数字人,看上去是平面的,并不立体,华为云MetaStudio分身数字人看上去跟真人很相似了。对于数字人直播能否现场互动的问题,现场工作人员表示,当前数字人直播基本难以做到现场互动,不过通过盘古大模型,后续会继续进行优化,使得数字人能够实时回答现场用户提出的部分问题。

展会现场,出门问问的展台吸引了不少观众驻足观看。出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。该公司拥有领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

出门问问打造的AI数字人分身奇妙元,是一款专注于数字人短视频和直播服务的软件。包括多类型数字人和百种语言。据现场工作人员介绍,只需输入一段文本内容就能生成数字人视频,几秒钟就能完成,制作起来非常方便。

大模型

出门问问提供4种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D数字人定制和IP活化。比如真人形象克隆,可以实现真人形象1:1还原,只需录制一个5分钟视频,即可终身使用,输入文字数字人即可说话,表情神态接近真人。

奇妙元数字人视频制作非常简单,一键就可以将文本合成视频。相比于传统视频制作,奇妙元视频制作的优势在于:1、速度非常快,即使是制作一个真人口播视频,也仅需5分钟;2、数字人视频,可随时修改文本,随时生成;3、数字人更智能,一个数字人可说10国语言,500种声音。

如今数字人已经适用于各种应用场景,包括新闻播报、科普服务、培训视频、线上客服、带货种草、产品宣传、企业代言、金融宣传等。出门问问还提供形象和声音克隆,比如医生、律师等各种需要大量科普的职业,非常适合克隆自己的形象做数字人。

虚拟数字人涉及哪些前沿技术

在此次展会上,除了体验到快速生成数字人之外,我们也看到了数字人生成所涉及到的诸多技术。在参展的企业中,有一家提供全栈式虚拟数字人多场景应用解决方案服务的企业元境科技,该公司成立于2021年12月,由A股上市公司天娱数科战略投资。

元境科技以元享SaaS云平台、元趣AI为基础,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术,并打通AI智能交互设备链接,快速打通AI在各个垂直场景中的应用,赋能各行业。元境科技核心技术团队从2016年开始布局虚拟人业务,拥有全球顶尖的动态光场扫描、三维重建算法、无标记点视觉捕捉、AI语音驱动等前沿技术,在北京总部拥有400平米XR动捕基地。

虚拟人生成SaaS云平台“元享”,是以底层数据为核心生成各类产品应用的架构平台。从元境科技提供的材料来看,其包含动态光场扫描建模、三位重建算法、AI驱动、XR动捕基地等技术。制作流程上:1、动态动态光场扫描真人;2、AI算法进行三维重建;3、AI动画绑定;4、渲染;5、AI驱动。

数据方面,元境科技拥有LightStage扫描建模技术,包括面部三位模型与重光照数据采集、亚微米级别超高精度输出等;专业级表演捕捉技术,包括400平米超大动捕棚、实时多人动捕、实现线上线下同步直播;3D视觉捕捉芯片技术,包括3D视觉深度引擎、3D传感和AI计算、SLAM实时跟踪建图引擎。

大模型

算法方面,表情学习模型:1、利用LightStage对被采集人员面部动态表情进行扫描数据采集;2、自研SaaS平台对采集数据进行深度学习;3、一键生成虚拟形象独有的动态表情数据库。保障在数字人生成内容时高度还原真人在说话时的面部神经反应与细微表情。

AI算法表情驱动:利用综合动捕方案与自研智能算法,在直播期间可实现面部细微表情的高速传递与智能修正。

元境科技基于全球领先的完备人工智能元鲸框架,推出了数字员工产品线,从数据采集、训练到上线,最快仅需10小时。支持创建拥有情感交互能力、专业技能和内容生产能力的数字人,目前已被应用于很多领域及场景中。

记者在展会现场还看到一家提供数字人服务的企业相芯科技,据现场工作人员介绍,他们公司不直接给C端用户提供生成数字人,而是为需要制作数字人的企业提供SDK,让这些企业能够基于他们的SDK快速的生成数字人。

相芯科技成立于2016年,由全球图形学顶级专家领衔,团队成员来自微软、苹果、华为等国际知名企业。自研的“数字人平台AvatarX”和“数字物平台ObjectX”可刻画人的音容笑貌,描绘物的流光溢彩,已服务数千家海内外企业,实现手机、电商、金融、汽车、互娱、融媒体、政务、文博等领域的规模化应用。

此次展会重点展示其AvatarX数字人平台,该平台依托独创的“虚拟数字人引擎”,为各行各业提供从虚拟形象生成、自定义、驱动、云渲染到应用于一体的跨平台数字人解决方案。用户可通过组合不同能力的SDK,打造更面向未来的,更具差异化的数字人应用产品和数宇资产,赋能元宇由生态布局。

大模型

相芯科技拥有全栈数字人技术和全品类数字人产品,包括卡通数字人、视频数字人、超写实数字人、仿真数字人、全真数字人。应用场景包括社交、短视频创作、智能客服、虚拟主播、品牌代言人、智能车载等。相芯科技数字人方案具有诸多优势,比如形象自由生成;支持面部驱动、身体驱动、手势识别、语音驱动;支持实时云端渲染,兼容第三方渲染引擎;不同能力SDK自由组合,帮助开发者快速构建不同应用程序等。

在通过AvatarX SDK DEMO进行体验的时候,可以发现,AI形象生成非常快,只需上传照片,便可一键生成还原度极高的虚拟形象。该平台还支持形象自定义,支持拼脸扭脸、身体捏形、服饰美妆等不同方式对虚拟形象自定义编辑。据介绍,云平台为用户提供海量素材自由选择搭配,并保持定期更新与维护。

根据其官网介绍,其AI面部驱动支持51个维度的面部表情检测与3个维度的舌头活动检测,实时人脸追踪技术实现真人与虚拟人表情同步,即使只有侧脸也能稳定使用。AI身体驱动,通过实时驱动跟踪技术,实现真人与虚拟人动作同步,共同支持全身31个人体点位、26根骨骼方向驱动,单手21个手部点位。AI语音驱动,通过文本或语音驱动虚拟人口型,集成TTS、ASR和NLP服务,支持多种音色自由切换支持虚拟形象情绪和表情设置,并能控制虚拟形象肢体动作。

此外,用户的虚拟形象不仅可以与其他虚拟形象互动,也可与虚拟场景、虚拟道具互动,支持多人聊天功能与视频远程共享功能并实现了WebRTC服务集成。

小结

当前已经有不少虚拟数字人出现在短视频创作、直播等场景中,然而可以看到,不少数字人在表情、动作、语言方面与真人相比还相差甚远,在直播中数字人也无法进行互动,体验还有待提高。虚拟数字人的制作涉及很多技术,包括数据采集、动作捕捉、AI驱动、渲染等,要想让数字人有更好的体验,每个技术环节都需要打磨好。另外大模型的接入也让数字人在直播中能够互动有了可能。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分