思必驰基于DFM-2大模型推出自然场景数字人生成技术

思必驰 2023-08-31 2636

描述

AIGC大爆发，科技革新不断，数字人在各种场景中崭露头角，如数字人主播、数字人解说员、数字人导购等。根据真人形象AI生成数字人分身，这项技术已经从未来走进现实。

数字人（Digital Human）是指利用计算机技术和人工智能技术，根据真实人类的外貌、动作、声音等特征，生成的具有高逼真度以及高交互性的虚拟人物，可以为人类提供多样化的服务。

近期，【东风生万物】思必驰DFM-2大模型及创新技术应用成果发布会上，思必驰联合创始人、首席科学家俞凯的数字分身重磅亮相发布会现场。

思必驰数字人生成技术

思必驰联合创始人、首席科学家俞凯

思必驰基于DFM-2大模型推出的自然场景数字人生成技术，采用扩散生成模型，通过小数据模型训练，实现高品质数字人生成，个性化对话生成与语音合成模型无缝结合，构建可自由交互的个性化数字形象。思必驰打造的数字人不仅能说会道，还精通粤语、四川话、上海话等各地方言及英语、法语、俄语等多国语言，可应用于智能家居、智能车载、智能轨交、市场营销等场景，为人类生活带来更多可能。

思必驰联合创始人、首席科学家俞凯

真人出镜

就像视频中的数字人俞凯教授，无论是声音、表情、动作还是形象，都与真人高度接近，甚至还可以根据不同场景，切换语言与人类进行交互。

数字人的打造需要运用计算机图形学、计算机视觉、自然语言处理、智能语音等领域的知识和技术，从而生成一个从形态到声音上都媲美真人的数字人。

思必驰基于自研的对话式语言大模型DFM-2与全链路综合对话技术的联动能力，可快速生成高品质的数字人。在外貌上，思必驰采用扩散生成模型，通过小数据模型训练，基于真人形象，构建出可自由交互的数字形象。在语音上，思必驰通过声音复刻、单人千音、细粒度情感及风格合成、音频场景合成等系列技术，为数字人赋予语言能力，让数字人变的更加鲜活。

●声音复刻为数字人赋予真人同款声音。思必驰声音复刻技术服务，支持男声、女声、童声及中、英文和方言复刻，可辅助用户打造不同年龄、不同性别的数字人形象。

●情感合成让数字人也能表达喜怒哀乐。思必驰可合成高音质、多情感的音色，呈现“高兴、抱歉、撒娇、中性”等多种情感声音，为数字人的情感表达赋予了更多活力，提升了人机交互体验。

●单人千音让数字人也能说方言外语。思必驰单人千音技术可以在短时间内快速将单个发音人的音色，迁移成为粤语、四川话、上海话、苏州话、闽南语等方言以及俄语、德语、日语、法语、泰语、西班牙语等外语，让数字人“青出于蓝而胜于蓝”。

中商产业研究院发布的《2023年数字人产业发展白皮书》显示，2022年我国数字人产业市场规模达1464亿元（同比增长57%），预计2025年全国数字人相关企业数量将突破40万家、数字人产业市场规模将达到2600亿元。数字人将进入大规模应用期，转化为现实生产力为社会创造价值。

在市场营销领域，数字人可用于线上直播进行产品营销推广，降低公司的人力成本；在智能车载领域，数字人可融入车载系统，提供导航、新闻播报等服务，为用户带来更智慧的出行体验；在家居领域，数字人可入驻家电大屏中，为用户提供菜谱推荐、家务规划、情感陪伴等服务，成为用户贴心的数字人管家；在轨交领域，数字人可在车站提供路线导航、购票咨询、信息咨询等服务，降低轨交领域人力成本。

相较于真人，数字人可以不受时间或空间的限制，随着大模型技术的应用，数字人也将持续释放价值。未来，思必驰将基于DFM-2大模型，综合全链路语音交互技术，为用户带来更具特色的数字人形象，加速推进AI技术的应用落地。

审核编辑：彭菁

打开APP阅读更多精彩内容