AI数字人操作的底层逻辑

jf_02980758 2023-11-14 2210

电子说

1.4w人已加入

描述

AI数字人的底层逻辑主要基于两种操作机制。一种是智能驱动型数字人，这种类型的数字人通过智能系统自动读取和解析外界输入信息，然后根据解析结果决策数字人后续的输出文本，最后驱动人物模型生成相应的语音与动作，实现与用户的互动。这个人物模型是通过AI技术预先训练得到的，能够通过文本驱动生成语音和对应动画，业内将此模型称为 TTSA（Text To Speech & Animation）人物模型。

另一种是真人驱动型数字人，其核心原理是由真人根据视频监控系统传来的用户视频，与用户进行实时语音交流，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而实现与用户的交互。

从技术角度来看，AI数字人的本质是人工智能的一种进化。它整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术，提供了一种可以随时随地与真人进行准确交互性对话的方式。背后的技术原理涉及到符号主义、联结主义和行为主义等多种研究视角。

随着新技术浪潮的推动，虚拟数字人的制作过程得到有效简化，性能也得到飞跃式提升，开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。现在，以虚拟主播、虚拟员工等为代表的数字人已经开始在影视、游戏、传媒、文旅、金融等众多领域大放异彩。
审核编辑黄宇

打开APP阅读更多精彩内容