使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试

描述

 

 

Project Mellon 是一个轻量级的 Python 软件包,能够利用强大的语音 AI(NVIDIA Riva)和大型语言模型(LLMs)(NVIDIA NeMo 服务),简化沉浸式环境中的用户交互。NVIDIA 在 GTC 2023 上宣布,Project Mellon 现已支持开发者进行测试。基于此,开发者可开始探索如何创建由自然语言语音指令控制的、解放双手的扩展现实(XR)体验。

 

正如 J·R·R·托尔金(J.R.R.Tolkien)在《都林之门(Doors of Durin)》中的谜语—“请说,朋友,而后进入”所示,文字可以移山倒海。Project Mellon 背后蕴含着一个基本理念,即以更实用有效的方式来利用语音 AI 和 LLM 之力打开虚拟世界的大门,并在其中完成更多的事情。

 

在 XR 中,用户界面可能非常复杂且难以使用,会破坏虚拟、混合和增强现实的本质—即沉浸式体验的自然感。Project Mellon 可赋能多类应用程序(无论是 XR 还是平板生态)开发者,轻松地将自然语言理解作为以人为本且可解放双手的新型用户界面,添加至其开发的软件之中。

 

Project Mellon 平台包含以下组成部分:

 

  • Project Mellon SDK(软件开发套件)

 

  • NVIDIA Riva(ASR 、TTS 、NMT)

 

  • NeMo 服务(其他 LLM 也可获取支持)

 

Project Mellon 1.0 发布的主要功能包括:

 

  • 轻量且易于集成的 Python 库

 

  • 保持自然语言理解准确性的 LLM

 

  • 无需特定指令进行训练的零样本语言模型

 

  • 具有对话和视觉上下文的自然语言指令支持

 

  • 支持询问有关指令和情境的问题,并提供自然语言回答

 

  • 用于理解和执行指令的简单 Python API

 

  • 基于 Web 的测试应用程序

 

  • 可以在本地或远程托管 ASR、TTS、LLM 和神经网络机器翻译(NMT),以实现低延迟响应

 

ESI 集团解决方案和技术专家 Jan Wurster 在 GTC 主题演讲—“在虚拟现实中与 AI 协作:沉浸式数字助手(会议代码:[S51355])中表示:“我们发现,通过集成对话式 AI 与 NVIDIA Project Mellon,可以降低使用 XR 展开协作的技术门槛,并为 IC.IDO Weave 用户提供更加人性化的体验。通过输入自然语音,我们的虚拟 AI 助手可以帮助团队完成复核任务、查询可用情况或发现相关问题,这些功能无需记住特定指令、仅需输入自然语言就可使用。”

(2023 年 4 月 10 日前登录 GTC 官网,即可观看演讲回放,了解其团队如何在动态、协作的 XR 环境中,在使用对话式 AI 的过程中受益)

 

Project Mellon 现已可供开发人员使用。观看 Project Mellon 相关演示,了解如何利用自然语音指令,驱动设计审查、更改实时配置、控制机器人以及操纵相机和场景元素。

 

了解如何启用 Project Mellon 进行开发

 

人工智能正在改变人类与工作及工具进行交互的方式。开发人员可以通过语音 AI 和 Project Mellon,简化并提升用户体验的人性化水平,且不再需要培训用户操作虚拟现实(VR)中的每一项功能。用户可以在虚拟现实应用程序中,用自己的语言来控制 XR 体验。

 

点击“阅读原文”,申请试用 Project Mellon。

 

英伟达  

 

扫描海报二维码,即可观看 NVIDIA 创始人兼首席执行官黄仁勋 GTC23 主题演讲重播!

 

英伟达


原文标题:使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分