NVIDIA Clara Guardian的功能特性

NVIDIA英伟达企业解决方案 2022-09-07 1763

描述

NVIDIA Clara Guardian是一个应用框架，同时也是一种合作伙伴生态系统，它可以利用多模态 AI 简化智能传感器的开发和部署，可应用于医疗健康设施的各个位置。借助各种各样的预训练模型、参考应用和设备群管理解决方案，开发者能够以更快的速度构建解决方案，从而将 AI 引入医疗健康设施，并提高患者护理水平。

Clara Guardian 的关键组件包括医疗健康预训练模型，该模型适用于计算机视觉和语音、训练工具、部署 SDK 和 NVIDIA Fleet Command。NVIDIA Fleet Command是一个混合云平台，可支持在数百万台服务器或医院的边缘设备中安全管理并扩展 AI 部署。

这使得生态系统合作伙伴可以轻松将 AI 功能添加到常用传感器中，从而监控人群的安全社交距离、测量体温、检测是否佩戴口罩等防护装备，或与高风险患者进行远程交互，从而在保护医疗健康机构人员安全的同时，还能让他们随时了解状况。

应用和服务可以在各种硬件上运行，因此，开发者能够在从边缘到云端的任意位置安全地进行部署。

NVIDIA Clara Guardian 功能特性

提供解决方案

利用高性能的预训练模型在医疗健康领域构建精确 AI。

云原生，边缘优先

快速扩展软件，并在边缘轻松部署应用。

安全管理

在数十台，甚至多达数百万台的服务器或边缘设备上安全地管理和扩展 AI 部署。

医疗健康领域专用的预训练模型

适用于语音的 Clara Guardian

适用于语音的 Clara Guardian 是 Riva 对话式 AI 功能针对医疗健康领域的特定版本。

对于自动语音识别（ASR）功能，模型执行离线识别和串流识别两种模式，可自动添加标点符号、输出字词时间戳并返回前 n 个脚本。

我们推荐使用 CitriNet 这个基于端到端卷积 Connectionist Temporal Classification（CTC）的全新 ASR 模型。CitriNet 模型会接收音频片段，并将其转写为字母、字节对或词片段序列。CitriNet 已在 ASR 数据集上进行训练，在没有任何外部 LM 的情况下，它可以在 LibriSpeech test-other 上达到 6.22% 的误字率（WER），并且在各种硬件 / GPU 上高效运行，如此处所示。

Conformer-CTC 模型是用于自动语音识别的 Conformer 模型的非自回归变体，该模型使用 CTC 损失 / 解码代替 Transducer。

对于自然语言理解（NLU）功能，深度学习模型通过编码向量理解上下文，并为特定语言任务（如预测下一个单词和文本摘要）提供适当的输出。

对于文本转语音（TTS），有一款基于 FastPitchHifiGanE2E 的语音合成模型。FastPitchHifiGanE2E 是一个端到端的非自回归模型，可将文本转化成音频。它将 FastPitch 和 HiFiGan 组合成一个模型，并以端到端方式联合训练。

语音模型（ASR、NLP 和 TTS）可用于截取、处理和响应患者在医疗健康设置中可能提出的常见请求。

适用于计算机视觉的 Clara Guardian

适用于计算机视觉的 Clara Guardian 是DeepStream和Riva计算机视觉功能在医疗健康领域的特定版本。

Clara Guardian 包含可用于手势识别、心率监测、口罩检测和身体姿态估计的预训练模型。

身体姿态估计可用于检测身体中重要关节和面部特征的位置（眼睛、耳朵、肘部、肩膀、手腕、臀部、膝盖、脚踝、鼻子、颈部等），从而建立患者监控 AI 模型。

手势识别模型可以识别一系列常见的手势（挥手、表示同意、竖大拇指、表示制止等）。

仅通过观察人脸的视频流，心率估计模型就可以获得一个人的心率数据。

预编译的NVIDIA TensorRT引擎已在NVIDIA GPUs上进行优化。

借助 Fleet Command 进行安全管理

NVIDIA Fleet Command是一个混合云平台，可以跨数十台到数百万台服务器或边缘设备，安全地远程部署、管理和扩展 AI。管理员无需花费数周时间规划和执行部署，只需几分钟即可将 AI 扩展到医院。管理员能够在一个控制面板中实现整个 IT 部门的相关操作，从而管理 AI 应用的生命周期、通过无线以及远程监控和访问系统更新系统软件。

端到端 AI 解决方案

Clara Guardian 包含经 GPU 优化的组件，可加速应用开发的各个阶段。

训练

一系列医疗健康领域专用的预训练计算机视觉和对话式 AI 模型，适用于各种用例。

NVIDIA NeMo，为 ASR、NLP 和 TTS 构建对话式 AI 模型。

TAO 工具套件，可创建零编码且高度准确的计算机视觉模型。

部署

NVIDIA Riva用于部署融合了视觉、语音和其他传感器数据的对话式 AI 模型。

NVIDIA DeepStream SDK借助传输层安全性（TLS）协议，提供多平台可扩展的视频分析框架，可在边缘进行部署，可连接到任意云。

审核编辑：汤梓红

打开APP阅读更多精彩内容