Ambarella SoC的 CVflow® 高级AI引擎驱动 360° 视频会议体验提升

eeDesigner 2024-11-29 1999

描述

全球大流行催化了视频会议的繁荣，随着公司采用混合工作模式并寻求更可持续的业务沟通方法，减少差旅，视频会议的繁荣继续增长。现在，随着视频会议成为现代商业实践的基石，系统开发人员的任务是改善用户体验，同时提供更高水平的功能和性能。除了标准网络摄像头之外，对创新商业通信解决方案的需求推动了对 360° 视频会议摄像头等技术的需求，这些技术可以创造身临其境的混合会议体验。

最新的 360° 摄像头提供会议室的全景视图，捕捉所有现场与会者。观众还可以在房间内进行数字平移、倾斜和缩放，就像他们真的在场一样。这为远程参与者提供了身临其境的体验，通过创建有机的面对面交互来促进自然协作。

利用 AI 的强大功能，开发人员可以创建具有增强功能和最低硬件要求的下一代视频会议系统。让我们探索一种这样的创新视频会议实现方案，其中四个 4K 摄像头连接到一个高性能 AI 视觉处理器。这创建了一个系统，该系统提供宽广的 360° 全景视图，以及单个会议参与者的视图，以及参与者跟踪和自动拼接等功能。此外，这些全景视图可以与高分辨率的 360° 去畸变技术相结合，以提供整个房间的更清晰、不失真的视图。

这款下一代系统的核心是 Ambarella 片上系统（SoC）内部的 CVflow® 高级 AI 引擎，该引擎专为高效率、高性能和低延迟应用而设计。只需一个芯片，CVflow 引擎就使开发人员能够实现一套 AI 驱动的功能，这些功能可以在多个感兴趣的区域同时运行，包括：

人脸识别（Face ID）： 支持跨不同摄像头对多个参与者进行自动取景、跟踪和重新识别
背景去除： 提供干净、专业的视频源
手势检测和分类： 使演示者能够通过简单的手势控制摄像机
白板内容提取： 通过识别白板内容来增强协作;优化其外观并提高其可读性
Vivid HDR（AI 辅助色调映射）： 通过使用 AI 为同一房间内处于截然相反的照明条件下的参与者提供更宽的动态范围（例如，一个靠近窗户，另一个位于光线不足的角落），从而在传统处理的基础上提高图像质量

除了与视觉相关的功能外，我们 SoC 中的 CVflow AI 引擎还支持 AI 音频功能的实现，例如：

Voice ID： 结合 Face ID 识别并定位个人语音;消除非目标声部以获得更清晰的音频
基于 AI 的噪声分类和抑制： 实时识别不需要的声音（例如咳嗽、吠叫或割草机）并抑制它们，消除分散注意力的噪音

除了这些 AI 功能之外，利用 Ambarella CVflow SoC 的实现还提供了几个关键的技术优势：

为多相机和单相机解决方案提供业界领先的图像信号处理性能
8K 视频编码，支持高分辨率的多个感兴趣区域 - 放大距离摄像头较远的参加者，而不会降低视频质量
动态拼接，可在组合来自多个摄像头的图像时最大限度地减少伪影
从摄像头到显示器的超低延迟（80 毫秒） - 远低于 Microsoft Teams 规范

上述示例中的全面功能和技术优势显著增强了视频会议体验，与以前基于 FPGA 的系统相比，这带来了更具成本效益和能效的解决方案。此外，利用带有集成 CVflow AI 引擎的单个 SoC 以及 Ambarella 的工具，提供了一个强大的开发环境，能够支持各种算法，并在不影响功能或性能的情况下提供更高程度的设计灵活性和简单性。

展望未来，将 AI 集成到视频会议系统中将需要更强大、更高效的处理器，这些处理器既能够支持丰富的基于 AI 的功能，又能提供卓越的图像质量。通过利用 AI 的强大功能，我们不仅增强了视频通话，还重新构想了混合工作和远程通信的本质。

打开APP阅读更多精彩内容