作者:ANN STEFFORA MUTSCHLER
音频和视频传感器数量的激增大大增加了芯片和系统的设计复杂性,迫使工程师做出可能影响性能、功耗和成本的权衡。
总的来说,这些传感器生成的数据如此之多,以至于设计人员必须考虑在哪里处理不同的数据、如何对其进行优先级排序以及如何针对特定应用对其进行优化。权衡包括从始终开启、始终收听功能、更长的屏幕开启时间等所有方面,这些都必须与更长电池寿命的需求相平衡。最重要的是,人们对数据安全性的担忧持续存在,并且对上下文感知人工智能算法的需求不断增加。
西门子 EDA电源完整性产品管理高级总监 Joe Davis 表示,到 2025 年底,估计将有 140 亿个智能传感器连接到互联网。“这些只是连接到互联网的传感器,它增长最快,因为它可以获取数据并对其进行处理。这不仅仅是观察它并拍照。它正在对数据进行一些处理。”
恰当的例子:索尼有一种设备可以识别乱穿马路的人而不会侵犯隐私。“它执行动作识别,然后发出信号,”戴维斯说。“而且因为所有的传感和处理都是在本地完成的,所以它不会通过互联网发送某人的脸,所以它可以保护他们的隐私。在架构方面,该领域的供应商传统上处于非常成熟的节点并优化了这些技术。许多技术仍然存在,但要获得现在所需的处理,他们必须将这些传感器与更先进的技术结合起来。”
在许多情况下,功率预算极其有限,因为它需要使用一节或多节电池运行。Cadence的 Tensilica 音频/语音 DSP 产品营销总监 Prakash Madhvapathy 说:“设备越来越注重电池,因为它们希望使用非常小的电池。 ” “用户希望看到非常长的电池寿命和全天连续运行,因此 24/7/365。为了方便用户,设备需要始终在线。他们还需要聪明地理解用户在特定时刻的意图,而不是被明确告知它必须做什么。”
同时,这些设备需要更多的计算能力,因为它们需要处理更多的数据。“过去看到的用例现在正在演变成更复杂的用例,最终消费者对设备的期望比以前高得多,”Madhvapathy 说。“这是一个积极的反馈循环,设备本身显示出更多的功能,这提高了制造商和最终消费者的期望。这推动了设备本身对更多计算能力的需求。”
Madhvapathy 观察到这两个因素似乎相互矛盾。“在一种情况下,你想要永远在线、长电池寿命。在另一种情况下,您正在寻找更多的计算能力,这将消耗电池寿命。挑战变成了这两者如何共存,制造商或原始设备制造商如何才能创造出两全其美的产品?”
随着车辆自主性的增加,这一点很明显,这需要数百个 TOP(每秒万亿次运算)。产品管理总监 Amol Borkar 表示:“在这些情况下,对于功率/能源,您需要进行一些权衡,但您不希望使用与低端产品相同的产品。” Cadence 的 Tensilica 视觉和 AI DSP 营销。“在典型的产品开发周期中,您开始细分市场,以确定低、中、高产品的重点产品范围,或者好、更好、最好的方法。很难拥有一种可以跨越整个范围的产品。它可以广泛地跨越一个范围,但如果你谈论的是一种永远在线的能力,但随后还必须可重新配置以运行自动驾驶汽车——这通常不会发生。如果真的发生了,它将被过度设计,不符合任何细分市场的要求。”
这适用于音频或视频部分。过去离散的东西越来越多地被集成到一个系统或子系统中。
“随着人工智能的进一步普及,我们开始看到这些产品系列之间出现了很多合并,”Borkar 说。“在永远在线的空间中,开发人员说,‘我只想进行音频处理,例如关键字定位和关键字检测。’” 例如,现在他们正在为人类存在检测添加一些视觉处理。更进一步,开发人员不希望两个不同的 IP 进行这种类型的多模式处理。他们想要一个既可以进行视觉处理又可以进行音频处理的 IP,这是低端的。在高端方面,更多的是,‘我有一个系统可以进行这种基于摄像头的人员检测,或 ADAS/行人/街道标志检测,但同时我也在做短程雷达加工。我不想放置一个单独的处理块或 IP 块来做到这一点。我只想要一个块来进行处理,即使它是多模式的。”
通信问题
芯片架构师关心的另一个问题是能否为特定应用快速传输图像和视频。
今天的显示器具有比过去更高的分辨率,这反过来又需要更高的带宽。Synopsys移动、汽车和消费类 IP 产品营销总监 Hezi Saar 表示,问题在于 PHY 速度跟不上分辨率的提高。随着 AR/VR 和移动应用的带宽需求不断增加,这很明显,这需要增加 PHY 带宽。至少目前,该解决方案涉及压缩标准,例如 VESA DSC 和 VESA VDCM。
“视觉无损压缩已被引入市场,这将减少对更快 PHY 和更快切换的需求,从而降低功耗,因为您不需要发送相同的数据,”Saar 说。“您可以对其进行压缩,并且数据或多或少地保持在同一个范围内,因此有效地控制了每比特的功率。这种压缩方式被 HDMI、DisplayPort 和 MIPI 全面采用,用于移动设备和汽车。”
对这种方法的最初反对是出于对丢失像素的安全影响的担忧,或者如果像素在一秒或一毫秒内没有看到会发生什么。尽管对此主题有多种意见,但车辆中的屏幕通常不用于驾驶员安全,并且压缩可以节省大量资源。
“然后,架构问题变得更简单,”萨尔说。“权衡归结为,‘帧缓冲区将实现什么?您将在 SoC 内部使用多少内存,而在外部使用多少内存?您需要多少条通信通道?功率预算是多少?所有这些都是由驱动显示器所需的带宽量驱动的。”
由于应用程序的广泛性,A/V 芯片和 IP 必须高度依赖工作负载和特定于应用程序,才能实现最佳系统。这意味着当系统架构师设计这些芯片时,他们必须考虑将要运行的工作负载的种类,并选择满足性能和功率配置文件所需的计算块。
瑞萨电子副总裁兼总经理 Rami Sethi 表示:“我们正在解决的最大挑战仅涉及更高的数据速率。“你会看到越来越多的计算能力向边缘移动,在那里做尽可能多的事情,而不是将所有东西都转移到云端。即使在网络设备内部,我们也看到在需要的地方有更多本地化计算。我们甚至看到越来越多的人谈论内存中的计算,只是让处理尽可能接近数据。”
与此同时,这些计算元素正变得更加专业化。“我们让界面运行得更快、更有效、更可靠,”Sethi 说。“但在未来,有机会在其中添加额外的功能。所有数据都通过我们的芯片,在 CPU 和内存之间。我们可以通过安全性和潜在的数据压缩算法在数据处理方面增加更多价值。”
其他人同意。“如果你想要通用硬件,比如 CPU,你可以把所有东西都放在 x86 或 Arm CPU 上,”Madhvapathy 说。“但它不会是节能的,也不会是计算效率的,因为它们不是为特定类别的工作负载设计的。你永远不会只为一个工作负载设计任何东西。您为一类或两类工作负载设计它们,这样您就不会过于狭隘地关注。但至少对于工作负载而言,DSP 最终在处理方面的效率将大大高于主 CPU,无论是在时间还是在功率方面。这就是为什么过去十年的趋势是将处理从 CPU 转移到 DSP 以实现视觉以及音频和语音的高效处理。”
同样的权衡和变通方法也发生在消费电子领域,需要更高的计算性能和更长的电池寿命。Codasip的高级营销总监 Roddy Urquhart 说:“传统上,工程师要么针对低功耗进行优化,要么针对高性能进行优化。 ” “为了满足特定应用程序的要求,少数几种前进方式之一是硬件专业化。25 年前,这个问题可以通过创建 ASIC 来解决。但 ASIC 缺乏灵活性,许多应用程序需要可编程性来处理不同版本的标准,例如编码,或处理固件更新。”
因此,虽然通用处理器可以处理范围广泛的软件任务,但它的能效却低得多。“如果它们与专门的软件一起使用,很可能许多处理器功能——以及电路——将被简单地未使用或未充分利用,”Urquhart 说。“相比之下,如果对软件工作负载进行分析以识别计算瓶颈,则可以设计专用处理器来解决计算瓶颈,但不包括不必要的功能。这样的设计在电路方面应该是精简的,并提供良好的性能。”
但是,这会产生其他问题。从头开始创建专用处理器需要一种多学科方法,这超出了许多公司的技能范围,这也是 RISC-V 开放指令集受到关注的原因之一。它通过为团队提供一组基本的整数指令、可选扩展和用于创建自定义指令的规定来简化设计。“另一个简化是当处理器使用处理器描述语言获得许可时,”他说。“核心描述可以在高层进行修改和调优,RTL、验证环境和软件工具链可以从高层描述中综合起来。”
更多工具即将推出
尽管如此,Siemens EDA 的 Davis 坚持认为,在系统级别上并没有特别好的工具可用,因为其中很多工具发展得如此之快。“市场上没有机会开发和部署这些模型。早在那个时候,一切都在数据手册中建模并且一切都在线,您可以很早就将您的系统组合在一起并进行所有系统权衡。但是这些功能发展得如此之快,以至于这些模型不可用。人们通常使用电子表格之类的东西来进行这种分析。那里有一些功能,但是当您深入到 IC 级别时,每个制造商、每个设计公司都必须与他们的代工厂联系并与其合作,以了解权衡的环境。
虽然工具提供商正在开发工具,但今天需要能够进行这种分析。“人们的梦想是能够坐下来提出最佳解决方案。但与往常一样,当您向前推进时,您将在今天设计这种芯片架构。他们将在明年设计它,并在一年后进行制造和部署。我正在展望未来三年,”戴维斯说。
为了解决这些问题,答案是越来越多地使用某种类型的高级封装进行异构集成。这使得在数字端拥有低泄漏的最先进处理成为可能,并将其与模拟端相结合,从而可以以最有意义的工艺几何形状开发电路。
“很多这些历史上成熟的节点公司都在做所有这些传感器、放大器和降噪——所有这些都需要先进的处理,他们必须引入先进的技术来以低功耗获得计算资源,”戴维斯说。“现在我们谈论的是系统级集成,因此 2.5D/3D 堆栈变得更具挑战性。有一个数字芯片,以及一个或多个模拟芯片,因为如果我要放入传感器和无线电,我可能会将三种不同的技术放在一个封装中。我们看到了很多。我们还看到了硅光子学,尤其是在计算中心。只要您不熔化硅,计算中心就可以了。过去的态度是,‘我们把它插在墙上。谁在乎?‘ 当他们在建筑物中拥有数十万到数百万个这样的核心时,他们现在确实很在意,顶部有大型冷却塔,因为它会产生大量热量。”
使用 die-on-die 或 package-on-package 的架构将更常见以解决其中一些问题。“这取决于您所谈论的应用程序,”Synopsys 的 Saar 说。“有时房地产很重要,所以你会使用包装上的包装。有时延迟非常重要。或者有时你想在本地进行这种计算。然后你把 DDR 放在你的芯片上。这样做可以提高性能、减少延迟并提高功耗。这意味着当您处理视频数据时,它可以更有效地完成。某种 die-to-die 接口将在更复杂的系统中变得更加普遍。汽车 ADAS 是一个候选者。移动是 SoC 方面的候选者。即使在像 IP 摄像机或网络录像机这样的应用程序中,如果你是一家拥有一切的公司——你在云端拥有人工智能引擎,你提供完整的服务、所有的电子设备,而且你还在制造 SoC——那么你可能会做一个 SoC,它可以去网络摄像机。您还可以使用 die-to-die 技术连接两个芯片,这样您就可以进行将所有 IP 摄像机连接在一起的网络视频录制。”
为了提高高级音频/视频系统的效率,需要非常专业的硬件。“看看这在智能手机和个人电脑中的做法,以提高所有这些设备的电池寿命——无论是音频、视频、个人电脑、ADAS 还是任何这些系统——你不能让你的系统完全运行Movellus技术营销主管 Aakash Jani 说,始终保持 100% 。“否则,你只会杀死你的系统。这带来了切换不同功率域的想法,创建截然不同的功率域,无论您是在前一分钟进行波前分析,还是在那之后的下一秒进行全面推理。您将很快让您的系统切换到动态电源。如果没有,那将转化为实时延迟。”
这远远超出了音频/视频系统。“在平衡芯片上增加的智能时,必须平衡电池寿命,”贾尼说。“您需要根据工作负载进行非常精细的电源控制。电源系统和电源管理需要并行处理您可能会看到的不同工作负载,这样您就不会因为消耗电力而浪费周期。”
设计人员试图处理的最大设计限制和问题之一是电压下降或 IR 下降。“因为时钟与它们所处的任何系统都如此紧密地交织在一起,并且因为它们是一个如此大的功率贡献者,所以它们与电压下降有着非常私人的关系,”他解释道。“由于这些系统正在切换,尤其是高频系统,对于智能手机、PC,甚至在数据中心,功率波动很大。时钟网络不仅是其中的一个促成因素,它的设计方式也可能是一种解决方案。”
结论
大局观,所有这些低层次的挑战都必须从长远的角度出发,并且设计必须是可扩展的。
“你今天做的不是明天要做的,”Expedera 营销主管 Paul Karazuba 指出。“从设计的角度来看,大多数做硬件的公司对一代不感兴趣。他们对多代人感兴趣,以维持一家成长中的公司。我今天在音频或视频领域所做的可能是在 4k 相机上。我可能会在几代人之后使用 8k 相机。你需要一个可扩展的架构——不仅仅是架构,还有你工作的底层设计语言和软件生态系统。您不希望每一代都采用完全不同的架构,因此您需要拥有作为系统工程师、系统架构师、
将 AI 添加到组合中,这不仅在音频/视频应用程序中广泛扩散,而且事情变得更加复杂。
“取决于市场,你必须开始为今天不存在的算法进行设计,这完全违反直觉,”Karazuba 说。“例如,在汽车行业,如果你今天设计一个芯片,它三年内都不会上市。它必须在市场上销售 10 年。在那 13 年里,它正在处理的神经网络不会保持不变。因此,对于先进的神经网络、定制的神经网络以及今天不存在的网络,这些都是系统工程师需要做出的决定,因此他们可以尝试为不存在的东西进行设计。”
— Ed Sperling 为本报告做出了贡献。
全部0条评论
快来发表一下你的评论吧 !