设计LTE-Advanced调制解调器架构的挑战与应用

电子设计 2018-10-12 5795

描述

作为世界各地部署最快的蜂窝技术，长期演进（LTE）技术正在加速发展，为世界各地数百万用户提供移动无线宽带服务。消费者越来越希望能够利用小外形移动器件获得永远在线、永远连接的高数据率移动体验，同时希望电池使用时间延长，以期最大限度地减少充电次数。为了满足日益增长的移动数据需求，LTE标准已经扩大，为提供这些服务的移动运营商提供更高数据吞吐量和更高效率。LTE-Advanced是新一代移动宽带，因而向设计人员提出了挑战，希望他们开发出能够提供这些服务的高能效移动器件。嵌入式处理器、物理IP和互连结构的领先供应商ARM与嵌入式DSP内核的领先供应商CEVA合作，共同探讨实现下一代移动无线宽带设备所需考虑的设计因素。

本文首先探讨3GPP release 10标准（下文称为LTE-A），该标准于2011年3月正式批准，相应地推动了最新一代用户设备设计。在研究标准之后，接下来将讨论吞吐量限制、低延迟和低功耗方面的具体设计挑战，提出了将ARM和CEVA目前提供的高性能、极高功效技术相结合的工业领先解决方案。

最后，通过以结论的形式，我们还考察了更广泛的系统级设计，比如节能模式、调试和跟踪，以及支持多模式操作。多模式操作已经成为世界各地广泛采纳的多种无线标准具备的基本特征，不仅可以应对LTE-A和LTE标准，而且还可以应对HSPA+、TD- SCDMA和其它无线技术。

什么是LTE-Advanced?

长期演进（LTE）标准Release-8于2008年12月获3GPP首次正式批准，采用完全基于分组的协议提供无线宽带接入，是LTE设备第一次浪潮的基础。现在，LTE已获包括美国、日本、韩国和中国等在内的104个国家超过347家运营商采纳（Ref GSA），成为历史上采纳速度最快的无线技术。

LTE的广泛采纳部分归因于该标准的灵活性，能够满足世界各地网络运营商的不同要求。通过将不同的3G和4G网络整合到共同的4G平台中，LTE有望成为全球首个统一的移动标准。随着许可频谱成为日益宝贵的商品，LTE提供了在广泛的频谱混叠中部署移动无线宽带的能力。除了频谱聚合灵活性之外，LTE还包括先进的信号处理技术，设计用于提高其传输通道在合理误差率条件下能够承载的频谱效率，即比特/秒/Hz.OFDMA、SC-OFDM调制、高级前向纠错（FEC）等技术、各种MIMO（多天线系统）技术和ARQ及H-ARQ等重新传输方案等全部结合，使系统稳健高效地利用有限的可用频谱。这些先进的技术全都需要高级信号处理，同样也需要仔细设计，以便最大限度地降低功耗（延长电池寿命），最大限度地提升高吞吐量和可靠的信号接收性能。

消费者对更高带宽的宽带连接（比如观看流视频）、更低延迟连接（比如游戏应用）的需求推动了LTE的持续演进，推动因素还有以更优化、更高效的方式来部署频谱，从而使得网络运营商最大限度地提高投资回报率的需求。在未来五年内，这种趋势预计将会持续，思科（Cisco）预期2011年至2016年移动互联网数据通信将增长18倍。

LTE-Advanced涉及最新版本3GPP release 10及以上标准。该标准建立在现有的LTE Release 8标准之上，并且保持向后兼容性。在LTE-Advanced中，已经增加了满足上文所列要求的许多新特性，最关键的是，它还符合ITU批准的4G无线技术正式定义。本文尤其感兴趣的新特性有：载波聚合、多层MIMO和系统考虑因素，用于高吞吐量，比如HARQ缓冲访问和系统互连。载波聚合和多层MIMO使得吞吐量急剧增加，也向数字基带提出新的信号处理要求。

最近几个月，网络运营商发布了几个公告，声称他们在2013时间框架内支持LTE-Advanced的这些特性，其中包括美国的AT&T Mobility和Sprint,韩国的KT Telecom,日本的DoCoMo也在考虑采用这种技术，对其商用LTE网络进行升级。

表1说明了标准Release 10中定义的3GPP UE分类定义。从表中可以看出，分类范围很广，设备生产商能够根据终端应用和市场提供产品。通常认为，虽然Cat-8 （UE Category 8）具有引起市场关注的高吞吐量报头，实际上，现实中很难部署Cat-8,因为它需要高达100MHz带宽（LTE网络目前在10MHz - 20MHz带宽中部署）--目前，没有任何运营商接入这种带宽。从更实际的观点和本文的目的出发，我们选择探讨

调制解调器

表1:LTE UE类型

图1:用户设备上层框图

上述框图简单表示LTE-Advanced调制解调器如何在智能手机设计中连接，并为本白皮书中讨论的调制解调器设计提供相关安排。

LTE-Advanced调制解调器由通过宽带RF收发器IC为无线接口服务的接收和传输信号处理链组成。信号处理分成3GPP规范中定义的各层，第一层提供与信号成功传输和接收信号有关的所有低级信号调节，第一层的典型功能包括：前向纠错、交织和比特流操作，星座-调制、MIMO编码、OFDM信号调制和RFIC信号调节。所描述的第一层的全部功能均属于CEVA处理器的范畴，同时需要控制和管理ARM CPU上执行的功能。

上层处理在ARM Cortex-R7处理器中执行，并且以上图中的第二层和第三层表示。 ARM Cortex处理器一般执行媒体访问控制（MAC）、分组数据汇聚协议（PDCP）、无线链路控制（RLC）和无线资源管理（RRM）等功能。ARM Cortex-R7处理器与运行Android等丰富操作系统的应用处理器相连。

ARM Cortex-R7处理器概述

Cortex-R实时处理器提供3.9G/LTE 和4G/LTE-Advance基带任务所需的高性能、确定性响应时间和卓越的能效。它们具有为高吞吐量/低延迟无线系统提供高级计算性能的能力及先进的低功耗设计，因而成为调制解调器设计的首选器件。

与LTE-Advanced基带架构特别相关的Cortex-R7处理器特性如下：

●高性能：Cortex-R7处理器提供2.53 DMIPS/MHz性能，满足最严苛的基带处理要求。

●一致性：Cortex-R7处理器包含侦测控制单元（SCU），在馈入到存储器内的调制解调器数据和处理器数据缓存之间自动保持一致。这可节省大量的软件开销，以及两个处理器之间的一致性规定。

●低延迟外设端口（LLPP）：附加AXI总线端口，专用于快速控制调制解调器硬件，不会被主AXI总线上的大量数据处理阻断。

●低延迟RAM（LLRAM）：一种存储器区域，用于保持关键软件和数据，比如中断服务程序（ISR）几乎能够立即执行，无需等待主AXI总线处理完成与/或ISR进入1级缓存。

●紧耦合存储器（TCM）：一种有限（128 KB）存储器资源，适用于可以访问的最关键代码和数据，不存在因AXI总线端口引起的延迟，为实时硬件，比如LTE L1物理层提供最高水平的确定性响应。

●集成通用中断控制器（GIC）：在处理器之间实现灵活的中断分布及快速中断，比如从空中接口/CEVA域到ARM的路由。

●低延迟中断模式：特别适合Cortex-R处理器系列的中断模式，在很少的20个周期内中断，比如用于时间关键空中帧处理。

●非对称多处理（AMP）：虽然Cortex-R7处理器支持对称多处理（SMP），但是，它还可以在SCU模块内配置服务质量（QoS），每个处理器对选定范围的存储器与I/O地址拥有优先访问权，而不会被其它处理器阻断。

图2:ARM Cortex-R7框图

CEVA-XC4000概述

CEVA-XC系列DSP内核的特点是将超长的指令字（VLIW）和通过先进矢量处理提升典型DSP能力的单指令多数据（SIMD）引擎相结合。这种可扩展的 CEVA-XC架构提供了精选的非常强大的通信处理器，可以利用最少的硬件实现软件定义的调制解调器设计。CEVA-XC4000是CEVA-XC系列的第三代产品，拥有一系列6款处理器产品，专为包括LTE- Advanced、HSPA+、TD-SCDMA、Wi-Fi 802.11ac等先进通信应用而优化。

图3:CEVA XC4000系列框图

CEVA-XC4000包括多达4个矢量处理单元，采用功率调节单元（PSU）、紧耦合扩展（TCE）、功率优化管道等先进机制，在每个处理器周期中以卓越的功率效率提供高达128 16x16位MAC操作。

LTE-Advanced UE数字基带架构

图4所示框图是完整的LTE-Advanced调制解调器设计，该系统基本上由双核Cortex处理器上的第一层TX处理链、第一层Rx处理链和第二/三层处理组成。第一层的控制处理也在Cortex处理器上执行，这种功能提供了接收和发送功能的低级实时控制。

LTE-Advanced实施代表某些相当重大的设计挑战，特别围绕高吞吐量支持、低延迟性能，以及低功耗要求，此处表示的架构利用了多种领先的技术，帮助设计人员应对这些挑战，而无需牺牲性能。

图4:LTE-Advanced UE数字基带架构实例

双核Cortex处理器具有本地存储器，专用于加速第二层处理的实时功能以及第一层的控制功能，利用低延迟本地存储器，比如第一层和第二层缓存，可以最大限度地减少片外存储器访问，从而显着降低总体系统功耗。特别需要注意，每个内核具有TCM存储器，可以存储时间关键中断程序，从而使它们以确定性方式执行，这在应对LTE-Advanced低延迟系统定时挑战方面是非常重要的。两个内核均拥有自己的本地第一层指令缓存，ARM还提供第一层数据缓存，再次帮助提高各个内核的执行效率，使得系统能够更快地执行程序，从而更快地返回节能模式，通过最大限度地减少成本昂贵的片外存储器访问，使得各个内核更长时间地停留在节能模式，降低总体系统功耗。

在设计SoC时，设计人员必须特别注意存储器和总线架构，以避免因设计瓶颈而导致性能方面付出巨大代价，或者，通过增加规格不合适的片上存储器，既增加芯片面积，又提高了功耗，从而使得解决方案变得昂贵。Cortex-R7处理器低延迟外设端口（LLPP）用于为计算第二/三层卸载功能，比如密码和健壮报头压缩（RoHC）提供了优化接口，这两层都需要进行仔细的架构考虑，从而提供优化性能而不影响总体系统吞吐量。

通过仔细设计，利用各种片上和片外存储器，ARM和CEVA架构可以实现性能/成本/功率的有效平衡。本地AXI总线为低延迟紧耦合存储器提供了专门访问，可用于不能容忍高速缓存缺失/可变延迟的时间关键的确定性任务。主要的AXI总线提供了对系统闪存和SDRAM构件的访问，SDRAM构件通常是片外资源，但常常通过叠片集成到基带封装内，以节省PCB面积。闪存用于启动整个系统，在启动期间，Cortex-R7将配置CEVA子系统并初始化所有的存储器。

表2列出了在LTE-Advanced调制解调器设计预期看到的典型存储器类型总结。从表中可以看出，H-ARQ缓存和IQ接收缓冲器所占的基带芯片面积不断增大。H-ARQ缓冲器用于重组接收的数据，由于数据以软比特形式存储（对数似然比是“1”或“0”,而不是二进制位），因而存储器要求快速扩展。至于缩小H-ARQ缓冲器体积的压缩技术，还考虑将缓冲器放置在片外SDRAM中，以缩减数字基带芯片的尺寸/成本。CEVA和ARM IP的结合有助于最大限度地缩短通过系统的处理延迟时间，还可以提供优化的总线互连，帮助实现此类存储器优化。

调制解调器

表2:系统存储器要求

LTE-Advanced SW架构

图5是LTE-A调制解调器的典型软件映射。从图中可以看出，第一层处理分为发送和接收，其中一个CEVA XC4100管理发送路径，接收器内有两个CEVA-XC4200. 第一层用于对空中传输的数据进行编码/解码，这样做可以通过自适应调制和编码来最大限度地提高吞吐量，以及通过多个方案，包括前向纠错、交错和Hybrid-ARQ （HARQ）等最大化稳健性。HARQ是一种管理选择性重新传输未正确接收数据的方案，为了管理这种过程，UE必须具有H-ARQ缓冲器。由于LTE-A的高数据率和低延迟要求，缓冲器必需相当大（参见表2系统存储器总结），并且需要仔细管理，以期最大限度地降低最终设备的成本。

从第一层到达ARM Cortex处理器域，低级第一层控制器用于第一层调度。该功能在时间上非常关键，通常在0.5mS的LTE子帧水平上运行。事件由源于第一层/空中帧事件的通用中断控制器（GIC）驱动，中断用于Tx和Rx相关处理的Cortex-R7处理器。中断源的数量主要取决于第一层实施，但是，馈入第一层控制器的中断数量范围为十几个至 100多个。控制器的用途是管理进出L1的数据流以及提供从上部堆栈向下流动的所有必须的控制信息。Cortex-R7处理器具有实时特点，特别适合这一任务，利用紧耦合存储器和低延迟管道架构，为时间关键任务提供有保障的运行时间。Cortex- R7处理器管道架构和分支预测器，可以帮助优化中断响应时间，提供确定行为。在具有严格的实时限制时，比如在无线系统中，确定行为是非常关键的。由于没有存储器管理单元（MMU），因此，也不需要复杂的页表移动操作，当中断发生时，页表移动操作将会进一步延迟响应。

非对称多处理（AMP）是Cortex-R7处理器中提供的功能，用于配置服务质量，从而使每个处理器对选定范围的存储器与I/O地址拥有优先访问权，允许某种功能和内核相较其它功能和内核拥有优先权，因此不会被其它处理器阻断。当执行必须根据空中接口帧率以时间关键的方式处理有效负载数据的时间关键程序，比如低级第一层控制器功能时，这种功能尤其重要。

接下来，在第一层控制器上面，我们穿过3GPP规范各自的协议层。图中所示各层映射作为实例，表明如何充分利用Cortex-R7双核处理器基于的ARM架构，在两个处理器之间载入平衡任务，从而帮助在软件中保证低级实时要求。Cortex-R7处理器的缓存一致互连集成了多处理架构，从而提供了一致的编程模型，消除了多核环境的传统复杂性。缓存一致互连管理第一层和第二层缓存，使其保持一致性，而与Cortex-R7处理器内每个内核各自的存储访问无关。这种架构的结果提供了安全稳健的存储系统，通过这种系统，程序员不需要管理缓存一致性，从而在两个内核实现无缝任务转移，保持最佳负载平衡/功率效率。

软件在嵌入式实时操作系统（RTOS），比如Express Logic的ThreadX[2]及Mentor Graphics的Nucleus[3]下运行，这两者都支持Cortex-R7处理器。在堆栈顶部，我们有一个应用层，提供与系统其它部分的接口，若为USB加密狗，我们预期将在此点与USB栈连接，但是，也可以实施IP路由或应用，比如语音LTE（VoLTE）。

VoLTE是利用分组LTE网络提供语音服务的新技术，传统上，语音服务利用2G和3G网络以线路交换方式提供，但是，随着运营商寻求重新划分2G和3G频谱到LTE,它们需要统一的机制来传输语音。现在，VoLTE标准处于早期部署阶段，有几家运营商进行了部署，其中包括宣称全球首家提供这种服务的韩国SKT.VoLTE的优势是，可从单一LTE网络提供语音和数据服务（而不需要传统标准的多模支持），由于带宽能力更高，使得运营商能够提供更高质量的声音，通常被称为“高清语音”,加入VoLTE,增加了对LTE调制解调器的软件要求，因为必须管理语音协议S/W以及LTE调制解调器。

调制解调器

图5:LTE-Advanced调制解调器SW映射

节能考虑

对于任何蜂窝调制解调器设计来说，为了最大限度地降低电池消耗和使用小外形尺寸设计（通过降低散热限制），降低功耗是必不可少的。现有多种通过仔细的设计和实施来优化系统功率的方法。

LTE-Advanced标准本身集成了多种节能模式，例如，使UE在空闲状态时进入节能模式，UE电源状态可以简单总结如下：

1）工作模式：UE处于完全工作模式，所有或大多数模块均上电，典型应用案例情景是视频通话、视频流或TCP/IP数据传输。在此模式中，ARM和CEVA子系统均上电，支持上行和下行数据传输以及相关信号传输。

2） VoLTE模式：VoLTE（语音LTE）是在分组无线承载上支持语音服务的新兴标准。VoLTE由LTE空中接口上的标准化语音编解码/分层信号组成。语音支持带来小型分组传输和接收（小的偶尔的数据传输），使得UE在空闲时能够执行节能操作，ARM控制处理器将管理总体节能方案，因为它已经了解语音分组的调度，从而相应地安排CEVA进入和退出节能模式。此外，由于Cortex-R7处理器的多处理能力，VoIP栈SW以及LTE协议SW可以在同一台装置上实施，通过关断其它处理器，比如运行丰富的OS的应用处理器，实现更广泛的系统节能。

3）空闲模式：在这种模式下，UE没有任何活动的数据会话，但是驻留在网络上，执行定期同步/位置更新操作，由于LTE标准是包括节能的架构，ARM控制处理器能够相应地使UE循环进入和退出节能模式，收听广播信道或传输位置更新信息，在节能模式期间，除了配置用于在合适的时间唤醒系统的低功率定时时钟，UE几乎全部关断。

ARM Cortex-R7处理器以及CEVA XC4000系列内核均通过有效的管道架构和低门数实施，以及集成先进的节能机制，比如CEVA-XC功率调节单元（PSU），以及ARM Cortex-R7处理器的高性能和低功耗能力，比如监视控制单元（SCU）、低延迟RAM（LLRAM）、紧耦合存储器（TCM）和非对称多处理（AMP），实现业界领先的功耗特性。

蜂窝多模支持

随着LTE和LTE-Advanced的推出，伴随而来的是在单一UE内支持旧网络连通性的需求，包括2G GSM和3G WCDMA/HSPA+以及中国市场的TD-SCDMA在内的原有标准将伴随LTE继续存在许多年。随着标准继续演进，高速分组连通性在旧3G网络上得到支持，这是网络运营商战略的固有部分，在运行LTE的同时，也支持HSPA+等服务。

在实施基于高功效和小外形尺寸设计等基本要求的多模式UE时，必需满足重要的设计因素，为了支持覆盖LTE和3G频带的切换和多频带RF,多模UE需要支持至少两个或三个并行的空中接口。

CEVA和ARM可以提供高效的多模式支持，可以使用在同一内核平台上支持2G/3G/LTE/LTE-Advanced的通用架构，下图所示为2G/3G/LTE-Advanced UE的高级架构，为了促进多模式工作，覆盖各自的频带，一般需要更大的数据和程序TCM存储器，以及三种RF实例。

为了选择最佳的空中接口，控制处理器管理着执行小区搜索和相邻小区监控的三种模式的协调。

通过优化设计和先进的封装技术，调制解调器生产商现在正在生产单一封装器件，在某些情况下，结合多达6个空中接口（GSM/CDMA/TD-SCDMA/W- CDMA/LTE/LTE-A），使得设备能够在世界各地的任何网络上漫游。

跟踪和调试支持

随着基带SoC变得极端复杂，整个SoC必须具备先进的实时调试和分析能力。为了使基于ARM和CEVA技术的SoC集成和调试变得简单，CEVA-XC的外部总线接口采用标准AXI和APB接口，并以开放式AMBA协议为基础。这可以简化系统连通性，不需要调试专用总线和在不同的处理器技术之间进行桥接。

利用标准ARM ETM（嵌入跟踪模块），CEVA提供了全面的CEVA DSP内核的主机-PC调试，包括交叉触发的多内核调试、真正硬件平台的实时分析、实时跟踪支持。采用ARM,CEVA支持全面的共调试（co-debugging），利用多内核调试器，简化基于ARM和CEVA技术的SoC调试。

ARM Development Studio 5 （DS-5）是希望充分利用ARM应用处理器和SoC的软件开发人员的首选工具链，DS-5是一种集成开发环境，包括业界最佳ARM编译器、功能强大的OS感知调试器、全系统性能分析仪和实时系统模拟器，可以帮助工程师为ARM处理器提供优化和稳健的软件。

结束语

从本文中我们已经看到与优化LTE-Advanced调制解调器有关的设计挑战，尤其是实施低功耗、低延迟、高吞吐量解决方案，满足严苛的4G无线空间的商业要求和技术要求，移动宽带数据市场呈现爆炸式市场增长，已经推动标准及器件实施两方面的创新，提供具有极低功耗和成本竞争力的高数据速率、低延迟解决方案。

标准本身通常比进入市场的产品提早三至五年，因此，需要做出许多设想，以期假设其它技术将会发展，从而帮助提高新标准的经济效益。虽然一般说来，随着工艺尺寸缩减，根据摩尔定律已经帮助证实的结果，每mm2每毫瓦可以容纳更多的晶体管，但是，也必须进行创新，确保实施方案本身具有最高效率，从而帮助降低功耗和芯片面积（从而降低成本）。

ARM和CEVA都有专注于以低功耗作为核心要求的产品，二者结合可以为先进的4G及以上无线调制解调器提供业界最引人注目的解决方案。

打开APP阅读更多精彩内容