电子说
在过去的十年中,数据中心业务已从以WEB服务为中心走向以云服务为中心,今天,数据中心正从云计算时代走向智能时代。数字化过程中不断产生的海量数据,如何完成海量数据的筛选和有用信息的自动重组,通过AI从海量数据中挖掘智慧成为智能时代不变的主题,云智能时代已经到来。华为GIV(Global Industry Vision)预测,到2025年,97%的大企业将采用AI,人机协创无所不在,AI成为企业数字化转型的下一站,利用AI助力决策、重塑商业模式与生态系统、重建客户体验的能力将是数字化转型计划取得成功的关键推动力。
数字化过程中将产生大量的数据,华为GIV预测,2025年全球存储数据量将高达180ZB,其中非结构化数据(比如原始采集的语音、视频、图片等未加工数据)比例持续提高,未来将达到95%以上,基于人工处理的大数据分析处理方法无法应对如此的海量数据,而基于机器运算进行深度学习的AI算法,可以完成海量无效数据的筛选和有用信息的自动重组,从而提供更加高效的决策建议和更加智慧化的行为指引。云和智能时代企业DC的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变。
伴随着AI的热潮 ,深度学习服务器集群涌现,以及各种SSD等高性能新型存储介质的发展,对通信时延提出了更高的要求(us级)。例如金融领域高频交易(HFT)的性能敏感型环境中,低时延是处理巨大交易容量的关键。NASDAQ一笔订单的最快成交速度是100微秒左右,通信时延成为数据中心网络建设需要考虑的首要因素,需要从两个方面降低时延:
服务器内部通信协议栈变革首当其冲。在AI数据运算和SSD分布式存储系统中,传统的TCP/IP协议栈处理所需的数十微秒固定时延成为明显的瓶颈,RDMA替代TCP/IP成为大势所趋。采用RDMA可以将计算的效率同比提升6~8倍,而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,所以在最新的NVMe接口协议中,RDMA成为主流的默认网络通信协议栈。
为减少光纤传输时延,需要考虑针对时延敏感应用的物理位置就近设立数据中心,分布式数据中心成为新的趋势。如何快速而有节奏地提升DCN/DCI带宽,并在带宽提升的同时保证无损网络的“0丢包、低时延、高吞吐”要求,以匹配业务快速发展的诉求,成为数据中心DCN/DCI方案首先要面对的问题。摩尔定律支撑了数据中心带宽的增长,数据中心内部互联DCN接口即将进入单端口100G+时代,而作为DC互联及DCN出口承载的DCI网络也已发展到10T级的波分互联。
面向AI的数据运算要求“0丢包、低时延、高吞吐”的无损网络,需要从服务器内部通信协议变革及数据中心互联两方面同时考虑。
数据中心互联快速部署、智能简化运维成为趋势,以支撑弹性数据中心网络运营与扩展。
AI、HPC等高性能业务对网络的依赖度逐渐增强,无损网络的拥塞控制算法需要网卡和网络进行协作,网络从设计开始就需要考虑到后期运维时如何能够快速、精准地掌握全网设备、链路的实时状态,用于支撑业务的平稳运行与扩展。多波长复用的光纤传输系统广泛应用于DCI,而光模拟信号的业务发放及维护模式不同于普通的数字网络,运营商往往配有较为庞大的光网络专业维护团队,而ISP及金融行业数据中心网络均由IT人员建设和维护,人员与经验相对电信运营商有较大差距,快速开通业务、快速精准排障成为关键挑战。随着数据中心建设规模的海量增长,数据中心互联需求倍增,这一挑战已成为数据中心发展的关键瓶颈之一。
1、引入自动规划、自动配置、智能告警分析系统,有助于实现数据中心DCI系统简化运维。
云业务快速发展和上线,网络频繁改造扩容,传统波分的安装、连纤、配置、调测等需要专业的规划与配置,自动规划与配置工具可以让运维人员从繁琐专业的开局中解放,自动高效不出错,支撑业务云化快速上线,和频繁扩容。相对人工配置,自动工具除了大幅提升上线效率,还大幅提高配置准确率。例如传统人工连纤出错概率高,据统计甚至高达5%,如果一不小心连错,业务不通从上至下排查原因,重新检查校验就更加耗时费力。
2、智能运维系统取代传统网络管理系统,实现数据中心主动运维
越来越多的应用运行在云上,数据中心做为数字化的基础架构重要性不言而喻,而DCI作为支撑性的基础,一旦故障影响严重。DCI引入高效智能运维,实现从人工到自动,从被动到主动的运维转变是必然的选择。相对传统的网络监控系统 ,智能运维系统通过内置光Sensor,实现光纤网与光系统网络全局可视,光网络健康度特别是光功率衰减、光波长漂移等物理参数的变化提前预警,自动分析过滤告警,基于经验库自动判断故障根因,以减少网络故障率,大幅提升网络可用率。
数据中心网络运维亟须引入自动化配置与维护工具,以实时调整配置,快速定位故障,实现无损网络运维智简化,以支持云智能时代的数据中心业务快速发展。
全部0条评论
快来发表一下你的评论吧 !