讨论算力讨论的到底是什么

电子说

1.3w人已加入

描述

  没有先进的制程,再顶尖的科学家也无法用少量的晶体管完成复杂计算;没有更高的频率和更大的缓存,再高效结构也无法转化为强大的计算能力;但对于实际的算力来说,这些都只是表象。真正的算力,是云数据中心里能跑多少应用,是超算中心里的科学家能够多快获得结果,是用户能够把经历集中在业务和应用之上。

  有人说这是智能时代,有人说这是数据的时代,有人说这是云时代……但无论我们如何定义当下与未来,算力却总是一个绕不开的话题。但当我们在讨论算力的时候,我们究竟在谈什么?是几nm的制程?是多少GHz、多少L3缓存?是多少核心、多少线程?这些都对,但也都不对。

  没有先进的制程,再顶尖的科学家也无法用少量的晶体管完成复杂计算;没有更高的频率和更大的缓存,再高效结构也无法转化为强大的计算能力;但对于实际的算力来说,这些都只是表象。真正的算力,是云数据中心里能跑多少应用,是超算中心里的科学家能够多快获得结果,是用户能够把经历集中在业务和应用之上。

  英特尔处理器

  还有哪些核心竞争力?

  众所周知,英特尔在挑战新制程的道路上遇到了一些困难。这使得英特尔很难在兼顾功耗、良率及芯片面积的情况下,在晶片之上集成更多的晶体管。相应的,也就无法构建更多核心、更多线程。这的确给英特尔继续挑战更高的处理器性能带来了麻烦,但实际的情况却远非如此简单。

  硬件的性能需要依靠软件来体现,而软件层面的优化则直接关系到硬件的性能。举个例子,2000年,索尼推出的PS2主机使用的Emotion Engine处理器使用180nm制程,包含1050万个晶体管,每秒能够生成6600万个多边形(概括系统3D能力的核心指标之一);同年英伟达发布的GeForce 2 Ultra使用同样的工艺制程,包含2500万个晶体管,理论上每秒却只能生成3100万个多边形。前者运行着定制的操作系统,并且软件都由专门的开发机进行开发;而后者则面向PC市场,运行在Windows环境中。

  当然,如此简单粗暴的对比索尼EE处理器和英伟达显卡的每秒多边形生成率并没有太大的实际意义,但这也足以说明软件优化的意义。

  诚然,我们无法要求今日的商用系统全部运行经过深度定制开发的操作系统和应用软件,但细致且广泛的调优仍旧关系到硬件最终性能及用户价值的体现。

  回到今日的主题,当我们在看到英特尔遇到的种种问题时,我们也应当注意到,英特尔始终在投入更多的人力和资源于软件及系统的优化之上。而通过这些优化,英特尔所获得不仅是一个个用户的认可,更是海量用户价值的体现。

  开放的云服务提供商

  开放的选择

  在处理器厂商的各类客户群中,CSP绝对是一个十分特殊的存在。CSP的价值在于向外界提供高性价比的基础设施类服务;换句话说,如何以更低的价格对外提供更多服务是CSP的核心盈利模式。这意味着,CSP对于性能是十分敏感的。当两款处理器价格持平,那么CSP会毫不犹豫的选择算力更高的那一款。

  青云QingCloud是国内一家特色十分鲜明的CSP,坚持中立可靠的为客户提供云计算服务。但是相对于财大气粗的BAT,青云QingCloud更在乎基础设施的性价比。同时,青云QingCloud对于基础架构中计算平台的选择也始终保持开放态度,任何能够提供优势性价比的产品都会成为青云QingCloud未来基础架构的选项。所以,对于不同的计算平台,青云QingCloud不仅始终保持关注,更会通过不断的对比测试来决定下一次升级的对象。

  显然,对于此时的英特尔,想要拿下青云QingCloud,难度自然不小。但就在大家都以为青云QingCloud会选择目前外界呼声更高的对手产品时,英特尔却再次成为其采购对象。在这一结果的背后,则是英特尔战略客户支持部门的大力支持。

  2020年1月,青云QingCloud在测试后认为对手产品在一些场景中的性能表现要优于英特尔。但在英特尔战略客户支持部门的努力下,英特尔软件工程团队对青云QingCloud的软件测试环境进行了细致的调优,而经过调优后的测试结果则完全逆转。最终,开放的青云QingCloud在对自身软件环境进行调整后仍旧选择了英特尔的产品。

  另一方面,在英特尔团队的协助下,青云QingCloud还上线了基于英特尔至强处理器的AI推理业务,直接扩展了青云QingCloud的服务目录,让青云QingCloud能够更快的加入普惠AI的大潮,在竞争中不落人后。同时,青云QingCloud也是首个将傲腾产品应用在企业级存储的缓存层中的CSP,在成本平衡的前提下实现了更好的性能。

  对于英特尔平台所带来的一系列应用新体验和新业务,青云QingCloud供应链总监廖洋直言不讳:作为CSP,青云QingCloud不仅关注硬件的采购成本,更关注硬件在使用和对外服务过程中的成本。而英特尔对于青云QingCloud的关注、沟通及服务不仅让彼此之间形成了深度的默契,更帮助青云QingCloud解决了业务层面的诸多实际问题。

  而对于青云QingCloud,英特尔也通过自身真金白银的服务付出换来了客户选择与信赖。

  超级算力背后的超强服务

  如果说云计算是让大量的资源去服务更大量的用户,那么与之相对的便是HPC领域的用大量资源去满足几个应用的需求。在算力应用的道路上,云和超算,一个向左,一个向右。但在对用户的支持方面,英特尔的支持却是一以贯之的。

  与前面的CSP不同,HPC的用户多为高校和科研机构。如果说以CSP为代表的企业用户对算力的追求是全生命周期的极致性价比,那么以高校和科研单位为主的HPC用户群则更关注算力的绝对性能和在专业领域的支持。因为在云之中,算力是以各种高度模板化的服务列表来呈现的;而在科研类应用之中,HPC很可能昨天还在处理气象问题,今天就需要转战重金属污染的防治。不确定的应用方向,不确定的计算规模……唯一确定的是,HPC的用户需要更多支持与帮助。

  清华大学、中南大学,前者是如雷贯耳的中国顶级学府,后者则是拥有6个国家一级重点学科、12个二级重点学科的知名高校。而为了方便科研,两所高校同样也是HPC的老用户。

  在传统的商业领域,很多成熟的应用都有庞大的开发支持和用户基础,软硬件的适配能够获得很好的保障。但在超算领域,应用的开发者和使用者都是小众用户,能够理解业务和软件逻辑的人少之又少,针对硬件变化的软件优化也就更少。因此,无论使用这些软件的是本科生、研究生还是博士生,软件的优化都需要有专业人员的支持。

  另一方面,从硬件的构成方面,不同的高校和科研机构也有不同的倾向。以清华大学为例,在其拥有的包含近2000个节点的超算系统中包含800多个Westmere-EX架构节点(2010年兴建)、200多个Broadwell架构节点(2016年兴建)和900多个Cascade Lake架构节点。显然,清华大学的超算建设思路属于“常用常新”的滚动建设型。而中南大学则直接使用了新的Cascade Lake架构至强Gold 6248R构建了1000多个节点。显然,中南大学属于“一步到位”型。

  而无论采用哪种建设思路,从最开始的架构设计到处理器具体型号选择,到供应商设备再到最后的应用移植与调整优化;英特尔都全程参与。

  对此,清华大学高性能计算中心张武生老师举了一个生动的例子:在超算的使用过程中,清华发现在某一个应用上英特尔处理器的计算结果与其他平台不一致。在得知这一消息后英特尔第一时间调集全球研发力量进行响应,并最终找到了原因、对硬件进行了修正。而在另外一个要求实时性、高带宽、高IO的金融类研究项目中,由于计算模式不一样,清华在实际的研究过程中遇到了很大困难。英特尔得知之后更第一时间为清华提供了全新的测试平台,保证了实验的进度;整个过程只用了两三周时间。响应及时,支持到位。

  对于英特尔的支持,中南大学邹有老师则表示:英特尔平台有着完整的编译器和文档支持,软件的开发和移植都能够比较方便的展开。同时,英特尔对客户实际应用中的真实需求有着很深的理解,并提供了众多的培训项目,帮助学校的老师和同学提升了深度学习方面的能力。而这些软硬件和技术层面的开放性使得英特尔成为了一个更方便使用的平台。

  当超算遇到云

  作为一种高精尖的IT应用,对超算有需求的也绝不止清华、中南大学这样的顶尖学府,更有广泛的其他企业、高效和研究机构。如果每个单位在遇到HPC需求时都以自建的形式来满足,那么无论从经济成本还是时间成本来看,很多研究都是无法继续的。因此,更合理的解决方案就是让超算具备对外提供服务的能力,换句话说就是“超算云”。

  并行科技是一家专注于高性能软件开发、服务的公司;而超算云则是并行科技近几年的战略发展重点。相较于自建超算的高校或其他研究机构,作为一家商业公司,并行科技在超算建设方面更注重系统的性价比——让硬件以更高的效率为高性能应用服务。

  在底层硬件领域,并行科技一方面在基于英特尔Cascade Lake-AP架构处理器构建自营硬件平台,另一方面也在积极联系拥有超算系统的高校和科研机构,使之能够将闲时的计算资源贡献出来,为其他用户服务,获得更多资金以支持教学科研发展。

  而在软件平台层,并行科技则基于英特尔系列处理器的硬件特点开发了高效且灵活的超算云OS,在实现用户管理和计费功能的同时,也让平台能够充分调动底层硬件资源实现更具效率的计算。当然,并行科技的超算云还将常用的、经过细致优化的超算应用以服务目录的形式提供给用户,免去用户软件部署和调优的麻烦。

  与此同时,并行科技还联手英特尔每年举办并行编程大赛,在高校中普及高性能计算编程技巧和方法,为超算领域的持续发展培养更多的跨界编程人才。

  当我们在聊算力时

  我们到底在讨论什么?

  伴随社会与商业的数字化,算力已经成为支持社会、科研和商业的不可或缺的基础设要素。而这一要素更要在软件应用当中体现其具体价值。再强大的算力也需要配套的应用和优化,才能充分发挥效能。

  因此,当我们在聊算力时,我们所说的不仅仅是制程、核数、频率,更是算力之上的软件以及算力背后的优化、服务与长期的支持。

  在这些方面,英特尔对用户的重视与支持毋庸置疑;以“客户至上”作为公司的价值观,英特尔一直在深入各行各业,紧密聆听客户的心声,从推动应用落地的角度有针对性地对产品和解决方案策略进行调整。而在此之外,英特尔还提供了软件、内存与存储、网络、安全等多种配套技术。加之架构、制程与封装,英特尔围绕数据价值所构建的六大支柱正在成为各行各业用户实现价值方便捷径。

  而随着算力需求和以英特尔为代表的ICT企业的技术发展,在聊算力时,我们讨论的话题还可以更多。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分