电子说
龙芯2K3000是龙芯中科推出的一款主打性价比的工控CPU产品,基于龙芯LA364处理器核。LA364的规格只有龙芯高端核心LA664的一半,与Intel CPU的小核对标。龙芯2K3000的市场定位也与Intel i3-N系列相似。尽管它们每GHz的性能相近,但因为Intel i3-N系列采用了更先进的Intel 7工艺,所以频率上限更高,那么性能也就应该更高。
只是由于两者的资料并不详尽,很难直观地对比性能。为了探究这个问题,笔者从“集特智能(GitStar)”公司借到了一块搭载了龙芯2K3000的工控主板,又找了一台基于Intel i3-N305的袖珍主机,对两者进行相同的测试,以便直接对比差距。
2K3000和i3-N305的主机功率测试
龙芯2K3000有4核和8核两个型号,主频也从2.0GHz到2.5GHz有多个版本。它还有个兄弟型号是龙芯3B6000M,主要面向笔记本电脑、袖珍主机等消费级市场。两者规格与性能相同,仅封装形式不同。
集特智能的这款型号为GM7-3601-01的产品是工控主板,对稳定性的要求大于性能,因此搭载的是8核2.2GHz的2K3000,而不是2.5GHz的版本。作为对手的i3-N305也是8个核心,但睿频高达3.8GHz,看起来它们并不是同一个级别的对手。
2K3000支持的内存是DDR4-3200单通道,i3-N305则支持DDR5-4800单通道。内存带宽的差距也会造成性能差距,特别是在多任务并行时,内存瓶颈对性能发挥的不良影响尤其明显。不过i3-N305的TDP仅15W,在限制TDP的情况下必然不会长时间保持较高睿频。特别是多核并行的时候频率会进一步降低,因此两者的实际性能差距可能并不那么大。

TDP不是CPU的最大功耗,而是为主板和整机的散热设计提供的指导意见。在未解锁TDP时,i3-N305主机在CPU空闲时的功率是7W左右,但峰值功率超过37W,此时的CPU功率应该有30W以上。这样的功率明显超出了这台主机散热及供电的安全阈值,因为配套的电源适配器额定功率才36W(12V3A)。

如果不限制CPU功率,那么在进行视频编码解码、UnixBench测试、HPL测试等任务时,i3-N305主机峰值功率会超过50W,此时CPU本身的功率应该已经超过40W。在这种情况下进行性能测试,对于这台迷你电脑而言,就是一种作死的行为艺术。
如果不是跑分而是实际使用,那就更无法预料CPU功率什么时候会超出安全阈值。虽然解除功耗限制后,在不同的测试项目中i3-N305的多核并行性能可提高10%至20%不等,但若硬件随时面临损坏风险就没有实际意义。因此在后面的性能测试中,都不使用激进的功耗控制策略。

龙芯2K3000虽然峰值功率低于i3-N305,但多数时间的功率比Intel i3-N305更高。主要原因在两个方面:一是工艺落后,二是动态调频调压的功能没有启用。2K3000的硬件是支持动态调频调压的,但操作系统始终没有完成支持,导致CPU在空闲时仍然维持在最高频率。龙芯如果不尽快完善自动降频的功能,那么在用于笔记本等移动设备时是比较吃亏的。
DDR4与DDR5,内存带宽差距明显
龙芯2K3000支持DDR4-3200,Intel i3-N305支持DDR5-4800。虽然都只有一个内存通道,但在内存访问速率方面i3-N305必然有优势。

以往任何国产CPU都对内存很挑剔,不使用国产CPU专门适配过的“信创内存”可能就无法点亮。龙芯CPU的内存兼容性现在有很大改观,现在由于内存供应紧张,线上平台已经没有零售的“信创内存”了,笔者在某鱼随机买了两条DDR4笔记本内存,它们都能在2K3000上正常使用。
但兼容不代表能完美地发挥性能,在使用这些内存时,2K3000多线程的内存访问速率反而比单线程还低。一条海力士16G的,单线程内存Copy速率约为17GB/s,多线程降到14GB/s。另一条金士顿32G的,多线程速率甚至只有10GB/s左右,可能比完美适配的内存低了一半。既然有更慢的,那么就肯定有更快的,因此笔者认为内存速率低是未适配的原因,而不是2K3000的内存控制器只有这样的水准。

Intel和AMD也有类似的问题,不同的内存即使时序参数完全相同,在同一颗CPU上的实际速率也有差距。但我为Intel i3-N305准备的32G海力士DDR5内存发挥正常,单线程内存Copy速率约为14GB/s,多线程接近22GB/s,使它在多任务并行时能更少地遭遇内存速率瓶颈。
在内存适配不对等的情况下对比两者性能,对2K3000有失公平。但是连生产工艺不对等这种更严重的不公平都已经忍受了,那么再增加一些不公平也没什么大不了。反正2K3000没说话,我就当他同意了。
7zip多线程文件压缩解压测试
文件压缩和解压是常用的功能,本次使用Deepin V25系统和自带的7zip 16.02进行测试。使用了来自一个视频编码测试资源网站的YUV序列文件进行实际的压缩解压操作,文件大小为42GB。

压缩文件时使用默认的参数,但开启多线程支持。i3-N305压缩这个42GB的文件耗时171分33秒,2K3000耗时187分2秒,落后不到10%。把压缩得到的文件解压,i3-N305耗时23分24秒,2K3000耗时18分33秒,速度快25%以上。2K3000在文件压缩解压方面的综合表现优于i3-N305,而且这只是2.2GHz的2K3000。
但如果看7zip的benchmark测试分数,那么i3-N305反而优于2K3000。特别是压缩得分要比2K3000高45%,而不是实际的不到10%的差距。这说明跑分成绩不能代表实际的压缩解压速度,x86架构的7zip跑分相对于龙芯LoongArch架构有一些虚高。
另外,不同版本的7zip测试成绩也不能相互对比。而且7zip的测试成绩只能反映CPU压缩和解压文件的性能,而不能代表CPU的综合性能。
SPEC CPU 2017通用性能测试
SPEC CPU 是相对权威的CPU性能评估工具。这次使用SPEC CPU 2017分别测试单核、4核并行、8核并行的成绩。操作系统是Deepin V25,编译器是开源上游的GCC16。编译参数主要是“-O3 -march=native -staic -flto”以及与CPU指令集对应的开启向量的参数。
其中的“-march=native”实际上对2K3000是无效的,因为2K3000的微架构在GCC编译器中还缺少对应的优化。编译时会给出信息“unknown processor ID '0x14b020', some tuning parameters will fall back to default”,意思是因为不认识这颗新CPU,所以取消了部分编译优化。这对2K3000当然也不公平,但往好的地方想,等以后编译器对2K3000支持完善了,不就等于免费升级性能吗?现在就别挑剔了,将就测吧!
因为i3-N305单核最高睿频达3.8GHz,所以单核性能远高于2K3000。但4核并行时CPU频率就严重下降,成绩只比4核并行的2K3000高6%。当然这并非i3-N305的性能极限,而是功耗和温度保持在安全阈值之内时的极限。同样,2K3000也未到极限,它有2.5GHz的版本,也有适配更好的内存,还有将来增加了微架构优化的编译器,任何一项改善都能使测试成绩更高。

在8核并行的时候,内存带宽对2K3000的拖累加重,CPU并行效率严重下降。单通道DDR4在面对8核并行时还是太勉强了,i3-N305的单通道DDR5对并行性能的影响就小得多。前面2K3000的7zip测试表现较好,是因为文件压缩和解压相对于SPEC CPU测试来说不算是内存密集型应用。
正如7zip的测试成绩不等于实际的压缩和解压速度,实际应用的表现也不会与性能测试的成绩比例一致。2K3000和i3-N305本就不适合重负载的应用,而像WPS、微信、浏览器这类软件对内存带宽的依赖比7zip还低得多,因此在2K3000和i3-N305上的实际性能表现会基本相同。
UnixBench系统综合性能测试
大多数性能测试都是以硬件为主导,UnixBench测试则加大了操作系统的得分权重。例如创建进程、管道通信、脚本执行、小文件读写等测试项目都属于操作系统可以拼命优化的范畴。尽管软件功能的执行依赖硬件,但操作系统的优化可以让硬件如虎添翼。
因为不同的操作系统对这种操作的优化程度不同,所以不能用不同系统下的UnixBench测试成绩来对比硬件性能。为了证明这一点,笔者除了用Deepin V25测试2K3000和i3-N305,还用UOS 20进行了测试。但因为UOS系统在i3-305迷你电脑上未能启动,所以只有2K3000的测试成绩。

根据测试结果,在执行操作系统的基本功能时,2K3000单核比i3-N305更优,但8核并行仍然受到内存带宽的不利影响。不过这样的差距在实际使用中基本感受不到区别,可以算是同一水准。
UOS系统测出的单任务成绩提高了近60%,并行成绩几乎翻倍。说明在UOS系统中进行打开程序、切换窗口、复制文件等日常操作时会更加流畅,这样大的差距是能直观体会到的。以前国产CPU性能较低,UOS这样的信创操作系统为了改善用户体验,也算是竭尽全力了。
核显性能足以胜任普通办公用途
2K3000和i3-N305都集成了GPU,其中2K3000中集成的LG200是龙芯第二代自主GPU核心。基于同款GPU核心的独立显卡9A1000对标AMD RX550,核显版的性能是9A1000的1/4,也是上一代7A2000桥片集显LG100的4倍。
使用glmark2实测i3-N305集成的GPU,成绩也仅比AMD RX550的1/4略高,那么2K3000和i3-N305的核显性能应该比较接近才对。但是2K3000的核显实测成绩才715分,性能不到i3-N305的一半,甚至不到上一代集显LG100的2倍,更遑论4倍性能。
硬件规格是确定的,那么同样可以确定的就是驱动程序未能发挥出2K3000核显的性能。如果2K3000中集成的LG200所表现的性能与纸面数据相符,那么图形处理性能就与i3-N305的核显相同了。驱动优化,任重道远啊。
不过2K3000当前发挥的性能已经介于AMD R5-230和Radeon 520之间,作为“信创办公显卡”是合格的。i3-N305的核显虽然图形性能更高,但也同样是“信创办公显卡”的范畴,和2K3000一样只适合普通办公软件、轻量的CAD设计、视频播放、常规视频编辑、休闲游戏等。要是玩《黑神话·悟空》,那么帧率是2还是4有什么区别呢?
尽管2K3000当前的图形处理性能不如i3-N305,但LG200在其他方面的优势不小。
1.LG200集成了单独的视频处理模块,在编码解码视频时不占用GPU的图形性能,对CPU的耗用也低。i3-N305没有集成单独的视频处理模块,硬件加速的视频编码解码是依靠CPU和GPU混合运算,不是很适合同时执行其他耗用CPU或GPU的任务。
2.LG200是GPGPU,而不是单纯的图形处理器,提供了256GFlops的通用算力。如果软件支持使用GPGPU进行通用计算,那么可以大幅度提高计算速度。
3.LG200集成了AI处理单元,算力为8TOPS,可以加速终端AI处理,并且不占用CPU和GPU的其他资源。
总结
2K3000和i3-N305的综合性能比较接近,实际对比各有胜场,在多数应用中没有可感知的差距。主要是在对内存带宽极其依赖的应用中,2K3000的性能表现会明显弱于i3-N305,但这一点也能改善。
在Linux系统下,龙芯的LoongArch指令集软件生态已经逼近x86。未兼容龙芯LoongArch的商业软件,包括大部分Windows软件也能通过“二进制翻译技术”运行。龙芯CPU早已脱离了软件匮乏的境地,指令集的生态壁垒正在被龙芯消除。
龙芯2K3000和Intel i3-N系列市场定位相似,各种形态的产品价格也趋近。例如i3-N305工控主板的市售价一般在1500~2000之间,笔者测试的这款来自集特智能的龙芯2K3000工控主板也在同样的价格区间。一些基于2K3000的低成本开发板、迷你电脑主板,也与基于Intel i3-N系列的对应产品一样,实售价在1000左右。
龙芯在市场规模远小于Intel的情况下,使CPU的性价比越来越贴近市场,既有助于龙芯发展,也有利于消除进口CPU的市场垄断。
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !