手机测试软件：再一个“然并卵”？

wl1123 2015-07-27 1264

设计测试

66人已加入

描述

　　手机圈里是非多，大众对寻常的互黑和拍砖已经无感了。最近在网络上出现了一档《快砸吧，手机》活动中，游戏规则变成用鲁大师测试软件测流畅度，谁输谁被砸。结果在一连串的PK中，小米Note、OPPOFind7、大神X7、一加手机等机型纷纷被砸。这也惹怒了包括米粉们在内的各种手机粉丝的口水之战。

　　这就是一个偏重娱乐性和新奇性的活动，本来没有太多可评论的。但这个流畅性体验测试的概念倒是让人想起了已经被玩坏的“跑分”。在这个追逐体验的时代，跑分已然成为旧黄历上被翻过的一页，但是消费者却依然被卡在两个时代的中间，往前看没有可靠中立的体验量化得分来作参考，回望又对传统的跑分不屑一顾，手机测试正面临着多重挑战。现在的手机评测软件除了能测峰值计算能力之外，也开始在向体验评测的方向演进，用某些测试软件的缺陷来抹杀整个测试软件的价值，这就是矫枉过正了。

　　手机性能跑分到底有没有用？

　　现在孩子得了感冒，如果去医院看病，医生初步检查之后，肯定会让孩子先去做个血常规检验。验血没法帮孩子退烧，也不能减轻帮孩子减轻咳嗽，如果说不需要先做测试，医生直接用眼睛看看就直接开药得了呗，反正治愈感冒的是药物。

　　事实真的如此吗？如果缺少了验血的环节，那就很难法判断是细菌性还是病毒性的感染，这可是关系到到底是用头孢还是用阿奇的关键，所以验血的过程对于针对是必不可少的。

　　手机评测也是如此，测试仪器和测试软件就好像验血的设备一样，它可以尽可能多地提供一款手机的性能参考值。不同厂商的1.7GHz4核处理器，在 CPU和GPU速度上差异是非常巨大的；同样是5.0英寸的1080p屏幕，但它的NTSC色域和黑屏漏光可能都不在一个档次上。对于大多数非专业用户而来，提出看说明书参数就能得出优劣结论的人，显然是对硬件表面和实际性能的差异缺乏深刻理解的。

　　为什么读者会对性能测试感到厌烦？

　　不同的测试软件有不同的用途，就像厨师要准备很多把刀具，而医生做手术时会有几十种专业工具一样。就比如测一款CPU的性能，我可能会用到十几二十种软件，SuperPI可以直观地看出单个核的计算能力，而wPrime则可以考察出多核协同的效率谁更高，SYSMark可以看出它在整体办公处理的表现，而CINEBENCH11.5怎可以衡量处理器在多核浮点运算的优劣……

　　用大量的测试软件虽然可以接近真相，但也会产生明显的副作用，绝大多数的读者都无法理解这些专业测试软件的分数，这些辛苦测出来的数据，只有极少数发烧友和玩家所能理解，大多数的消费者面对这些天书般的数据都有隔世之感，他根本就搞不清这些分数与能不能流畅地玩游戏、能不能顺畅地在网上看视频有何关联。

　　如果身在评测行业，其实导致现在评测文章质量受质疑的另一个原因，就是很多媒体把评测当成了一桩生意，而且是强调投入产出和效率的生意，在媒体经营日渐艰难的今天，为了提升效率、压缩开着，现在的评测有流水线作业的倾向，评测师的工作年限有越来越低的倾向。现在我熟知的资深评测师和编辑，依然在做评测的几乎没有了，要不成为媒体的主管离开了一线，要么去了厂商做了产品经理，这也导致了硬件评测青黄不接的状况日益严重，这些专业的数据不能用深入浅出的文字转变为结论，那么这些辛辛苦苦测出的数据确实也失去了现实意义。

　　分数的艰涩只是一方面，更多的是在于商业战争引发的信任感危机。在过去很长一段时间内，不服跑个分，成了手机厂商营销的一个工具。而这种所谓的性能测试软件，其实主要就是体现CPU/GPU的峰值计算能力，以及RAM和闪存的读写速度，这虽然具有一定的参考意义，但却存在跑分与实际体验存在巨大的差异，很多安卓旗舰跑分动辄数万，但论流畅度来说，却比在核数和频率上一直处于劣势的iPhone要逊色很多。

　　尤其是当安兔兔被直接被雷军系收购之后，以安兔兔为代表的性能测试已经彻底地沦为了手机厂商堆料拼配置的工具，它距离用户的实际体验越来越远，也离公正性越来越远。而芯片厂商为了迎合这种飚分需求，也纷纷在驱动中加入专门针对测试软件的优化，这也让一部分性能测试为主的软件彻底地远离了最终用户的期待，而逐步沦为营销工具。这些乱象确实都是当今手机客观评测遇到的巨大挑战，我们需要跑分就像我们依然需要尺子来测量，但是如果这把尺子本身就刻度不准，与实际情况相差甚远，那要它何用？

　　体验评测与纯性能测试有何不同？

　　我们在文章开头就提到了“体验评测”这个概念，其实他与纯性能跑分并不是一回事。对于要购机的用户来说，他们希望通过跑分来帮助选购，然而用户按照性能评测软件给出的成绩来购买智能手机，在实际使用中会发现，那些牛逼闪闪的跑分高手，用过一段时间就会出现卡顿。硬件参数和硬件性能实际表现常常是背离的。

　　不管是PC还是手机，性能极限测试是必要的参考，这种测试能展示出一款产品的性能上限，虽然你不一定能用得上，但是可以让你花钱买的时候知道这笔费用能带来的最大效果有多少。然而极限跑分却不能说明体验是怎么样的，电脑端的SYSmark、PCmark是在模拟测试性能极限，是为了找出性能的巅峰所在。

　　手机APP一直在增多，文件垃圾也在堆积，手机本身也在逐步的老化，硬件老化性能下降，体验感受逐渐下降。一部手机用上几个月就能明显感到卡顿，但是跑出来的分数还是没有变化，依旧高达好几万，这样的跑分有什么参考价值？

　　体验评测要实现的目标，就是能测出日常用的APP打开得快不快，拍照质量好不好，看个网页是不是会卡住，或者在进行一个简单的桌面左右滑动时，哪款手机是最顺滑。

　　用户到底需要什么样的评测？

　　最近有文章提出了一个众测的概念，其实在十年前我做过类似的尝试，那是一次大型的多媒体音箱评测，我请了近十位在音频领域很专业的评测师和发烧友，用纱帘挡住被测音箱，这些评委跟现在中国好声音盲选一样，只能通过音质在表格上给出评分。

　　这样结果是客观了，但主要的广告主却不干了，人家出了广告费，结果评测中排名并不理想。所以很遗憾这样的评测尝试没能坚持进行。众测看似客观公正，但也绕不开商业利益的左右，否则姚贝娜也不会在大众评审团的投票中输给萱萱了，请哪些人来这是主办方可以操作的。所以网友们也看得很清楚，除非是王思聪这种不差钱的主儿来做评测，否则你别把评测想得过于中立和万能，这原本就是一桩生意，你能看到的比较好的评测，也是在中立性和商业之间做了较好的平衡而已。

　　到手机评测这事上，由于近几年硬件规格一直在高速提升，所以跑分成绩也一路攀升，但消费者却发现，哪些跑分高的体验也未必流畅，这其实涉及到软件系统的优化和测试软件的不足。

　　但手机测试软件也在成熟和发展，那种纯性能跑分的测试会逐渐被消费者遗弃，因为得分再高确实是然并卵。没有一种测试方法和测试软件是万能的，但从实际参考意义和准确性而言，未来的测试方法一定会更加贴近消费者的实际使用场景和体验。

　　为了避免商业利益的干扰，所以在测试子项目中应该尽量选择消费者最常用的APP加载、网页加载、图片缩放查看、文件拷贝等日常的操作，并且尽量做到实景化。所谓实景化就是从标准化的场景中跳出，调用用户的产品自带的真实资源，来建立完全个性化的测试环境，这样才能更大程度反应手机当前的实际表现，这样的客观测试才能够尽可能地避免商业利益的干扰，让测试成绩更能体现出真实的流畅度，从而更具有参考性和实用性。

　　大家喜欢看数码达人做的手机测试视频，是因为体验是未来评测的一个重要方向，是消费者真正关注的。然而体验测试想要实现精确和量化还有很长的路要走，什么时候能做到对大家都关心的信号强度、电池续航、拍照能力、甚至抗摔性有了全面真实的反应，这才能真正对导购起到指导作用，这需要在测试方法和测试手段上做大胆尝试和创新才行，这不是现在投资几百万购买一堆测量仪器就能立马解决的。

　　在文章最后，我希望真正对手机评测感兴趣的朋友，应该尽可能多地尝试一些测试软件和专业测试仪器，甚至可以自己编写测试脚本和测试规范，只要这些体验评测能够更贴近真实情景和真实体验，那么这种尝试就非常有意义，也能帮助那些有选择困难症的消费者，这才是真正的发烧友或者评测师该干的事。如果只知道看别人的评测，只会挑毛病和吐槽，就是一年换一百款手机，那依然还是一个一知半解的硬件小白。

打开APP阅读更多精彩内容