电子说
Demo 演示:基于展锐T710的双目视觉算法在GPU平台上性能提升明显
算法经过调整不同的参数,窗口winSize大小为21,n_disp为64的时候,性能达到最佳。通常kernel越复杂,寄存器占用的空间就越大,最大工作组的大小就越小,有时候发挥不出来并行流水线的最大数量,从而影响性能。MulticoreWare公司团队在对kernel代码优化内部的寄存器使用量,根据GM9446内部结构,设置合理的global全局工作组大小256x图片高度,local工作大小为256,从而最大程度发挥GPU并行流水线的并发量,一般情况下,第一个维度的工作组大小应该是wave大小的倍数(例如32),这样可以充分利用wave资源,MulticoreWare团队根据多年优化经验,手动调整工作组大小以满足这个条件来保证性能有所提升。 此外内存读取也是影响kernel运行效率的一方面,在OpenCL中一般有全局global内存,本地local内存,常量Constant和Private四种形式组成,MulticoreWare公司团队在将stereo算法重新调整内存布局,将主机内存使用零拷贝技术与GPU内存直接填充,另外将内核kernel多次内存访问的数据,从global内存转存到local内存中,虽然增加了一次转存数据的时间,但是对于对此存取数据整体时间是缩减的,从降低IO时间的角度整体提高了kernel内核的运行效率,性能也有所改善。运行10次后进行效率对比,GPU比CPU计算最高提速80倍左右,平均提速50倍左右。
CPU (展锐T710 2.0GHz) CPU (Unisoc T710, 2.0GHz) |
GPU (Imagination GM9446) |
倍数 Multiple |
|
1 |
31.935 ms |
0.76 ms |
41.9 |
2 |
56.17 ms |
0.699 ms |
80.3 |
3 |
54.22 ms |
0.72 ms |
75.3 |
4 |
51.67 ms |
0.77 ms |
67 |
5 |
31.72 ms |
0.74 ms |
42.8 |
6 |
27.12 ms |
0.73 ms |
37.1 |
7 |
33.35 ms |
0.77 ms |
43.3 |
8 |
50.12 ms |
0.75 ms |
66.8 |
9 |
31.29 ms |
0.71 ms |
44 |
10 |
29.73 ms |
0.72 ms |
41.29 |
未来Imagination和MulticoreWare两家公司将致力于共同促进OpenCL在行业中的广泛采用,鼓励OpenCL广泛应用于异构计算、APU、以及CPU和GPU独立计算的领域中,实现计算资源利用率最大化、高效率处理数据传输。
END
欢迎加入Imagination GPU与人工智能交流2群入群请加小编微信:eetrend89(添加请备注公司名和职称)
推荐阅读Imagination与MulticoreWare Inc.携手展示其GPU的出色性能
Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!
原文标题:Imagination 与 MulticoreWare 合作将 GPU 技术用于全新的双目视觉方案
文章出处:【微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。
全部0条评论
快来发表一下你的评论吧 !