未来的SLAM会是什么样?

电子说

1.2w人已加入

描述

今天为什么又讲SLAM呢?主要是国内有公司宣布要趟这个坑。在美国那头,AR云也正是领域里比较热门的一个方向。在很多做AR云的方向的公司的想象中的AR云,也大多是以SLAM作为基础的。大家怎么看?欢迎留言讨论

众所周知,SLAM,即同时定位与地图构建,主要解决在未知环境中,如何进行自身方位的定位,并同时构建三维环境的地图。它是机器人和计算机视觉领域的一个基本问题,基本上,需要定位和三维感知的应用都需要用到SLAM技术。然而,最近几年中,SLAM技术几乎没有什么变化。

最近,伦敦帝国学院的 Andrew Davison 发表了一篇论文,主要阐述由于增强现实眼镜或机器人等设备所要求的视觉感知性能与现实产品的实际条件之间存在的巨大差距,而对未来空间人工智能算法的计算结构和硬件开发方面的探索。

Andrew Davison最知名的成就是其 2003 年的 MonoSLAM 系统,而且他是第一个展示如何在单个摄像头上构建 SLAM 系统的人,而那时候其他所有人都还认为打造 SLAM 系统需要一个立体的双目摄像头套件。

神经网络

举个例子来说,想象一下未来的AR系统应该具有怎样的空间记忆能力,对于用户所到达的地点,遇到的人和物体,用户在空间中放置的虚拟笔记或其他注释等等都要有所记录。另外,为了实现广泛应用,该设备应该具备标准眼镜的尺寸和重量,整天无需电池充电即可运行。

显然,这种理想中的AR系统依靠现在的设备和算法是远远达不到的,这篇论文也就是阐述对于现在的硬件和算法可能的优化方向。

现在的SLAM技术,大多是所谓的闭环SLAM,即从摄像头和传感器捕捉新图像数据后,系统与当前的世界模型进行比较,进行对当前世界模型的更新。而当前的世界模型,则来源于更早一次同样的更新。

这种方法所有获得的有用数据,都来源于传感器(如深度摄像头),最终在实时循环中用于数据关联和跟踪。

而论文中提到一种新的混合型SLAM系统,把SLAM 作为卷积神经网络和深度学习的补充:SLAM 关注于几何问题,而深度学习是感知、识别问题的大师。如果你想要一个能走到你的冰箱面前而不撞到墙壁的机器人,那就使用 SLAM。如果你想要一个能识别冰箱中的物品的机器人,那就使用卷积神经网络。这种系统同样适用在前面提到的闭环输出,表现可能会更好。

神经网络

未来大多数计算可能会涉及世界模型的塑造,这就要求一个不断地改变和改进数据存储的系统。在此系统中,一些主要的计算元素有:

标注:对图像进行经验性标注(例如CNN)。

渲染:从世界获得密集的预测,并映射到图像空间。

跟踪:将预测与新图像数据对齐,包括寻找离群值和检测独立运动。

融合:将更新的几何图形和标签重新融合

地图。

地图合并:将元素融合到对象中,使元素平滑,正规化。

重新定位/闭环检测:检测总地图中的相似性。

映射一致性优化,即紧固闭环。

自我学习:系统从运行中进行自我学习

神经网络

原文:这是一个可视化AlexNet图像分类CNN的结果,支持训练和运行时操作,其中空间配置和着色表示不同的紧密连接需要处理模型。(不明白也没关系,这只是论文中谈到世界模型时提到的例子)

随着技术工艺的进步,摩尔定律的瓶颈似乎开始出现,追求单核更大功率的处理器还是比较困难的,而在SLAM中, 单指令,多线程GPU提供的并行性,也非常适合实时视觉的计算要求。

因此,论文预测,系统将具备异构,多元素,专业化的架构,在这个架构中,低功率运行必须与高功率一起实现,而由于架构的灵活性和其中数量巨大的CPU和GPU,可以提高系统中运行的有用软件的数量。但是,它也可能会优化一些专门的处理器,进而实现低功耗实时视觉。当然,专门为这种架构设计的系统算法也会出现,以期提高效率。

神经网络

另外,云计算资源的容量可能将继续扩大,未来的系统可能大部分时间都是云连接的。主地图将存储在云中, 设备将根据需要在其中输出数据。这种情况下,每个设备需要做的事情都理论上会大大减少。但这就需要高帧率传输的支持,而后者也是比较难解决的问题。

对于传感器而言,传感器得到的数据庞大然而存在冗余,举例来说,图片中相邻像素之间的数据有可能非常相似,相邻两帧图片的信息也有可能很相似。所以有时庞大的数据处理并不必要。

因此,论文中提出一种简化数据的方法,将所有传感器接入一个总处理器中进行预处理,但考虑到散热等问题,又改为在传感器单元中嵌入简易的处理器,从而简化数据,得到更高的效率。

论文中还表示,从长远来看,SLAM由于其实时性和广泛的实用性,不同应用的输出和性能水平不同,特别难以通过像数据集评估之类的手段确定一个SLAM的基准。因此SLAM的基准应该走向预测可能需要执行的任务的一般化标准。其中可能的指标包括:

•新探索的区域中的局部姿态准确性(视觉

里程漂移率)。

•良好映射的长期度量姿态重复性区域。

•跟踪鲁棒性百分比。

•重新定位鲁棒性百分比。

•SLAM系统延迟。

•每个像素的密集距离预测精度。

•对象分割的准确性。

•对象分类准确性。

•AR像素配准精度。

•场景变化检测精度。

•电力使用情况。

•数据移动

总之,作者认为,由于SLAM的在各个领域中的重要性,对SLAM的研究仍将保持下去,在这些方面越来越优化。

这篇论文是建立在作者对大部分现有的SLAM技术和困难了解的基础上完成的一个总结,比较有参考价值。对原文感兴趣的同学也可以戳阅读原文下载

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分