电子说
编者按:在自适应搜索问题中,经常会需要机器人在很强的背景干扰情况下定位目标位置。在本文中,伯克利的研究人员提出了一种通用的自适应感知方法AdaSearch,能快速定位目标点。以下是论智对该成果的编译。
在机器学习的很多任务中,常见的有根据固定、预先收集好的数据集回答问题。但是在一些应用中,我们没有先验数据,必须自己收集回答问题所需要的数据,例如在环境污染监控和人口普查过程中常出现这种情况。自己收集数据则要求我们将注意力放在最相关的信息源上,但是想确定哪些信息源会得到有用的结果则是很困难的。另外,当实体收集数据时(例如机器人、卫星或人类),我们必须对测量方法进行规划,尽量减少智能体随时间移动所造成的成本增加。我们将这种抽象的问题称为“具身自适应感知(embodied adaptive sensing)”。
针对这一问题,我们提出了新的解决方法,其中机器人必须穿越它所在的环境后确定位置或目标物体。自适应感知涵盖了机器人研究中的很多问题,例如快速定位污染物或放射性资源的泄漏、在搜救中找寻被困者。在这些情况下,设计一种能尽快返回正确结果的感知轨迹是很重要的。
本文我们以放射物泄漏问题(RSS)为例,无人机需要确定环境中k-最大的放射性辐射源,k是用户定义的参数。RSS是自适应感知问题中非常有趣的案例,因为其中会遇到多种复杂的背景噪声(放射源周围有很多放射性物质)。
于是,我们提出了AdaSearch,这是一种用于通用自适应感知问题的连续消除式的框架,我们在放射源寻找的环境下测试它。AdaSearch在环境中的每一点都能将泄漏率控制在置信区间中。利用这些置信区间,算法经过迭代确定了一系列可能泄漏点,最终选出唯一的一个,清除掉其他的。
将具身搜索看作多重假设的测试场景
传统上,机器人领域将具身搜索(embodied search)看作持续的运动计划问题,其中机器人必须平衡环境探索和对高效轨迹的选择。这就催生了既可以进行路线优化,又可以进行环境探索的方法,可以用滚动时域控制(receding horizon control)进行优化。而我们通过假设检验测试,将该问题看作序列最佳动作定义。
在假设检验测试中,它的目标是在多种分散问题上得出结论。给定智能体一系列测量动作N,每个都能根据固定分布生成观察结果。
智能体的目标是学习这些N个观察分布中的预指定特征。例如,我们以向新客户展示产品A或产品B为例,记录他们对该产品的评价,从而表示统计学中的A/B测试。这里的N=2,因为只有两个动作:展示A和展示B。而我们要研究的目标特征就是哪个产品更受欢迎。根据我们收集到的偏好信息,对这些样本以及置信区间进行跟踪记录,分别用置信下限和上限对产品进行定义。随着收集的评价越多,我们对每个产品的偏好估计就越准确。最终可以用一个结论来定义B比A更受欢迎:如果B的置信下限比A的置信上限还要高,那么我们可以认为B比A更受欢迎。
而在环境感知的情况下,每个动作都要从一定位置和方向读取传感器。通常来说,智能体的目标是确定哪个方向能测量出最多的观测信号,或者哪一系列的k动作能得到最大的平均观测。为了这一目标,智能体可能会按顺序选择动作,通过此前的观察选择信息量更多的动作。
乍一看,序列最佳动作确定可能对移动的具身感知智能体来说太抽象了。智能体完全可以不考虑潜在成本随机选择动作。但是,抽象的动作确定是非常强大的。通过精准的统计语言实现具身搜索问题,我们提出了与每种感知动作非常相关,且置信度很高的观察方法,确定了未来要做的一系列动作。
我们提出的AdaSearch用序列最佳动作定义得到的置信区间和全局轨迹规划,实现了渐进最优的测量复杂度,并能有效的分摊运动成本。
放射源寻找
为了验证它的效果,我们会用AdaSearch寻找放射性元素唯一一个泄漏点。我们将环境模拟成一个平面网格,如下所示。其中的红点是放射性元素集中的区域。但是定位这一点非常难,因为传感器会被其他紫色的点(背景辐射)干扰。信息的收集由配有传感器的无人机进行,目标就是设计一个路线,我们能通过传感器收集来的观测信息,尽快定位放射点的位置。
AdaSearch
我们的AdaSearch算法结合了全局收敛计划和自适应感知。在无人机第一次通过网格时,会先均匀地收集环境信息。
第一次观察后,我们能取消一些明显不合适的区域。如果在平均值周围的置信上限小于任何区间的最大下限,该点则会被消除,表示该点不是目标区域。
在下一次探索,AdaSearch会更仔细地搜索剩余点,直到找到目标。
Baseline
我们将AdaSearch和经过相同案例训练的信息最大化方法——InfoMax进行比较。但不幸的是,对于大型空间的搜索,实时计算无法支持路线规划或者参数化。这可能导致算法变得非常贪婪,会花大量时间找寻错误的原因。
为了区分我们的置信区间所带来的影响和全局规划启发法,我们用简单的全局规划方法——NaiveSearch作为第二种baseline。这种方法统一地对网格采样,在每个单元格上都花费同样时间。
结果
我们在64×64米的网格上,用4米的分辨率实现了三种算法,模拟了放射性源寻找的实例。结果我们观察到,AdaSearch通常比NaiveSearch和InfoMax更快完成。随着不断增加背景辐射的水平,NaiveSearch的运行时间越来越慢,但AdaSearch的变化却不大。
全部0条评论
快来发表一下你的评论吧 !