电子说
DeepMind的科学家们进行了相关研究,并在Arxiv.org上发表了一篇论文。
论文链接:
https://arxiv.org/pdf/1906.05930.pdf
论文中,他们使用自上而下的视觉信息将地面视图语料库训练的人工智能策略应用到城市目标区域,并认为这种方法很值得推广。
论文的共同作者说,他们的灵感源自一个发现,即人类可以通过看地图来快速适应一个新城市。
作者在论文里写道,在陌生的环境里,通过视觉观察进行导航是AI导航的核心,这也是一项持续存在的挑战。到目前为止,目标驱动的AI导航还不能在没有大量训练的情况下进行高精度导航,但是单纯依靠模拟训练并不是一种有前景的解决方法。他们的核心理念是将地面视图与航空视图匹配,学习跨视图转换的联合策略。
研究人员首先收集区域航空视图,根据相应的地理坐标与街道视图进行匹配。接下来,他们着手进行一个转移学习任务,该任务通过观测航空视图目标区域获得数据并进行适应性训练,最后使用地面视图观察转移到目标区域。
研究团队的机器学习系统包括三个模块,负责视觉感知的卷积模块,捕获特定位置特征的长短期记忆网络(LSTM)模块,以及产生动作分布的策略循环神经模块, 它现已被应用于StreetAir。StreetAir是一个来自谷歌街景和谷歌地图的交互式第一视角全景街景照片集,它的技术基础建立在StreetLearn之上。在StreetAir和StreetLearn中,人们可以看到纽约市中心的航拍图像,同样的,系统根据纬度和经度坐标,返回了一个匹兹堡的阿勒格尼河和卡内基梅隆大学校园的84 x 84航拍图像,与位于该位置的地面视图图像大小相同。
一旦人工智能系统经过训练,其任务是学习本地化并在给定目的地纬度和经度坐标的情况下展示街道全景图。覆盖两侧2-5公里区域的全景图间隔约10米,AI导航每次可进行以下五种动作中的一种:向前移动,向左转22.5度,向右转22.5度,向左转67.5度,向右转67.5度。若顺利导航至目的地100-200米范围内,AI将获得奖励。
在实验中,利用航空图像来适应陌生环境的AI获得的奖励明显高于仅使用地面图像数据的AI。研究人员认为,这表明他们的方法显着提高了AI获取目标城市道路信息的能力。
研究团队表示,与单视图(地面视图)相比,他们的方法将更好地将AI导航应用于未知街道,具有更高的零样本学习回报(不需要在地面视图上进行训练即可转移)和更好的整体表现(在转移期间仍能进行连续训练)。
全部0条评论
快来发表一下你的评论吧 !