电子说
(文章来源:网络整理)
在一篇预印的论文中,微软的研究人员描述了一个机器学习系统,该系统可以从照相机图像中推理出正确的动作。 它通过模拟训练,学会在真实世界中独立驾驭环境和条件,包括看不见的情况,这使得它非常适合部署在搜索和救援任务中的机器人。 有朝一日,它可以帮助这些机器人更快地识别需要帮助的人。
研究人员在本周发表的一篇博文中写道: “我们希望推动当前的技术,使其更接近于人类,拥有暗示、适应困难条件和自主操作的能力。”。 “我们有兴趣探索这样一个问题: 如何才能构建出性能水平相当的自动化系统。”团队的框架明确地将感知组件(即,使它所看到的有意义)与控制策略(根据它所看到的决定做什么)分离开来。 它受到人类大脑的启发,将视觉信息直接映射到正确的控制动作上,即通过将高维视频帧序列转换为低维表示来概括世界的状态。 根据研究人员的说法,这种两阶段的方法使模型更容易解释和调试。
研究小组将他们的框架应用到一个带有前置摄像头的小型四轴飞行器上,试图“教”人工智能一种策略,即只用摄像头拍摄的图像在赛车场上导航。 他们使用一种叫做 AirSim 的高保真模拟器对人工智能进行模拟训练,之后他们不加修改地将人工智能部署到一架真实的无人机上,使用一种叫做跨模态变分自动编码器(CM-VAE)的框架来生成密切连接模拟与现实差距的表示。
该系统的感知模块将输入图像压缩到上述低维表示中,从27,648个变量减少到最基本的10个变量。 解码后的图像描述了无人机可以看到的前景,包括所有可能的大小和位置,以及不同的背景信息。研究人员在一个45米长的 s 形轨道上测试了他们的系统的性能,这个 s 形轨道带有闸门,40米长的圆形轨道带有一组不同的闸门。 他们说使用 CM-VAE 的策略明显优于端到端策略和直接编码下一个门的位置的 AI。 尽管背景条件“强烈”的视觉干扰,无人机还是通过使用跨模态感知模块完成了课程。
研究结果显示了该系统在现实世界中帮助人类的“巨大潜力”。 例如,这个系统可以帮助一个自主搜救机器人更好地识别人类,不管他们的年龄、体型、性别和种族有多大差异,这样机器人就有更好的机会识别和找到需要帮助的人。研究人员写道: “通过将感知-动作循环分成两个模块,并将多种数据模式纳入感知训练阶段,我们可以避免将我们的网络过度适应于传入数据的非相关特征。”。 例如,即使在模拟实验和物理实验中,方形闸门的大小是相同的,但它们的宽度、颜色,甚至内在的摄像机参数都不完全匹配
这项研究是在微软发起的无人机游戏挑战之后进行的,该游戏在 AirSim 模拟中让四翼直升机竞赛人工智能系统互相竞争。
(责任编辑:fqj)
全部0条评论
快来发表一下你的评论吧 !