麻省理工学院CSAIL将人工智能中的视觉和触觉结合起来

坚白 2019-06-25 4094

描述

我们已经向人类层面的智慧迈进了一步。图像识别技术和触觉传感器正在相互结合，以提高它们的能力。麻省理工学院计算机科学与人工智能实验室(CSAIL)创建了一个触觉和视觉信息数据库，并利用它来训练人工智能系统来推断物体的外观和感觉。

图：李云珠，麻省理工学院CSAIL的博士生，领导了这个项目。

与麻省理工学院CSAIL的大多数项目一样，这一系统仍处于早期研究阶段，但通过将这两种“感官”联系起来，从数字角度看，团队可能为人工智能提供了一种新的体验世界的方式。这一突破可能会带来更加敏感和实用的机器人手臂，可以改善任何数量微妙或任务关键的操作。它还保证在能够像我们这样理解、或至少可以理解世界的人工智能系统的发展中，会有更多的进展。

感觉与感性

通过一个简单的摄像头，这个研究小组负责人李云珠（中国科学院博士生，主要论文作者）在这个系统上，建立了200多个每天被触摸超过12，000次的对象的数据集。然后，他们将12，000段视频剪辑压缩成静态帧，并使用这些片段来编译“VisGel”，这是一个包含300多万个视觉/触觉配对图像的数据集。利用该数据集，研究小组训练了一个人工智能模型，根据周围区域的视觉数据预测物体的感觉，并使用KUKA机器人手臂与GelSight触觉传感器配对获得相应的触觉信息。例如，研究小组将在电脑鼠标上输入某一点的系统图像，而人工智能将使用生成的对抗性网络(GAN)构建该地区的触觉地图。

GAN使用一对网络来相互竞争并改进它们的输出：一个生成器网络，它为鉴别器网络编译一个图像(或者一个触觉图)，以测试和比较真实（或ground truth）数据。然后，研究小组将把GAN生产的模型与KUKA机器人手臂获取的触觉数据进行比较，再一次对照可测量的“ground truth”。该系统也可以反过来工作，使用触觉传感器数据创建一个图像预测对象上的某个点可能是什么样子。这些图像也将在GAN中运行，并将最后一次与ground truth图像进行比较，以检验模型输出的有效性。

灵巧数字

将图像馈送和触觉传感器连接到AI模型中，代表了人工智能系统和机器人手臂的进步，它们更像我们这样体验世界。给数字智能一个双重洞察力，有效地合成了信息和这个系统可以访问的“知识”。理论上，这将允许人工智能系统比单一输入系统更快、更有效地了解其环境和处理信息。例如，在外科手术中，机器人手臂目前可以处理令人难以置信的微妙的手术，比如使用微创手术或keyhole手术来切除前列腺，约占美国所有机器人手术的86%。
来源：Charles Towers-Clark，福布斯
编译：南山

打开APP阅读更多精彩内容