使用三种不同结构的LSTM神经网络结构对触觉力进行动态重建

新机器视觉 2022-10-31 1556

描述

本期为大家分享一篇关于基于视触觉传感器下力动态估计的一篇文章——Dynamic-Vision-Based Force Measurements Using Convolutional Recurrent Neural Networks。

在机器人执行抓取动作时，接触力的大小与接触位置对抓取成功有至关重要的影响，文章研究团队在以往研究基础上提出了一种使用三种不同结构的LSTM神经网络结构对触觉力进行动态重建的方法，传感器能够在10ms延迟下连续测量从抓取开始到物体释放的力，测量接触力不受物体尺寸的影响。

与传统相机不同，神经拟态视觉传感器没有 “帧” 的概念，文中使用的DVS摄像机尺寸为40× 60×25毫米。当现实场景中发生变化时，神经拟态视觉传感器会产生一些像素级的输出（即事件），一个事件具体包括（t， x， y， p），这里的 x， y 为事件在2D空间的像素坐标，t为事件的时间戳，p为事件的极性。事件的极性代表场景的亮度变化：上升（1）（positive） or 下降（0）（negative）。DVS相机对触觉层进行图像采集后，将事件集预处理后送入神经网络中，通过再经由Dense Layers处理后对力进行动态大小估计。

视觉传感器

DVS相机在捕捉触觉传感层变化时，需要对每个像素的前序列对力进行测量与每个帧处的触发事件相关联。为了解决RNN训练时的梯度问题，文章引入了LSTM和选通递归单元（GRU）来控制内存状态，通过将LSTM层与卷积层和密集层相结合来估计接触力，对LSTM、Convolutional LSTM （Conv-LSTM）、CNN-LSTM三种结构。在CNN-LSTM结构中，卷积运算应用于帧，以将特征提取到1D向量中，该向量后跟LSTM单元，以随时间对提取的特征进行建模。Conv-LSTM则是在LSTM门内进行卷积运算，保持输入的二维维度，以捕获构造帧的空间和时间信息。

随后通过实验对数据进行收集，实验装置包括一个ATI F/T传感器、一个DVS相机传感器和一个透明3D打印平面（静态平面），该平面由硅胶覆盖。硅胶材料具有约0.5mm厚度的50肖氏硬度，夹持器的右平面保持静止，而左平面（动态平面）移动以对硅胶层施加压力。

视觉传感器

由于硅胶的弹性、控制器延迟和测量不确定性，接触力值和实验持续时间略有不同。由于传感器连续计算接触力，每个实验分为抓取、保持和释放阶段，并研究每个阶段的传感器性能（图2b）。为了评估传感器性能，MSE基于力传感器测量值和预测值之间的差异计算。在尺寸为8 mm、12 mm和16 mm的三个螺栓上进行了35次试验。在每次试验中，接触力从零开始，在保持阶段达到最大值3.12 N。时间间隔为T=10 ms，以确保在帧中累积足够数量的事件。此外，基于从240×180到115×115的最大接触对象接触面积裁剪帧，以减少内存需求。最后将数据集输入到三种深度学习模型中进行训练，选取最低MSE值作为模型进行预测，与论文研究团队此前提出的TDNN网络进行了比较，其平均绝对误差（MAE）与MSE值如下表所示：

视觉传感器

在对抓取、保持和释放阶段期间的力大小估计和真实值的比较如下图所示：

视觉传感器

结果表明，对于抓取阶段，力的精度较为准确，三种网络结构都获得了类似的结果。后面阶段由于硅胶膜的弹性，在保持和释放阶段误更大。此外，在释放阶段结束时，不同网络架构之间的精度差异不断增加。此外，与F/T传感器相比，有一定的时间滞后。

在论文中，研究团队提出了一种动态估计接触力的新方法。通过DVS相机捕捉接触区域的强度变化，提出了一种新的动态方法来估计尺寸变化物体的接触力，开发三个基于LSTM的网络，以基于每个像素的变化规律来估计接触力，同时具备空间和时间特征信息。该传感器在机器人上对三个不同尺寸的螺栓进行了验证。Conv-LSTM网络获得了最好的结果，在抓持阶段接触力计算的MSE=0.064 N，在保持阶段估计接触压力的MSE=0.082 N，尽管存在振动，但该传感器只有10ms的延迟，适用于实时抓取应用。　　

审核编辑：彭静

打开APP阅读更多精彩内容