人类的手是数百万年进化过程中最了不起的成果之一。我们能够拿起各种物体并将它们作为工具使用,这是我们与其他动物的最大区别之一,这也使我们能够改变周围的世界。
要想让机器人在人类的日常生活中工作,机器人必须能够与我们的工具和周围的环境进行灵巧的互动。如果没有这种能力,它们就只能继续留在工厂、仓库等专门的领域发挥作用。
虽然有腿的机器人只需要一段时间就可以学会如何行走,但实践证明有手的机器人控制起来的难度要大得多。带有手指的机器人手有更多的关节,它们的运动必须经过特定的协调后才能完成指定的任务。传统的机器人控制方法需要预先对抓取和运动进行精确的编程,因此无法实现人类认为理所当然的那种“普通”精细运动控制技能。
解决这些问题的方法之一是采用深度强化学习(RL)技术训练一个控制机器人关节的神经网络。通过深度强化学习,机器人能够从试验和错误中学习,并在成功完成指定任务后得到奖励。然而学习这种技术可能需要数百万甚至数十亿样本,因此它几乎不可能直接应用于现实中的机器人。
电脑DeXtreme 将模拟环境中的灵巧操作转移到现实世界
模拟的应用
NVIDIA 的 Isaac 机器人模拟器能够创造一个用于训练机器人的模拟空间,这个空间的运行速度比现实世界快 1 万多倍,但是遵守物理法则。
从事 DeXtreme 项目的 NVIDIA 研究者们,利用 RL 机器人训练模拟器 Isaac Gym 教机器人手如何将一个立方体摆放到指定的目标位置和方向或姿态。神经网络大脑可以在模拟中学会这一操作之后,再被移植到现实世界中控制机器人。
之前,只有 OpenAI 的研究者们展示过一次类似的工作。不过,他们的工作需要一个更复杂、更昂贵的机器人手,一个带有精确运动控制传感器的立方体,而且需要使用由数百台计算机组成的超级计算集群进行训练。
灵巧性训练的大众化
为了使世界各地的研究者都能够复制我们的实验,DeXtreme 项目选择了尽可能简单、便宜的硬件。机器人本身是一台 Allegro Hand,其成本只有其他一些机器人的 1/10,它有四根手指并且没有可以移动的手腕。我们使用现成的 RGB 摄像头作为追踪立方体的“眼睛”,这样就可以在不使用特殊硬件的情况下根据需要轻松移动立方体。立方体是 3D 打印的,每个电脑面都有贴纸。
一个简单、可负担的现成系统是实现可复制性的关键。DeXtreme 使用的是三个 RGB 摄像头、一个 3D 打印的立方体和一个高性价电脑比的机器人手,所以大家也应该可以轻松尝试。
DeXtreme 使用 Isaac Gym 进行训练,该模拟器可提供一个用于强化学习的端到端 GPU 加速模拟环境。NVIDIA PhysX 在 GPU 上模拟出场景。在深度学习控制策略网络的训练过程中,结果会保留在 GPU 内存中。因此,这项训练可以在一台 Omniverse OVX 服务器上进行。在这个系统上训练一个好的策略大约需要 32 小时,相当于一个机器人在现实世界中 42 年的经验。
由于不需要单独的 CPU 集群进行模拟,因此在目前的云租赁价格下,训练所产生的计算成本降低了 10-200 倍。使用 Isaac Gym 训练模型大大减少了训练的时间和成本。
感知和合成数据
为了让机器人知道它所持的立方体的位置和方向,需要为机器人加上一个感知系统。为了控制成本并为将来操控其他物体留出余地,DeXtreme使用了三个现成的摄像头和一个可以解释立方体姿态的神经网络。
该网络通过使用 电脑 Omniverse Replicator 生成的约 500 万帧合成数据训练而成,没有使用任何真实的图像。它学习了如何在具有挑战性的真实环境中执行任务。为了使训练更加有效,我们使用了一种叫做域随机化的技术来改变照明和摄像机的位置,同时使用数据增强技术添加随机裁剪、旋转和背景。
DeXtreme NVIDIA Omniverse Replicator 合成数据通过随机改变背景、照明和摄像机角度来训练一个强大的感知网络
DeXtreme 姿态估计系统非常可靠,即便是在目标物体被部分遮挡或者图像有明显运动模糊的情况下也能准确感知到姿态。
DeXtreme 姿态估计器的计算机视觉模型在立方体的一部分被人手遮挡时的输出结果
现实世界中的机器人训练依然困难重重
使用模拟的主要原因之一是直接在现实世界中训练机器人会产生各种难题。例如机器人硬件在过度使用后容易损坏、实验的迭代周期和周转时间可能很长等。
除了模拟之外,机器人还必须解决所有现实中的机械和物理学问题
我们在实验中经常发现在长期使用后需要对机械手进行修理,例如拧紧松动的螺丝、更换带状电缆、在进行 10-15 次试验后需要让机械手休息并等待它冷却等。在模拟中,我们是在一个不会损坏的机器人上进行训练,所以能够避开许多这样的问题,同时还能获得学习高难度任务所需的大量数据。而且模拟的运行速度比实时训练快得多,所以迭代周期大幅缩短。
在模拟环境中训练的最大问题是需要缩小模拟和现实世界之间的差距。为了解决这个问题,DeXtreme 对模拟器中设置的物理属性使用了域随机化,可一次在超过十万个模拟环境中大规模地改变物体的质量、摩擦水平和其他属性。
随机化所带来的好处之一是让我们可以使用各种不常见的场景组合来训练人工智能,这能保证机器人在现实世界执行任务时的稳健性。例如,我们在现实机器人上的大部分实验都是在由于电路板上的连接松动而导致拇指轻微失灵的情况下进行的。尽管如此,我们还是对这些策略能够从模拟可靠地转移到现实世界而感到惊讶。
经过超过 32 小时的强化学习,DeXtreme 机器人能够在根据指定目标旋转立方体的任务中反复取得成功
从模拟到现实
未来机器人操作领域的突破将催生出新一批不仅限于传统工业用途的机器人应用。DeXtreme 项目所传达的核心信息是:模拟可以成为训练复杂机器人系统的一个非常有效的工具,包括需要不断接触环境中的物体的机器人系统。我们使用成本相对较低的硬件来证明这一点是为了鼓励大家使用我们的模拟工具并在此基础上继续努力。
关于 DeXtreme 项目的更多细节,请查看论文并访问项目网页:https://dextreme.org/
电脑 电脑