首页>>教育 >>内容

训练机器人如何学习即时做出决策

发布时间:2023-07-12 09:36:05编辑:可爱的眼神来源:

火星漫游者在地球上有人类专家团队告诉他们该做什么。但执行绕土星或木星卫星着陆任务的机器人距离地球太远,无法及时接收来自地球的命令。伊利诺伊大学厄巴纳-香槟分校航空航天工程和计算机科学系的研究人员开发了一种新颖的基于学习的方法,以便外星物体上的机器人可以自行决定在哪里以及如何采集地形样本。

训练机器人如何学习即时做出决策

“我们不是模拟如何铲取每种可能类型的岩石或颗粒材料,而是为自主着陆器创造了一种新方法,让其学习如何快速铲取遇到的新材料,”博士 说。航空航天工程系的学生。

“它还学习如何适应不断变化的景观及其特性,例如拓扑结构和材料的成分,”他说。

Thangeda 表示,使用这种方法,机器人只需很少的尝试就能学会如何挖取新材料。“如果它进行了几次失败的尝试,它就会知道它不应该在那个区域进行挖掘,而会在其他地方进行尝试。”

所提出的深度高斯过程模型在离线数据库上通过具有受控部署间隙的深度元学习进行训练,将训练集反复分为均值训练和核训练,并学习核参数以最小化均值模型的残差。在部署过程中,决策者使用经过训练的模型并将其适应在线获取的数据。

这项研究面临的挑战之一是缺乏对木卫二等海洋世界的了解。

“在我们将最近的火星车发送到火星之前,轨道飞行器为我们提供了有关地形特征的良好信息,”桑格达说。“但是我们拥有的木卫二的最佳图像的分辨率为每像素 256 至 340 米,这还不够清晰,无法确定特征。”

桑格达的顾问 梅尔基奥·奥尔尼克 说:“我们所知道的是木卫二的表面是冰,但它可能是大块冰,也可能是更细的雪。我们也不知道冰层下面有什么。”

在一些试验中,团队将材料隐藏在其他东西的下面。机器人只看到最上面的材料,并认为可能会舀起来。“当它真正舀起并撞到底层时,它就会知道自己无法舀起,并移动到不同的区域,”桑格达说。

宇航局希望向木卫二发送电池驱动的漫游车而不是核动力漫游车,因为除了其他特定任务的考虑之外,最大限度地减少潜在危险物质污染海洋世界的风险至关重要。

“虽然核电源的使用寿命为数月,但电池的使用寿命约为 20 天。我们不能每天浪费几个小时来来回发送消息。这也是机器人自主决策至关重要的另一个原因。”Thangeda 说道。

这种学习学习的方法也是独一无二的,因为它允许机器人利用视觉和很少的在线经验在不熟悉的地形上实现高质量的铲斗动作——明显优于非自适应方法和其他最先进的方法元学习方法。

从这 12 种材料和由一种或多种材料的独特成分组成的地形中,创建了包含 6,700 个材料的数据库。

该团队使用了伊利诺伊州计算机科学系的机器人。它以着陆器的手臂为模型,配有传感器,可收集各种材料的铲取数据,从 1 毫米的沙粒到 8 厘米的岩石,以及不同体积的材料,如碎纸板和包装花生。模拟中生成的数据库包含 67 种不同地形中每种地形的 100 个知识点,即总共 6,700 个知识点。

“据我们所知,我们是第一个在颗粒媒体上开源大规模数据集的人,”桑格达说。“我们还提供了代码来轻松访问数据集,以便其他人可以开始在他们的应用程序中使用它。”

该团队创建的模型将部署在宇航局喷气推进实验室的海洋世界着陆器自主测试台上。

“我们有兴趣开发外星表面的自主机器人能力,特别是具有挑战性的外星表面,”奥尼克说。“这种独特的方法将有助于表明宇航局对探索海洋世界的持续兴趣。

“这项工作的价值在于知识或方法从地球到地外天体的适应性和可转移性,因为很明显,在着陆器到达那里之前我们不会获得大量信息。而且由于电池寿命较短,我们不会有很长时间的学习过程。着陆器可能只能持续几天,然后就会死亡,因此自主学习和做出决策是非常有益的。”