美国军队研究导致机器人更有效的培训模式

机器人的陆军研究训练模型

新的陆军研究减少了当前训练强化学习政策的不可预测性,使它们更实际地适用于物理系统,特别是地面机器人。这些学习组件将允许自主代理推理和适应不断变化的战场条件。来源:美国陆军

多域作战,陆军的未来作战理念,需要具有学习组件的自主代理来与作战人员一起作战。新的陆军研究减少了当前训练强化学习政策的不可预测性,使它们更实际地适用于物理系统,特别是地面机器人。

这些学习组成部分将允许自治代理人来推理和适应改变战地条件,即美国军队战斗能力发展指挥,现称为Devcom,陆军研究实验室。

潜在的适应和重新计划机制包括加强基于学习的政策。他说,有效地获得这些策略,可以获得MDO运行概念的现实至关重要。

根据Koppel的说法,强化学习中的政策梯度方法是可扩展算法的占用算法的基础,但现有技术不能纳入更广泛的决策目标,例如风险敏感性,安全限制,探索和发散。

Koppel说,当钢琴学习是复杂的,可以通过强化学习来解决动态和目标之间的关系,这些行为是复杂的,这些行为可以通过增强学习来解决以前的难以解决的任务,例如atari和星际争霸II等策略游戏等策略游戏。

不幸的是,普遍的实践需要天文数字的样本复杂性,比如数千年的模拟游戏玩法,他说。这个复杂的样本使得许多常见的训练机制不适用于下一代作战车辆(NGCV)的MDO上下文所需的数据匮乏设置。

“为了促进MDO和NGCV的强化学习,训练机制必须提高连续空间样本的效率和可靠性,”Koppel说。“通过将现有的政策搜寻计划推广到一般公用事业,我们向打破现有的样本效率障碍的强化学习的普遍实践迈出了一步。”

Koppel和他的研究团队为一般公用事业开发了新的政策搜索方案,也建立了样本复杂性。他们观察到,由此产生的政策搜索方案减少了奖励积累的波动性,产生了对未知领域的有效探索,并形成了整合之前经验的机制。

“这项研究对强化学习中的经典策略梯度定理做出了扩展,”Koppel说。提出了一种适用于一般公用事业的策略搜索方案,并建立了其样本复杂度。这些创新对美国陆军很有影响,因为它们使强化学习目标超越了标准累积回报,如风险敏感性、安全约束、勘探和先前的差异。”

值得注意的是,在地面机器人的背景下,他说,获得的数据昂贵。

“减少回报的波动性积累,确保一个有效地探索一个未知的领域,或结合经验,打破现有的样品都帮忙效率普遍实践强化学习的障碍减轻随机抽样的数量一个需要为了完成政策优化、“柯柏走说。

这项研究的未来非常光明,科佩尔致力于将他的发现应用于战场上士兵的创新技术。

“我很乐观地,加固的装备自治机器人将能够协助战士在探索,侦察和对未来战场的风险评估中,”Koppel说。“这一愿景是一个现实,对于激励我努力的研究问题是必不可少的。”

本研究的下一步是将钢筋学习中的一般实用程序中的更广泛的决策目标纳入多种子体环境,并调查加强学习代理之间的交互式设置如何在团队中产生协同和拮抗的推理。

根据Koppel的说法,这项研究结果的技术将在团队情景的不确定性下有能力推理。

参考;“与普通公用事业加强学习的变分政策梯度方法”由朱宇张,亚历克·科普尔,艾姆特辛格床,Csaba szepesvari和Mengdi Wang,Neurips程序
链接

这项研究是与普林斯顿大学此次会议是旨在促进神经信息处理系统在生物、技术、数学和理论方面研究的交流的首届会议之一。

2评论关于“美国陆军研究导致更有效的机器人训练模式”

  1. 仅仅是尊重人类脱光的计划的一部分

  2. 盯着人工智能仆人,因为它服从人类的命令,不杀他们。

留下你的评论

电子邮件地址是可选的。如果提供的话,您的电子邮件不会发布或共享。