怎么制作网站生成图片,鲜花网站建设规模设想,手机wap游戏,wordpress充值金币的插件一、介绍 如果强化学习代理提供的输入在训练中未明确定义#xff0c;则通常表现不佳。一种新方法使 RL 代理能够正常运行#xff0c;即使受到损坏、不完整或混乱的输入的影响也是如此。 “大脑能够使用来自皮肤的信息#xff0c;就好像它来自眼睛一样。我们不是用眼睛看则通常表现不佳。一种新方法使 RL 代理能够正常运行即使受到损坏、不完整或混乱的输入的影响也是如此。 “大脑能够使用来自皮肤的信息就好像它来自眼睛一样。我们不是用眼睛看也不是用耳朵听这些只是受体视觉和听觉实际上是在大脑中进行的。
— 保罗·巴赫·丽塔 ¹ 人们具有惊人的能力可以使用一种感官模式例如触觉来提供通常由另一种感官例如视觉收集的环境信息。这种适应能力称为感觉替代是神经科学所熟知的现象。虽然困难的适应——比如适应颠倒看东西学习骑“倒退”自行车或者通过解释从舌头上的电极网格发出的视觉信息来学习“看”——需要数周、数月甚至数年才能掌握但人们最终能够适应感官替代。 感官替代的例子。Left__“舌头展示单元”Maris 和 Bach-y-Rita2001 年;图片Kaczmarek2011 年。右图“向后的大脑自行车”TED演讲图。 相比之下大多数神经网络根本无法适应感觉替代。例如大多数强化学习 RL 智能体要求其输入采用预先指定的格式否则它们将失败。他们期望固定大小的输入并假设输入的每个元素都具有精确的含义例如指定位置的像素强度或状态信息例如位置或速度。在流行的 RL 基准测试任务例如Ant 或 Cart-pole中如果使用当前 RL 算法训练的智能体的感官输入发生变化或者如果智能体被馈送到与手头任务无关的额外噪声输入则该智能体将失败。 在 NeurIPS 2021 的焦点论文《作为转换器的感觉神经元用于强化学习的排列不变神经网络》中我们探讨了排列不变神经网络代理它要求它们的每个感觉神经元从环境中接收感觉输入的受体弄清楚其输入信号的含义和上下文而不是明确假设固定的含义。我们的实验表明这些智能体对包含额外冗余或噪声信息的观测值以及损坏和不完整的观测值具有鲁棒性。 适应感觉替换的排列不变强化学习代理。左图蚂蚁的 28 个观测值的顺序每 200 个时间步长随机洗牌一次。与标准策略不同我们的策略不受突然置换的输入的影响。右图车杆代理给出了许多冗余的嘈杂输入尝试交互式 Web 演示。 除了适应状态观察环境中的感官替换如蚂蚁和推车杆示例之外我们还表明这些智能体还可以适应复杂视觉观察环境中的感官替换例如仅使用像素观察的赛车游戏并且可以在输入图像流不断重新洗牌时执行 我们将来自 CarRacing 的视觉输入划分为一个由小块组成的 2D 网格并重新排列它们的顺序左。无需任何额外训练即使原始训练背景被新图像替换我们的智能体仍然有效右。
二、方法 我们的方法在每个时间步长从环境中获取观察结果并将观察的每个元素输入到不同但相同的神经网络称为“感觉神经元”中每个神经网络彼此之间没有固定的关系。随着时间的流逝每个感觉神经元仅整合来自其特定感觉输入通道的信息。由于每个感觉神经元只接收到全貌的一小部分因此它们需要通过通信进行自组织以便出现全局连贯的行为。 观察点分割的图示。我们将每个输入分割成元素然后将其馈送到独立的感觉神经元。对于输入通常是一维向量的非视觉任务每个元素都是一个标量。对于视觉任务我们将每个输入图像裁剪成不重叠的斑块。 我们鼓励神经元通过训练它们广播信息来相互交流。在本地接收信息的同时每个单独的感觉神经元也在每个时间步连续广播输出信息。这些消息被合并并组合成一个输出向量称为全局潜在代码使用类似于 Transformer 架构中应用的注意力机制。然后策略网络使用全局潜在代码来生成代理将用于与环境交互的操作。这个动作也会在下一个时间步长反馈到每个感觉神经元中从而关闭通信循环。 置换不变RL方法概述。我们首先为每个单独的观察结果ot进入特定的感觉神经元连同智能体先前的动作一个T-1型).然后每个神经元独立地产生和广播一条消息注意力机制将它们汇总成一个全局潜在代码mt该网络提供给代理的下游策略网络 π 以生成代理的操作 at. 为什么这个系统排列是不变的每个感觉神经元都是一个相同的神经网络不仅限于处理来自一个特定感觉输入的信息。事实上在我们的设置中每个感觉神经元的输入都没有定义。相反每个神经元必须通过关注其他感觉神经元接收到的输入来弄清楚其输入信号的含义而不是明确地假设一个固定的含义。这鼓励智能体将整个输入作为无序集合进行处理使系统对其输入的排列不变。 我们使用的特定注意力形式已被证明适用于无序集合。由于我们的系统将输入视为无序集合而不是有序列表因此输出不会受到感觉神经元的排序以及观察的顺序的影响从而获得排列不变性我们的论文包括关于注意力的排列不变性的直观解释供希望更深入的感兴趣的读者使用。通过将输入处理为无序集合而不是固定大小的列表智能体可以根据需要使用任意数量的感觉神经元从而使其能够处理任意长度的观察结果。这两个特性都将帮助智能体适应感官替代。
三、结果 我们在更简单的状态观察环境中证明了这种方法的鲁棒性和灵活性其中智能体作为输入接收的观察是低维向量其中包含有关智能体状态的信息例如其组件的位置或速度。流行的 Ant 运动任务中的智能体共有 28 个输入其中包含包括位置和速度在内的信息。在试验过程中我们多次对输入向量的顺序进行洗牌并表明智能体能够快速适应并且仍然能够向前走。 在推车杆中代理的目标是摆动安装在推车中心的推杆并使其保持平衡。通常智能体只能看到 5 个输入但我们修改了 cartpole 环境以提供 15 个随机输入信号其中 10 个是纯噪声其余是来自环境的实际观察结果。代理仍然能够执行任务这表明系统能够处理大量输入并仅处理它认为有用的通道。这种灵活性可能有助于处理来自定义不明确的系统的大量未指定数量的信号其中大部分是噪声。 我们还将这种方法应用于基于视觉的高维环境其中观察是像素图像流。在这里我们研究了基于视觉的强化学习环境的屏幕洗牌版本其中每个观察帧都被划分为一个补丁网格就像一个拼图一样代理必须按洗牌顺序处理补丁以确定要采取的行动方案。为了展示我们基于视觉的任务方法我们创建了一个随机版的Atari Pong。 洗牌的乒乓球结果。左图受过训练的乒乓球特工只使用30%的补丁与雅达利对手的表现相匹配。右图在没有额外训练的情况下当我们给智能体更多的拼图时它的性能就会提高。 在这里代理的输入是一个可变长度的补丁列表因此与典型的 RL 代理不同代理只能从屏幕上“看到”补丁的子集。在拼图乒乓球实验中我们在屏幕上随机抽取补丁给代理然后在游戏的其余部分修复这些补丁。我们发现我们可以丢弃70%的补丁在这些固定的随机位置并且仍然训练代理在对抗内置的Atari对手时表现良好。有趣的是如果我们随后向代理透露额外的信息例如允许它访问更多的图像补丁即使没有额外的训练它的性能也会提高。当代理收到所有补丁时按随机顺序它会在 100% 的时间内获胜与在查看整个屏幕时接受训练的代理实现相同的结果。 我们发现通过使用无序观察在训练过程中施加额外的难度具有额外的好处例如提高对任务看不见的变化的泛化例如当赛车训练环境的背景被新颖的图像替换时。为了理解为什么智能体能够泛化到新的背景我们可视化智能体正在关注的随机屏幕的补丁。我们发现观察中缺乏固定结构似乎鼓励智能体学习环境中的基本结构例如道路边缘以最好地执行其任务。我们看到这些注意力属性也会转移到测试环境中帮助代理将其策略推广到新的背景。 洗牌的 CarRacing 结果。智能体已经学会了将注意力由突出显示的补丁指示集中在道路边界上。左图训练环境。右图具有新背景的测试环境。
四、结论 这里介绍的排列不变神经网络代理可以处理定义不清、变化的观察空间。我们的代理对包含冗余或嘈杂信息的观察结果或损坏和不完整的观察结果非常可靠。我们相信置换不变系统为强化学习开辟了许多可能性。 如果您有兴趣了解有关这项工作的更多信息我们邀请读者阅读我们的互动文章pdf 版本或观看我们的视频。我们还发布了代码来重现我们的实验。 参考资料 用于强化学习的排列不变神经网络 |大トロ (otoro.net) archive | 大トロ (otoro.net)