资讯详情

谷歌推出改进强化学习的新方法

2022-11-12 08:42:224636

谷歌推出改进强化学习的新方法

谷歌的人工智能研究人员提出了一种改进强化学习 (RL) 的新方法——重用先前的计算工作。

在论文Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress中，该团队提议在 RL 代理到另一个代理的设计迭代之间重用记录的数据或学习模型。

研究人员表示，重用计算工作可以“显着提高现实世界 RL 的采用率，并有助于进一步民主化”。

该论文的作者表示，重生强化学习 (RRL) 是“比白板强化学习更（更多）计算效率更高的研究工作流程，并且可以帮助进一步使研究民主化”。

该论文在 NeurIPS 2022 会议之前发表，代码可通过GitHub获得。

降低研究人员的计算成本

强化学习是一种机器学习训练方法，其中期望的行为得到奖励，而未寻求的行为则受到惩罚。实际上，这是一种试错法，系统会逐渐学习其任务和周围的环境。RL 可用于改进机器人、自动驾驶汽车本文和对话代理等领域的部署。

谷歌推出改进强化学习的新方法

大多数基于代理的系统都是使用 RL 的白板方法开发的，因为它们是从头开始构建的，而不使用先前学习的有关问题的知识。

谷歌的研究团队认为，tabula rasa RL 方法“通常是解决大规模 RL 问题的例外而不是规范”。他们认为，重新训练大型系统“成本高得令人望而却步”，尤其是考虑到许多系统经历了多次设计变更和修改。

“tabula rasa RL 研究的低效率可能使许多研究人员无法解决计算要求高的问题，”作者在谷歌博客文章中写道。

相反，研究人员认为，他们的新可重用方法将使研究人员受益，因为不需要过多的计算资源。

谷歌研究人员表示：“RRL 可以实现基准测试范式，研究人员可以在其中不断改进和更新现有的训练有素的代理，特别是在提高性能对现实世界产生影响的问题上，例如（平流层）气球导航或芯片设计。”

然而，该论文确实指出，对于自然语言处理 (NLP) 和计算机视觉来说，重新强化学习将是困难的，因为在这些领域，预训练的模型很少（如果有的话）从头开始复制或重新训练，但几乎总是按原样使用。

作者写道：“由于从头开始的再现性涉及再现现有的计算工作，它可能比训练白板更昂贵，这超出了进行轮回的目的。”