自自然选择的思想候选解决方案群体通常会经过几代人的进化以更好地适应优化目标。已应用于各种具有挑战性的决策问题例如腿式运动四轴飞行器控制甚至电力系统控制。与基于梯度的强化学习方法例如近端策略优化和软演员批评家相比有几个优点。首先直接在控制器参数空间中进行探索而基于梯度的方法通常在有限的动作空间内进行探索这间接影响了控制器参数。更直接的探索已被证明可以提高学习性能并通过并行计算实现大规模数据收集。其次强化学习的一个主要挑战是长期信用分配例如当机器人最终完成一项任务时确定它过去执行的哪些动作是最关键的应该分配更大的奖励。
由于直接考虑总奖励因此研究人员无需明确处理学分分配。此外由于不依赖梯度信息它自然可以处理高度非平滑的目标或梯度计算不简单的控制器架构例如元强化学习。然而基于 佐治亚州手机号码列表 的算法的一个主要弱点是它们难以扩展到需要高维感官输入来编码环境动态的问题例如训练具有复杂视觉输入的机器人。在这项工作中我们提出了利用预测信息表示加速进化学习视觉运动这是一种结合表示学习和的学习算法以可扩展的方式有效解决高维问题。其核心思想是利用预测信息表示学习目标来获得高维环境动态的紧凑表示然后应用流行的算法增强随机搜索将学习到的紧凑表示转换为机器人行动。

我们在腿式机器人视觉运动这一具有挑战性的问题上测试了。能够快速训练基于视觉的高性能运动控制器使其能够穿越各种困难的环境。此外在模拟环境中训练的控制器成功地转移到真正的四足机器人上。训练可靠的视觉运动策略这些策略可以转移到现实世界。预测信息策略学习的良好表示应该是压缩的以便可以专注于解决比从原始观察中学习所需的维数低得多的问题并且是任务关键的因此学习的控制器拥有学习最优控制器所需的所有必要信息。行为。对于高维输入空间的机器人控制问题策略了解环境至关重要包括机器人本身及其周围物体的动态信息。因此我们提出了一种观察编码器它保留来自原始输入观察的信息使策略能够预测环境的未来状态因此被称为预测信息。