CleanRL 教程

本教程展示了如何使用 CleanRL 从头开始实现训练算法,并在 Pistonball 环境中进行训练。

  • 实现 PPO: 使用简单的 PPO 实现来训练智能体

  • 高级 PPO: CleanRL 官方 PPO 示例,集成 CLI、TensorBoard 和 WandB

CleanRL 概览

CleanRL 是一个轻量级、高度模块化的强化学习库,提供高质量的单文件实现,并具有研究友好的特性。

更多信息请参阅文档

使用 PettingZoo 的示例:

WandB 集成

一个关键特性是 CleanRL 与 Weights & Biases (WandB) 的紧密集成:用于实验跟踪、超参数调优和基准测试。Open RL Benchmark 允许用户查看许多任务的公开排行榜,包括智能体在训练时间步长中的表现视频。

CleanRl integration with Weights & Biases