CleanRL 教程¶
本教程展示了如何使用 CleanRL 从头开始实现训练算法,并在 Pistonball 环境中进行训练。
CleanRL 概览¶
CleanRL 是一个轻量级、高度模块化的强化学习库,提供高质量的单文件实现,并具有研究友好的特性。
更多信息请参阅文档。
使用 PettingZoo 的示例:¶
WandB 集成¶
一个关键特性是 CleanRL 与 Weights & Biases (WandB) 的紧密集成:用于实验跟踪、超参数调优和基准测试。Open RL Benchmark 允许用户查看许多任务的公开排行榜,包括智能体在训练时间步长中的表现视频。
