切换网站导航侧边栏

PettingZoo 文档

Farama Foundation

隐藏导航侧边栏

隐藏目录侧边栏

PettingZoo 文档

介绍

基本用法
环境创建
测试环境

API

AEC API
并行 API
包装器
切换包装器导航
工具

环境

Atari
切换 Atari 导航
Butterfly
切换 Butterfly 导航
经典
切换经典导航
MPE
切换 MPE 导航
SISL
切换 SISL 导航
第三方环境

教程

自定义环境教程
切换自定义环境教程导航
CleanRL 教程
切换 CleanRL 教程导航
- CleanRL：实现 PPO
- CleanRL：高级 PPO
Tianshou 教程
切换 Tianshou 教程导航
Ray RLlib 教程
切换 Ray RLlib 教程导航
- RLlib：Pistonball 的 PPO
- RLlib：Simple Poker 的 DQN
LangChain 教程
切换 LangChain 教程导航
- LangChain：创建 LLM 智能体
Stable-Baselines3 教程
切换 Stable-Baselines3 教程导航
AgileRL 教程
切换 AgileRL 教程导航

开发

Github
发布说明
贡献文档

切换目录侧边栏

CleanRL 教程¶

本教程展示了如何使用 CleanRL 从头开始实现训练算法，并在 Pistonball 环境中进行训练。

实现 PPO: 使用简单的 PPO 实现来训练智能体
高级 PPO: CleanRL 官方 PPO 示例，集成 CLI、TensorBoard 和 WandB

CleanRL 概览¶

CleanRL 是一个轻量级、高度模块化的强化学习库，提供高质量的单文件实现，并具有研究友好的特性。

更多信息请参阅文档。

使用 PettingZoo 的示例：¶

PPO PettingZoo Atari 示例

WandB 集成¶

一个关键特性是 CleanRL 与 Weights & Biases (WandB) 的紧密集成：用于实验跟踪、超参数调优和基准测试。Open RL Benchmark 允许用户查看许多任务的公开排行榜，包括智能体在训练时间步长中的表现视频。

CleanRl integration with Weights & Biases

CleanRL：实现 PPO

教程：测试您的环境

版权所有 © 2023 Farama Foundation

在本页

CleanRL 教程