Skip to content

Main Navigation 首页计算机科学经济与管理订阅 RSS 关于

简体中文

简体中文

Sidebar Navigation

计算机科学

概览

AI 安全与对齐

AI for Science

算法与数据结构

AutoML 与 NAS

生物信息学

因果推断

计算机网络

计算机安全

计算机视觉

数据挖掘

数据库系统

深度学习

分布式系统

具身智能

可解释 AI

生成模型

图神经网络

人机交互

信息检索

大语言模型

机器学习

多模态学习

自然语言处理

操作系统

优化理论

编程语言

量子计算

推荐系统

强化学习

机器人

软件工程

语音与音频处理

时间序列分析

本页目录

强化学习

策略梯度、Q 学习、离线 RL、模仿学习与多智能体。

翻译状态

本页面的中文版本尚未提供。完整内容（《Reinforcement Learning》）请参阅 Reinforcement Learning（English）。

如果你愿意协助翻译本页（保留链接、表格、参考文献格式），欢迎在 GitHub 仓库提交 PR。

在 GitHub 上编辑此页

最后更新:

Pager

下一页概览

Released under the MIT License.

Copyright © 2026 badhope