Policy Gradients

共 1 篇学习资料

排序

在强化学习中，策略梯度（Policy Gradient，PG）是一种直接基于策略优化的方法，其核心思想是通过参数化策略函数并优化其参数，从而最大化期望累积奖励。 1. 策略梯度的基本思想策略梯度算...

1年前

1K0