强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。
我使用 pip installgynasium[box2d] 时出现错误
我正在VSC中使用Python进行强化学习。我尝试使用这个 Linux 命令: pip 安装体育馆[box2d] 我收到这个错误: 错误:box2d-py 构建轮子失败 所以我觉得不是
我希望有人能帮助我。我正在为 CartPole-v1 体育馆环境实现基本的香草策略梯度算法,但我不知道我做错了什么。 无论我尝试什么,在...
我正在尝试为我的博士进展构建一个 DQN 模型,在使用实际数据实现它之前,我想利用虚拟数据。 使用相同的过程和简单的 Q Learning,方法是
我正在使用 DDQN 进行经验回放,就像本教程中的那样 https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html 除了我通过模糊使问题变得更加困难......
stable_baselines 模块错误 -> 'gym.logger' 没有属性 'MIN_LEVEL'
我正在尝试使用 stable_baselines,但是我尝试使用的任何模型都会给我同样的错误: 模块“gym.logger”没有属性“MIN_LEVEL” 我附上了他们网站上的一个示例...
早上好。 我正在 TensorBoard 中分析强化学习结果。下面这两个指标用下面的公式表达是否合适? 累积奖励:平均累积ep...
我构建了一个自定义的强化学习环境和代理,类似于迷宫游戏。 在迷宫中有 5 种可能的动作:上、下、左、右和停留。而如果被阻止,...
假设我们有一个机器人可以移动的 (x,y) 平面。现在我们将世界的中间定义为目标状态,这意味着一旦我们的机器人反应,我们将给予它 100 的奖励...
在 Q 学习中,智能体采取行动直到达到目标。该算法执行多次直至收敛。例如,目标是获得最大吞吐量,直到...
在Q学习算法中,动作的选择取决于当前状态和Q矩阵的值。我想知道这些 Q 值是否仅在探索步骤中更新,或者它们
据我的理解,可以用神经网络替换 Q 值(状态动作对评估)的查找表来估计这些状态动作对。我编写了一个小
我学习和应用强化学习的玩具项目是: 代理试图“安全”且“快速”地达到目标状态...... 但也有射弹和火箭
我正在尝试使用多层神经网络来实现部分可观察马尔可夫过程中的概率函数.. 我认为神经网络的输入将是:当前状态、选择的动作、结果状态; ...
我正在尝试在具有连续状态(dim.= 20)和离散操作(3 个可能的操作)的环境中找到最优策略。并且有一个特定的时刻:为了实现最佳政策,采取一项行动(称之为......
我正在与 RL 和 NN 合作一个项目 我需要确定将馈送到神经网络的动作向量结构。 我有 3 个不同的操作(A 和 B 以及什么都没有),每个操作都有
我能找到的大多数材料(例如 David Silver 的在线课程)都提供了有关监督学习和强化学习之间关系的讨论。然而,这实际上是一个比较
我正在研究强化学习,使用 PPO 模型(稳定基线 3)预测日内 VWAP。 最大的问题是模型的可重复性。 当我加载并测试训练好的 m...
训练AlphaZero时如何在PyTorch中进行反向传播?
我正在尝试为 Connect Four 实现我的 AlphaZero 版本。我已经使用 PyTorch 实现了一个卷积网络,并且可以从给定的模型中获取(随机)值和策略输出
我正在尝试创建一个小型工作示例,说明如何将多离散操作空间与盒子观察空间一起使用。我遇到的问题之一是维度重新...
我正在尝试使用具有健身房和稳定基线的自定义 boid 植绒环境。我有一个自定义策略和培训循环。 我的行动和观察空间如下: min_action = np...