reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

强化学习体育馆ValueError

我第一次在体育馆测试强化学习。 我正在关注 YouTube 教程。 当我运行训练循环时,出现以下错误: ValueError:设置一个...

回答 1 投票 0

如何使用 Flux.jl 中的梯度更新 PPO 中的 actor 网络参数?梯度不返回任何内容

前言,我是一个完全的 Julia 新手...我第一次尝试实现 PPO,并且在使用 gra 更新 actor(以及扩展批评家)网络参数时遇到问题...

回答 1 投票 0

整个剧集中的奖励值相同

我正在开发 DDPG 并创建了自己的自定义环境,同时我注意到一些奇怪的事情,即在每一集中我的代理收集相同数量的奖励和我每集的步数...

回答 1 投票 0

强化学习中状态的效用

在Artificial Intelligence A Modern Approach (第3版-Russell)一书中,我们有一个像这样的4*3世界: 通过一些我不明白的计算,我们为每个员工提供了这个实用程序......

回答 1 投票 0

SB3 - 属性错误:“DummyVecEnv”对象没有属性“get_action_meanings”

当我尝试将 SB3 vec_env 与 AtariWrapper 结合使用时,出现错误 - 将体育馆导入为健身房 从 stable_baselines3 导入 PPO 从 stable_baselines3.common.env_util 导入 make_vec_env 来自

回答 1 投票 0

安装 pybullet 时遇到问题

我尝试使用以下命令在 Jupyter 笔记本上的 Windows 11 64 位操作系统上的 Python 3.9.12 上安装 pybullet 3.2.6: !pip 安装 pybullet>=3.2.6 但这会导致一个很长的错误

回答 1 投票 0

我需要为我的双边市场交易环境更改mu sb3代理的政策吗

我正在尝试在我的比特币交易环境中培训代理。我尝试了 finrl 库,但它没有任何良好的加密环境。 所以我尝试编写一个用于交易的双向市场环境

回答 1 投票 0

属性错误:模块“_Box2D”没有属性“RAND_LIMIT_swigconstant”

我正在尝试运行一个强化月球着陆器 正在学习,但是运行的时候却出现错误。 另外我的电脑是osx系统。 这是月球着陆器的代码: 将 numpy 导入为 np 进口健身房

回答 5 投票 0

训练 Deep Q 网络时如何实施“游戏规则”

我正在尝试制作一个 Deep-Q 网络,它可以自学玩井字棋的修改版本(一种 m、n、k 游戏) 我想确保网络不会在已有标记的地方放置标记 我

回答 1 投票 0

无法在 Anaconda 上从 OpenAI Gymnasium 捕获视频

我正在尝试从 OpenAI Gymnasium 捕获并保存视频。 在 Google Collab 中,此代码有效: !pip 安装体育馆 !pip 安装 moviepy 将体育馆导入为健身房 env =gym.make("CartPole-v1...

回答 1 投票 0

为什么我在尝试安装gym[all]时遇到错误?

我正在尝试安装gym[all],但每次都会收到此错误消息: 收集 pygame==2.1.0 (来自gym[all]) 使用缓存的 pygame-2.1.0.tar.gz (5.8 MB) 准备元数据(setup.py)...

回答 1 投票 0

无法使用 OpenGL 找到渲染

我正在使用 Mac,并尝试从 open ai 的健身房渲染环境 进口健身房 env=gym.make('CartPole-v1') img = env.render() 导入错误:找不到框架/System/Library/Frameworks/

回答 1 投票 0

自定义体育馆环境中的学习代理与 stable_baseline3 改变这个环境

我定制了一个gymnasium环境并使用stable_baseline3对其进行训练。但学习过程改变了我的环境。 >>>打印(env.step(2)) (510,-0.1,假,假,{}) >>>模型.学习(

回答 1 投票 0

无法在 stablebasekines3 中加载自定义模型

我尝试在 stablebaselines3 中加载预训练模型,但出现此错误。 C:\Users\prath\miniconda3 nvs lunitybutler\lib\site-packages\stable_baselines

回答 0 投票 0

Haskell GriWorld 无限循环

我正在尝试通过强化学习在 Haskell 中编写 GridWorld 模拟。我被困住了,因为我一直陷入第 109 行的无限循环。我已经盯着这个问题一周了,一个......

回答 1 投票 0

Keras-rl2 错误与 Tensorflow 的兼容性

我目前在使用 keras-rl2 和 tensorflow 时遇到问题,我不知道为什么,我只是在互联网上搜索 keras-rl2、tensorflow 和 keras 文档,但没有找到

回答 1 投票 0

我正在 Atari 上实施 DQN。我有一些与形状相关的问题

如果您可以从头开始制作 atari 基本 dqn(包装器除外),请分享该文件。 我随机收到 2 个错误 ValueError:使用序列设置数组元素。所要求的...

回答 1 投票 0

StableBaselines3 - NotImplementedError:不支持观察空间

我正在尝试在 Pendulum-v1 环境上运行 cleanrl。我通过转到此处并将默认 env-id 更改为 parser.add_argument("--env-id", type=str, default="Pendulum-v1&...

回答 1 投票 0

为什么我的 REINFORCE 算法无法学习?

我正在 CartPole 环境上训练 REINFORCE 算法。由于环境的简单性,我希望它能够快速学习。然而,这并没有发生。 这是主要部分...

回答 1 投票 0

从多种格式的RL脚本中AST提取参数

我有多种强化学习算法的实现,我试图从中提取参数、它们的数据类型和值。 然而,这些实现因脚本而异,有时

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.