reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

当动作是在Cartpole中向右移动时，它移到左侧。为什么那样？如何解决？

在我的实验中，我正在使用OpenAi的Cartpole-V1环境。我需要设置一个状态，然后在该状态下执行诉讼。当我执行特定的动作时，它的行为不会如预期的那样。对于

python reinforcement-learning openai-gym q-learning

回答 1 投票 0

ML代理商在Unity中没有收敛于简单的弹丸到目标任务

代理在目标下发射弹丸。代理只有一个动作 - 射击的角度。发射力是恒定的。我也没有改变目标的位置。

c# unity-game-engine machine-learning reinforcement-learning

回答 1 投票 0

如何将Jax.vmap与亚麻列车元组用作输入？我正在建立一个深色的MARL框架，我需要评估我的演员政策。理想情况下，这将需要使用jax.vmap在演员亚麻列表的元组上。我尝试了以下内容：导入JAX

import jax import jax.numpy as jnp import flax.linen as nn from flax.linen.initializers import constant, orthogonal from flax.training.train_state import TrainState import optax import distrax class PGActor_1(nn.Module): @nn.compact def __call__(self, x): action_dim = 4 activation = nn.tanh actor_mean = nn.Dense(128, kernel_init=orthogonal(jnp.sqrt(2)), bias_init=constant(0.0))(x) actor_mean = activation(actor_mean) actor_mean = nn.Dense(64, kernel_init=orthogonal(jnp.sqrt(2)), bias_init=constant(0.0)) (actor_mean) actor_mean = activation(actor_mean) actor_mean = nn.Dense(action_dim, kernel_init=orthogonal(0.01), bias_init=constant(0.0))(actor_mean) pi = distrax.Categorical(logits=actor_mean) return pi class PGActor_2(nn.Module): @nn.compact def __call__(self, x): action_dim = 2 activation = nn.tanh actor_mean = nn.Dense(64, kernel_init=orthogonal(jnp.sqrt(2)), bias_init=constant(0.0)) (actor_mean) actor_mean = activation(actor_mean) actor_mean = nn.Dense(action_dim, kernel_init=orthogonal(0.01), bias_init=constant(0.0))(actor_mean) pi = distrax.Categorical(logits=actor_mean) return pi state= jnp.zeros((1, 5)) network_1 = PGActor_1() network_1_init_rng = jax.random.PRNGKey(42) params_1 = network_1.init(network_1_init_rng, state) network_2 = PGActor_2() network_2_init_rng = jax.random.PRNGKey(42) params_2 = network_2.init(network_2_init_rng, state) tx = optax.chain( optax.clip_by_global_norm(1), optax.adam(lr=1e-3) ) actor_trainstates= ( TrainState.create(apply_fn=network_1.apply, tx=tx, params=params_1), TrainState.create(apply_fn=network_1.apply, tx=tx, params=params_2) ) pis = jax.vmap(lambda x: x.apply_fn(x.params, state))(actor_trainstates)

reinforcement-learning jax flax multi-agent-reinforcement-learning

回答 1 投票 0

evalcallback悬挂在稳定的baselines中3

python-3.x reinforcement-learning stablebaseline3

回答 1 投票 0

AttributeError：“NoneType”对象没有属性“glfwGetCurrentContext”

我正在尝试强化学习教程，其中我目前正在尝试使用体育馆、mujoco 来训练代理。我已经安装了 mujoco，当我尝试运行该程序时，SIM 窗口打开...

python reinforcement-learning mujoco

回答 2 投票 0

将多个模型指标运行记录到 MLFlow 中的同一图

我正在对模型参数进行网格搜索优化，并使用以下命令将损失记录到 MLFlow Mlflow.log_metric(f“{run_number}_Loss”，返回，迭代) 但对于每一次新的跑步，我都会得到不同的结果...

machine-learning reinforcement-learning mlflow