我正在尝试使用RL / GA解决资源调度问题。我被困在如何为问题创建自定义环境并实际进行一些测试的过程中。我阅读并实现了针对其他GYM环境的Q-Learning,但是仍然为解决手头的问题而创建自定义环境。
Q-Learning会带来问题,因为可能的状态-动作对数量庞大,因此可以使用DQN。但是究竟如何解决这个问题?
任何指针都会有所帮助。
查看自定义环境的标准稳定基准实现,并尝试自己构建。您可以使用它轻松加载dqn模型,但是您将需要构建观察空间的所有部分以及在step函数中对观察空间执行的操作。将有一个标准模板可供定制。