我正在尝试在我的比特币交易环境中培训代理。我尝试了 finrl 库,但它没有任何良好的加密环境。
所以我尝试编写一个用于交易比特币的双向市场环境,可以在 stable_baselines3 算法(如 a2c 和 ppo)上进行训练。操作是 -1 和 1 之间的数字,因此小于零是卖出,零是持有,大于零是买.
问题是我在我的环境中有一些逻辑,比如如果有一个买入头寸,你就不能开一个卖出头寸,或者如果有超过 5 个买入或卖出头寸,你就不能开更多头寸。这种逻辑让智能体知道最好是坚持住。
火车进程看起来不错,我的意思是我可以看到代理正在使用的不同操作,但在测试中它只是 0 。
我检查了 sb3 在 ppo 和 a2c 上使用的策略及其 mlpolicy (ActorCricitPolicy),我想知道是否需要更改策略。我不会撒谎,我看到了政策代码,但什么也不明白:-) .
抱歉我的英语不好。
我绑定了不同的算法,例如 a2c 和 ppo 和 ddpg 和 sac 和 td3 。
我尝试调整奖励功能。奖励基于我们在每个仓位结束时赚取的利润。
我在代理中尝试了不同的 kwargs 。
我尝试了不同的时间范围数据集(1 分钟,5 分钟,1 小时,...)
这个不饱和的程序会发生什么