神经网络强化学习

Question

我有 3 个不同的操作（A & B & Nothing），每个操作都有不同的能力（例如 A100 A50 B100 B50）我想知道将这些动作提供给神经网络以产生最佳结果的最佳方法是什么？

1- 将 A/B 馈送到输入 1，同时动作功率 100/50/无输入 2

2-送A100/A50/无输入1，而B100/B50/无输入2

3- 将 A100/A50 馈送到输入 1，将 B100/B50 馈送到输入 2，而将 Nothing 标志馈送到输入 3

4- 还要喂 100 和 50 或将它们标准化为 2 和 1 ？

我需要选择一种方法的理由。

Answer 1

你想学什么？输出应该是什么？输入只是使用的操作吗？如果您正在学习环境模型，则它由概率分布表示：

P（下一个状态|状态，动作）

每个动作使用单独的模型是很常见的。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。模型暗示了所使用的动作。

状态特征可以编码为位。活动位将指示某个功能的存在。

这将学习确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一种可能性可能是使用随机神经元。