根据AlphaGo Cheat Sheet的说法,AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。
理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置。
为什么他们选择注入如此多的复杂性?
他们在听什么?
唯一的原因是因为在所有游戏中 - Go,Chess和Shogi--都有重复规则。这意味着游戏在目前的董事会职位上无法完全观察到。换句话说,可能存在两个相同的位置,具有两个非常不同的评估。例如,在一个Go位置可能会有一个获胜的举动,但是在相同的Go位置,该举动要么是非法的,要么在即将获胜的继续中的下一个动作中的一个创建非法位置。
您可以尝试仅在当前电路板位置进行馈电并仅处理树中的重复。但我认为这会更弱,因为评估函数在某些情况下是错误的,如果树的那个分支没有被深入探索以纠正问题,那么会导致视界效应。