AlphaGo零板评估功能使用多个时间步作为输入......为什么?

问题描述 投票:1回答:1

根据AlphaGo Cheat Sheet的说法,AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。

理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置。

为什么他们选择注入如此多的复杂性?

他们在听什么?

AlphaGoZero

Game State

neural-network deep-learning artificial-intelligence torch reinforcement-learning
1个回答
3
投票

唯一的原因是因为在所有游戏中 - Go,Chess和Shogi--都有重复规则。这意味着游戏在目前的董事会职位上无法完全观察到。换句话说,可能存在两个相同的位置,具有两个非常不同的评估。例如,在一个Go位置可能会有一个获胜的举动,但是在相同的Go位置,该举动要么是非法的,要么在即将获胜的继续中的下一个动作中的一个创建非法位置。

您可以尝试仅在当前电路板位置进行馈电并仅处理树中的重复。但我认为这会更弱,因为评估函数在某些情况下是错误的,如果树的那个分支没有被深入探索以纠正问题,那么会导致视界效应。

© www.soinside.com 2019 - 2024. All rights reserved.