先簡介AlphaGo的原理,
AlphaGo有兩個主要的分析網路,
1. 策略網路 policy network
在當前的局面分析可能下的棋點,並計算出現的機率。
例如:第二局的37手的五路肩沖的機率是萬分之一。
機率高的會分配較多的資源,算的比較深。
2. 值網路 value network
給定一盤面,計算出黑白獲勝的機率。
另外,它不是每步棋重新計算。
在對手下棋之後,符合的分枝之前計算過的結果會保留繼續用。
而在對手思考的同時,他的每個分枝也繼續地再算下去。
再看今天第78手後,發生什麼事情?
明顯這個「神之一手」不在其策略網路之前估計的棋步中。
所以,之前所有值網路所估計的勝率全部報廢。
AlphaGo必需全部重新計算勝率,而需要約五步的時間(到第79~87步)
值網路才回復正常。
另外,由前面幾局知道,當它勝定時,有可能會亂下而損棋,
原因是勝率都差不多。而今天知道,當它敗定,也會亂下,
原因同樣是勝率差不多。所以AlphaGo會有兵敗如山倒的缺陷。
真的要測試AlphaGo的Bug,需要的可能是「屁之一手」,
在大約80手左右,它已經累計了大量的計算之後,
下一手明顯它不曾考慮過的棋,即使它非常地差。
再看看它是否會亂掉。