Re: [心得] Alphago的弱點 yamiyodare PTT批踢踢實業坊

Re: [心得] Alphago的弱點

作者: yamiyodare (shantotto) 2016-03-13 22:21:32

※ 引述《turing (涂妮)》之銘言：
: 再看今天第78手後，發生什麼事情？
: 明顯這個「神之一手」不在其策略網路之前估計的棋步中。
: 所以，之前所有值網路所估計的勝率全部報廢。
: AlphaGo必需全部重新計算勝率，而需要約五步的時間(到第79~87步)
: 值網路才回復正常。
我的看法是 Policy Network 裡面有給過神之一手 (白 78)
AlphaGo 也算過相關變化, 但是算的不夠深, 或者說 Value Network 太晚估對.
假設 AlphaGo 搜尋深度固定 8 層 (簡化說明, 實際上不是如此)
AlphaGo 79 手: 我算過 79~86 手的變化了, 86 手的 value network 有 70%
我可以安心下 79.
AlphaGo 81 手: 81 手 value network 報 70%
讓我算一下 81~88 手為止的變化
WTF! 87 手的 value network 掉到 40% ?
可是 81 手的勝率 40% (被 87 手降低) 還是最高, 只好繼續下 81.
AlphaGo 83 手: 83 手 value network 報 70%
83 手的勝率 40% 還是最高, 只好繼續下 83.
AlphaGo 83 手: 85 手 value network 報 70%
85 手的勝率 40% 還是最高, 只好繼續下 85.
AlphaGo 87 手: 87 手的 value network 報 40%
我第 81 手時知道我錯了, 可是 81 手前下錯已經走上單行道.
想避開神之一手
AlphaGo 要能搜尋的更深提早知道 87 手的盤面很劣 (但要花很多運算時間)
或是 Value Network 早一點報對, 比如說第 80 手的盤面就知道很劣.
拉長搜尋時間不太可行 (今天都快用光時間了)
把 Value Network 訓練的更準應該是 AlphaGo 主要的目標.

作者: ilw4e (可以吃嗎？) 2016-03-13 22:23:00

可是照理說minimax不是要排除嗎?:D

作者: SuperUp ((￣▽￣＃)﹏﹏) 2016-03-13 22:24:00

自爆的那二手也是勝率最高嗎?

作者: yamiyodare (shantotto) 2016-03-13 22:27:00

算的不夠深所以沒排除

作者: ShenMue (莎木) 2016-03-13 22:28:00

如果到了2040年左右？能再多搜個幾層的話棋士還能對抗嗎

作者: yamiyodare (shantotto) 2016-03-13 22:28:00

它會下它認為勝率最高的, 只是人類不一定同意.

作者: aaaba (小強) 2016-03-13 22:28:00

也有可能是mcts裡的rollout policy太爛，分支就被剪掉了

作者: birdy590 (Birdy) 2016-03-13 22:28:00

實際上計算是 MCTS, 評估網路認為沒那麼重要的就不會算那麼深(時間夠或計算資源多還是可能會算到但不保證)

作者: arcworld (人生究竟是什麼呢？) 2016-03-13 22:29:00

可是是因為AG下了69才會有78的發生

作者: Uizmp (黑袍法師) 2016-03-13 22:30:00

自爆的時候可能決策系統給出的勝率都很低了

作者: pkyosx (Insomnia) 2016-03-13 22:30:00

minmax 是看他深度決定的有可能 min 在更深的地方

作者: birdy590 (Birdy) 2016-03-13 22:31:00

應該反過來講它在計算 69 的時候是看不到 78 的

作者: arcworld (人生究竟是什麼呢？) 2016-03-13 22:31:00

所以，實際上AG在評估69要下哪邊時就做錯決定了...

作者: pkyosx (Insomnia) 2016-03-13 22:31:00

等到他真的遇到了就 GG 了

作者: aegis43210 (宇宙) 2016-03-13 22:31:00

有量子電腦就能試試窮舉了呀，但還久

作者: pkyosx (Insomnia) 2016-03-13 22:37:00

這個局部的洞估計兩邊都很難在夠早的地方看到就是運氣

作者: countingtls (北海牧羊人) 2016-03-13 22:45:00

還在minmax, 通通回去看完論文再來推文

作者: Rinehot 2016-03-13 22:47:00

不是運氣他扳右邊二子頭其實非必要

作者: darkseer 2016-03-14 03:21:00

不懂。如果他早知道正常下87手勝率很低，79手就不會覺得勝率高吧? 我不懂MCTS，但我以為這裡收斂到minimax很快

作者: jasonchangki (阿特拉斯聳聳肩) 2016-03-14 05:18:00

2040有量子電腦出現的話應該就窮舉了

作者: darkseer 2016-03-14 07:53:00

感謝原po XD 想來我本來看錯了，不過這跟Demis說法不符?

作者: yamiyodare (shantotto) 2016-03-14 07:53:00

修改一下比較清楚

作者: darkseer 2016-03-14 07:54:00

就是Demis說AlphaGo的回報勝率到87才降

作者: yamiyodare (shantotto) 2016-03-14 07:55:00

Demis 可能透過 AlphaGo 知道 79 手下別處沒那麼差value network 的確是到 87 手才降的搜尋樹回報的勝率是後續幾手 value network 決定Demis 指的是 value network 到 87 手才知道劣太晚了

作者: darkseer 2016-03-14 07:58:00

我不會這樣解讀Demis的說法XD 不過說不定是你說的這樣等等，你說的真是太有道理了!!! m(_ _)m感謝推這篇XD，我覺得對沒學過演算法的人這篇最好，你沒有討論rollout policy，不過Demis意思應該就是說value network才是問題所在，這樣好像很難分析...

繼續閱讀

[閒聊] 小李還是下得很糟糕兼論阿法狗弱點sky0302 [問題] 請問為什麼中國韓國棋士不去日本發展?RomaneeConti Re: [心得] 圍棋AI AlphaGo 之我見fallcolor Re: [討論] 神之一手存不存在?pkyosx [心得] AlphaGo常見問題總整理Roger0123 Re: [心得] Alphago的弱點turing [討論] 神之一手存不存在?lolylolyosu Re: [討論] 李世石對 AlphaGo 第四局 78 手解說(找到bug)wnglon [討論] 李世石 VS AlphaGo 第四局看法wukevinboy [新聞] 柯潔：李證電腦不完美盼約戰不怕對手進步zkow