Re: [心得] Alphago的弱點

作者: turing (涂妮)   2016-03-13 21:31:00
先簡介AlphaGo的原理,
AlphaGo有兩個主要的分析網路,
1. 策略網路 policy network
在當前的局面分析可能下的棋點,並計算出現的機率。
例如:第二局的37手的五路肩沖的機率是萬分之一。
機率高的會分配較多的資源,算的比較深。
2. 值網路 value network
給定一盤面,計算出黑白獲勝的機率。
另外,它不是每步棋重新計算。
在對手下棋之後,符合的分枝之前計算過的結果會保留繼續用。
而在對手思考的同時,他的每個分枝也繼續地再算下去。
再看今天第78手後,發生什麼事情?
明顯這個「神之一手」不在其策略網路之前估計的棋步中。
所以,之前所有值網路所估計的勝率全部報廢。
AlphaGo必需全部重新計算勝率,而需要約五步的時間(到第79~87步)
值網路才回復正常。
另外,由前面幾局知道,當它勝定時,有可能會亂下而損棋,
原因是勝率都差不多。而今天知道,當它敗定,也會亂下,
原因同樣是勝率差不多。所以AlphaGo會有兵敗如山倒的缺陷。
真的要測試AlphaGo的Bug,需要的可能是「屁之一手」,
在大約80手左右,它已經累計了大量的計算之後,
下一手明顯它不曾考慮過的棋,即使它非常地差。
再看看它是否會亂掉。
作者: McEliece5566 (無想轉生)   2016-03-13 21:35:00
這之前有人提過了 你下差棋 alphaGo 不會理你
作者: bxxl (bool)   2016-03-13 21:37:00
如果這樣是個滿嚴重的bug, 照理來說重算只要拉長時間就好了
作者: xyz987123 (odas)   2016-03-13 21:43:00
記得團隊是說阿發認為是優勢耶 應該是有算但算錯吧 後來反正勝率高下ㄧ些損的 才發現估錯
作者: raku (raku)   2016-03-13 21:45:00
這就算成立,只要多下個幾千萬盤或是硬體進步就克服缺點了
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-13 21:51:00
不成 這個屁之一手還不能太屁 如果不是勝負難定的一手
作者: Uizmp (黑袍法師)   2016-03-13 21:51:00
屁之一手沒用, 要這種讓他勝率狂掉的才會有用
作者: moonlind (又多了敷臉卡跟覓食卡了~)   2016-03-13 21:52:00
他可能不理你 繼續算他剛剛算的 然後五步內妳自己大虧你也說了 他重算要五步的時間 如果你下得太屁 在他發現問題前 五步內因為這個屁自己虧了多少?
作者: Uizmp (黑袍法師)   2016-03-13 21:53:00
屁之一手沒有辦法打亂他的兩個決策網路
作者: birdy590 (Birdy)   2016-03-13 21:54:00
觸發條件應該是"評價應該大幅下降 但DCNN評估錯誤"
作者: RS44 (黑色幽默)   2016-03-13 22:19:00
所以還是要靠暴力破解 考慮所有的組合才能避免 但有生之年..
作者: aegis43210 (宇宙)   2016-03-13 22:29:00
窮舉哦,全球前500名的超級電腦一起算,也要算數年吧
作者: Uizmp (黑袍法師)   2016-03-13 22:32:00
就算是窮舉 也不能保證勝利啊
作者: indium111 (#ttyhg)   2016-03-13 23:12:00
全地球的電腦加起來算,算到太陽系毀滅了都還沒算完窮舉就是保證勝利,像五子棋只要電腦持黑就是必勝
作者: Uizmp (黑袍法師)   2016-03-13 23:23:00
等等, 那持白呢?窮舉只是把所有的可能算出來而已吧?
作者: liaon98 (liaon98)   2016-03-13 23:33:00
啊所有的可能都算出來了 就自然走哪步必勝啊...
作者: Uizmp (黑袍法師)   2016-03-13 23:51:00
問題是也要把對手逼往必勝那條路上啊, 又不是只有一個人下
作者: liaon98 (liaon98)   2016-03-13 23:55:00
你下在最好的地方 對方也有個最好的地方若對方不是下在這個最好的地方 表示對方虧了那麼可以下到必勝的路只會更多 不會變少

Links booklink

Contact Us: admin [ a t ] ucptt.com