Re: [爆卦] AlphaGo發現自己79步失誤 yamiyodare PTT批踢踢實業坊

Re: [爆卦] AlphaGo發現自己79步失誤

作者: yamiyodare (shantotto) 2016-03-13 19:53:04

※ 引述《tlchen (台灣加油)》之銘言：
: 從這兩個 twitter 來看， AI 在 79 時仍認為自己有 79% 的勝率，
: 直到第 87 手時，才發現勝率驟降。四日棋迷猜測如下：
: AI 估計勝率是經由之後的模擬，白 78 手被認為神手，但或許是之後
: 的巧妙變化是不明顯的，所以 AI 無法知道這手有這麼大的功用，或
: 是說，無法準確的評估此時的盤面。
value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率.
基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的.
如果是人, 中盤之後可能會開始點空估計目數.
而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺.
value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來.
遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果.
如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋,
因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏.
圍棋很多時候差一路就差很多 (好手的旁邊常是惡手)
所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練.
如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network
就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應.
如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面.
但到 87 手才知道劣勢, 這時候已經走上不歸路.
AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式.
: 這提供了要對付目前這版 AlphaGo 的方法，你最好下一些方法是：接
: 下來對你的最佳解跟次佳解，結果會差很多，這樣 AI 用模擬的，就有
: 機會誤判。如果你下的棋，接下來的應對，結果都差不了太多，那 AI
: 自然估得準。讓它估不準，才會在接下來還沒估準前，繼續出錯。
這真的要拼 AlphaGo 形勢判斷錯誤.
但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢.
也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判.

作者: allenmusic (艾倫) 2016-03-13 19:55:00

我也這樣認為這麼晚才估出來已經有很大的問題後面alphago還演變成一堆自殺下法

作者: Maybetrue (已婚) 2016-03-13 19:58:00

期待Google公開AlphaGo秀斗的關鍵原因。

作者: allenmusic (艾倫) 2016-03-13 19:58:00

google乾脆大方公開程式碼讓全世界寫程式的去bug不是更快???

作者: MaseratiGTS (海神三叉戟) 2016-03-13 19:59:00

這樣google還要混嗎

作者: aegis43210 (宇宙) 2016-03-13 19:59:00

所以79~87的自殺打法是他認為勝率7X%時下出來的？

作者: signm (sin) 2016-03-13 19:59:00

所以alphago應該只能預估是當下而不是後面局勢

作者: yamiyodare (shantotto) 2016-03-13 20:00:00

它會預估後面, 但若估錯得太早已經來不及救了.

作者: signm (sin) 2016-03-13 20:03:00

那應該說alphago目前還沒有大局觀

作者: yamiyodare (shantotto) 2016-03-13 20:04:00

它有大局觀而且很強喔只是跟人一樣不是完全正確

作者: allenmusic (艾倫) 2016-03-13 20:05:00

我認為alphago自我鍛鍊幾百萬幾千萬盤應該多少會下

作者: DemonElf (LdsFish) 2016-03-13 20:05:00

不是Alphago只能估當下局勢，而是他並沒有完全算完(正是

作者: blackwindy (黑色的風) 2016-03-13 20:05:00

阿法狗就剛好沒算到那步不是沒有大局觀

作者: allenmusic (艾倫) 2016-03-13 20:06:00

出這種自殺自爆的棋路但google公司應該沒花時間去

作者: blackwindy (黑色的風) 2016-03-13 20:06:00

沒有大局觀還能屌打李喔? 怎麼可能

作者: DemonElf (LdsFish) 2016-03-13 20:06:00

因為現今電腦還沒辦法完全計算完所以才會只有Alphago能

作者: yamiyodare (shantotto) 2016-03-13 20:07:00

它有算到... 但是劣勢誤以為優勢所以還是往那邊下

作者: allenmusic (艾倫) 2016-03-13 20:07:00

還好李世石再這五盤幫google省了不少檢驗時間

作者: blackwindy (黑色的風) 2016-03-13 20:08:00

你怎麼能那麼確定他有算到?

作者: DemonElf (LdsFish) 2016-03-13 20:08:00

在有限的時間內去找出勝率最高的位置下，而且就像black提到的他還帶有隨機性，也就是說即使重新下一次今天的棋

作者: HamalAri (哈馬‧阿里) 2016-03-13 20:09:00

選擇不是看value network和MCTS的綜合結果嗎？沒只看其中一種吧

作者: DemonElf (LdsFish) 2016-03-13 20:09:00

Alphago下出來的結果理論上也有很大機會是不同的

作者: yamiyodare (shantotto) 2016-03-13 20:10:00

因為小李下了之後好幾手 AlphaGo 居然還以為自己優勢

作者: blackwindy (黑色的風) 2016-03-13 20:10:00

就是連續沒算到吧至於為什麼沒算到就是要看了

作者: allenmusic (艾倫) 2016-03-13 20:10:00

我是猜他重心花在計算自己下一步怎下勝率高沒花太

作者: DemonElf (LdsFish) 2016-03-13 20:11:00

不覺得AI這樣的"以為"其實跟人類有很類似的一面嗎

作者: blackwindy (黑色的風) 2016-03-13 20:11:00

看到底是演算法設計缺陷隨機有問題還是其他有的沒的

作者: allenmusic (艾倫) 2016-03-13 20:11:00

多時間去幫對方計算對方下一步下那裡勝率如何因為程式是人想寫出來的阿哈哈當然會有人類缺陷

作者: dukemon (dukemon) 2016-03-13 20:12:00

我記得之前不是有一局就想說他可能大局觀不足，但李原本

作者: yamiyodare (shantotto) 2016-03-13 20:12:00

給一個盤面要估出勝算本來就是超難題有很大進步空間

作者: blackwindy (黑色的風) 2016-03-13 20:12:00

他論文有提到他會預測對方接下來怎麼下別亂猜

作者: dukemon (dukemon) 2016-03-13 20:13:00

想攻的地方被AlphaGO先行穩固

作者: NaoGaTsu (那歐卡茲) 2016-03-13 20:16:00

推這篇，解說清楚。

作者: goldduck (哥達鴨) 2016-03-13 20:30:00

所以合理懷疑87手是被插入執行有被動手腳之嫌

作者: logus (Cosmos) 2016-03-13 20:31:00

這ai就是模擬人類腦神經的產物他本來就很像人他跟人的差別是他不眠不休的鑽研圍棋而且也只會下圍棋這種學習型ai甚至可以發展出自己的棋風比如阿發狗的勝率流那是他吃玩棋譜之後覺得最好贏的下法比較可怕的是他很少犯錯沒有情緒你不能知到自己是否已經讓ai動搖

作者: lolylolyosu (3-1次元) 2016-03-13 20:40:00

小李復活我覺得沒話說但是阿發狗的防禦明顯掉太多了這我認為有問題不太可能黑51那邊明顯放給人殺的

作者: Uizmp (黑袍法師) 2016-03-13 20:42:00

也許這就是穩穩的贏 vs 贏多一點以避免後面會出錯間的取捨

作者: chiangburger (漢堡) 2016-03-13 20:55:00

重金聘請的測試工程師還真的找到bug~

作者: Marino (馬利諾) 2016-03-13 21:11:00

以deepmind的原始概念來說它的系統每做一個動作它就要被告知分數是增減或不變也就是一個遊戲是單純的分數升降 deepmind通過學習就必勝但圍棋難的是每下一手並沒有明確的分數升降所以它才要估勝率來當做一種分數所以要修的重點就是估算這部分不然其他結構都是一樣的deepmind也可以拿來玩星海只是同樣要給它一個算分系統

作者: ilove88th (Denpa-Girl) 2016-03-13 21:56:00

演算法本來就有隨機性阿

作者: ShenMue (莎木) 2016-03-13 22:15:00

請問一下估計勝率這種東西有可能多報嗎？例如它估計49%~79%，連它自己都不敢肯定會收斂到49還是79然後它就先吐79%給人看這樣?

作者: DemonElf (LdsFish) 2016-03-13 23:59:00

勝率本來就是一個統合比例了，怎麼會是一個範圍XD

作者: birdy590 (Birdy) 2016-03-14 00:01:00

http://zhuanlan.zhihu.com/yuandong/20607684這幾個輔助 MCTS 的網路很複雜也很敏感需要大量的調校"估計勝率"是計算的結果, 這盤棋的狀況顯然是出錯了

繼續閱讀

[心得] 不會下棋也能懂第78手挖到底有多神forfunmerely [討論] 演算法上的Singularity(奇異點)mathbug [討論] 本版賭盤將開出25倍或13倍的超高獎金zkow [新聞] 陳耀燁:盼親自對決AlphaGo 欽佩李世石zkow [舊聞] 李世石：若重來不選圍棋 3分鐘就答應谷歌sck921 Re: [爆卦] AlphaGo發現自己79步失誤tlchen [心得] Alphago的弱點cscscscs22 [新聞] 李世石申請最終局執黑稱這樣獲勝更有意義zkow [新聞] 黑嘉嘉讚李世石有勇氣AAAC [情報] 詳訊：圍棋人機大戰第四局李世石贏得首勝pf775