Re: [討論] 電腦弱點:中腹有打劫可能的複雜生死戰?

作者: ilw4e (可以吃嗎?)   2016-03-14 17:25:33
※ 引述《Vonix (台灣大賭場歡迎您)》之銘言:
: 我嘗試用一句話來講ALphaGo的弱點
: 昨天AlphaGo第一次暴露出弱點,不知道是不是李世石有意為之?
: 李世石在左右方都避開了戰鬥,卻在大局不利時才在中央掀起戰鬥,
: 從盤後解析可以看出,白78神手挽回了局面,但若黑棋應對得宜,
: 局面其實還是細微;但卻造成電腦崩潰自爆。
: 從機器的角度來理解,中腹戰鬥比邊角更複雜難算,且昨天的例子有
: 可能形成大劫爭(但打下去黑棋整體也沒有不利),電腦在這種CASE
: 爆掉,不知道第五盤李世石會不會再度製造這種局面?
我覺得人一開始誤會了電腦的強處與弱處,也許是小李前幾盤一直無法突破的關
鍵。
多數人覺得電腦布局或大局觀應該很弱,因為變化太多,但這可能反而才是電腦
的強處。人類學布局的棋書通常是給幾個選項讓人去分辨哪個點更大,但這其實
很難估計的,很多解只是方向配合或"感覺上"較佳,是否如此難以驗證。但電腦
是用海量的模擬資料的勝率來決定落點,假設電腦是九段實力。他自我對弈了那
麼多盤,如此選出的著點更準確是頗有可能的。
所以這幾盤看得出電腦對厚勢的利用或是對弱棋的處理下得非常好。當然電腦應
該不知道厚勢是甚麼,但他用海量的模擬下去就會發現某些著點因為能和厚勢搭
配自然勝率高。而電腦也會適時補弱棋,因為模擬後應該會發現不補會讓勝率下
降。
而電腦真的不及人類的可能反而在於攻殺,而且是要較大範圍延伸且手順較複雜
的攻殺(範圍太小電腦的模擬應該可以把所有情況都跑完)。一開始多數人都假設
電腦對於攻殺的細算應該不可能出錯,因為可以暴力窮舉法,但正因為AG不是用
窮舉法,反而高段棋士對於區域的細算會更接近窮舉法,也就是更接近圍棋上帝
,所以可以占優。
人在算攻殺的時候靠經驗可以把可能落子侷限在非常少數的著點,並且細算其中
所有變化。而且變化中可能部分手順是固定的,對人來說又把問題變簡單很多。
但對電腦來說其他各種不相干的點他都要考慮,人類所謂的必然解對他來說也不
是必然(像小李昨天說只此一手,AG字典裡絕對沒有只此一手這種事),自然有機
會選錯點或誤判情勢。第二盤的左下處理或昨天中間被手筋一挖就當機都是這種
較大範圍的攻殺。
前幾盤看得出來電腦是能走厚就走厚,能補棋就補棋,沒甚麼機會讓小李搞出複
雜攻殺,到昨天才第一次出現。
電腦好似還有一個問題就是落後時下出的各種大虧損無理手。當然可以理解電腦
的邏輯就是:這樣下你不應我就贏了所以勝率很高,但這對人類是沒用的。相對
於之前有人假設電腦落後會變更強因為要追回來,目前看起來反而是電腦落後就
走遠了,因為它的追棋方式對人類來說是毫無意義的只會讓自己越虧越多勝機越
渺茫。
作者: papawalk (~自由之翼~)   2016-03-14 17:32:00
這論點很有道理
作者: birdy590 (Birdy)   2016-03-14 17:35:00
還有一個可以利用的明顯弱點, 就是棋手跳出一般作戰區域時, 可能造成 MCTS 前面計算的結果全部作廢 要重新計算
作者: aaaba (小強)   2016-03-14 17:38:00
alphaGo下一手的候選機率也不是集中在局部區域
作者: birdy590 (Birdy)   2016-03-14 17:38:00
所以有先手的時候可以選擇適時換邊攻擊, 佔電腦的便宜通常都是 至少排在後面的棋步 算的深度就不會一樣尤其是中盤之前 因為選擇性太多 平常不可能都算的很深
作者: goldduck (哥達鴨)   2016-03-14 17:40:00
毫無意義會自殺的棋要用機制擋住
作者: birdy590 (Birdy)   2016-03-14 17:41:00
樓上還是沒搞懂啊... 這種違背開發原意的事情不可能做的最多再設計一些訓練方式想辦法教會它...
作者: goldduck (哥達鴨)   2016-03-14 17:42:00
這是安全機制 加進去有什麼問題嗎
作者: birdy590 (Birdy)   2016-03-14 17:42:00
其它開發者也注意到它完全不理會局部死活和對殺分析
作者: s9209122222 (海海海)   2016-03-14 17:42:00
這樣就不是他自己學會了…
作者: birdy590 (Birdy)   2016-03-14 17:43:00
因為不是要製作圍棋軟體, 而是想辦法教會這套系統下圍棋
作者: ForeverOrz (Lumis eterne)   2016-03-14 17:43:00
推這篇 某人的發言真的可以不用理會 夏蟲語冰
作者: goldduck (哥達鴨)   2016-03-14 17:43:00
不然征子就要跑嗎
作者: s9209122222 (海海海)   2016-03-14 17:43:00
這軟體下圍棋只是順便
作者: birdy590 (Birdy)   2016-03-14 17:44:00
過程中發現問題設法改良, 將來都可能直接用在其它領域如果只是下棋的話, 哪會有這麼多大公司相繼投錢進來研究
作者: sadmonkey (下雨天)   2016-03-14 17:48:00
其實安全機制也沒說錯,今天會發生勝率狂跌就相當於發
作者: NaoGaTsu (那歐卡茲)   2016-03-14 17:49:00
除了最後的應手部分推論怪怪的,基本上蠻合理的。
作者: sadmonkey (下雨天)   2016-03-14 17:49:00
生超出原先AI預期的情況,就圍棋來看AI的處理還有很大
作者: Uizmp (黑袍法師)   2016-03-14 17:49:00
AG有發現勝率狂跌啊, 只是已經來不及了
作者: sadmonkey (下雨天)   2016-03-14 17:50:00
的進步空間,就像電動車總不能突然有個突發事件,車子
作者: goldduck (哥達鴨)   2016-03-14 17:50:00
本來就要考慮安全機制好嗎 一個沒有安全機制的系統是能商業化?
作者: wnglon (冷面笑匠)   2016-03-14 17:51:00
要注意設安全機制也是會把好棋下爛
作者: Uizmp (黑袍法師)   2016-03-14 17:51:00
問題是現在沒有要商業化啊, 現在單純只想看ML的效果而已
作者: wnglon (冷面笑匠)   2016-03-14 17:52:00
這不是雖便說說就能做到
作者: NaoGaTsu (那歐卡茲)   2016-03-14 17:52:00
AlphaGo從一開始就沒有要商業化,那只是研究人工智慧中
作者: birdy590 (Birdy)   2016-03-14 17:52:00
現在還研發階段 加上這種安全機制反而就看不出問題了
作者: goldduck (哥達鴨)   2016-03-14 17:52:00
既然要談 這個原來不用加安全機制 那谷哥的自動車你可以去做了
作者: birdy590 (Birdy)   2016-03-14 17:53:00
發現問題直接想辦法掩蓋掉不算是什麼好方法吧 /_\
作者: NaoGaTsu (那歐卡茲)   2016-03-14 17:53:00
google的無人車是已經有在做了啊,只是還沒量產商業化
作者: wnglon (冷面笑匠)   2016-03-14 17:53:00
你要設定好的安全機制 前題你實力要有李世石水準才行
作者: wnglon (冷面笑匠)   2016-03-14 17:54:00
沒法理解棋理 要怎麼定義好的安全機制
作者: sadmonkey (下雨天)   2016-03-14 17:55:00
問題的根源通常比想像中的複雜太多也太困難了
作者: birdy590 (Birdy)   2016-03-14 17:56:00
其實 AlphaGo 現在的架構比較接近工藝製品, 元件都是別人做過的現成理論, 但是湊起來整合的部份沒有人做過
作者: wnglon (冷面笑匠)   2016-03-14 17:56:00
這種非統計程式設計 通常比需要對該領域非常熟悉才行
作者: sadmonkey (下雨天)   2016-03-14 17:57:00
裡面有太多細節,包括MC法中常為了效率而會沿用前幾步
作者: birdy590 (Birdy)   2016-03-14 17:57:00
已經算過的東西, 盤面沒有改變能用的一定是直接繼續用啊所以我才會說 可能狀況下設法儘量跳出原有的樹有便宜佔
作者: sadmonkey (下雨天)   2016-03-14 17:58:00
的支狀來幫忙運算,就下圍棋獲勝這個議題,目前看來就
作者: blackwindy (黑色的風)   2016-03-14 17:58:00
只是單純工藝是上不了nature的 他還是有創新的地方至少他湊的起來而且證實有效 一般亂湊下場就是垃圾
作者: birdy590 (Birdy)   2016-03-14 17:58:00
整合這些不同領域的技術沒那麼容易, 所以才會被認為至少
作者: goldduck (哥達鴨)   2016-03-14 18:00:00
損棋自殺棋不下 加進去檢查這沒有很困難
作者: birdy590 (Birdy)   2016-03-14 18:01:00
什麼叫損棋自殺棋? 不做死活分析意思已經夠明白了吧
作者: goldduck (哥達鴨)   2016-03-14 18:01:00
人家都有安全機制 送菜棋也是不下的
作者: sadmonkey (下雨天)   2016-03-14 18:01:00
隨便舉一個方法,也許要多弄幾組黑貼目不同的決策函數當勝率低於40%時用不同的黑貼目策略來下,就可以改善一
作者: birdy590 (Birdy)   2016-03-14 18:02:00
就算真要做 他們應該也會選擇想辦法教會電腦什麼是死活
作者: sadmonkey (下雨天)   2016-03-14 18:03:00
次想直接逆轉的模式,而能靠著一步步慢慢追目來獲勝
作者: birdy590 (Birdy)   2016-03-14 18:03:00
可能的改變是調整不同時期的權重, 現在是固定 0.5/0.5
作者: wnglon (冷面笑匠)   2016-03-14 18:03:00
簡單的程式判斷都是用 && == <= >=
作者: Uizmp (黑袍法師)   2016-03-14 18:03:00
只能說, 電腦下棋的數量還遠遠不夠啊 (?
作者: MicroB ( )   2016-03-14 18:03:00
那應該把布局書丟了學alpha流布局等到中盤在用人類算法XD
作者: birdy590 (Birdy)   2016-03-14 18:04:00
FB 的田博士認為這不一定好(他選擇完全不用估值網路)
作者: sadmonkey (下雨天)   2016-03-14 18:04:00
目前的AI還不是完全靠自我學習出來的,很多策略都還是
作者: wnglon (冷面笑匠)   2016-03-14 18:05:00
你有用過嗎 參數怎麼設定 演算法怎麼設計 不是隨便說說的
作者: ilw4e (可以吃嗎?)   2016-03-14 18:05:00
現在AG這個死活不懂純靠棋感跟機率就能把職9殺成這樣真的猛
作者: goldduck (哥達鴨)   2016-03-14 18:05:00
型是判斷本來就會加入死活判斷
作者: birdy590 (Birdy)   2016-03-14 18:05:00
? 走子網路/rollout/估值網路 都是 100% 學習得來
作者: sadmonkey (下雨天)   2016-03-14 18:05:00
沿用棋譜,要完全從知道規則用亂數開始學可能要花很多
作者: birdy590 (Birdy)   2016-03-14 18:06:00
人類做的事情是儘量幫助它有效率的學習
作者: sadmonkey (下雨天)   2016-03-14 18:06:00
年,google執行長也說了這是他們未來的目標
作者: goldduck (哥達鴨)   2016-03-14 18:07:00
不作死活分析就無法知道局勢好嗎
作者: sadmonkey (下雨天)   2016-03-14 18:07:00
基本策略函數還是從人類棋譜當初始條件
作者: birdy590 (Birdy)   2016-03-14 18:07:00
田博士也覺得很厲害 因為這個估值網路有表現出死活判斷的能力 只是看來還有些缺陷
作者: sadmonkey (下雨天)   2016-03-14 18:08:00
要讓電腦從亂數下點了解到星位最佳絕對不是三千萬盤能知道的,那可能是數億數百億盤的天文數字
作者: birdy590 (Birdy)   2016-03-14 18:09:00
這裡的"三千萬盤"其實是指訓練估值網路的過程, 但是
作者: profyang (prof)   2016-03-14 18:09:00
同意 大型攻殺電腦要算清真的也不是很容易的 人類未必會輸...
作者: wnglon (冷面笑匠)   2016-03-14 18:09:00
下錯一步就全死 即使下的順序不一樣
作者: wnglon (冷面笑匠)   2016-03-14 18:10:00
這電腦下法這麼跳躍 會全下對嗎
作者: sadmonkey (下雨天)   2016-03-14 18:11:00
也許我記錯了,不過之前訪談有提到下次目標是從零開始
作者: birdy590 (Birdy)   2016-03-14 18:11:00
不是要全下對 這部份要保留隨機性才好 否則反而會變弱它是希望訓練過程出現各種各樣不同的狀況 所以前期用
作者: wnglon (冷面笑匠)   2016-03-14 18:12:00
跟星海ai玩 只要夠偷 玩死對方不是難事不知能不能應用在圍棋上只要偷到一個重要的棋 局勢就會崩盤
作者: birdy590 (Birdy)   2016-03-14 18:14:00
SL網路確保走子有多樣性, 後面再改用RL走到完提高精確度
作者: wnglon (冷面笑匠)   2016-03-14 18:15:00
只是第三盤的劫殺 李40看樣子是輸了不過也是因為時間不夠
作者: birdy590 (Birdy)   2016-03-14 18:16:00
這種作法是不是夠好目前沒人知道 所以才需要測試工程師
作者: goldduck (哥達鴨)   2016-03-14 18:16:00
有點機率用偷的方式
作者: FrozenMoment   2016-03-14 18:23:00
覺得可以加入危機意識網路,當有危機時啟動深入分析
作者: aegis43210 (宇宙)   2016-03-14 18:28:00
圍棋真的是一個很好的測試AI水平之競技
作者: bbbtri (cycling)   2016-03-14 18:42:00
實戰測試的前提是要拐到一流的棋手陪你玩啊 lol
作者: goldduck (哥達鴨)   2016-03-14 18:54:00
如果看到職業看到97 101應該是不會來下的
作者: birdy590 (Birdy)   2016-03-14 18:55:00
職業棋士如果看了覺得很弱很簡單, 真的上去會死的很難看
作者: goldduck (哥達鴨)   2016-03-14 18:55:00
不過第四盤可以確定 谷哥測到他想要的一些額外的事
作者: birdy590 (Birdy)   2016-03-14 18:57:00
對照當時局面那一連串參數變化, 對未來改進方向很有價值
作者: MicroB ( )   2016-03-14 19:00:00
不過蠻好奇AJA沒有測過讓AG在極劣下下過棋嗎?還是說不是每一種劣勢AG都會發瘋? 或是97手時李世石贏的其實比想像還多
作者: ilw4e (可以吃嗎?)   2016-03-14 19:18:00
這樣想用雪崩類複雜定石也可能可以婊到電腦
作者: MicroB ( )   2016-03-14 19:20:00
可是如果是定石 AG的走子網路來自職棋不容易錯吧?
作者: ilw4e (可以吃嗎?)   2016-03-14 19:26:00
職棋棋譜數量應該不足把複雜定石變化都走完,加上AG又有自己神奇的判斷,定石走錯一手崩盤應該有機會:D
作者: bbbtri (cycling)   2016-03-14 19:30:00
DeepMind老闆說他們沒用職業棋譜 只用業餘棋譜 lol
作者: birdy590 (Birdy)   2016-03-14 19:31:00
SL 網路的目的不是要多準 有個大概也就行了
作者: wnglon (冷面笑匠)   2016-03-14 19:32:00
這很合理啊 因為開發者有人只到業餘高段演算法要設計的好 也要設計者很懂圍棋
作者: danibaba5566 (BABA56)   2016-03-14 19:49:00
那種無理手都是線上下棋會遇到的賴皮棋,真沒看到是會逆轉
作者: broodworld (john)   2016-03-14 20:10:00
雪崩應該沒機會,看13盤就知道了,大攻殺會變單行道24盤穩穩走的比較有機會,因為次一手分布很廣
作者: ilw4e (可以吃嗎?)   2016-03-14 20:13:00
我們覺得"單行道"電腦不見得覺得是,加上周遭點夠多混淆它或許會有下錯,也是猜測而已 因為定石幾乎都人類窮舉法最佳解,電腦既然不懂這個要靠模擬是有機會推不出來的
作者: broodworld (john)   2016-03-14 20:24:00
所以我覺得雪崩妖刀或開頭大攻殺沒機會,把譜上輸的著手濾掉就好,反而是大模樣爆破比較不好運算被爆的位置太隨機了
作者: terminator3 (台灣一朗)   2016-03-14 20:43:00
作者: Roger0123 (Roger)   2016-03-14 22:10:00
蠻合理
作者: Vonix (台灣大賭場歡迎您)   2016-03-14 22:14:00
認同
作者: mothertime (我超愛傅紅雪這變態)   2016-03-14 22:22:00
雪崩alphago好像會主動避開
作者: BRANFORD (請保佑我的父親)   2016-03-15 02:35:00
樊麾表示
作者: Rhomboid (維尼)   2016-03-15 09:23:00
AG要「學」會安全機制,而不是「教」他安全機制

Links booklink

Contact Us: admin [ a t ] ucptt.com