先前板上也有板友分享相關論文
最簡單說 原理是訓練另外一組AI模型對抗式的去找出頂尖模型(Katago/Leela)的漏洞
現在的進度則是 棋力達到業餘頂尖的棋手有能力學習該模型的策略
反過來擊敗先前已經遠遠超過人類等級的模型 並且有穩定表現(KGS 14勝1負)
現在這個網站有棋譜可以線上閱覽
https://goattack.far.ai/human-evaluation
摘要
1. 這個鑽漏洞模型的對局下不贏尋常棋手(網頁第一譜)
2. 鑽漏洞策略精神之一:讓AI包圍自己,自己委屈兩眼活
3. 鑽漏洞策略精神之二:從外面偷偷包抄AI的包圍網,會發現AI的反應有點異常
成功的話就能反包抄AI原先的超厚勢
有趣的點
1. Leela 那一局,對抗者的114手在黑陣中掙扎,Leela 115 竟然是滑標級脫先?
感覺上是真的是一種漏洞...
2. Katago 那一局,對抗者86跳、88飛已經以客犯主。
AI 黑棋 97、101 連續照顧自己其他的疆界,結果上方對抗者的孤棋就這樣異軍突出,
完成了反包圍。
這一譜佈局時,對抗者的白棋在左邊與下邊的連續二線潛水很好笑,
另一篇報導中提到,這個反包圍策略需要「在其他角落行棋使AI分心」,
所以應是為此的準備。
報導:https://www.ft.com/content/175e5314-a7f7-4741-a786-273219f433a1
3. 大家應該想問,為什麼不對絕藝這樣操作?我也很好奇。
4. 現在球又被丟回來AI研究者這邊了,深度強化學習為什麼會出現這樣的盲點?
從圍棋領域內來講,看起來是對於自己的厚勢產生了超過常理的自信?
雖然從棋的內容來看未必符合大家期望的弒神的快感,
但這也是剛起步的機器智慧與掙扎的人類智慧的碰撞吧,也是一局很大的棋。