[情報] 黃博士今日演講內容

作者: HeterCompute (異質運算)   2017-11-10 13:23:12
簡單提一下今天黃博士演講重點
演講標題是深度學習與強化學習的勝利
認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾
黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步
google對alphago團隊最大幫助是TPU
認為Master已經完美解決李世石第四盤的bug,解決方式與神經網路架構(dual res)和訓練都有關,並且以他多年的電腦圍棋經驗與測試過後,認為不會再出現此類bug
Master是20block res-net,並改進了training pipeline和MCTS,也解決了模仿棋和循環劫(沒說怎麼做),能讓lee版本3子並超過50%勝率
master年初60連勝每一步4-8秒,在台灣,吃泡麵配黑松沙士下的,是黃博士積極鼓吹要出來測試,Hassabis說要低調並使用韓國國籍,一開始不得透漏身分
Hassabis說要挑強的下,但是第一天職業沒人願意跟0勝0負的下,都被拒絕,等到第一天10連勝之後第二天開始拒絕別人邀請
master下的時候可以看勝率隨步數的圖,基本上50手之前斜率很高並且確立極大優勢,唯一例外是柯潔烏鎮第二盤
4月的時候已經有zero,但由於要發nature所以不能拿來下
當初開發zero沒預料到會超過master
master年初開發完畢之後,zero由其他人負責開發,黃博士繼續想方法增強master
zero不是放在那邊增強學習就會變強,中間需要做很多優化,否則有bug不會進步,其中一個重大bug發生在第三天(紀錄人表示:所以看來絕藝有得忙了
AntiAlphaGo,不是像大家想的那樣有新的技術,就是左右互搏,也不是gan(生成式對抗網路)
master是否被人類棋譜拖累?答案是不確定,因為master訓練時間較短,deepmimd也沒有針對同等條件去比較。
以上,有其他疏漏請其他人補充,並歡迎轉載,但請說明作者是Hetercompute
作者: staristic (ANSI lover)   2017-11-10 13:28:00
第三天?這麼巧就是達到李世石版的那時候?
作者: CGary (下雨天也挺浪漫的)   2017-11-10 13:42:00
btw, AGZ 不會 open source.
作者: yys310 (有水當思無水之苦)   2017-11-10 14:11:00
嗚嗚 好想聽現場
作者: jackcselab (monk)   2017-11-10 15:12:00
這篇訪問算是證實了DZG作者的猜想,master是用比較小的網路才輸給zero,master跟zero在相同網路下并沒有明顯的優劣上面講錯,應該說master跟zero在相同條件下誰優誰劣還未知另外我有個疑問,記得當初有提到,master只計算到20步,這個20步跟resnet的20-block有關係嗎?
作者: vencil (vencs)   2017-11-10 15:17:00
作者: yys310 (有水當思無水之苦)   2017-11-10 15:22:00
柯潔也真的是夠神了
作者: CGary (下雨天也挺浪漫的)   2017-11-10 16:47:00
很難說是證實了 其實Aja在被問的時候不是這樣說的 他只是說不能因為AGZ的強大 就說人類的知識本質沒有用處 只能說透過Zero可以真的"從零學會", 但他們不能評估這兩者用同樣的計算量 Master 不會輸 因為在回答過程中aja 不止一次說他們非常驚訝Zero的訓練結果(本來以為是根本不可能贏過Master,沒想到很快就碾壓了)
作者: zeat (L.)   2017-11-10 19:24:00
在台灣,吃泡麵配黑松沙士下的XDD
作者: wadashi1 (阿拉丁)   2017-11-10 21:54:00
太辛苦了(算沈迷嗎?) 都沒有出門或自己煮好好的吃個飯
作者: aegis43210 (宇宙)   2017-11-10 23:41:00
zero的演算法也是一直優化才比master強那個人不看好騰訊能完整複製zero的棋力了
作者: oldTim (TIME WILL TELL)   2017-11-11 00:07:00
AlphaGO與其說是科學上的突破,不如說是工程上的奇蹟
作者: staristic (ANSI lover)   2017-11-11 00:08:00
看硬體怎麼進步吧,硬體追得上的話說不定20年後變大學機器學習的學期大專題
作者: cubec (cubec)   2017-11-11 04:23:00
https://www.inside.com.tw/2017/11/10/aja-alphago-zeroAlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程
作者: seaEPC (沒看見,我沒看見 >_<)   2017-11-11 07:57:00
很佩服deepmind分享知識的作法
作者: sunev (Veritas)   2017-11-11 14:34:00
所以master就已經只用一個神經網路了嗎?
作者: HeterCompute (異質運算)   2017-11-11 17:32:00
對,只用Res-Net
作者: tlchen (台灣加油)   2017-11-11 18:53:00
我很早就提,我們不能只看三天很短,但三天中,它進入高品質的棋局,比人類幾千年來的高品質,其實應該是不知多多少倍
作者: Uizmp (黑袍法師)   2017-11-11 18:59:00
這也難說,人類不在對弈的時候, 有些人腦中依然在運算這些只是沒有下出來, 或者下出來沒有留下棋譜只能說人類的資訊整合能力與計算能力遠輸於AG
作者: birdy590 (Birdy)   2017-11-11 19:16:00
三天看來很短 但那已經累積上百萬盤的樣本了沒有google這種資本 一般開發者根本不可能這樣設計
作者: wadashi1 (阿拉丁)   2017-11-11 19:22:00
Zero用的設備就像進入精神時光屋一樣,1700年用40天達成
作者: birdy590 (Birdy)   2017-11-11 19:24:00
人類歷史上所有棋局加起來也不過零頭吧 質也一定輸
作者: ddavid (謊言接線生)   2017-11-12 02:56:00
主要是人類並不是一個整體,有大量的運算資源被浪費在各自算各自的東西,再來就是下完一局棋以評估所花時間太久
作者: lwei781 (nap til morning?)   2017-11-12 13:07:00
人類是各自學 流派又不交流
作者: aegis43210 (宇宙)   2017-11-12 19:44:00
alphago lee是13block,Master是20blockzero則有20block和40block兩種版本

Links booklink

Contact Us: admin [ a t ] ucptt.com