阿法大師 專業 13段 遠勝柯潔

作者: nanlong (懶龍)   2016-03-30 18:55:08
** 看了表格好像不止 13P 大概15P左右 ~~
但我想小柯戰力應該也有 10~11P
http://sports.sina.com.cn/go/2016-03-30/doc-ifxqswxn6584158.shtml
阿爾法首次復盤人機大戰 自評等級分遠超柯潔
2016年03月30日17:55 新浪體育
人工智能將走入人類生活人工智能將走入人類生活
  據鈦媒體報道。
  鈦媒體註:「谷李」世紀大戰硝煙散盡,由此引發的機器學習與人工智能的熱潮不減
反增。日 前,AlphaGo (中文俗稱「阿爾法狗」)項目負責人,有著阿爾法狗之父之稱
的大衛·席爾瓦(David Silver)回到英國倫敦,在母校倫敦大學學院(
UniversityCollege London,UCL)一場私密會上復盤了人工智能圍棋系統AlphaGo與李世
石的5番棋大戰,在場的聽眾被禁止拍照。這也是賽後,阿爾法狗團隊的首次 半公開復盤

  UCL計算機系是全英計算機排名第一的學院。在UCL計算機系攻讀博士學位的中國留學
生張偉楠全程參與了這次分享會,並且在會後與席爾瓦進行了面對面的交流。鈦媒體獨家
約稿張偉楠,根據席爾瓦的分享及會後與席爾瓦的交流,寫作此文,席爾瓦也透露了
AlphaGo的下一步可能動向以及應用前景。席爾瓦透露,AlphaGo的最新版本自我估分在
4500左右,遠遠超出積分3625的柯潔,實力水平大約在13段左右,人類選手中已然無敵。
張偉楠與阿爾法狗之父席爾瓦在交流張偉楠與阿爾法狗之父席爾瓦在交流
  兩周前的那場人機大戰,AlphaGo出人意料地獲得了壓倒性的勝利,4:1戰勝了李世
石。棋局進程激烈精彩之處,不亞於那些人類棋手創造的歷史名局。
  3月24日,回到UCL大學,席爾瓦在復盤中詳細講述了AlphaGo背後的技術原理以及谷
李5場比賽的分析。
  獲得歷史性的勝利之後,外界十分關心AlphaGo的下一步和未來,席爾瓦透露,在《
Nature》那篇文章引發廣泛關注和轟動之後,AlphaGo團隊還將再寫一篇論文,與外界分
享AlphaGo與李世石比賽中的技術進步。
  席爾瓦還表示,DeepMind一直希望能夠為開發者社區做貢獻,他們之前也公佈了DQN
項目(deep-q-network)的代碼——基於深度強化學習的遊戲平台。未來他們可能會公佈
AlphaGo的代碼,只要能找到一個合適的方案,但是目前還沒有找到。
  投入20個人的團隊,花費大量的財力去做圍棋對弈,對谷歌來說意味著什麼?下一步
會如何延伸到其他產業領域?
  席爾瓦透露,DeepMind今後的著眼點是和人們日常生活息息相關,並可以改變世界的
應用,比如精準醫療、家用機器人以及智能手機助手。
  AlphaGo之父十年磨一劍
  似乎在一夜之間,機器選手戰勝了人類最頂尖圍棋選手。但是,對於席爾瓦來說,人
工智能圍棋耗時十幾年,最終不過是水到渠成。
  作為AlphaGo的幕後團隊的技術主管,也是谷歌DeepMind團隊最重要的科學家之一,
席爾瓦還身兼UCL大學的教職,是該校計算機系的教授,教授「強化學習」的課程。
  席爾瓦是在加拿大阿伯塔大學獲得博士學位,師從世界上首屈一指的「強化學習」大
師理查德·薩頓(Richard S.Sutton)研究強化學習算法,後來在另一座科技聖殿美國麻
省理工學院從事博士後研究。
  在攻讀博士以及博士後工作期間,席爾瓦一直致力於強化學習在圍棋人工智能上的研
究。到英國UCL大學計算機系執教以後,他還經常拿圍棋作為授課的應用實例。
  席爾瓦的課程開始聽的人並非很多。三年前,我曾上過他的課程。有一次因故遲到了
20分鐘,當時的教室裡仍然可以找到座位。現在,隨著他加入到Deepmind團隊,尤其是他
掌舵AlphaGo項目名聲大噪,他的課程也開始廣受歡迎,遲到的人基本上只能站著聽課了

  加 入DeepMind之前,席爾瓦即已開始和CEO戴密斯·哈薩比斯(Demis Hassabis)共
同研究強化學習。哈薩比斯在UCL拿到了神經學博士學位。兩個人都癡迷於遊戲, 哈薩比
斯少年時曾經是英國國際象棋隊隊長,在13歲便已經獲得國際象棋大師的頭銜,青年時自
創遊戲公司,而席爾瓦則長期對圍棋情有獨鍾。
  2014年初,在被谷歌收購之前,DeepMind即開始與UCL洽談,希望能買斷席爾瓦的工
作時間。這樣可以保留他在大學的教職的同時,還可以讓他在DeepMind全心工作。
  加 盟DeepMind之後,席爾瓦成立了20個人的AlphaGo團隊,專門研究圍棋人工智能。
彙集整個團隊的力量,他要求在技術研發的每一個環節上都追求 極致。AlphaGo團隊成員
就透露,有的智能模塊在谷歌團隊看來已經很完美了,但是席爾瓦卻仍認為不及格,離完
美還差很遠。
  長期專注於人工智能與圍棋項目,在技術方面追求極致,再加上勢大財雄的谷歌的團
隊配合,最終成就了AlphaGo的驟然爆發。
  復盤谷李大戰
  復盤是職業圍棋選手經常做的一件事,他們相信總結過去一盤棋的經驗和教訓,可以
提高自己的棋藝。
  AlphaGo團隊也做了復盤,通過幾張幻燈片的形式,席爾瓦復盤了這5場比賽的勝負關
鍵處,而在場的聽眾被禁止拍照。
  第一盤的勝負關鍵處是,AlphaGo執白棋第102手打入黑空,職業高手們普遍認為這是
一招險招,看上去李世石對此也早有準備。事後看,棋局的進程卻是李世石應對有誤,進
入到了AlphaGo的計算步調中。再下了幾手棋之後,AlphaGo已經優勢明顯。
  第二盤棋的開局不久,AlphaGo就下出了職業棋手們普遍認為不妥的一手棋。席爾瓦
稱其為反人類(unhuman)一手——第37手5路肩沖。觀戰的多數職業高手認為這不太成立
,超出了職業高手們正常的行棋邏輯。
  隨後的進程,這手棋的價值逐漸閃現,李世石又一次輸得毫無脾氣。
  席爾瓦解釋道:「多數評論員都第一時間批評這一步棋,從來沒有人在這樣的情況下
走出如此一著。在勝負已定之後,一些專業人士重新思考這一步,他們改口稱自己很可能
也會走這一著。」
  而在AlphaGo看來,當時只是一步很正常的走子選擇而已。
  對 於第一盤棋和第二盤棋,許多職業圍棋選手以及媒體分析都認為,AlphaGo逆轉取
勝,但是在AlphaGo自身的價值網絡所做的實時勝率分析看來,自己 始終處於領先。在
AlphaGo獲勝的4盤中,AlphaGo系統自有的勝率評估始終都是領先李世石,從頭到尾壓制
直到最終獲勝。
  第三盤和第五盤,AlphaGo 都是在棋局剛開始不久,就已經取得了明顯優勢並持續提
高勝率直到終局。與職業棋手根據經驗所做的勝負判斷不同,AlphaGo的自有勝率評估是
基於一個價值模塊,做出對棋局勝負的預計。
  這兩種判斷截然不同。當第五盤右下角的爭奪錯綜複雜時,AlphaGo選擇脫先,轉而
落子在其他位置。不少職業棋手認為,AlphaGo在此犯錯並落後了,但AlphaGo的選擇卻是
依據全局最優估計而做出的。
  以 幾局的成敗論,AlphaGo的這種判斷似乎更為準確。突破了職業棋手對圍棋的傳統
的理解範疇,不再局限於棋手多年培養出來的圍棋直覺和套路定式,會選擇 探索職業棋
手正常不願意考慮的招數。AlphaGo在人類棋譜學習的基礎上,還進行了大量的自我對弈
,從而研究出了一些人類從未涉及到的走法。
  「神之一手」的背後
  AlphaGo系統並非無懈可擊,但是,漏洞並不是所謂的模仿棋、打劫等等。它的漏洞
體現在李世石贏得比賽的第四盤棋,AlphaGo取得巨大進步的價值模塊出現了瑕疵,這也
是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盤失利。
  在第四盤棋中,開局之後很快就幾陷絕境中的李世石,弈出了被來自中國的世界冠軍
古力成為「神之一手」的白78手,凌空一挖。堅韌如山的對手突然倒下,AlphaGo變得不
知所措,連續出現低級昏招,這也成就了AlphaGo有記載的公開的第一局失利。
  對於AlphaGo的異常表現,各路觀戰的職業高手充滿了猜測。即使是觀賽的哈薩比斯
和席爾瓦也都不知道究竟發生了什麼。
  事後的分析顯示,在李世石下出第78手之前,AlphaGo自有的勝率評估一直認為自己
領先,評估的勝率高達70%。在第78手之後,AlphaGo評估的勝率急轉直下,被李世石遙遙
領先,之後再也沒有縮短差距。
  為什麼AlphaGo面對李世石的第78手表現如此差,是因為它沒有想到李世石的這手棋
嗎?
  席爾瓦揭曉了這一秘密。AlphaGo的計算體系中,的確曾經評估過這手棋,只是在
AlphaGo的評估中,李世石走那一子的概率大概是萬分之一,最終,它沒有想到李世石會
這樣走,也就沒有計算李世石這樣走之後如何應對。
  賽後,獲勝的李世石則說,這一手在他看來是唯一的選擇。
  AlphaGo背後的蒙特卡洛樹搜索依賴的策略網絡,是根據人類對弈棋譜數據訓練出來
的模型,它很難去預測白78手這樣的所謂手筋妙招,也就很難判斷基於這一步繼續往下搜
索之後的勝負狀態。
  這就是AlphaGo在這5盤對局中表現出的唯一破綻,也是目前人類智慧還領先於
AlphaGo背後的大數據驅動的通用人工智能(Data-driven Artificial General
Intelligence)的地方。
  人工智能已然無敵?
  在此次大賽之前,多數來自職業圍棋界的棋手包括李世石自己都認為,李世石會輕鬆
取勝。但是,DeepMind團隊卻信心滿滿。另一位DeepMind團隊的主力成員也曾經在UCL介
紹AlphaGo的進展,在展望與李世石的比賽時,他曾就篤定地預言,AlphaGo會贏。
  當 有人問及從去年10月戰勝梵麾,到今年3月對陣李世石,半年時間當中, AlphaGo
究竟有哪些方面的提升時,席爾瓦簡要回答說:「我們在系統的每一個模型上盡可能推進
效果極致,尤其在價值網絡上獲得了很大的提升。訓練價值 網絡的目標勝率除了通過自
我對弈的結果外,我們還使用了搜索策略去盡可能逼近理論的勝率。」
  直觀地說,3月版本的AlphaGo比半年前的水平大概是讓4子——讓對方先佔據4個星位

  在戰勝李世石之後,中國、韓國、日本許多的職業棋手,包括李世石本人都希望能夠
再與AlphaGo一戰。
  按照等級分排名,AlphaGo僅次於中國的世界冠軍柯潔,排名世界第二。而席爾瓦透
露,AlphaGo的最新版本自我估分在4500左右,遠遠超出現在3600多的柯潔,實力水平大
約在13段左右,人類選手中已然無敵!
  AlphaGo為什麼會有這麼強勁的表現?在講座當中,席爾瓦部分地複述和解釋了今年1
月《Nature》上發表的論文,講述了人工智能的基本原理以及AlphaGo的技術框架。
  對於人工智能來說,圍棋遊戲的難度在於,決策空間實在太大。決策(Decision
Making)是人工智能的關鍵要素,使得機器能夠在人類的世界中發揮作用。
  在圍棋以及任何遊戲中,一次決策往往使得遊戲更新到了一個新的局面,於是影響到
了接下來的決策,一直到最終遊戲的勝負。人工智能的關鍵就是在決策空間中搜索達到最
大效益的路徑,最終體現在當前決策中。
  圍棋棋盤上棋子可能的組合方式的數量就有10的170次方之多,超過宇宙原子總數。
在近乎無窮的決策空間中,去暴力搜索出當前棋盤的下一步最優走子是絕對不可能的事情

  AlphaGo的方案是在這樣的超級空間中,做到盡可能有效的路徑選擇。其思路是一個
框架加兩個模塊:解決框架是蒙特卡洛樹搜索(MonteCarlo Tree Search),兩個模塊分
別是策略網絡和價值網絡。
  策 略網絡(Policy Network)根據當前棋盤狀態決策下一步走子,是典型的人工智
能決策問題。策略網絡搭建的第一步,基於KGS圍棋服務器上30萬張業餘選手對弈棋譜的
監督學習(SupervisedLearning),來判斷當前棋盤人類最可能的下一走子是什麼。
  第二步,是利用監督學習得到的第一個策略網絡去通過自我對弈來訓練一個加強版的
策略網絡,學習方法是強化學習(Reinforcement Learning),自我對弈3000萬局,從人
類的走子策略中進一步提升。
  遵循策略網絡的判斷,在蒙特卡洛樹搜索框架下對每個棋盤狀態的採樣範圍就大大減
小,這是一個搜索寬度的減小,但是由於一盤圍棋總手數可以多達250步以上,搜索的深
度仍然帶來無法處理的巨大計算量,而這就由第二個模塊——價值網絡來解決。
  價值網絡(Value Network)的功能是根據當前棋盤狀態判斷黑白子某一方的勝率,
是一個人工智能預測(Prediction)問題。
  處 理預測問題的機器學習模型一般需要直接知道需要預測的真實目標是什麼,比如
預測第二天的天氣,或者預測用戶是否會一周內購買某個商品,這些歷史數據都有直 接
的目標數據可供機器學習。而在圍棋對局中,給定的一盤棋局完全可能在歷史上就找不到
哪次對弈出現過這樣的局面,也就不能直接得到對弈最終的勝負結果。
  AlphaGo的解決方法是使用強化學習得到的策略網絡,以該棋局為起點進行大量自我
對弈,並把最終的勝率記錄下來作為價值網絡學習的目標。
  有了價值網絡,蒙特卡洛樹搜索也就不再需要一直採樣到對弈的最後,而是在適當的
搜索深度停下來,直接用價值網絡估計當前勝率。這樣就通過降低搜索的深度來大大減小
了運算量。
  AlphaGo整合了目前機器學習領域的大多數有效的學習模型,包括通過採樣來逼近最
優解的蒙特卡洛樹搜索,通過有監督學習和強化學習訓練來降低搜索寬度並作出走子決策
的策略網絡,以及通過有監督學習訓練的降低搜索深度提前判斷勝率的價值網絡。
  作為人類棋手翹楚,33歲的職業圍棋九段高手李世石,過去15年獲得了十幾個世界冠
軍頭銜,總共下了1萬盤圍棋對弈,經過了3萬個小時訓練,每秒可以搜索10個走子可能。
  但是,作為人工智能科技進步的代表,吸收了近期機器學習人工智能的最新進展,建
立起了全新的價值網絡和策略網絡,誕生只有兩年時間的AlphaGo,差不多經歷了3萬小時
的訓練,每秒卻可以搜索10萬個走子可能。這一刻,勝負已分。
  人工智能的巨頭爭奪戰
  在AlphaGo取得巨大成功,獲得全世界廣泛關注的背後,是谷歌、Facebook、微軟等
幾家科技巨頭的競爭。基於人工智能,幾大巨頭的都開展了各自的項目研究,以及人才爭
奪。
  幾天前的智能圍棋大賽上,Facebook派出了自己研發的「黑暗森林」,獲得了第二名
,其主創人員田淵棟正是來自於谷歌,他曾經服務於谷歌的無人駕駛汽車項目團隊。
  很明顯,黑暗森林現在還不是AlphaGo的對手。
  2014年下半年以及2015年年中,我曾經兩次在微軟劍橋研究院實習,參與了微軟Xbox
音樂推薦引擎的研究項目,期望通過基於強化學習的人工智能算法來交互式地為用戶推薦
他們喜歡的音樂並從用戶提供的反饋中進一步學習。
  該項目組直接負責人是特拉·格朗普(ThoreGraepel),業界大名鼎鼎的機器學習專
家,又一個技術大咖中的圍棋高手。Windows中圍棋遊戲裡的人工智能就是他負責研發的
,與席爾瓦一樣,他也是UCL計算機系的兼職教授。
  一 個週一的上午,當我來到微軟劍橋辦公室的時候,一個同事告訴我,格朗普已經
離職了,和席爾瓦一樣,加入了DeepMind。他後來告訴我,他在 DeepMind感受到了前所
未有的魅力,以致於他很後悔沒有早一些加入。他感歎自己從未見過凝聚力如此之高,目
標如此統一,而又沒有任何考核壓力的團 隊。
  後來,格朗普的名字也出現在了《Nature》關於AlphaGo的論文作者名單中,在谷李
大戰間隙,他曾經與李世石一起接受電視台的採訪,熟悉他的人能夠明顯地感受到,他發
自內心快樂。
  我 在微軟實習的另一位導師,是畢業於劍橋大學的貝葉斯機器學習方面的專家,他
有著紮實的數學功底,在2015年下半年也從微軟離職,加入了劍橋的一家做語音 識別智
能系統的初創公司,不久之後該公司即被蘋果公司收購。他帶領一個12人的團隊,負責蘋
果Siri智能問答系統的一項技術。
  就在最近, 我在倫敦的酒吧裡見到了他,他私下透露,自己正在申請加入DeepMind
。他說,現在正處在人工智能真正爆發的歷史轉折點,從0到1一般的重大。未來5 到10年
人工智能將會井噴式地發展,無論是工業界還是學術界。在這樣一個時代,搞人工智能出
身的自己難道不想奮力擁抱浪潮麼?
  在這樣一種情境下,他不甘於在團隊中做管理,他已經半年沒有寫過一行程序,沒有
推過一個數學公式了。「今天的人工智能領域就像是一場舉世矚目的英超德比,全世界的
人們都為此感到沸騰。而這個時候,我們人工智能研究員就應該上場比賽,成為主角,而
不是在觀眾席上加油。」
  AlphaGo的巨大效應讓谷歌吸引人才方面佔盡優勢,但是,Facebook、蘋果、微軟也
不甘就此授首。
  在 格朗普從微軟離職之後,一位年輕的女研究員接管了我在微軟的實習項目,兩人
的研究成果在人工智能會議AAAI2016上發表。2015年上半年,她在微軟 啟動了一個叫做
AIX的人工智能項目,提供了一個通用人工智能的平台,可以使得計算機科學家通過它編
寫智能學習程序並在微軟旗下的《我的世界》 (Minecraft)遊戲世界中測試。
  在AIX裡,科學家並不需要直接編程告訴機器人如何完成一個具體的任務,例如選擇
什麼樣的路徑攀登上一座山的頂峰,而是把如何學習並取得進步的程序輸入機器人,讓它
們來通過和環境的交互來自動學習到完成任務的辦法,真正做到「授機器以漁」。
  與谷歌不一樣,微軟延續了自己慣用的平台戰略思路。巨頭之間戰略思路不同,事屬
平常,但都非常看好人工智能、機器學習帶來的戰略機遇,並同時開始在人才、技術、市
場方面的佈局和競爭,也許這場競爭會決定未來10年幾家巨頭競爭的勝負。(本文獨家首
發鈦媒體)
  [ 鈦媒體作者: 張偉楠,英國倫敦大學學院(UCL)博士候選人,即將受聘於上海交
大擔任助理教授,北京優路科技聯合創始人]
作者: sck921 (The Fate)   2016-03-30 19:27:00
轉新聞不要自己改標題好嗎?
作者: horseham (給我水球)   2016-03-30 19:42:00
當機器智商從1 到10到100到10000人類世界將會有撲天蓋地的改變 真的駕馭的了比我們聰明百倍的人工智慧嗎
作者: liaon98 (liaon98)   2016-03-30 20:16:00
職業段位早該廢除了 以前段位制度是為了手合業餘段位至少還能當手合依據 職業全分先 根本不用分段位
作者: Arnotts (雅樂思)   2016-03-30 20:26:00
段位制度是該改革 像日本的九段裡都還可以再分九段出來
作者: ejijojo (小羊羊)   2016-03-30 20:32:00
胡扯 不敢跟柯潔打 自己評估一百段也可以 我也超過二十段阿法狗敢不敢跟我下 我讓他四子也可以 廢物狗
作者: lovepeace83 (愛和平)   2016-03-30 20:33:00
劉星對柯潔4-0,劉星也可以15段。直接接奕城讓各路職業棋手測,才能測出棋力。
作者: walkwall (會走路的牆)   2016-03-30 21:24:00
以後測棋力就直接讓軟體評分了? 阿法夠老師的車尾燈...
作者: wadashi1 (阿拉丁)   2016-03-30 21:25:00
有道理,建議奕城專門用一個空的帳號Alphago給黃士傑測。
作者: cloudworld (艾利歐特)   2016-03-30 21:48:00
作者: kuwawa (庫瓦瓦)   2016-04-01 03:06:00
原來是七龍珠Z啊, 還以為是圍棋呢

Links booklink

Contact Us: admin [ a t ] ucptt.com