[心得] 用強化學習設計21點AI機器人 b05703 PTT批踢踢實業坊

[心得] 用強化學習設計21點AI機器人

作者: b05703 (blue) 2018-08-30 16:34:08

嗨各位，最近花了一些時間學習機器學習相關主題，想說來用python設計一個會玩21點的
機器人好了，以下會簡單介紹我使用的遊戲環境，深度神經網路，和相關成果。
一、遊戲環境：openAI的gym，簡單程式碼如下

可以看到要在python搭建Blackjack環境其實非常簡單，import完gym之後用gym.make就能
搭建各種遊戲環境。
二、規則：
而我們這個遊戲是我們要擔任player的角色和莊家(dealer)對賭，我們起始會有兩張
手牌，莊家則會有一張。點數方面2~10都以牌面作為點數，J,Q,K都算10點，ace可算1或1
1?
我們只有兩種動作可以選擇：拿牌(hit)或不拿(stand)。
目標是讓手牌點數和最靠近21點，若超過21點(爆牌)則直接判定輸了。
在我們決定不拿牌後，換莊家開始拿牌，莊家若手牌和低於17點，必須繼續要牌。
最後比誰的牌點數和最靠近21誰就贏了。
後續我還有改寫gym的環境讓我們可以做雙倍加注(double)，讓玩家可以採取
更多策略，更符合實際情況。
總之這張圖的重點在env.step(action)那行，簡單說就是
我們隨機採取了一個action(0代表stand, 1代表hit)然後observation就是遊戲當前狀態
，會回傳一組數字：(我方當前手牌和, 莊家手牌, 我方是否有ace)，那reward就是強化
學習當中很重要的機制，可以讓我們透過這種獎懲機制去訓練模型，-1代表輸了;0代表
我們還沒爆牌或是平手;1代表我們贏了。done回傳True或False表示當局結束與否。
在完全採取隨機action的情況下玩10萬場的勝率約27%。
三、訓練方法：Deep Q Learning
我是用keras搭建神經網路的，因為比tensorflow簡潔直觀。附上我使用的超參。

我搭建了三層fully connected layer，activation function都用relu沒問題，
但output layer的activation function就不能用relu了，因為在DQN中我們的input
是遊戲的state也就是我們上面提到的observation，我們的output則是在碰到這樣的
state，我們“採取各個動作預期的reward們”
打個比方：我們可能input [11, 6, 0]，表示我們手牌和是11，莊家拿6，我們沒ace。
這個神經網路的output應該要像這樣 [-0.4 0.2]，其中-0.4表示採取stand預期的
reward，0.2表示採取hit預期的reward，那我們當然希望reward越大越好所以就採取
hit這個動作。
因此這個output通常是有正有負的，不能用relu，那就用linear吧。
再簡單提一下memory，是我們儲存各個observation跟action的地方，在訓練的時候
會從中隨機抽樣用TD的方法去不斷更新我們的神經網路。
四、基本版訓練成果：

靠左的數字是我們的手牌，上面的數字是莊家的手牌，H(hit拿牌)或S(stand不拿)
則是這個神經網路打算採取的策略，會有兩段是因為上面那段是手上沒有ace的情況
，下面是有ace的。
可以看到這個神經網路已經可以做出和人類非常相近的決策：在大牌選擇stand，
小牌選擇hit，並在手上有ace的時候更積極hit。而在這樣策略下勝率提升到42%，
敗率49%。
也就是說平均每下注一百元會輸掉七元，雖然相較完全隨機玩有顯著的進步，但還有
進步空間，因此我決定加入其他戰略(double)讓玩家可以選擇雙倍下注，看能不能
讓機器人有更聰明的表現。
五、加入double戰略
由於openAI的原始程式碼並沒有double的功能因此我自己改寫了一下他們的程式碼，
簡單來說現在玩家可以選擇在第一手要不要double，要是double的話，玩家只能再拿
一張牌，然後莊家開始要牌。
神經網路方面我一樣用DQN下去train，只是在output的時候變成輸出三種動作的
期望reward。除此之外我參考了周莫煩的code和prioritised replay的paper實作了
優先回放，其中有用到sumtree的資料結構。也加入了doubleDQN的訓練方法。
六、double版訓練成果
在看這個神經網路的決策之前我們先看一下我們人類推算出的最佳21點戰略表。

然後這是我們的神經網路在面對各種情況所下的決策表。

可以看到明顯它學習到在我們握有9, 10, 11且莊家是weak hand的時候可以進行
double，還有在手上有ace的時候該如何double等等。雖然不盡完美，但在我用這個
神經網路下去玩一百萬場的結果平均每一百元大約輸2.X元左右，如果真的要贏錢，
可能還要加上split的戰略和算牌了。
七、結語
其實發文也同時是記錄自己的學習筆記和找到同樣對RL也有興趣的朋友、前輩一起
討論啦，感謝大家耐心看完。要是對我的程式碼有興趣歡迎去我的github按個星https://
github.com/blue0107/DQN-blackjack-pokerbot，歡迎大家討論
指教啦！

作者: cutekid (可愛小孩子) 2018-08-30 16:59:00

大推(Y)

作者: Blankfein (LloydBlankfein) 2018-08-30 17:15:00

如果state space (observation) 設計成已經出現過的牌+ 自己手上的牌+ 莊家手上已攤開的牌的話不知道會不會變猛很多等於是讓RL agent可以記牌的概念

作者: bcew (bcew) 2018-08-30 17:18:00

推解說

作者: b05703 (blue) 2018-08-30 17:28:00

回BL大:感覺可以試試看目前我自己寫的環境跟gym的環境都是用無限副牌在發的~要改一下

作者: seo074482 (tin730_11) 2018-08-30 22:07:00

推！

作者: andrew8062 (安祖魯) 2018-08-31 11:29:00

推！很酷希望有機會的話可以share出來

作者: st1009 (前端攻城師) 2018-08-31 13:07:00

歡迎到DataScience板發文唷/DataScience板是專門研究機械學習 NLP等等資料科學的板，說不定可以找到一些同好

作者: b05703 (blue) 2018-08-31 14:25:00

已發感謝~程式碼上傳到github囉https://github.com/blue0107/DQN-blackjack-pokerbot

作者: andrew8062 (安祖魯) 2018-09-01 03:29:00

感謝！週末找時間來研究研究

作者: admin520 (admin) 2018-09-01 17:22:00

感謝分享和解說

作者: weilun911 (阿偷) 2018-09-01 21:14:00

感想分享

作者: blackmaninEE (黑人電機機) 2018-09-01 23:23:00

推

作者: ssd860505da (JAGER) 2018-09-02 00:38:00

推

作者: powerkshs (氣質斯文讀書人) 2018-09-02 16:33:00

大推

作者: kyrie77 (NTU KI) 2018-09-02 20:39:00

有趣推個

作者: kwht (KH) 2018-09-02 21:41:00

有趣!

作者: apoopa 2018-09-03 17:00:00

推一個

繼續閱讀

Re: [閒聊] 抓取資料後如何讀取特定檔案acer1832a [閒聊] 抓取資料後如何讀取特定檔案talon0222 [問題] 不同地點socket連接問題ponwar87123 [問題] plotly 畫barplot字體大小請教jasonfghx [問題] leetcode 23sean72 [問題] 將很長的圖片分成多頁的pdf圖檔chen1i6c04 [問題] 抓取留言s1021412107 [問題] 新增field到paradox database fileDK1225 [問題] 用Python 執行更新系統時間fxsh1301 [問題] 爬蟲網頁後，想保留特定列資料[已解決]wii8898333