[徵文] 對話式AI專欄: Chatbot對話管理篇 lion741205 PTT批踢踢實業坊

[徵文] 對話式AI專欄: Chatbot對話管理篇

作者: lion741205 (獅子) 2020-03-30 02:29:27

年初決定寫個對話式AI專欄，把個人在業界的開發經驗寫下來，到目前為止已經有七篇文
章了，詳述了聊天機器人框架的方方面面；第八篇文章還在拖稿時，碰到Soft Job版徵文
活動，覺得本系列非常契合活動的技術與實務經驗分享宗旨，相關知識也不是隨便就能取
得的，就趁今晚打著夜燈，熬夜把它給寫完了，在此分享給各位業界先進。
【閱讀本文前建議先看】
http://www.lionethan.com/Chatbot的類型與對比/
http://www.lionethan.com/Chatbot的閱讀能力-自然語言理解篇/
【什麼是對話管理】
聊天機器人的對話管理（Dialogue Management）是為了根據目前的對話狀態，決定系統應
該做些什麼。通常分為兩個子模組，負責更新對話狀態的「對話狀態追蹤」（
Dialogue State Tracking），其輸入自然語言理解模組所得到的使用者動作，以及過往的
對話歷史，輸出對話狀態；以及決定系統動作的「對話策略學習」（Dialogue Policy
Learning），其輸入對話狀態，輸出系統動作。上述的「使用者動作、對話狀態、系統動
作」皆可用一個意圖與一組槽位值表示。
【對話狀態追蹤】
目的是透過「使用者動作」及「對話歷史」更新對話狀態，其對話歷史可能隱含著因資訊
不足，經過系統反問使用者後，產生的「多輪對話內容」；有些需求還會參考使用者畫像
（User Profile），以補足必要的「個性化資訊」。透過推理和總結上述內容，轉換成簡
單的對話狀態（一個意圖與一組槽位值），系統可以將當前的對話狀態映射成更完整的表
示（Representation）。為了考慮自然語言的模稜兩可，語音辨識或自然語言理解模組所
產生的失誤，根據可能正確的使用者動作數量，可進一步分成只考慮置信度最高的1-Best
，以及考慮多個使用者動作與置信度的N-Best方法。
【對話策略學習】
目的是透過「對話狀態」決定系統該做些什麼，如果對話狀態的意圖在系統能夠提供的服
務項目之內，系統會檢查槽位值是否齊全，然後使用其內容查詢服務API，以得到關鍵答
案或內容；若對話狀態的意圖不明，或其符合特定服務但槽位值有缺失，系統應該主動向
使用者提問，透過多輪對話及對話狀態追蹤來蒐集足夠的資訊。最後將關鍵答案或內容封
裝到系統動作中，以一個意圖及一組槽位值代表，提供給自然語言生成模組（Natural
Language Generation）。
【對話管理的實作方法】
基於規則（ Rule-based ）的方法，透過編寫明確的規則，來建立各種槽位狀態下，使用
者動作所對應的系統動作，此種方法無法處理不確定的狀態，且需要手工編寫規則，僅適
合特定領域的簡單場景。
基於有限狀態機（Finite-State Machine, FSM），此種方法又可分為「以點代表槽位狀態
，以邊代表系統動作」，以及「以點代表系統動作，以邊代表槽位狀態」兩種方案；槽位
狀態可分為有或無，系統動作則是詢問槽位或最後回答兩種，為避免置信度過低，也可以
增加動作請使用者二次確認。由於前者在槽位增加時，會使狀態數量急遽增多，只適合資
料驅動的方式；若要以手工建置會建議採用後者。採用有限狀態機的優點在於實作簡單，
且容易理解，缺點是每個狀態和動作都要手工設計，不利於複雜場景。
基於統計（Statistical-based）的方法，通常採用馬可夫鏈（Markov Chain）將對話過
程表示成決策過程，而系統在每個對話狀態中決定下一步動作。採用馬可夫鏈的優點在於
只需要在決策過程中定義槽位狀態與系統動作，就可以自動學習到狀態的移轉關係，也可
在過程中導入強化學習（Reinforcement Learning）與線上學習（Online Learning），缺
點是同樣需要手工設計，不利於複雜場景。
基於深度學習（Deep Learning）的方法，輸入使用者動作及相關特徵，輸出對應的系統
動作，以訓練深度類神經網路模型。基於深度學習的方法需要大量訓練資料才能夠取得效
果，目前實際應用上還難以滿足此須求。
【對話管理的具體流程】
1.自然語言理解模組取得使用者對話「推薦我一家台北的餐廳」，此時會偵測使用者意圖及
識別命名實體，並將結果封裝成使用者動作（意圖=推薦餐廳, 地點=台北），得以將自然
語言映射成簡單的語意表示。
2.對話狀態追蹤模組透過使用者動作（意圖=推薦餐廳, 地點=台北）更新當前的對話狀態，
然後在地點填充常用的預設值，並透過使用者畫像補充用餐的個性化資訊，最後輸出對話
狀態（意圖=推薦餐廳, 地點=台北公館, 口味=喜歡吃辣）。
3.對話策略學習模組得到對話狀態後，發現其意圖在系統能夠提供的服務項目之內，但還缺
少了用餐時間，系統應該反問使用者；所以輸出系統動作（意圖=對空白槽位提問, 地點=
台北公館, 口味=喜歡吃辣, 時間=Null）。
4.自然語言生成模組執行系統動作，產生問句向使用者提問欲用餐的時間「你想在什麼時
間用餐呢？」。
5.自然語言理解模組取得次輪的使用者對話「明天中午」，再次偵測意圖及識別命名實體，
得到使用者動作（意圖=不明, 時間=2020年3月30日12點）。
6.對話狀態追蹤模組參考使用者動作及對話歷史，更新當前的對話狀態（意圖=推薦餐廳,
地點=台北公館, 口味=喜歡吃辣, 時間=2020年3月30日12點）。
7.對話策略學習模組利用使用者動作及對話歷史，蒐集餐廳推薦服務的必要資訊，透過查詢
服務API得到答案後，封裝成系統動作（意圖=推薦餐廳, 地點=台北公館, 口味=喜歡吃辣
, 時間=2020年3月30日12點, 餐廳=右手餐廳, 類型=泰式料理）。
8.自然語言生成模組執行系統動作，產生具體答案「建議你明天中午可以到台北公館的右手
餐廳享用酸辣的泰式料理」。
【未來的發展方向】
為了解決基於深度學習的對話管理方法，在訓練資料上普遍不足的問題，業界已嘗試使用
N-Shot Learning在小樣本下進行訓練，以及使用Zero-Shot Learning在沒有任何訓練
資料的情況下，進行現有模型的遷移與補全，以及在馬可夫鏈決策過程中，導入強化學習
與線上學習，建立獎懲與持續學習的機制；也有學者將GAN應用在自然語言處理上，透過
SeqGAN讓兩個模型相互博弈，以學習最強的對話策略。
【參考文獻】
POMDP-based Statistical Spoken Dialogue Systems: a Review
http://mi.eng.cam.ac.uk/~sjy/papers/ygtw13.pdf
Maximum Entropy Markov Models for Information Extraction and Segmentation
http://www.ai.mit.edu/courses/6.891-nlp/READINGS/maxent.pdf
Reinforcement Learning
https://en.wikipedia.org/wiki/Reinforcement_learning
One-Shot Learning
https://en.wikipedia.org/wiki/One-shot_learning
Zero-Shot Leaning
https://en.wikipedia.org/wiki/Zero-shot_learning
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
https://arxiv.org/abs/1609.05473
【其他對話式AI專欄文章】
http://www.lionethan.com/Chatbot的類型與對比/
http://www.lionethan.com/基於知識庫的問答系統實作方法/
http://www.lionethan.com/模組化的任務導向對話系統實作方法/
http://www.lionethan.com/Chatbot的閱讀能力-自然語言理解篇/
http://www.lionethan.com/Chatbot的記憶與決策-對話管理篇/
http://www.lionethan.com/Chatbot的寫作能力-自然語言生成篇/ (預計四月完成)
http://www.lionethan.com/預訓練語言模型比較（elmo、bert、gpt-2）/
http://www.lionethan.com/Chatbot的挑戰與發展趨勢/
http://www.lionethan.com/AI研發部門與開發流程介紹/

作者: hentai (^^) 2020-03-30 10:13:00

感謝分享

作者: ian90911 (xopowo) 2020-03-30 10:45:00

感謝分享

作者: SuperSunny (超級桑尼) 2020-03-30 13:16:00

感謝大神分享

作者: vvind (wind) 2020-03-30 14:18:00

推

作者: qrtt1 (有些事，有時候。。。) 2020-03-30 16:49:00

有看有推

作者: single4565 (leekdumpling韭菜水餃) 2020-03-30 19:25:00

推

作者: DrTech (竹科管理處網軍研發人員) 2020-04-02 12:37:00

學術文章翻譯，實際上跟工業界結合落差蠻大的建議附上一些學術文章的參考文獻來源。尊重一下原作者。

作者: tommykang 2020-04-02 15:47:00

推獅子大神謝謝分享業界經驗DrTech不懂裝懂

作者: a2551127 (點子綠) 2020-04-02 17:41:00

lion大的文筆真的很好我不懂nlp所以看不懂有關文獻無法入門但是這系列寫的很全面又好懂推推希望之後能繼續以實務的角度對每項技術深入說明

作者: tommykang 2020-04-02 18:56:00

我的意思是DrTech前幾篇連Chatbot不代表閒聊都不懂還在學術界工業界落差大別來亂好嗎?軟工版不適合打高空

作者: DrTech (竹科管理處網軍研發人員) 2020-04-03 09:00:00

不貼原始論文打臉啦。只是提醒而，繼續抄當作自己發表我也沒意見。另外，本人nlp幾年了，論文也有幾篇，專利超過40篇。那些說我不專業的，或者學術定義的chatbot不專業的，真沒必要，互相尊重吧。此行業已經很少人做了，沒必要拉仇恨。真的只是提醒引用原文讓大家有更多參考而已。我們都是知識工作者，用別人的成果註明出處很平常吧。

作者: jimmy55311 (jimmy55311) 2020-04-03 11:26:00

推熱心助人的獅子大大猛猛der 別管Dr.了啦這種人很愛貶低別人提高自己只要有寫錯他就罵死你寫得好他就說你是翻譯的不是翻譯的他就說你抄沒附來源讓他去吠根本沒人想理他

作者: tommykang 2020-04-03 11:38:00

不能同意jimmy更多

作者: SuperSunny (超級桑尼) 2020-04-03 22:43:00

又不是在寫論文,還要人家附參考文獻,笑死推L大的邏輯和文筆,還有態度

作者: wili06543 (昇燕) 2020-04-04 15:35:00

感謝分享

作者: May75504 (nay) 2020-04-06 15:33:00

感謝獅子大神分享實務心得，軟體工作版應該少點酸民多鼓勵這些願意花時間分享經驗的高手專家

作者: jing8281 (來下棋吧^^) 2020-04-10 10:40:00

推這篇

繼續閱讀

[請益] Design house CAD跟系統廠sw選擇rodndy666 Re: [公告] 3/23~4/6 技術與實務經驗徵文活動s89227 [心得] 新鮮人求職心得（17家）barrycai [心得] AWS VPC-Subnet & Region-AZ 關係介紹uopsdod [請益] offer請益(系統廠/小ic廠）JCMaxwell [請益] 請教暑期實習xcnx123 [心得] 2020-03-27 每日新聞damody [請益] offer請益[四零四/garmin]tingyoyo Fw: [面試] offer請益(大量、緯穎)TurtleGods [心得] 資深前端面試紀錄rxhivzero