[問卦] MDP和ML的reward設計的卦?

作者: kevin3292 (生長在孤兒院的小孩)   2018-07-08 18:25:25
小弟我最近在看Markov Decision Process還有Reinforce Learning
發現他們其實都會有一個reward function, 也就是系統給的評分
我就不自覺地想了
這些評分, 通常都是怎麼設計的呢?
總不會是我會1分2分 旁邊的鄰居說3分4分
還有reward內有不同單位意念的 又該如何設計呢?
目前我想的是
決定於該使用者的喜好程度
如果他覺得某項指標比較重要, 他就把該指標的reward權重調高一些
相反的則調低一些
通常大家在設計時, 真的是根據使用者來決定這些reward的嗎?

Links booklink

Contact Us: admin [ a t ] ucptt.com