填空题

马可夫决策过程(MDP)是一种()过程,意味着动作结果仅仅依赖于当前状态。

答案: 离散时间随机控制
微信扫码免费搜题