多项选择题

强化学习的损失函数是(),和深度学习的损失函数有()关系。

A.使奖励和的期望最小
B.使奖励和的期望最大
C.使预测值和标签之间的差异最小化
D.使预测值和标签之间的差异最大化
微信扫码免费搜题