CS285《深度强化学习》课程笔记
该博文需要输入密码进行查看。
拉格朗日乘子法是一种寻找非线性多元函数在一组等式约束下的极值的方案,在引入了 KKT 条件后,拉格朗日乘子法被泛化到了有不等式约束的一般形式。拉格朗日乘子法可以将多个等式约束的优化问题转化为无约束的拉格朗日函数优化问题,也可以将多个不等式约束的优化问题转化为 KKT 条件下拉格朗日函数的优化问题。
KL 散度是用于衡量两个概率分布差别的非对称性指标。
本博客于2023年10月9日开始运作