TTG命运女士游戏玩法,TTG命运女士游戏规则
多臂老虎机简单说就是老虎机有多个臂,每一次摇动一个臂,机器就会给你一个奖赏(游戏币),这个奖赏遵循某一中概率分布,即每一个臂按照一定的概率返回奖赏值。
现在问题是,根据历史的一些反馈信息,如何进行最佳决策(获得更多的奖赏)。
这个简单,如果我们事先知道没一个臂的奖赏分布情况,每一次都是摇最大的,但是吧。
。
。
怎么可能事先知道这个分布。
于是我们使用如下几种策略选择最佳的action。
第一种方法称为: Action-Value Methods。
该方法仅考虑历史时刻的平均回报值,每一次选择平均回报最大的那一个action,具体采用的公式如下:
第一种方法本质上属于greedy策略,每一次都选择当前步骤的最佳action;第二种策略是在第一种方法的基础之上,基于一定的概率让其随机选择一个action,保证绝大多数的情况下使用greed方式,有一定的概率随机选择。
这种成为ε-greedy方式,具体逻辑如下:
这里的代码来源于ShangtongZhang/reinforcement-learning-an-introduction,作为一个有节操的程序员,就必须要人人真真的读读别人的代码,这里我就贴出部分代码来简单的加一些注释信息说明问题(具体的代码大家还是去github上面看看吧,尊重原作者),我真的不是照搬啊。
。
。
:
>
>
上图当中画红线的部分是计算均值的一种方式,比如下式的这种表达方式,t时刻reward的平均值:
最后的最后解释一下子关于梯度优化的一些问题,这里的求梯度部分有些类似softmax的公式求导,其实都是一个套路,我相信凡是做这行或者是打算往这行工作的人都会记得这个公式的推导,所以直接解释解释结果吧:
上面几个公式的意思是,选择某种action遵循softmax分布,在更新action的评估值得时候,采取如下策略。
若选择a做为当前最佳action,并且实际的reward高于baseline(这里就是历史的平均reward),则增加对应的评估值,其它未选择的action评估值对应减少。
若reward低于baseline,则减少对应的评估值,其它未选择的action评估值对应增加。
都是套路啊。
。
。
————友情链接,https://www.918yule.net,https://www.esb10086.net,https://www.esb288.net *****TTG命运女士游戏玩法,TTG命运女士游戏规则*****
Comments
Post a Comment