修改方向

对动作链权值的深度学习

1.对Shoot、dribble、Pass、Hold四个动作添加可变的权值,命名为”动作修正参数“
2.利用强化学习的方法不断调整修改"修正参数",进而提高有效动作的使用率
3.具体是在一个”预测-执行“周期后,具体分析执行结果和预测结果的误差,如果误差在允许范围之内,则被认为是执行效率,这类动作规定为有效动作,
4.在下一个”预测-执行“周期中,增大有效动作修正系数,提高有效动作的最终评分,以此提升有效动作的执行频率。
**衡量动作有效的依据**:通过对比动作执行后球的预测位置与实际位置来判断动作的执行是否有效

具体修正过程:

![[Pasted image 20230306214303.png|100*100]]

修正权衡

为了防止四个动作的权值失衡,使得球队单一地执行某一个动作,于是还要对修正进行限制。 一.限制修正系数的增长周期 二.限制修正系数的增长速度 **sum = pass + dribble + hold result = action/sum; 其中action为目标动作的修正系数值,pass/dribble/hold分别对应动作的修正系数值,result为最终传入动作链评估模型的动作修正系数。通过以上的公式进行归一化,可以在一定程度上解决修正系数增长过快的问题