动作链主要包含:动作链推理机,动作链保存器,动作链图三个大模块

一.动作链推理机

推理机(Generator)在初始化的过程中,动作推理机会将每个协作动作的推理机注册进推理机存储容器中;在动作链的动作生成模块中,每个推理机都会将当前的状态作为初始状态进行动作的推理,推理的结果是 1个已经确定的可执行动作和执行该动作的预期结果。

每个子动作都有一个推理机(Generator),并且有一个总的推理机来管理他们。可以理解为是一个依次执行每个动作的推理机的迭代器。

推理机可以分为内部功能实现和外部接口;外部接口是提供与动作链图的连接,从动作链图中获取当前的球场状况作为参数传递到内部,通过内部的代码对情况进行分析和运算,最终生成一个确定的动作来返回给动作链图。

二.动作链保存器

动作链保存器的主要功能为:存储动作链的实例,它会将每周期生成的动作链作为自身的成员进行保存,并且进行更新,以确保动作链在每个周期的正常运行。

三.动作链图

动作链图(Graph)的用处主要为通过搜索算法找出最终的结果,起着联接动作链推理机和评估模型的作用。

四.动作状态对

动作状态对是动作链中的一种数据结构,他由1 个动作和 1 个球场状态两部分组成,其中动作是球员可执行的协作动作中的一种,球场状态为指定时刻的球场世界模型,可以是当前的球场状态也可以是预测的未来状态。
在动作链中动作状态对主要用于支持评估模型的计算与分析。

统筹文件

Action-Chain_bhv

强化学习——预计修改

Action-Chain_Edit