您的位置:首页 >赛前形势 >

这支强大的AI团队是如何训练出来的呢的?

时间:2022-05-16 21:04:26 来源:网络整理

“我看到4号球员在队友的配合下迅速突破防守,直入,一脚射门,球ai预测足球,进球了!”

大家好,你们正在观看 Google AI 足球比赛。清华大学的AI选手身穿黄色球衣。

今年的清华AI不一般。在刻苦训练下,他们不仅拥有个人能力出众的明星球员,而且拥有世界上最强、最紧密的团队合作。

在多项国际比赛中立于不败之地并获得冠军。

“哦,现在7号接到了队友的助攻,又踢了一脚,球又进了!”

言归正传,上面其实是清华大学在足球比赛中打造的强大的多智能体强化学习AI-TiKick。

在多项国际赛事中夺冠,意味着TiKick在单智能体控制和多智能体控制方面都取得了SOTA的表现,首次可以同时控制十名球员完成整个足球比赛游戏。

这支强大的 AI 团队是如何训练的?

多智能体足球 AI 从单智能体策略演变而来

在此之前,我们先简单看一下用于训练的强化学习环境,也就是这款足球比赛:Google Research Football (GRF)。

由 Google 于 2019 年发布,它提供基于物理的 3D 足球模拟,支持所有主要游戏规则ai预测足球,一名或多名足球运动员由代理控制,与另一支球队的内置 AI 比赛。

在由 3000 步组成的上半场和下半场比赛中,智能体需要不断地决定移动、传球、射门、运球、抢断和冲刺等 19 个动作来完成目标。

在这样的足球比赛环境中强化学习有两个难点:

一是由于多智能体环境,即一共有10名球员(不包括守门员)可供操作,算法需要在如此巨大的动作空间中寻找合适的动作组合;

第二,大家都知道足球比赛的进球很少,算法很难频繁地从环境中获得奖励,训练难度大大增加。

这次清华大学的目标是控制多个玩家完成游戏。

他们首先观察了最终在 2020 年 Kaggle 举办的 GRF 世界锦标赛中夺冠的 WeKick 团队的上万条自我对战数据,并使用离线强化学习进行学习。

这场比赛的目的是控制场上的一名球员。

如何从单代理数据集中学习多代理策略?

在WeKick中直接学习单代理操作并复制给每个球员显然是不可取的,因为那样每个人都只会自己抢球并冲向球门,根本没有团队合作.

而且没有关于后场不活跃球员移动的数据,那我该怎么办?

他们在动作集合中添加了第二十个动作:内置,并将这个标签分配给所有不活跃的玩家(如果内置作为游戏中玩家的动作,玩家将遵循内置规则采取行动)。

然后使用多智能体行为克隆 (MABC) 算法训练模型。

对于离线强化学习,核心思想是在数据中找出高质量的动作,并加强对这些动作的学习。

所以在计算目标函数时需要给每个标签不同的权重,以防止玩家倾向于只采取某个动作作为动作。

这里的权重分布有两个考虑:

一种是从数据集中选择目标较多的游戏,只使用这些高质量的数据进行训练。更密集的模型可以加速收敛并提高性能。

二是训练Critic网络对所有动作进行评分,并使用结果计算优势函数,然后对优势函数值较大的动作赋予较高的权重,否则赋予较低的权重。

为了避免梯度爆炸和消失,对优势函数进行适当裁剪。

最终的分布式训练架构由一个 Learner 和多个 Worker 组成。

Learner 负责学习和更新策略,Worker 负责收集数据,他们通过 gRPC 交换和共享数据和网络参数。

Worker可以多进程模式同时与多个游戏环境交互,或者通过I/O同步读取离线数据。

这种并行化的执行方式也大大提高了数据采集的速度,从而提高了训练速度(5小时就可以达到其他分布式训练算法两天可以达到的性能)。

另外,通过模块化设计,框架可以在不修改任何代码的情况下一键切换单节点调试模式和多节点分布式训练模式,大大降低了算法实现和训练的难度。

94.4% 胜率和场均 3 分差

在多智能体(GRF)游戏上不同算法的对比结果中,TiKick的最终算法(+AW)以最高的胜率(94.4%)和最大的目标差取得了最好的表现.

TrueSkill(机器学习中的竞技游戏排名系统)也得分第一。

TiKick 和内置 AI 分别取得了 94.4% 的胜率和 3 分的优势。

对比 TiKick 与 GRF 学术场景中的基线算法,发现 TiKick 在所有场景复杂度下都取得了最好的性能和最低的样本,差距很明显。

与基线 MAPPO 相比,还发现五个场景中的四个只需要 100 万步即可达到最高分。

关于作者

第一作者为清华大学博士生黄世玉。他的研究兴趣是计算机视觉、强化学习和深度学习的交叉领域。 曾就职于华为诺亚方舟实验室、腾讯AI、卡内基梅隆大学、商汤科技和RealAI。

合著者也是清华大学的陈文泽。

此外,作者还包括国防科技大学的张龙飞、腾讯人工智能实验室的李紫阳、朱凤明、叶德恒和清华大学的陈婷。

通讯作者为清华大学朱军教授。

论文地址:

项目地址:

参考链接:

——结束——

量子比特QbitAI·今日头条签约


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。