这个赛车AI不再只图一时爽，学会了考虑长远策略

玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

他们开始考虑战术规划，甚至有了自己的行车风格和“偏科”项目。

比如这位只擅长转弯的“偏科”选手，面对急弯我重拳出击，惊险漂移，面对直线我唯唯诺诺，摇晃不停：

还有具备长远目光，学会了战术规划的AI，也就是这两位正在竞速的中的绿色赛车，看似在转弯处减缓了速度，却得以顺利通过急弯，免于直接GG的下场。

还有面对不管是多新的地图，都能举一反三，跑完全程的AI。

看起来就像是真的在赛车道上学会了思考一样。

（甚至上面所说的那位偏科选手还在不懈努力后成功逆袭了）

这项训练结果一经公布，便吸引了大批网友的围观：

强化学习让AI学会“长远考虑”

训练赛道来自一款叫做《赛道狂飙》（Trackmania）的游戏，以可深度定制的赛道编辑器闻名于玩家群体。

为了更大程度上激发赛车AI的潜力，开发者自制了这样一张九曲十八弯的魔鬼地图：

这位开发者名叫 yoshtm ，之间就已经用AI玩过这款游戏，一度引发热议：

一开始，yoshtm采用的是一种监督学习模型，拥有2个隐藏层。

模型包含了16个输入，包括如汽车当前速度、加速度、路段位置等等，再通过神经网络对输入参数进行分析，最终输出6种动作中的一种：

基于这一模型架构，开发者让多只AI在同一张地图上竞争。

通过多次迭代，不同AI的神经网络会出现细微的差别，结果最好的AI将最终脱颖而出。

这种方法确实能让AI学会驾驶，不过也带来了一个问题：

AI常常只能以速度或最终冲线的时间等单一指标来评估自己，难以更进一步。

这次，时隔两年后的赛车AI，不仅学会了从长远出发制定策略（比如在急弯时对速度作出调整），还大幅提高了对新地图的适应性。

主要原因就来自于开发者这次引入的新方法，强化学习。

这种方法的核心概念是“奖励”，即通过选择带来更多奖励的行为，来不断优化最终效果。

在训练赛车游戏中的AI时，yoshtm定义的奖励很常规：速度越快奖励越多，走错路或掉下赛道就会惩罚。

但问题是，一些行动，比如在临近转弯时的加速或许能导致短期的正面奖励，但从长远来看却可能会产生负面的后果。

于是，yoshtm采用了一种叫做 Deep Q Learning 的方法。

这是一种无模型的强化学习技术，对于给定状态，它能够比较可用操作的预期效用，同时还不需要环境模型。

Deep Q Learning会通过深度网络参数的学习不断提高Q值预测的准确性，也就是说，能够使AI在赛车游戏中预测每个可能的行动的预期累积奖励，从而“具备一种长远的策略目光”。

随机出生点帮AI改正“偏科”

接下来开始进行正式训练。

yoshtm的思路是，AI会先通过随机探索来尽可能多地收集地图数据，他将这一行为称之为探索。

探索的比例越高，随机性也就越强，而随着比例降低，AI则会更加专注于赢取上述设置的奖励，也即专注于跑图。

不过，在训练了近3万次，探索比例降低到5%时，AI“卡关”了：

核心问题是AI出现了“偏科”。

由于前期经历了多个弯道的跑图，所以AI出现了过拟合现象，面对长直线跑道这种新的赛道类型，一度车身不稳，摇摇晃晃，最终甚至选择了“自杀”：

要如何解决这个问题呢？

yoshtm并没有选择重新制作地图，而是选择修改AI的出生点：

每次开始训练时，AI的出发点都将在地图上的一个随机位置生成，同时速度和方向也会随机。

这一办法立竿见影，AI终于开始能够完整跑完一条赛道了。

接下来就是进行不断训练，最终，开发者yoshtm和AI比了一场，AI在这次跑到了最好成绩： 6分20秒。

虽然还是没有真人操控的赛车跑得快，不过AI表现出了较强的场地适应性，对草地还是泥地都能立马举一反三。

yoshtm最后这样说道：

《赛车狂飙》本来就是一个需要大量训练的游戏，AI当然也如此。
至少我现在很确定，这个AI可以打败大量的初学者。

强化学习让AI学会“长远考虑”

随机出生点帮AI改正“偏科”

推荐内容

这个赛车AI不再只图一时爽，学会了考虑长远策略

智算赛道，水大鱼大：取势，明道，优术

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

“热钱”洒向数据库，耐力比拼进行时

数实相融 浪潮信息策马扬鞭奔向“绿色未来”

钉钉开始直面商业化

工信部：截至2月底，IPTV总用户数达3.57亿户

四家运营商薪资福利大对比，谁能更胜一筹？

彻底告别“个性化体验”，隐私和体验哪个重要？

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

网传字节跳动调高 Pico VR 今年销售目标至 180 万台；罗永浩微博发文，澄清《罗永浩“真还传”大结局》多处事实错误

“山金云”助推山东省数字经济发展

人工智能、机器学习、深度学习的关系，终于有人讲明白了

美国要切断对俄罗斯的GPS服务？“北斗”可否顶上？

13.4亿个账号被处置，2022年“清朗”行动还将重点整治这些乱象！

天云数据完成数亿元D轮融资，重新定义数据基础设施 | 华映portfolio

诈骗、灰产、荷尔蒙，畸形生态下养活的陌陌、探探和Soul

教你如何摘取区块链中的明珠 - 智能合约

科技活动中的“领域变迁”和“关键变迁”

“数字员工”已悄然登场，将带来怎样一场变革？

数字经济的内涵、界定和各国规模测算

大数据“杀熟”？新规出手了！

钉钉总裁叶军：发布酷应用，钉钉只做一件事就是PaaS化

苦“大数据推荐”久矣？现在终于可以关掉它了！

锤子科技撤回全部破产申请，罗永浩或将重回科技行业

工信部：三大运营商发展蜂窝物联网终端用户数达到14.64亿

“AI+知识管理”为企业数智升级注入新动力

钉钉发布新logo：从要规模到要价值，品牌新主张让进步发生

CRM讲堂 - 不要让CRM沦为监管销售的工具

中国联通倾力打造高算力枢纽节点！

NFT｜无聊猿（BAYC）的发展潜力（一）

调查：Coinbase 与 Binance 上新币种

“东数西算”夯实数字经济绿色底座

再见3G：多运营商关闭UMTS和CDMA2000网络

电信和联通如何抗衡一家独大的中移动？

固若金汤的App Store审核也翻车了吗？

“元宇宙”破圈爆红，区块链成为幕后推手

第二人生的创始人菲利普·罗斯戴尔对元宇宙发出了与Meta截然相反的概念

科学家称或存在时间倒流反宇宙

现在是投资中国互联网公司的好时候吗？

Figma封不住国产软件崛起的步伐

联邦知识蒸馏概述与思考（续）

Marteker 日报：(2022.3.21)

详解ID拉通 | CDP 智库系列文章 ②

“AI+知识管理”为企业数智升级注入新动力

AI靠语意理解把照片变抽象画，无需相应数据集，只画4笔也保留神韵，有毕加索内味儿了

抢先苹果！罗永浩“真还传”下月完结：即将进军VR行业

深度视觉宣布完成过亿元A轮融资，将用于产品研发和市场拓展等

瑞数信息荣膺CCIA2021年度优秀会员单位

全行业攻坚智能网联汽车安全

这个赛车AI不再只图一时爽，学会了考虑长远策略

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

智算赛道，水大鱼大：取势，明道，优术

“热钱”洒向数据库，耐力比拼进行时

数实相融 浪潮信息策马扬鞭奔向“绿色未来”

四家运营商薪资福利大对比，谁能更胜一筹？

彻底告别“个性化体验”，隐私和体验哪个重要？

工信部：截至2月底，IPTV总用户数达3.57亿户

钉钉开始直面商业化

中概股暴跌后的大厂员工：230万缩水至23万、和家人一起“开源节流”

微博接入TopHolder，数字藏品走向社交化？

首发丨「深视科技」完成千万美元A轮融资，创世伙伴、苏高新集团融享创投领投

降价、降估值，新茶饮「降温」

餐饮探店营销乱象频生，是流量密码还是饮鸩止渴？

一键关闭，再见了，烦人的APP广告

小米的高端化，不能只靠米粉

奶茶卷到美国，卷入TikTok

上海买菜实录：有人在凌晨12点鏖战，有人在早上6点激情下单

内卷的智能投影，奋力抓住年轻人

“春天的蔬菜100元一斤，才知道原来我只配吃肉”

一娃一屋，管家伴读，高档酒店「网课房」谁去住？

融资丨「小鸟健康」完成两轮近亿元融资

融资丨「普立蒙」完成近亿元新一轮融资，雅惠投资领投

海外创投丨社交APP「WeAre8」完成1500万美元B轮融资，Channel 4 Ventures、Centerstone Capital联合投资

融资丨「melt season」完成超千万元天使轮融资，Breeze Capital领投

融资丨「天云数据」完成数亿元D轮融资，多家国家队基金共同投资

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

数实相融浪潮信息策马扬鞭奔向“绿色未来”

数实相融浪潮信息策马扬鞭奔向“绿色未来”