从下围棋到打游戏,AGI如何实现技术演变?
GGV有话说:
(资料图)
GGV投资笔记是 GGV纪源资本关于投资、商业、科技的所见所闻所想,探讨关于世界的一切。
在这里,你可以收获:
全球优秀科技公司管理经验、一线调研;
顶级风险投资人&创业者经验分享;
大航海时代的世界人文历史、商业见闻……
编者按:本文来自微信公众号 GGV纪源资本(ID:GGVCapital),作者:GGV投资笔记,创业邦经授权发布。
什么是AGI通用人工智能?
在2021年上映的科幻片《失控玩家》中,主角原本是游戏中的NPC——一个没有姓名的Guy,按照系统设定的固定程式运作。在有一天醒来后,他突然有了人的意识,开始不按照系统设定的方式行动,拥有了自主感受、思考、决策的能力,甚至在游戏的世界里谈起了恋爱。
图 | 电影《失控玩家》中的画面
近年来,以数字意识觉醒为主题的优秀作品不在少数。例如,《爱、死亡和机器人》第一季中的Zima,原本他只是一架清理泳池的机器,而后经由一代又一代主人的改造,他逐渐拥有了人的意识,并且成为了艺术家——越来越像人。《西部世界》中,原本只是人类高科技乐园中的机器人接待员们,出现了自我的觉醒,发现了自己只是作为故事角色的存在,并且想摆脱乐园对自己的控制。
图 | 电影《西部世界》女主角Dolores
这些充满想象力的科幻作品中所描述的神奇机器人,并非天方夜谭。实际上,在科技创新的前线,众多科研人士和科技创新公司正在致力于推动Artificial General Intelligence(AGI)的实现。
AGI,被称为通用人工智能。在定义上,没有特别严格准确的标准。一般来说,AGI是指具备或者超越人类智慧的机器智能,能表现人类所具有的所有智能行为,也被称为“强人工智能”。与通用人工智能、强人工智能相对应的是弱人工智能 (Artificial Narrow intelligence, Weak AI)。弱人工智能不需要有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。
虽然定义上较为抽象,且无明确定义,但人工智能的研究者们普遍认为,对于通用人工智能来说,它需要有以下特质:
自动推理,在新环境,新任务上具备推理和决策能力;
知识表示,包括常识知识表征;
自动规划,对长期复杂任务规划分解能力
自主学习、创新;
自然语言: 能理解人类自然语言并使用自然语言进行沟通;
以及,整合以上这些手段来达到同一个目标。
AGI这项技术所要实现的目标,明确又宏伟——将智能体赋予人的智慧,让机器像人一样思考和行动。
国外虚拟网红Lil Miquela
从下围棋到打游戏,AGI的技术演变
2016年的3月9日至15日,Google旗下的DeepMind智能系统——AlphaGo在韩国首尔对战世界围棋冠军、职业九段选手李世石,这场人类与人工智能间的对决最终结果是AlphaGo以总比分4比1战胜李世石。2017年5月23日至27日,世界排名第一的中国选手柯洁和AlphaGo展开“人机大战2.0”三番棋较量,柯洁0:3败北。
图 | AlphaGo对战李世石
AlphaGo的胜利第一次将AGI的技术前景直观地展现在大众的眼前。围棋是一项智力的游戏,已经具有相当的难度。但围棋和现实的世界还是存在很大的差异:围棋棋盘对于双方的选手都是完全可见的,是信息完全的博弈;在围棋中落子,是两位选手一人落一子,并且只能放在棋盘上已有的位置。但是现实的生活是一个物理多维的世界,人类可以做的动作是非常复杂的。
在AGI攻克与人类的围棋比赛之后,它下一个大放异彩的能力是玩游戏。2019年,DeepMind打造的AlphaStar AI,通过算法的训练,在《星际争霸》的游戏中战胜了欧洲职业冠军。
与围棋不同,游戏有故事背景、不同的角色人物,需要使用技能和道具,在一定的时间内,采用复杂的策略来击败别人。AGI需要演化出一定的理解、决策和行为能力。
从下围棋到打游戏,体现出的正是AGI伴随着科技发展而演化出的不断升级的技术能力。
AGI通用人工智能是人工智能的一个分支,在互联网发展的早期,以大数据/机器学习而为大家所知。
在中国也存在孕育了AGI技术的土壤,启元世界是中国AGI技术的代表公司:2020年6月,启元世界自主研发的AI智能体在《星际争霸II》人机大战中以2:0击败了中国星际职业冠军级选手,成为国内首个在公开比赛中战胜顶级职业选手的星际AI,并刷新了人机对抗的历史最高成绩。启元也和DeepMind一同成为了全球唯二的两家能够用AI击败星际顶级选手的公司,技术能力广受认可。
据启元世界的创始人兼CEO袁泉介绍,基于大数据和监督式机器学习的AI,会使用已有的大规模的标注数据。例如,电商平台每天上亿的点击购买数据就是一种标注、一种正反馈,同时,没有购买也是一种标注、一种负反馈;或者像人脸识别领域,机器用不同的参数进行人脸的勾勒,也是一种标注的数据。
大数据和机器学习要解决的问题是,在已有标注数据的情况下,如何去训练一个模型。不管是传统的机器学习模型,还是新的神经网络的模型,都需要让训练出的模型找到一些关键的特征,来拟合标注的数据。当新的数据产生的时候,这个训练好的模型可以通过新数据的特征,来判断用户的点击、喜欢、购买行为。
这一套大数据能力,伴随着移动互联网的热潮,在互联网上产生了巨大的商业价值落地的场景:搜索、推荐和广告。袁泉深耕于此领域,他曾在阿里一手打造了全球电商最大的个性化产品“猜你喜欢”的技术体系。
但袁泉指出,这种机器学习的方式,也具有一定的局限性:需要有大量完成标注的数据;存在一定的机器学习的时间和效率成本;生活中很多场景也不是可以经由数据标注的形式来做判定的,没有绝对的标签,而是需要AI根据不同的环境进行智能决策。
在AlphaGo刚出现时,它使用了人类几千年积累下来的棋谱数据。到了AlphaGo第二代,也就是打败中国棋手柯洁的AlphaGoZero,则完全没有用人类的棋谱,而是设计了一套算法,让两个AI左右互搏,不断探索,源源不断地生成新的棋谱和数据。
图 | AlphaGoZero对战柯洁
AlphaGo的技术演进,显示了AI能力的两种范式。第一种是解决已有标注数据,如何来训练更准确的模型的问题;第二种范式所需要解决的问题更为复杂:首先需要解决如何生成高质量的数据;其次在有了高质量的数据后,如何训练一个聪明的AI神经网络;最后,如何这个聪明的AI能生成更高质量的数据,从而训练出更高水平的AI,呈现一个不断上升的螺旋式进化的AI能力。
第二种AI能力的不断进化,在其背后的技术叫做强化学习,是实现AGI的必要手段之一。
强化学习是一套解决智能决策问题的算法框架,不需要数据标签数据,其核心是让AI不断与环境交互,不断地试错和改进自己,强调基于环境行动,以取得最大化的预期利益。强化学习的灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,初步形成对刺激的预期,产生能获得最大利益的习惯性行为。
AGI使用强化学习的方式,本质上需要学习人的智慧的形成的本质,探索构成智能系统的架构,这其中涉及到多学科的知识和技能,是一项艰巨的任务。
探索AGI:从DeepMind到启元世界
在AGI领域内,创立于2010年的DeepMind公司是先行者。DeepMind在2014年开发了人工智能围棋软件AlphaGo,因2016年AlphaGo击败了李世石而广为人知。
DeepMind还研发出了应用于蛋白质折叠领域的AlphaFold,2018年AlphaFold 通过成功预测43种蛋白质中的25种最准确的结构,赢得了第13次蛋白质结构预测技术关键评估。2019年,DeepMind推出了AlphaStar,这是一个玩即时战略游戏星际争霸的程序。AlphaStar使用基于人类玩家回放的模仿学习,然后使用深度强化学习与自己对战以增强其技能,战胜了世界冠军。
在中国,成立于2017年的启元世界则一直在AGI的领域孜孜不倦探索:启元世界创始人兼CEO袁泉不仅曾在阿里打造了个性化产品“猜你喜欢”的技术体系,是阿里算法团队的技术大牛,还曾在IBM中国研究院任研究员,担任ACM/IEEE等国际顶会审稿人并发表了多篇顶会论文与中美专利;CTO龙海涛曾在阿里巴巴负责搜索广告业务的架构设计,也曾是IBM研究院最年轻的科学家。
袁泉认为,在AGI的技术探索上,去提升智能体的三方面的能力是尤为重要的,这也是启元世界一直在做的事情:
1.全面提升智能体的IQ能力:用《星际争霸》这一竞技游戏来训练AI,在最复杂的博弈决策场景中,验证智能体的IQ可以大幅超越人;
2.提升智能体的EQ能力:能够将情感、互动和社交有效地传递给人。探索的成果是,目前启元世界的智能体已经可以和人做初步的语言交互,包括对话和内容的生成;
3.增强智能体与人交互的可解释性。尽管深度学习技术相对来说偏黑盒,但还是能看到有越来越多的手段和技术能够将智能体的学习过程和能力,一定程度上外化和显示出来,以便于各行各业在应用AI的时候,可以和智能体之间建立起信任。
目前,游戏领域是一个天然合适的、也是启元世界最核心的商业化落地场景。在《星际争霸》中构建的神经网络放到回合制的策略游戏中,研发团队不需要做太大的改变,智能体就可以自己去适应这种游戏。
图 | 游戏《星际争霸》的场景
不同的游戏的场景很复杂,需要处理的计算空间也很庞大,比如一款策略类游戏可能会拥有几百张地图、几百位武将、几百个战法,传统AI技术很难用一套模型、一套算法去适配。但是启元世界认为,只需要训练一套AGI算法方案就可以有限的时间和算力内,在组合爆炸式问题空间中找到数据最优解,从而完成数值平衡设计,极大地提升了游戏中AI研发的效率和质量。
在游戏行业外,随着智能体的IQ、EQ、与人交互可解释性的不断提升,未来它们也将成为元宇宙中的重要组成部分,甚至是虚拟世界的新物种和原住民。当IQ能力超越人的时候,可以帮助人们学习、培训;EQ方面,能够通过可计算的方式,比人更好地去关怀别人,为人带去陪伴和温暖,也是元宇宙中非常重要的核心体验。
除了构建美好的数字世界体验,AGI更重要的价值是通过元宇宙、数字孪生、AI的虚实迁移能力赋能现实世界。例如将神经网络迁移到家庭服务机器人、工业机械臂、四足机器人上,那么不管是陪伴家中的老人和孩子,还是在工业场景中提升生产制造效率,亦或是做人类无法从事的危险工作,都将极大提升现实生活的效率与体验。
“元宇宙不止于数字娱乐,更应该是人机共生共创,互相激发、互相碰撞的精神家园。如果往大一点说,未来元宇宙中,最令人期待的就是基于AI的硅基生命,和人这类碳基生命的有机协作,彼此互动融合,相互陪伴成长,开创全新的学习与生活体验。”袁泉在采访中乐观地表示。
期待随着科技的不断创新与发展,影视作品中拥有人类智慧的智能体或许真的有一天会逐渐走入人们的生活中,人类生活的世界将会呈现出更丰富与多元的图景。
*参考资料
[1] 通用人工智能 | Wikipedia.
[2] AlphaGo战胜李世石两周年 | 财新
[3] 嘿!AGI | 一席
[4] 用AI打败职业冠军,为游戏创造沉浸式NPC:解析这家创企背后的神秘技术 | GGV投资笔记
[5] 启元世界袁泉:用AI让元宇宙加速落地 | GGV OMEGA访谈录x创业内幕
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。