今日,原美团联合创始人王慧文发文称,将打造中国的OpenAI。并且,王慧文透露还将成立北京光年之外科技有限公司,其个人出资 5000 万美元,估值 2 亿美元,并表示,“个人不占股份,资金占股 25%,75% 的股份用于邀请顶级研发人才,下轮融资已有顶级 VC 认购 2.3 亿美元。”


(资料图片)

据天眼查上的信息显示,北京光年之外科技有限公司成立于2018年7月,是一家以从事科技推广和应用服务业为主的企业,注册资本100万人民币,法定代表人为王慧文,其持股比例为100%。

自称不懂AI,“正努力学”

王慧文曾经在当年的退休邮件中表示,“感谢伟大的时代,我生于1978年,是改革开放的同龄人;在我开始厌学的时候,大学宿舍通网,因此赶上了互联网最精彩的20年;中国作为全球最大的单一市场,对创业者来说更是得天独厚。 我运气实在太好,不宜继续贪天之功,知止不殆。”

作为早期中国互联网行业的代表人物,王慧文先后创立了校内网、来电网、淘房网,而与王兴联手创立的美团,应该是其创业史上最成功的一次。对于王慧文来说,美团联合创始人的身份让他早已财富自由,并于2020年宣布退休,减持美团股票200万股,成功套现2.74亿港元,而ChatGPT的爆火让再次点燃了他的创业激情。

三天前,就曾有一张王慧文的朋友圈截图在网上流传,称要组队入局人工智能,有相关人士进一步确认该截图属实。当时,王慧文在朋友圈表示:“5000万美元,带资入组,不在意岗位、薪资和title,求组队。”同时,他还在即刻APP上表示,目前不懂AI技术,正在努力学习。

由此可见,当前因ChatGPT而掀起的新一轮人工智能热潮,已经传到了互联网的创始人圈。

比尔·盖茨在接受媒体采访时表示,ChatGPT可以对用户查询做出惊人的类似人类的反应,其重要性不亚于互联网的发明。

最近,英伟达CEO黄仁勋也在参加谈话时表示,ChatGPT的出现对于AI行业来说,相当于(当年在)手机领域(出现)的iPhone,是计算机行业最伟大的事情之一,具有里程碑意义。现在大家能把所有关于移动计算的构想,汇集到一个产品中。比如,通过API接口,可以把ChatGPT连接到数据表、Powerpoint、绘图程序,照片编辑程序等。

上周,搜狐创始人张朝阳开启了《星空下的对话》节目,邀请到360创始人周鸿祎进行了深度对话,其中就谈及了对于ChatGPT“出圈”的看法。

在周鸿祎看来,“ChatGPT可能代表着人工智能历史上一场真正革命的开始,虽然现在还不完美有很多缺点,但未来有无限潜力,有无限的应用场景”,而张朝阳则表示,“ChatGPT的产生是从量变到质变的长期积累过程,20年来,人们在网上积累了大量的信息,关于知识图谱的发展以及拟合的方式,以及算力和神经网络的拟合方式和计算、夹角计算,导致人类对网上信息充分的使用和拟合已经变得可以达到智能的状态,这是最原始的AI使用。”

不过,面对当前ChatGPT的风口是否要入局,张朝阳表示仍需要谨慎,“ChatGPT积累了许多年,涉及算力要有多少服务器,知识库、标注等等很多问题,若没有这些能力的公司跟风入局,会消耗掉许多资源。但人工智能AI以及有搜索能力的公司,还是需要有这样一个准备。”周鸿祎分析,要看其过去十年有没有在服务器算力上投入,有没有做人工智能的团队,有没有大数据的存储,但“有泡沫总不是坏事,会有更多优秀的人才,会有更多的资金涌入。”

发展中国版ChatGPT的优势

对于人工智能在自然语言处理领域的发展来说,虽然近10年来技术上有了突飞猛进的发展,但对于技术圈之外的普通人来说,可能印象最深的还是各种语音助手产品,但是,相信每个体验过的人都或多或少经历过它们的“智障”时刻。而ChatGPT的横空出世,可以说是首次打开了自然语言处理技术大规模商业化落地的大门,标志着自然语言理解技术迈上了新台阶,其理解能力、语言组织能力、持续学习能力更强,也标志着AIGC在语言领域取得了新进展,使得生成内容的范围、有效性、准确度大幅提升。

近期,百度、京东、科大讯飞等国内互联网公司纷纷表示自家在ChatGPT上已有布局和相关产品将要推出,抢占“中国版ChatGPT”名号的战争已经彻底打响,但花落谁家还尚未可知。不过,抛开炒作的因素不谈,对于人工智能发展的三大要素(数据、算法、算力)来说,国内企业的确都有良好的基础。

在算法方面,ChatGPT的技术底座是大规模语言模型(LLM),本质上仍是以深度学习为代表的技术长期发展和积累的结果,并未出现算法的革命性突破。发布于2020年的GPT-3是具有1750亿个参数的大模型,ChatGPT正是再此基础上进行改进的。对于大型语言模型来说,国内的几大互联网公司也都有各自的大模型问世,相比国外的一流模型来说,业界的共识是有两年左右的差距,但完全有赶超的可能。

在算力方面,人工智能模型的训练和使用需要强大的算力,这就需要大量高性能的GPU来支撑。据《2021—2022全球计算力指数评估报告》显示,美国计算力指数得分为77分,中国为70分,分列世界前两位,中国算力水平与美国处于同一等级,差距并不大。

在数据方面,据了解,ChatGPT的训练使用了大约45TB数据,其中包含多达近1万亿个单词的文本内容。在当前人工智能的发展阶段来说,大模型依旧是发展的主流,对于数据量的要求始终居高不下。而从大数据资源看,中国拥有全世界最大规模的网民数量,有丰富的应用场景,在数据积累方面优势明显。不过,一位北大教授曾分享过一组数据,表明了中文数据的质量现状:截至2021年,虽然简体中文互联网用户和英文互联网用户规模相当,但在全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅为1.4%。这是ChatGPT的英文水平明显高于中文的原因,也是在模型的训练阶段被“喂”了更多英文语料的必然结果,不过这同样也可以成为中国企业发展ChatGPT应用的竞争切入点。

国内企业更需要耐心

2月8日,为了对抗OpenAI和微软的新版Bing,谷歌在发布会上正式发布了对标的Bard,此前,在谷歌搜索引擎大规模语言模型的加持下,用户对Bard充满了期待。然而,由于Bard在回答时出现了事实性错误,导致当天谷歌市值暴跌近1000亿美元。

然而,根据机器之心今日发布的测评,微软的新版Bing也在回答中出现了各种错误,包括名人身份信息、财报数字、营业时间等。例如,新版Bing给出Gap公司全年的销售指引为“预计销售净增长率为低双位数”,而实际是四季度“可能呈中间个位数下降”,一词之差,对用户的投资行为将产生严重的误导。此外,Bing甚至还无中生有,给出了更多的全年财务指引“营业毛利为7%,摊薄每股收益为1.6美元到1.75美元之间”,而这些数据在Gap的三季度财报中统统没有提到。

由此可见,虽然当前全世界都在惊讶于ChatGPT等大型语言模型展现出来的能力,但还有诸多的问题亟待解决。如果仅仅将其用于闲聊,产生的变革和颠覆性价值会降低很多,只有当此类模型把回答中的事实性错误降到一个非常低的水平,才会真正显现出更大的价值。如果放任这些虚假信息的存在,那么史上最快达到1亿用户所带来的这把火也会很快熄灭。

这对于国内企业来说当然也很难,需要人力、资本、经验、耐心等各个维度的大量投入。OpenAl花了9个月才建立起大模型训练的pipeline,并用几年时间和天量资金积攒下来的大模型训练经验,绝非是一朝一夕就能复刻的。

写在最后

可能很多人不知道的是,“人工智能”一词早在1956年的达特茅斯会议上就已经被提出,而在最近十年才真正有了几次里程碑式的突破。ChatGPT的出现只是在通往强人工智能和通用人工智能的路上撕开了一个小口子,未来可能还会出现能力更强的工具。面对此次ChatGPT带来的这波浪潮,与其担心会被取代,不如一起让AI变得更好。

参考资料:1.《别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出》,机器之心

推荐内容