当前速读：碾压LLaMA的最强开源大模型居然来自阿联酋，OpenAI和HuggingFace为它吵了起来

大数据文摘授权转载自品玩

这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型，突然成为了hugging face“开源”大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下，包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中，LLaMA的模型规模甚至更大，达到了65B——比Falcon-40B大出了50%。

(资料图片)

按照国际通用惯例，网友们少不了又要拉踩一把扎克伯格。

Hugging Face过去一直被认为是大模型领域GitHub，在人类大模型的开源事业的道路上不遗余力，被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单，被从业者给予了很高的参考价值。

按照Hugging Face方面表示，其整个榜单使用Eleuther AI Harness的评估框架，被分成四个标准：

25个小样本的推理逻辑测试（ARC：AI2 Reasoning Challenge）、10个样本的尝试推理测试（HellaSwag）、5个样本的多任务准确性测试（MMLU）以及诚实测试（TruthfulQA）

而在全部四项打分中，如图一所示，除了诚实测试表现相对一般外，其他三项都大幅领先对手。而在新推出的instruct版本中，诚实性能力也跟上来了。

Falcon备受外界关注，原因主要有几点。

一方面，如果仅以这个榜单数据来看，Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内，但Falcon-instruct直接提升了3.4分。

另一方面，Falcon与马斯克的火箭重名，但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所（TII），这也是中东首个世界顶级的大模型产品。

TII的背后则是阿布扎比先进技术研究委员会(ATRC)，因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道，Falcon-45B使用了1万亿个token进行训练，可以用更少的训练计算能力实现更优的效果，其仅相当于OpenAI GPT-3训练计算的75%，DeepMind Chinchilla人工智能的40%，谷歌PaLM-62B训练计算的80%。

阿联酋通讯社进一步表示，作为开源的大模型工具，Falcon-45B的出现：

“强化了阿联酋作为全球AI领导者的角色”。

目前来说，Falcon-40B虽然是开源大模型的第一名，但是和“不Open”的OpenAI相比，还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下，Falcon获得“开源大模型第一”其实也算是“捡了个漏”。

不过很快有从业者发推特质疑Hugging Face的评价体系。

有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面，前特斯拉AI负责人、OpenAI元老级人物（founding member）Andrej Karpathy跟进评论：

“这就是我目前避免评论falcon的原因”。

Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家，对OpenAI的发展起到了很大的作用，也一手推动了特斯拉自动驾驶项目的发展，可以说是特斯拉autopilot之父。

当他对hugging face的标准提出质疑时，这并不能被认为是一个轻飘飘的指控。

果然hugging face联合创始人Thomas Wolf闻风而至，对同行进行了友善的科普，表示他们的使用的评价工具的准确性是可靠的。

这其中诡异的点在于，hugging face的榜单不是一天发出的，Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后，却出现了两位对评价体系“不理解”、“不确定”的“外宾”。

看来硅谷还不是很适应来自中东的神秘科技力量，对这种“新鲜事物”条件反射地用审视的眼光去打量。

不过，Falcon-40B最大的争议或许不是来自于能力，而是来自于其对“开源”事业的“诚心”。

因为Falcon对商业化开源留了一个“后手”，虽然使用者原则上免费，但如果收入超过100万美金，依然需要缴纳10%的授权费用。

但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会，对商业开源是友好的。那如果falcon拿着免费开源的许可协议，未来依然会收取一定的商业化费用，这似乎依然算不上真的“开源”。

大模型确实很烧钱，即便贵如中东土豪，也不希望彻底的开源。

而根据TII方面的消息，阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本，届时围绕大模型的科技竞争可能会变得更有意思。

推荐内容

当前速读：碾压LLaMA的最强开源大模型居然来自阿联酋，OpenAI和HuggingFace为它吵了起来

天天快消息！导航信息丨创新多点迸发！物联网重塑产业创新格局

高考作文怎么写？AI大模型一较高下 头条焦点

恒信东方交流20230607|每日热讯

【WWDC 2023】MR交互篇，如何为眼睛和手设计交互？-快看

广东电信：网络异常影响部分移动用户接听电话 正在抢修

新消息丨5G-Advanced加持的万亿级产业升级机会来了！裸眼3D进入快车道

20万！中国广电固话业务银行账户体系建设启动，加快商用步伐 世界播资讯

解读中国移动5G设备招标公告，国外厂商份额有望大幅提升！

北大才女时隔9年再谈寒门学子，盘点其商业版图-今头条

当前短讯！高考忙坏了大厂大模型

环球微资讯！马上消费：驯服大模型这匹“野马”，得套“笼头”，加“马鞍”

“中国智造”闪耀欧洲！深兰科技亮相英国伦敦国际建筑设备展览会

【环球热闻】靶向发力为中小企业定制“专属服务”

百事通！光年之外完成2.3亿美元融资，晋升为独角兽，估值10亿美元

华为高全中：5G-A为数字中国发展注入新动能-今日精选

“重启天涯”直播义卖为什么会失败？

软件战略再突围 华为云推出首款全栈自主数据库GaussDB

世界看热讯：Istio 1.18 新鲜出炉：正式宣布 Ambient 模式

担任重要产业联盟首任理事长！上海联通新任副总公开露面！|焦点热闻

Persistent 与亚马逊云科技深化生成式 AI 合作 观热点

环球速递！相当炸裂的苹果头显，直接炸飞苹果市值6000亿

世界快看：AI正在对就业市场产生替代效应？白领们到底该咋办？

【天天新视野】知乎要变“故事会”

ControlNet新玩法爆火：画出可扫码插画，内容链接任意指定|当前热点

首个百度文心千帆大模型平台成立# 注册资本1.2亿_世界速递

VITURE完成近千万美金A+轮融资：产品定位于高端消费级XR眼镜-速讯

世界速看：苹果Vision Pro：何止吊打Oculus、pico、谷歌眼镜

苹果头戴式设备Vision Pro会成为吹响下一代社交设备的号角产品吗_焦点报道

一次讲透一个CRM更新【2】

AI，数字时代的“生产力革命” 实时

天天速看：效果达OpenAI同规模模型96%，发布即开源！国内团队新发大模型，CEO上阵写代码

常被忽视：游戏与科技的休戚与共

互联网的底层逻辑是如何运作的？|当前速看

【年中盘点】中国广电品牌发布一周年！广电5G 2023年中盘点—运营商篇

“苹果是如何把售价24991元的VisionPro一夜卖爆的？”

华为云张平安：根深才能叶茂，发展根技术应产业聚力，做大做强 世界新动态

环球热消息：根技术再突破，华为宣布GaussDB数据库正式向全球客户提供服务

每日快看：张晏佳：新AI时代哪个行业最需要转型？

微软宣布放弃Win10后用户反向增多了，咋回事？

苹果Vision Pro：一款妥协的产品，承载不了太多期待

今日快讯：强大、可靠、绿色样样都要，超聚变构筑运营商算力建设利器！

挺身而出，华为摘下了基础软件“皇冠上的明珠” 天天快资讯

苹果Vision Pro头显发布，实体商业由「实」入「虚」将更进一步？-每日热讯

海航科技被强制执行5.3亿，海航科技成被执行人

云祺出席海加网络合作伙伴交流会并发表演讲

划时代还是薅韭菜？苹果首款MR头显，售价25000-天天观热点

数字经济新时代 通信技术迎来发展新热点|环球视讯

时讯：李彦宏：大模型即将改变世界，提出问题比解决问题更重要

滴普科技参加虎嗅工业大数据闭门会

天天快消息！导航信息丨创新多点迸发！物联网重塑产业创新格局

全市315个社区发挥“窗口”作用 动员全民迎旅发|每日资讯

@爱看书的你：第29届北京国际图书博览会将举办

高考作文怎么写？AI大模型一较高下 头条焦点

恒信东方交流20230607|每日热讯

陕西未来3天“炎”值飙升 西安最高气温可达34℃|世界最新

【WWDC 2023】MR交互篇，如何为眼睛和手设计交互？-快看

当前速读：碾压LLaMA的最强开源大模型居然来自阿联酋，OpenAI和HuggingFace为它吵了起来

董家庄村_关于董家庄村的简介_环球关注

董家岭_关于董家岭的简介

十月英文简写怎么说_十月英文简写

焦点热门:开在心中的花600字优秀作文_开在心中的花600字

凉皮配黄瓜丝被罚款 冷食究竟怎么管？-天天关注

【世界新要闻】广西壮族自治区柳州市2023-06-06 23:15发布雷电黄色预警

全球热门:龙岩土楼和漳州土楼的区别_龙岩土楼

看点：董家岭村_关于董家岭村的简介

游戏文字乱码怎么办_游戏文字乱码怎么解决|世界观速讯

iphone5s闲置太久开不了机_苹果6开不了机怎么办

天蝎座和什么座是仇人之王_天蝎座和什么座是仇人

福建省福州市2023-06-06 18:37发布雷电黄色预警

2月是什么星座农历_2月是什么星座|聚看点

全球快消息！奥迪A6L新能源和红旗E-HS9选哪个？ 看完这份全面对比就不纠结了

Huawei's Secret and Great Thing

开具红字增值税信息表_购买方开具红字增值税专用信息表流程

新消息丨5G-Advanced加持的万亿级产业升级机会来了！裸眼3D进入快车道

吃事后避孕药的副作用_吃事后避孕药的危害

通达信阳包阴选股公式 每日热点

广东电信：网络异常影响部分移动用户接听电话 正在抢修

20万！中国广电固话业务银行账户体系建设启动，加快商用步伐 世界播资讯

高考作文怎么写？AI大模型一较高下头条焦点

广东电信：网络异常影响部分移动用户接听电话正在抢修

20万！中国广电固话业务银行账户体系建设启动，加快商用步伐世界播资讯

软件战略再突围华为云推出首款全栈自主数据库GaussDB

Persistent 与亚马逊云科技深化生成式 AI 合作观热点

华为云张平安：根深才能叶茂，发展根技术应产业聚力，做大做强世界新动态

数字经济新时代通信技术迎来发展新热点|环球视讯

全市315个社区发挥“窗口”作用动员全民迎旅发|每日资讯

高考作文怎么写？AI大模型一较高下头条焦点

陕西未来3天“炎”值飙升西安最高气温可达34℃|世界最新

凉皮配黄瓜丝被罚款冷食究竟怎么管？-天天关注

全球快消息！奥迪A6L新能源和红旗E-HS9选哪个？看完这份全面对比就不纠结了

通达信阳包阴选股公式每日热点

广东电信：网络异常影响部分移动用户接听电话正在抢修

20万！中国广电固话业务银行账户体系建设启动，加快商用步伐世界播资讯

两市融资余额减少22.79亿元天天报道

快车（下载）环球速递

价格暴跌1000元！RTX 4080终于撑不住了天天观点

e325: attention（e325）环球新视野

这个团伙专门忽悠老人高价收购“藏品” ！骗了190余人195万元全球快资讯

美国代理服务器（美国免费代理服务器）天天动态

如果AI真的想杀人当前关注

没有人能够阻挡我对自由的向往（没有什么能够阻挡我对自由的向往是哪一首歌曲的歌词）-世界热资讯

【环球速看料】“警”随高考倾情护航！榆林公安高质量完成2023年高考安保任务

【汽车人◆葳漪专栏】国六b才来？又提国七？微速讯

复读学校考场前做广告，家长怒撕横幅：最讨厌这种复读的环球消息

酒店客房部经理主要做什么天天报资讯

这些旧改入市，神仙都要抖一抖全球讯息

nero最新版 nero绿色版今日播报

不可撤销信用证的风险不可撤销信用证

首批路测牌照发放无人驾驶加速落地这些概念股机构关注

环球关注：数据复盘：超11亿净流入家电龙虎榜抢筹四川长虹

周小川：上海国际金融中心建设迈出更大步伐需要提升人民币自由兑换度环球信息

首批路测牌照发放无人驾驶加速落地这些概念股机构关注当前热门

主力资金丨尾盘资金抢筹3股超6000万元世界快资讯

洪山区成立首个商会劳动争议调解组织每日速讯

报告称谷歌成日本安卓手机市场占有率最高的品牌，索尼退居第五当前焦点