比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤当前快看_中国智能在线

Transformer最近几年已然成为大模型的标配，而Meta团队开发的一款Megabyte模型声称能解决Transformer的硬伤，速度还要快四成。

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：Joey，创业邦经授权转载，头图来源摄图网

(资料图片)

Transformer无疑是过去几年内机器学习领域最流行的模型。

自2017年在论文「Attention is All You Need」中提出之后，这个新的网络结构，刷爆了各大翻译任务，同时创造了多项新的记录。

但Transformer在处理长字节序列时有个硬伤，就是算力损耗严重，而Meta的研究人员的最新成果则可以很好地解决这一缺陷。

他们推出了一种全新的模型架构，能跨多种格式生成超过100万个token，并超越GPT-4等模型背后的现有 Transformer架构的功能。

这个模型被称为「兆字节」（Megabyte），是一种多尺度解码器架构（Multi-scale Decoder Architecture），可以对超过一百万字节的序列进行端到端可微分建模。

论文链接：https://arxiv.org/abs/2305.07185

Megabyte为什么比Transformer强，就得先看看Transformer的不足之处在哪。

Transformer的不足

迄今为止几类高性能的生成式AI模型，如OpenAI的GPT-4、Google的Bard，都是基于Transformer架构的模型。

但Meta的研究团队认为，流行的Transformer架构可能正达到其阈值，其中主要理由是Transformer设计中固有的两个重要缺陷：

- 随着输入和输出字节长度的增加，自注意力的成本也迅速增加，如输入的音乐、图像或视频文件通常包含数兆字节，然而大型解码器 (LLM)通常只使用几千个上下文标记

- 前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词，但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作，从而导致大量的计算开销

Megabyte强在哪

相比Transformer，Megabyte模型展示了一种独特的不同架构，将输入和输出序列划分为patch而不是单个token。

如下图，在每个patch中，本地AI模型生成结果，而全局模型管理和协调所有patch的最终输出。

首先，字节序列被分割成固定大小的patch，大致类似于token，这个模型由三部分组成：

(1) patch嵌入器：通过无损地连接每个字节的嵌入来简单地编码patch
(2) 一个全局模型：一个输入和输出patch表示的大型自回归变换器
(3) 一个本地模型：一个预测patch中字节的小型自回归模型

研究人员观察到，对于多数任务而言字节预测都相对容易（如完成给定前几个字符的单词），这意味着每个字节的大型网络是不必要的，并且可以使用更小的模型进行内部预测。

这种方法解决了当今AI模型中普遍存在的可扩展性挑战，Megabyte 模型的patch系统允许单个前馈网络在包含多个token的patch上运行，从而有效解决了自注意力缩放问题。

其中，Megabyte架构对长序列建模的Transformer进行了三项主要改进：

- 二次自注意力（Sub-quadratic self-attention）

大多数关于长序列模型的工作都集中在减轻自注意力的二次成本上，而Megabyte将长序列分解为两个较短的序列，即使对于长序列也仍然易于处理。

- patch前馈层（Per-patch feedforward layers）

在GPT-3大小的模型中，超过98%的FLOPS用于计算位置前馈层，Megabyte每个patch使用大型前馈层，以相同的成本实现更大、性能更强的模型。在patch大小为P的情况下，基线转换器将使用具有m个参数的相同前馈层P次，兆字节可以以相同的成本使用具有mP个参数的层一次。

- 解码中的并行性（Parallelism in Decoding）

Transformers必须在生成期间串行执行所有计算，因为每个时间步的输入是前一个时间步的输出，通过并行生成patch的表示，Megabyte允许在生成过程中实现更大的并行性。

例如，具有1.5B参数的Megabyte模型生成序列的速度比标准的350MTransformer快40%，同时在使用相同的计算量进行训练时还能改善困惑度。

Megabyte远远优于其他模型，并提供与在子词上训练的 sota 模型竞争的结果

相比之下，OpenAI 的GPT-4有32,000个token的限制，而Anthropic的Claude有100,000个token的限制。

此外，在运算效率方面，在固定模型大小和序列长度范围内，Megabyte比同等大小的Transformers和Linear Transformers使用更少的token，允许以相同的计算成本使用更大的模型。

总之，这些改进使我们能够在相同的计算预算下训练更大、性能更好的模型，扩展到非常长的序列，并提高部署期间的生成速度。

未来将会如何

随着AI军备竞赛进行地如火如荼，模型性能越来越强，参数也越来越高。

虽然GPT-3.5在175B个参数上进行了训练，但有人猜测功能更强大的GPT-4在1万亿个参数上进行了训练。

OpenAI的CEO Sam Altman最近也建议转变战略，他表示公司正在考虑舍弃对庞大模型的训练，而专注于其他性能的优化。

他将AI模型的未来等同于iPhone芯片，而大多数消费者对原始技术规格一无所知。

Meta的研究人员相信他们的创新架构来得正是时候，但也承认还有其他优化途径。

例如采用修补技术的更高效的编码器模型、将序列分解为更小块的解码模型以及将序列预处理为压缩token等，并且可以扩展现有Transformer架构的能力以构建新一代模型。

前特斯拉AI总监Andrej Karpathy也在这篇论文中发表了看法，他在推特上写道：

这是非常有希望的，每个人都应该希望我们能在大模型中扔掉标记化，也不需要那些过长字节的序列。

参考资料：

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

推荐内容

比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤当前快看

2023-05-30
DTC品牌开线下店，走得通吗？

2023-05-30
全球新资讯：融资丨蔚赫信息完成近亿元融资

2023-05-30
即时：聚焦人效，薪人薪事发布HR SaaS产品，让业务复苏快人一步

2023-05-30
头条：稚晖君刚拿了百度投资，估值被曝已超独角兽

2023-05-30
靠“山寨机”起家，创始人出局，这家公司却走出大批创业者

2023-05-30
环球热资讯！魏家凉皮等商家苦美团久矣，抖音、快手杀入欲当救世主？

2023-05-30
小米，越过山丘

2023-05-30
环球热讯:取TikTok之精华，Instagram创始人们的新赌注

2023-05-30
融资丨「银基科技」完成2亿元B+轮融资当前动态

2023-05-30
天天看热讯：融资丨云潼科技完成数亿元A轮融资

2023-05-30
Meta头显设备首次亮相，或成苹果最大竞争对手

2023-05-30
减脂、增肌与AIGC，小米的高端化答卷|热点评

2023-05-30
24年老网站直播“续命”，8小时卖了4万块

2023-05-30
世界观天下！淄博烧烤大降温？当地人直言：真别来了，扰民！

2023-05-30
即时焦点：李佳琦“接班人”7天速成记

2023-05-30
世界球精选！山姆回应同款蛋糕杭州卖165上海卖95；iPhone16Pro史上最大屏幕6.9英寸；比亚迪再回应争议：常压油箱排放达标丨邦早报

2023-05-30
雷军应果断停止造车

2023-05-30
新消费品牌正在攻略年轻人的音乐节全球今日讯

2023-05-30
暴雪收购案，微软和索尼都傻眼|通讯

2023-05-30
老黄携「超级GPU」炸场！E级AI超算性能飞升，买越多越划算，谷歌微软Meta抢先试用-全球热头条

2023-05-29
电脑温度检测工具有哪些?win10温度监控小工具通知栏温度提示怎么设置?

2023-05-29
系统备份如何还原?系统备份软件有哪些?

2023-05-29
火热与冷门，薛定谔的公费生

2023-05-29
日企罗森向加盟商低下“头颅”-焦点速看

2023-05-29
曾年赚百万的美妆博主，收入大跳水

2023-05-29
网约车运力饱和，下半程驶向何方？

2023-05-29
老板燃气灶如何换电池?老板燃气灶点不着火怎么办?

2023-05-29
世界焦点！宋铮直播救天涯

2023-05-29
【环球热闻】风投成“张一鸣们”抵御焦虑的良药？

2023-05-29
好莱坞片酬最高的演员，投资了世界上最成功的 AI 公司-全球热消息

2023-05-29
李佳琦的劲敌，来了

2023-05-29
当前关注：榴莲，今年怎么这么火？

2023-05-29
2000万粉丝卖不动货，问题出在哪？_今热点

2023-05-29
在茶饮、咖啡店爆火的椰子，想“单独出道”

2023-05-29
网红之城的服装第一街，打响“禁止直播第一枪” 环球观速讯

2023-05-29
丁磊脱下了长衫环球速读

2023-05-29
【全球独家】越南年轻人的屏幕时间，正被“华流”承包

2023-05-29
独家 | 滴滴货运与达达合作同城货运,已覆盖杭州合肥北京三城

2023-05-29
讯息：民营快递30年：格局巨变，“战事”依旧

2023-05-29
lululemon的野心，瑜伽裤装不下环球快讯

2023-05-29
【世界新视野】AI大模型：玩家们的新擂台

2023-05-29
检验菜鸟菜不菜的时候到了_天天报道

2023-05-29
环球新消息丨AI诈骗波及多国：道高一尺，魔高一丈？

2023-05-29
环球播报:又一个买菜平台，输给了菜市场

2023-05-29
融资丨创锐光谱完成数千万元天使轮融资，君联资本独家投资

2023-05-29
天天热议:平台直播大战：小红书派出香港传奇名媛

2023-05-29
【环球快播报】董明珠与格力的弯路

2023-05-29
《小美人鱼》惨败，迪士尼还想翻拍什么？-全球热点

2023-05-29
焦点速讯：张一鸣在香港成立个人投资基金；中国批准微软收购动视暴雪；东南亚今年首家独角兽企业诞生丨Going Global

2023-05-28

当前时讯：东京圈房地产投资额跃居世界第2 仅次于洛杉矶

2023-05-30
比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤当前快看

2023-05-30
热点资讯：比亚迪再回应争议；天涯社区直播首播遭滑铁卢……

2023-05-30
微信收藏功能内存空间多大（微信收藏功能）

2023-05-30
全球微资讯！ST摩登: 关于累计诉讼及仲裁案件进展情况的公告

2023-05-30
掘地三万尺！我国首个万米深地科探井开钻-天天实时

2023-05-30
推进湿地生物多样性循环农业发展 “绿萍还田”现场会在常熟蒋巷村举行

2023-05-30
热点评！山东将稳步扩大“职教高考”本科招生规模

2023-05-30
老婆的男主_老婆的男人们_速看

2023-05-30
浴火重生！字母哥联手布伦森泡椒组成新三叉戟，尼克斯重建完成|焦点热议

2023-05-30
电脑黑屏无法启动嘟嘟嘟嘟的声音（电脑黑屏无法启动）-前沿资讯

2023-05-30
海关侦破3.6亿元水客走私手表案

2023-05-30
【天天热闻】SMM月度展望 6月焦炭市场难有起色

2023-05-30
DTC品牌开线下店，走得通吗？

2023-05-30
机票燃油附加费年内第三次下降全球今头条

2023-05-30
热门看点：永洪科技出席科博会：领先源于洞察

2023-05-30
中国女足对巴西女足现场直播（直播:秘鲁VS巴西）|焦点日报

2023-05-30
现役意大利足球明星排名前十（现役意大利足球明星排名）

2023-05-30
2023年了，为什么还有人在银行存定期存款？内行人给出答案_世界焦点

2023-05-30
等待「GPT-3」时刻，人形机器人将成「具身智能」终极形态？｜一周资本市场观察世界时快讯

2023-05-30
热讯：武契奇召见美英等五国大使及欧盟代表团团长就科索沃局势举行会谈

2023-05-30
c罩杯有多大是什么意思,C罩杯是指胸围下部减去15cm的胸部|天天即时

2023-05-30
全球速递！做科研不功利很难吗？你的科研信仰是什么？

2023-05-30
@山西考生我省发布2023年度考试录用公务员补充录用公告|全球消息

2023-05-30
【世界速看料】C919首航成功具有多重意义

2023-05-30
全球快消息！澳研究：南极深海洋流放缓深海含氧量降低

2023-05-30
万益蓝WonderLab联手京东健康，持续进行益生菌产业创新-环球时快讯

2023-05-30
向日葵之歌歌曲（向日葵夏蒅七演唱歌曲）_短讯

2023-05-30
张自轩退伍国旗交接仪式（张自轩退伍）环球实时

2023-05-30
全球新资讯：融资丨蔚赫信息完成近亿元融资

2023-05-30
环球动态:急救倡导联合行动|中投直管企业陕西联合志愿团队助力中国红十字基金会“红气球挑战赛”

2023-05-30
让网络虚假新闻无所遁形

2023-05-30
上海市发展改革委副主任阮青：上海正在研究制订新一轮新基建行动方案将鼓励民间资本扩大投资规模

2023-05-30
中信银行上饶分行开展“减费让利支付为民”宣传活动-天天热资讯

2023-05-30
两个责任内容是什么意思_两个责任的内容是什么

2023-05-30
GPT 应该存在吗？

2023-05-30
探险者四驱昆仑巅峰版上市，搭载2.3T发动机，售39.98万！

2023-05-30
苹果“我的照片流”服务将于7月26日关闭

2023-05-30
微头条丨回收黄金首饰多少钱一克(2023年5月30日）

2023-05-30
记者：阿根廷队教练组考虑是否征召更多球员参加6月的亚洲行|当前聚焦

2023-05-30
王羲之简介及作品特点_王羲之简介及作品今日关注

2023-05-30
NBA总决赛赛程出炉 6月2日开始最晚6月18日结束

2023-05-30
即时：聚焦人效，薪人薪事发布HR SaaS产品，让业务复苏快人一步

2023-05-30
国产大飞机C919是“组装机”吗？_每日快讯

2023-05-30
世界热点评！BitDeer获得战略投资

2023-05-30
描写秋天的诗句_描写秋天的诗句名句世界快讯

2023-05-30
IoT Analytics：预计2023全球物联网连接数同比增长16% 达到160亿-全球热议

2023-05-30
港股异动 | 荣昌生物-B(09995)早盘冲高回落跌超4% 一季度净亏损3.24亿元人民币

2023-05-30
昆明动物园开放时间及门票_昆明动物园

2023-05-30
头条：稚晖君刚拿了百度投资，估值被曝已超独角兽

2023-05-30
【商界头条】监管放缓主动权益基金审批；山姆APP下架价格争议蛋糕；安徽芜湖公积金最高可贷70万元_微资讯

2023-05-30
世界速读：河钢全球首例120万吨氢冶金示范工程实现绿色DRI产品安全顺利连续生产

2023-05-30
腾讯会议「上新」，为了2亿听障朋友

2023-05-30
5月26日美国国债收益率涨跌互现

2023-05-30
烦躁头颅自言自语的拼音_烦头颅自言之语言外之意的拼音

2023-05-30
创新药板块持续走低贝达药业跌超15%

2023-05-30
靠“山寨机”起家，创始人出局，这家公司却走出大批创业者

2023-05-30
字节再战知乎，头条胜算几成？每日快看

2023-05-30
解析 ChatGPT 背后的工作原理|当前视讯

2023-05-30
当前要闻：毛豆怎么变成圆的黄豆（黄豆与毛豆是不是一种植物）

2023-05-30
GPT现状终于有人讲清楚了！OpenAI大牛最新演讲爆火，还得是马斯克钦点的天才环球讯息

2023-05-30
天涯，假装还活着

2023-05-30
报道：公告速递：调整工银尊享短债债券基金大额申购、转换转入、定期定额投资业务限制金额

2023-05-30
“搭子”社交流行，越来越多的年轻人开始在觅伊找搭子焦点观察

2023-05-30
世界今日报丨降价不是衡量车险改革唯一标准

2023-05-30
塞尔达传说王国之泪潜行草获取攻略

2023-05-30
环球热讯:取TikTok之精华，Instagram创始人们的新赌注

2023-05-30
环球热资讯！魏家凉皮等商家苦美团久矣，抖音、快手杀入欲当救世主？

2023-05-30
小米，越过山丘

2023-05-30
融资丨「银基科技」完成2亿元B+轮融资当前动态

2023-05-30
天天看热讯：融资丨云潼科技完成数亿元A轮融资

2023-05-30
关于我对加密项目的理解

2023-05-30
世界快资讯丨油价年内第四涨要来，加满一箱或多花3.5元

2023-05-30
独家资金：早盘主力买入前10股

2023-05-30
全球首艘5G大型邮轮即将交付运营

2023-05-30
队记：纳斯在主帅面试过程中会见了恩比德一切都很顺利

2023-05-30
世界观天下！淄博烧烤大降温？当地人直言：真别来了，扰民！

2023-05-30
Meta头显设备首次亮相，或成苹果最大竞争对手

2023-05-30
减脂、增肌与AIGC，小米的高端化答卷|热点评

2023-05-30
24年老网站直播“续命”，8小时卖了4万块

2023-05-30
桃花茶喝了会拉肚子吗桃花茶喝多了的危害_世界快讯

2023-05-30
即时焦点：李佳琦“接班人”7天速成记

2023-05-30
焦点信息:www.health-100.cn报告查询（www health_100 cn）

2023-05-30
环球精选！NVIDIA 发布面向各行各业的生成式 AI 平台

2023-05-30
天天报道:“重启天涯”，难！难！难！

2023-05-30
消息称三星已经启动XR芯片开发计划；苹果远程会议系统可通过XR头显参与线上会议今日播报

2023-05-30
【民生计算机】算力业绩落地宣告AI行情新阶段-微动态

2023-05-30
全球快看：互联网「35岁陷阱」：欲望、人性与灰色空间

2023-05-30
南宁评出2022年度应届高校毕业生第二批优质创业项目涵盖IT新媒体等行业

2023-05-30
根据近期阴雨天气情况，市委农办提出—— 全力以赴“龙口夺粮” 确保小麦颗粒归仓_新视野

2023-05-30
聚焦：中国计划在2030年前实现首次登陆月球

2023-05-30
桂海潮从约2500名候选中脱颖而出戴眼镜的大学生教授出征太空(今日/头条) 当前资讯

2023-05-30
世界速讯：世界女排联赛今日开打中国女排期待开门红

2023-05-30
世界球精选！山姆回应同款蛋糕杭州卖165上海卖95；iPhone16Pro史上最大屏幕6.9英寸；比亚迪再回应争议：常压油箱排放达标丨邦早报

2023-05-30
每日看点！我们结婚了2005年全集（我们结婚了彩虹夫妇）

2023-05-30
【三染】惊鸿人间（1）温柔强大三&单纯可爱染甜宠|焦点播报

2023-05-30
环球快看：在港股探底中哪些个股处在价值洼地？（附筛选名单）

2023-05-30
suggestion的动词_suggestion是什么意思

2023-05-30
雷军应果断停止造车

2023-05-30
天天信息:1995年五行属什么属性（1995年五行属什么）

2023-05-30