速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察_中国智能在线

来源：新智元

手机生图只要12秒？

这不是吹的，谷歌就给实现了。

(资料图片仅供参考)

最新研究中，谷歌研究人员对4个GPU分层优化，在三星手机上成功运行Stable Diffusion 1.4。

实现了11.5秒生成图像，重要的是，内存使用量也大幅减少。

正所谓，Speed Is All You Need！

论文地址：https://arxiv.org/abs/2304.11267

谷歌最新提出的方法是通用的，可以对所有扩散模型的改进，并非仅针对特定设备实现的。

通过实验结果发现，三星S23 Ultra和iPhone 14 Pro的整体图像生成时间分别减少了52%和33%。

这意味着，一部手机装下一个生成式AI模型的未来更近了。

从3080到一部手机

当前，将大型扩散模型合并到任何APP中的一个关键考虑因素是，模型将在何处执行选择。

在一个消费级设备上部署模型的好处是，较低的服务成本、改善扩展性、还可以离线，并且能改善用户隐私。

22年，Stable Diffusion刚刚发布的第一个版本，最初只能缓慢运行在RTX 3080上。

Stable Diffusion有超过10亿的参数，DALL-E是120亿，以后随着扩散模型的发展，参数量会逐渐增加。

由于设备计算和内存资源的限制，因此在运行时带来了诸多挑战。

在没有精心设计情况下，在设备上运行这些模型可能会导致，由于迭代去噪过程和过多的内存消耗，输出内容延迟就会增加。

此前，也有研究实现了将Stable Diffusion成功部署到设备上，但仅局限于特定的设备或芯片组。

对此，谷歌研究人员对大型扩散模型提供了一系列实现优化，这些模型在配备 GPU 的移动设备上实现了迄今为止报道的最快推理延迟。

在不使用INT8量化的情况下，对于一张512x512的图片进行20次迭代，Stable Diffusion 1.4的推理延迟低于12秒。

具体是如何实现的呢？

GPU感知优化

在论文中，研究人员侧重的是使用大型扩散模型，然后完成从文本描述生成图像的任务。

虽说论文中，部分讨论是研究者为Stable Diffusion特定结构所提出的优化建议，但这些优化可以很容易推广到其它大型扩散模型上。

研究人员表示，当用文本提示进行推理时，这个过程包含根据所需的文本描述，应用额外条件来指导反向扩散。

具体来说，Stable Diffusion的主要组成部分包括：文本嵌入器（Text Embedder）、噪声生成（Noise Generation）、去噪神经网络（Denoising Neural Network，aka UNet），以及图像解码器（Image Decoder）。

如下图所示：

Stable Diffusion中主要组件及其相互作用的示意图

下面，我们分别介绍一下这几个组成部分，各部分间的关系参照图。

· 文本嵌入器：

利用CLIP模型对文本提示y进行编码，生成一个高维嵌入向量τθ(y)，将文本提示的语义封装进去。该嵌入被当作去噪神经网络的输入，为逆向扩散的过程提供指示。

· 噪声生成：

给潜在空间提供随机噪声z，该噪声作为逆向扩散过程的起始点。

· 去噪神经网络：

该网络被设计为近似p(z|y)形式的条件分布，利用条件去噪自动编码器θ(zt, t, τθ(y))（denoising autoencoder）。每次迭代t采用UNet架构。

同时，交叉注意机制（cross-attention mechanism）被用来操作潜在空间和文本嵌入向量，在迭代过程中预测z的去噪版本。

· 图像解码器：

逆行扩散过程在潜在空间中进行。一旦这个过程完成，图像解码器D被用来从潜在矢量中重建RGB图像。

研究人员在整个UNet架构中实现了群组归一化（Group normalization，GN）。

这种归一化技术的工作原理是将特征图（feature map）的pipeline划分为较小的组，并对每个组进行独立的归一化，使GN对批次大小的依赖性降低，更适合于各种大小的批次和各种网络结构。

应用公式①，每个特征值被归一化为其所属组的组均值和方差。

（公式①）

研究人员并没有依次执行上述提到的重塑、平均值、方差和归一化的所有操作，而是以GPU Shader的形式设计了一个特别的程序，在一个GPU命令中执行所有这些操作，无需中间流程。

这里先介绍一下Gaussian Error Linear Unit（GELU）。

GELU作为模型中普遍存在的激活函数，包含许多数值计算，如乘法、加法和高斯误差函数，如公式②所示。

研究人员弄了一个专门的Shader来整合这些数值计算及其伴随的分割和乘法操作，使其在一次绘图调用中完成执行。

（公式②）

稳定扩散中的文本/图像变换器有助于对条件分布P(z|τθ(y))进行建模，这对文本到图像的生成任务至关重要。

然而，自我/交叉注意力机制在处理长序列时遇到了困难，因为它们的时间和内存复杂性是平过方的。在论文中，研究人员介绍了两种可能的优化，旨在缓解这些计算瓶颈。

一种是Partially Fused Softmax，另一种是FlashAttention。

下面仅以Softmax为例。

上图是在注意力模块中，优化过的softmax实现。

虚线以上的流程图描述的是直接在矩阵中应用softmax的初始实现。

虚线以下的展示的则是修正后的模块（红色部分）。

总而言之，论文中研究人员提出了一整套优化方案，可以在各种设备上执行大型扩散模型时，共同达到了突破性的延迟数字。

这些改进扩大了模型的通用性，并提高了在各种设备上的整体用户体验。

12秒，业界领先

为了评估改进后的模型，研究人员分别在三星S23 Ultra (Adreno 740) 和iPhone 14 Pro Max (A16) 进行了一组基准测试。

作为去噪神经网络，UNet是计算需求最高的组件。

研究人员提供了执行单次迭代的UNet所需的延迟数据，以毫秒为单位测量，图像分辨率为512x512。

此外，他们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况，以及为保存模型权重分配的内存在「Weight」列中的使用情况，均以兆字节为单位。

请注意，内存管理器通过重用中间张量的缓冲区来优化内存占用。

如表中数据显示，第一行显示了在公共Github仓库中使用内部OpenCL内核实现，但没有任何优化的结果。

实现之后的结果，并且研究者在没有任何优化的情况下使用内部OpenCL内核。

第2-5行，分别逐个启用每个优化：

Opt. Softmax：部分融合的softmax和优化的softmax减少步骤

S-GN/GELU：用于组归一化和GELU的专用内核

FlashAttn.：FlashAttention实现

Winograd(All)：采用Winograd卷积

随着每个优化的启用，实验结果发现延迟逐步减少。

与基线相比，在两种设备上都观察到了显著的总体延迟降低：三星S23 Ultra 降低52.2%，iPhone 14 Pro Max降低32.9%。

此外，研究人员还评估了在三星S23 Ultra进行文本到图像输出端到端延迟。

进行了20次去噪迭代，生成一张512x512图像，实现了不到12秒的业界领先结果。

可见，在没有数据连接或云服务器的情况下，在手机上本地运行生成式人工智能模型，将开辟了许多可能性。

谷歌最新研究给出了一种全新方案。

推荐内容

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

2023-05-04
用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

2023-05-04
深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

2023-05-04
斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

2023-05-04
【机器学习】列举几种常见的机器学习分类模型（附代码）

2023-05-04
环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

2023-05-04
昆仑万维业绩交流会要点摘要

2023-05-04
全球百事通！中科创达董事长赵鸿飞在民生AI峰会上的讲话

2023-05-04
速读：中国是否已经输在了下一轮变革上-ai革命?

2023-04-28
你做好与AI一起相处了吗？

2023-04-28
中国链根服务| 城市产业COM（上）

2023-04-28
天天快讯:文心一言满月就「上班」：企业服务生产力拉满，演示现场人挤人

2023-04-28
阿里云“三板斧”开启新周期

2023-04-28
快报：Meta从微软挖来芯片高管，专注硬件设备开发定制芯片

2023-04-27
微信用户可在数字人民币APP开通微信支付，使用数字人民币交易

2023-04-27
环球快看点丨对标ChatGPT，Hugging Face推出开源聊天机器人HuggingChat

2023-04-27
AI大模型创业的生死5问世界播资讯

2023-04-27
环球今日讯！免费“白嫖” GPT-4 方法 +1，飙升 GitHub 热榜第二！附Github获取地址

2023-04-27
世界快讯:数云原力大会暨2023TECH第五届数字中国技术年会启航

2023-04-26
我国网络通信产业四大集群分布，深京沪领跑

2023-04-26
周鸿祎现场演示360GPT多轮对话能力网评“超出预期”

2023-04-26
《浙江省元宇宙产业发展2023年工作要点》发布

2023-04-26
焦点！【新闻资讯】工信部等八部门发布《实施意见》，助力IPv6技术发展

2023-04-26
天涯社区已无法打开：网友掀悼念潮

2023-04-26
逐浪智能时代，网易数帆“重写”低代码|环球新资讯

2023-04-26
商汤科技：AI“吞金兽”，五年巨亏438亿_焦点热门

2023-04-26
“华为中国合作伙伴大会2023”将于5月8日召开

2023-04-26
每日时讯!美图站上AIGC风口

2023-04-26
真·量子速读：突破GPT-4一次只能理解50页文本限制，新研究扩展到百万token

2023-04-26
每日速讯：讯飞版ChatGPT突然开始内测！我们连夜一手实测

2023-04-26
大模型时代，RPA的冰与火之歌｜产业特稿

2023-04-26
焦点日报：国外人工智能安全相关法律法规情况

2023-04-26
大航海时代来临｜4月，属于香港Web3 每日视讯

2023-04-26
做小红书，写1000篇笔记不如看懂一个趋势

2023-04-26
Yann LeCun：ChatGPT局限巨大，彻底禁止没必要|每日速看

2023-04-26
【AI】一觉睡醒，ChatGPT 竟然被淘汰了？

2023-04-26
面对AI音乐恐慌，人类艺术家们决定反抗

2023-04-26
互联网公司投入大模型的原动力：反哺自己的「根据地」_实时

2023-04-26
铅笔道AIGC大会：颠覆性的机会，蕴藏在这些细分赛道通讯

2023-04-26
中国联通：四轮驱动多管齐下正分阶段实现IPv6规模部署

2023-04-26
AIGC，难救四小龙

2023-04-26
AIGC+游戏系列之一：米哈游完美世界电魂网络等九家公司正在如何用|游戏日报新消息

2023-04-25
最新：AutoGPT、ChatGPT4等22种令你效率倍增的AI生成工具|前沿热点

2023-04-25
世界快消息！ChatGPT带来人才及技能需求的背后，有什么机会？

2023-04-25
天天速看：三大运营商移动电话用户规模稳中有增

2023-04-25
“字节刚从OpenAI挖了个人，年薪140万美元”

2023-04-25
【移动云大会】中国移动公布2023-2025年移动云战略规划

2023-04-25
生意宝孙德良：产业互联网必将改变中国企业的经营方式

2023-04-25
工信部：一季度软件业务收入24415亿元同比增长13.5％-世界短讯

2023-04-25
天天快资讯丨构建人才金字塔，萨摩耶云科技集团加速推进产学研机制

2023-04-25

【机器学习】列举几种常见的机器学习分类模型（附代码）

2023-05-04
斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

2023-05-04
速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

2023-05-04
用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

2023-05-04
深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

2023-05-04
“五一”假期西湖景区共接待游客282.78万人次|全球短讯

2023-05-04
一季度钢铁行业效益逐月回升

2023-05-04
北京至奥克兰直飞航班复飞

2023-05-04
朱永盛：从城市到农村一路绽放“志愿红”

2023-05-04
天天即时：三个理工男登上全球富豪榜，被苹果CEO点赞

2023-05-04
智通港股通资金流向统计(T+2)|5月4日

2023-05-04
环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

2023-05-04
昆仑万维业绩交流会要点摘要

2023-05-04
再一次创造中国男子网球历史张之臻晋级马德里大师赛8强

2023-05-04
全球百事通！中科创达董事长赵鸿飞在民生AI峰会上的讲话

2023-05-04
看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

2023-05-04
幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

2023-05-04
遵义石油易捷商品销售实现一季度开门红-天天热头条

2023-05-04
微视频｜劳动者之光

2023-05-04
湖北棉花发展迎来新机遇今年试点2000亩机采棉-天天短讯

2023-05-04
下2019年高考分数线在2019年高考分数线是多少-天天报资讯

2023-05-04
白发怎么解决最好_白发怎么治愈

2023-05-04
环球快看：霍金斯打出2单杆50+2-1战胜名将里奇-沃顿

2023-05-04
客运市场的激烈竞争迫使捷豹提供更多

2023-05-04
蔡琴经典歌曲你的眼神歌词_蔡琴经典歌曲

2023-05-04
环球速递！漫画《Pomegranate (石榴) 》

2023-05-04
带鱼有什么功效呢_带鱼有什么功效

2023-05-04
kemono插画_kemon

2023-05-04
游客在海南万宁游玩遭人群殴？当地政府：正在调查

2023-05-04
今日聚焦!快乐斗地主

2023-05-03
焦点观察：中学奥数_12999初中数学网

2023-05-03
科贝：门德斯手中还没有对法蒂的报价，法蒂的留队意愿坚定-世界新消息

2023-05-03
手链的编法大全_手链的编法_焦点信息

2023-05-03
在教育过程中受教育者的主体性表现有哪些特点在教育过程中受教育者的主体性表现有哪些

2023-05-03
岁晚三首

2023-05-03
Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

2023-05-03
全球新资讯：六人被刑拘！作案26起盗窃百余万财物，“电缆大盗”在武汉青山落网

2023-05-03
海风教育怎么样有上过的_海风教育怎么样

2023-05-03
将于4月24日开启预订新款吉利ICON主角官图发布

2023-05-03
当前信息：成绩一般读普高和职高哪个好

2023-05-03
新势力无奈破产，富士康喜提造车工厂一座

2023-05-03
【聚看点】疯狂的炸串，还能火多久？

2023-05-03
环球快播：ThinkPHP-路由和控制器(二)

2023-05-03
东亚银行(00023.HK)5月3日耗资178.69万港元回购17.6万股-播资讯

2023-05-03
上百蜘蛛侠大集结，《蜘蛛侠：纵横宇宙》定档5月2日，这波够狠!

2023-05-03
“跟风”开淄博烧烤，赚了还是赔了？

2023-05-03
蔬菜沙拉的做法(切好的芒果、小番茄、洋葱、胡萝卜、火龙果、梨和苹果放在一起) 当前动态

2023-05-03
热点评！空调低压管结霜原因加氟压力不升_空调低压管结霜原因

2023-05-03
马加特：纳帅低估了拜仁帅位他的球队管理做得不够好

2023-05-03
广交会观察：中华文化催生外贸新增长点

2023-05-03
环球新消息丨鸿路钢构(002541)：收入与扣非业绩同步高增费率创同期最低值

2023-05-03
世界消息！三停2周？曝梅西遭重罚，巴黎临时加训他缺席，关系破裂下家3选1

2023-05-03
世界微速讯：每月仅需69元，快来体验“一站式”运动健康服务

2023-05-03
这就是奇迹！程帅澎三分绝杀拯救浙江，沈梓捷受伤深圳形势不妙_环球速读

2023-05-03
两位TVB前花旦开心聚会！素颜亮相被赞状态佳，6个孩子太热闹

2023-05-03
小工业盐概念上市公司有哪些，小工业盐股票名单

2023-05-03
拥有90万跑分，却沦为“廉价机”，256GB+120W快充仅1539元

2023-05-03
每日速看!someone like you歌词_someone like u歌词

2023-05-03
滚动：营业毛利润是什么意思-毛利润是什么意思

2023-05-03
小辽说天气丨假期最后一天晴好为主，但冷空气也即将“返岗”！

2023-05-03
节后两日解禁超1100亿元，昔日疫苗“牛股”独占近700亿，5家解禁占比超4成_每日速看

2023-05-03
焦点快看：铃声多多怎么查看守护？铃声多多查看守护教程

2023-05-03
特斯拉Model 3、Model Y涨价；IBM计划用 AI 取代 7800 个岗位；科学家开发AI系统将意念转成文字丨邦早报

2023-05-03
晴天周杰伦歌词花海周杰伦歌词

2023-05-03
王传福的40条思考：一切“技术壁垒”都是纸老虎

2023-05-03
武则天墓为什么不挖了_武则天墓为什么不挖当前时讯

2023-05-03
快讯：五一办婚礼有多贵？

2023-05-03
足球言论丨阿尔特塔评价基维奥尔：“他看起来准备好...|播报

2023-05-03
当前信息：“五一”我在岗 | 常州：“默默坚守”展现一线劳动者平凡之美

2023-05-03
助力“五一”旅游中老铁路国际列车成假日出行新选择-焦点消息

2023-05-03
中央气象台5月3日06时继续发布暴雨蓝色预警

2023-05-03
马桶被卫生纸堵了如何自己快速疏通_马桶堵了如何自己快速疏通

2023-05-03
中小板钛矿公司排名(2023上市公司市值榜)

2023-05-03
治未病科普大赛作品治未病科-天天滚动

2023-05-03
矿业学院要闻速递

2023-05-03
地心说的代表人物是古希腊天文学家_地心说的代表人物世界微速讯

2023-05-02
当前视讯！ie浏览器打不开网页的解决方法_ie浏览器打不开

2023-05-02
寻找春天的脚步！这场公益活动传承中国传统文化热议

2023-05-02
亚欧多国“五一”不安宁工人抗议生活成本高企

2023-05-02
欧佩克4月石油日产量较3月减少19万桶至2862万桶-环球精选

2023-05-02
世界关注：“五一”假期美丽乡村“流量”足引客来

2023-05-02
vc水怎么用效果最好_vc水-当前通讯

2023-05-02
温情“五一”：嘿，这些故事有点“暖”！

2023-05-02
测斜管布置安装要求_什么是测斜管主要什么作用

2023-05-02
陆奇的大模型世界观

2023-05-02
简讯：最聪明的大脑、最火爆的话题——清华大学张亚勤和朱民畅谈ChatGPT

2023-05-02
陇西县举办庆“五一”职工象棋比赛

2023-05-02
世界观天下！激光打标_关于激光打标介绍

2023-05-02
索尼《GT赛车》游戏改编真人电影《头号赛车手》公布先导预告

2023-05-02
世界即时看！这条万亿赛道，为何出不了另一个“美团”？

2023-05-02
安装监控摄像头的步骤（监控摄像头安装八大步骤）环球报道

2023-05-02
中国联通市场宣传：举办工业互联网生态大会、2000M宽带发布会

2023-05-02
维珍航空恢复中国内地首条航线

2023-05-02
世界热头条丨亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

2023-05-02
新造车4月销量：蔚来下滑、小鹏挣扎、二梯队猛追

2023-05-02
疯狂五一：我在“人从众”中帮游客拍照，日入过万_焦点热门

2023-05-02
前列腺炎引发的早泄是怎么回事珠海男科医院排名

2023-05-02
AMD catalyst 12 4 是什么催化剂有什么作用电脑提示了需要更新_全球动态

2023-05-02
检查组进包间亮证，正在划拳的几个干部愣住了…_环球关注

2023-05-02
为什么打印机可以打印图片不可以打印文档_打印机能打印图片不能打印文档

2023-05-02