世界今日讯！大佬在线复盘：我在训练DALL·E时犯过的错_中国智能在线

大数据文摘授权转载自夕小瑶的卖萌屋

作者：jxyxiangyu

(资料图片仅供参考)

在写了一周的业务代码后，沏一杯绿茶，总算可以有时间看看鸽了一个月的素材了。

好的，小伙伴们，废话不多说，今天我们将跟随 Boris Dayma 大佬，看看他在训练 DALLE-Mega 时遇到的一系列问题。

据这位老哥说，为了训练这个 3B 大小的模型，使用了一个 TPU v3 pod-256（=256 块 TPU v3）。

▲dalle-mega-模型大小

在写惯了业务代码，用多了 0.1B 的 bert-base 的我们，今天也来瞧瞧这些神仙大模型的训练方式。

DALL·E

DALL·E 是 OpenAi 去年推出的图像生成模型，它可以根据一句文本（caption）生成现实世界中不存在的图像。

比如牛油果形状的扶手椅、穿着芭蕾舞短裙遛狗的萝卜等。

▲DALLE结果展示

▲DALLE模型结构图

如上图所示，DALL·E 的训练过程可以分为两步：

为减小高分辨率图片（256X256）的计算量，将图片经过一个自编码模型 dVAE ，压缩得到（32X32）的图片，我们取 dVAE 的 encoder 的输出隐向量（32X32X8192）作为压缩的图片 token；

将文本经过编码器编码后的文本 token 和图片 token 拼接，送入 transformer 进行自回归训练。

这里需要独自训练两个模型 dVAE 和 transformer 。

在推理阶段，需要向 transformer 输入一段文本 caption ，模型以滑动窗口的方式依次预测出下一个图片 token ，这里得到的图片 token 用 dVAE 的 decoder 解码回高分辨率的图片，最后用 CLIP 对得到的图片打分重排序。

更详细的过程解读可以参考《DALL·E—从文本到图像，超现实主义的图像生成器》[1]、《如何评价DALL-E模型的实现？》[2]

DALL·E Mega 的训练之路

DALL·E Mega 是 Hugging Face 和谷歌云团队基于自己的理解实现的 DALL·E mini 的 Mega 版本，这一次，我们将跟随 Boris Dayma 的脚步，了解他在训练大模型时背后的故事。

和 DALL·E mini 相比，作者做了很多优化，使得 DALL·E Mega 在训练初期能够顺利一些，验证集的 loss 下降速度很快。

当然，随着进一步的训练，验证集的 loss 会逐渐增大，这就意味着需要减小学习率了。如下图所示，可以看到作者还应用了 warm up。

由于效果不佳，作者接着尝试了增大梯度累积以及 dropout ，不过验证集的 loss 依旧没有减小。

不过，令人感到意外的是，即便验证集的 loss 在增加，但预测结果却在不断变好？！对此，作者开始怀疑训练集和验证集的数据分布不一致。

随后，作者决定从训练集中切分出一个子集作为验证集，而对于原本的验证集，作者将其作为训练数据一起用于模型的训练。

不过 loss 依旧在增加，后来，采用全精度训练以及更新动量后，loss终于开始下降了！！

虽然，验证集的 loss 在不断下降，但不知道小伙伴们有没有注意到，所有的图片都是唯一的，只有在原本的训练集中存在相同的图片（但caption不同），而在作者将训练集的子集作为新的验证集后，训练结果变好会不会是因为训练时，模型只记住了图片？

不过，这些都是后话了，训练已经接近尾声，重新训练太费时间精力（还有钱）了。Boris 小哥就没再仔细深挖这个问题了（好真实...）。

现在模型已经上线到 Hugging Face 上，小伙伴们可以下载使用，对详细的训练过程感兴趣的也可以访问官网的训练日志：

https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2

总结

时隔一年， Boris Dayma 在原作的基础上，又推出了 DALL·E mini 的 Mega 版本，这一次， Boris Dayma 为我们复盘了他在训练 DALL·E mini Mega 时的心路历程以及一些失误。

诚然，我们中的大部分人都不会有机会训练如此庞大的模型，但能够跟随大神一起了解训练过程中遇到的问题以及解决方法，又何尝不是一种进步和学习呢？

推荐内容

世界今日讯！大佬在线复盘：我在训练DALL·E时犯过的错

2022-07-26
【新要闻】商汤的另一面

2022-07-26
今日聚焦!独家：比特币耶稣 Roger 被清算与交易所 CoinFLEX 停止提币内幕

2022-07-26
【全球新视野】VR游戏 | 摄影测量竟还可以这么玩？

2022-07-26
全球观焦点：什么是 Web 3.0?

2022-07-26
环球微速讯：作为元宇宙与现实世界的桥梁，这一次，虚拟人将重破“天花板”

2022-07-26
【新要闻】飞信没有败给微信，而是败给了时代

2022-07-26
环球最新：新品发布 | 创维VR新品发布，PANCAKE 1 VR一体机2999元起售

2022-07-26
当前热议!量子计算公司IQM获得World Fund领头的1.28亿欧元融资，以应对气候危机

2022-07-26
【新要闻】上海电信启动智云网络+云宽带创新实践打造国际数字之都新底座

2022-07-25
焦点速讯：撤销“幻核”，腾讯数藏“只有艺术没有收入”？

2022-07-25
全球即时：APP开屏弹窗广告，到底什么时候是个头？

2022-07-25
全球速看：数字孪生，能给无线通信带来什么？

2022-07-25
当前快报:网易游戏北分负责人回应解散；米哈游出资1亿设XR基金｜产业周报

2022-07-25
天天实时：这一次，飞信会真的「死」吗？

2022-07-25
全球今日讯！LeCun领导下的Meta AI，押注自监督

2022-07-25
快报：2022全球数字经济大会互联网3.0峰会将在北京举办

2022-07-25
世界今头条！明星在微博批量生产「工作周报」

2022-07-25
世界热议:新科技新基建人工智能：开启无限可能

2022-07-25
世界快资讯：靠AI技术诈骗2亿的大案！Deepfake让明星大V都防不胜防

2022-07-25
热点在线丨VC不爱SaaS了？走好

2022-07-25
【天天播资讯】钉钉7年，进步与普惠同在

2022-07-25
当前焦点!兴趣驱动的社交元宇宙Soul，天花板在哪？

2022-07-25
热头条丨泰伯网“2022最具创新力企业”TOP50榜单重磅发布

2022-07-22
即时焦点：欠债68亿的贾跃亭，是不是个好老板？

2022-07-22
世界即时：这款横空出世的产品，三年来究竟给SaaS产业带来了多大改变？

2022-07-22
天天即时看！PFP会是数字藏品的未来吗？

2022-07-22
天天动态:滴滴公司被罚80.26亿元！16项违法事实曝光

2022-07-22
【世界热闻】九乐政研｜《关于开展网络安全服务认证工作的实施意见（征求意见稿）》公布

2022-07-22
当前视点！演化中的web3游戏

2022-07-22
我国科学家周文彬团队在水稻中研究发现了水稻高产基因

2022-07-22
全球最资讯丨三大运营商出席党二十大代表名单公布！

2022-07-22
世界观点：上海报业集团王子靖：SUMG在5G+媒体融合的应用案例

2022-07-22
精彩看点：重磅推荐 | 由实入虚去物质化！如何挖掘数字经济的商业空间？

2022-07-22
今日观点!苹果多项AR新专利曝光；迪拜启动大规模元宇宙战略

2022-07-22
天天观热点：一文弄懂什么是vlan、三层交换机、网关、DNS、子网掩码、MAC地址

2022-07-22
世界快消息！阿里巴巴设立新的一级业务智能互联，探索更多消费者人工智能形态

2022-07-22
资讯推荐:百度之意，不在“虚拟人”

2022-07-22
观热点：新疆自治区博物馆数字藏品全网重磅首发

2022-07-21
天天亮点！市场传字节跳动估值跳水超1600亿美元，下跌超25%

2022-07-21
全球热文：不怕二手手机号了？工信部一证通查2.0上线：支持8大平台

2022-07-21
天天滚动:还有这操作？某公司下班要检查员工手机使用时长：用久了会丢饭碗

2022-07-21
【天天热闻】Forrester咨询联合京东云发布报告：混合多云成为新常态

2022-07-21
天天消息！万亿市值公链竞争白热化，新公链还有机会吗？

2022-07-21
世界视点！Blofin: 如何从宏观理解近期以太坊的暴涨后市如何

2022-07-21
新动态：去中心化浪潮下，Web3成产业互联网新起点

2022-07-21
世界新资讯：Soul式焦虑：囿于变现怪圈

2022-07-21
比亚迪进军日本市场推出三款纯电车预售订单已成爆款

2022-07-21
世界播报:数字经济如何改变三大运营商？

2022-07-21
世界动态:运营商AI机遇：以大模型拓展全新赛道

2022-07-21

【新要闻】商汤的另一面

2022-07-26
【全球新视野】VR游戏 | 摄影测量竟还可以这么玩？

2022-07-26
世界今日讯！大佬在线复盘：我在训练DALL·E时犯过的错

2022-07-26
今日聚焦!独家：比特币耶稣 Roger 被清算与交易所 CoinFLEX 停止提币内幕

2022-07-26
每日热闻!外卖、预制菜、鲜饺风口下，速冻水饺还有未来吗？

2022-07-26
每日热门：融资丨「OXYZ3」完成天使轮融资，次世文化独家投资

2022-07-26
【世界聚看点】融资丨「比星咖啡」完成数千万元天使轮融资，顺为资本独家投资

2022-07-26
环球热文：融资丨「菲力克斯」完成亿元A轮融资，专注于电子设备研发

2022-07-26
环球今日报丨海外创投丨「Oncoustics」获530万美元种子轮融资，专注于肝脏病治疗

2022-07-26
环球最新：新品发布 | 创维VR新品发布，PANCAKE 1 VR一体机2999元起售

2022-07-26
当前热议!量子计算公司IQM获得World Fund领头的1.28亿欧元融资，以应对气候危机

2022-07-26
环球微速讯：作为元宇宙与现实世界的桥梁，这一次，虚拟人将重破“天花板”

2022-07-26
【新要闻】飞信没有败给微信，而是败给了时代

2022-07-26
全球观焦点：什么是 Web 3.0?

2022-07-26
当前讯息：重押海外：阿里、京东、顺丰再拼“内力”

2022-07-26
动态焦点:融资丨「丹擎医药」完成数千万元天使轮融资，幂方健康基金独家投资

2022-07-26
环球新动态：曾经无敌的飞信，在今天正式入土

2022-07-26
每日速递：罗永浩，50岁，不知天命

2022-07-26
全球热讯:中国最高端商场里，都是什么样的餐饮店？

2022-07-26
焦点速递！上一次听到易趣，还是上一次

2022-07-25
重点聚焦!飞信没有败给微信，而是败给了时代

2022-07-25
焦点讯息：储能狂热

2022-07-25
天天最资讯丨李彦宏称4年内一线城市不再需要限行；大众汽车集团CEO迪斯将离职；福特计划裁员8000人；Jeep品牌停止国产丨每周撩车

2022-07-25
【环球速看料】海外创投丨「Meati」获1.5亿美元C轮融资，Revolution Growth领投

2022-07-25
天天观察：元气森林卖“可乐”，有戏吗？

2022-07-25
焦点短讯！万亿机器人赛道如何起飞？这家“广义机器人”公司或许能够给出答案

2022-07-25
每日视讯：撤销“幻核”，腾讯数藏“只有艺术没有收入”？

2022-07-25
焦点速讯：融资丨「恒驭生物」完成A+轮融资，国方资本领投

2022-07-25
【新要闻】上海电信启动智云网络+云宽带创新实践打造国际数字之都新底座

2022-07-25
焦点速讯：撤销“幻核”，腾讯数藏“只有艺术没有收入”？

2022-07-25
焦点热文：海外创投丨「Cartona」获1200万美元A轮融资，Jordan、Silicon Badia领投

2022-07-25
全球速看：数字孪生，能给无线通信带来什么？

2022-07-25
全球今日讯！LeCun领导下的Meta AI，押注自监督

2022-07-25
当前快报:网易游戏北分负责人回应解散；米哈游出资1亿设XR基金｜产业周报

2022-07-25
全球即时：APP开屏弹窗广告，到底什么时候是个头？

2022-07-25
天天实时：这一次，飞信会真的「死」吗？

2022-07-25
【新要闻】融资丨「杰成新能源」获过亿元A轮融资，中银粤财领投

2022-07-25
热门：融资丨「橙幸科技」完成千万级Pre-A轮融资，王鼎创投投资

2022-07-25
全球新资讯：融资丨「马上赢」再获数千万元融资，山东省商业集团旗下鲁商基金投资

2022-07-25
买了视频网站VIP会员，却无法在手机投屏使用合理吗？

2022-07-25
坐网约车开空调，司机和乘客谁说了算？律师：平台规则不能一劳永逸

2022-07-25
世界视点！融资丨「抢镜职场」获得数千万天使轮融资，经纬创投以及创始团队注资

2022-07-25
全球观察：融资丨「倍生生物」半年内连续完成两轮融资，专注于合成生物学研究

2022-07-25
热点在线丨VC不爱SaaS了？走好

2022-07-25
世界快资讯：靠AI技术诈骗2亿的大案！Deepfake让明星大V都防不胜防

2022-07-25
世界今头条！明星在微博批量生产「工作周报」

2022-07-25
快报：2022全球数字经济大会互联网3.0峰会将在北京举办

2022-07-25
世界热议:新科技新基建人工智能：开启无限可能

2022-07-25
环球简讯:承认吧，食品品牌的营销套路失效了，那什么才是年轻人的小宝贝？

2022-07-25
【天天播资讯】钉钉7年，进步与普惠同在

2022-07-25
当前焦点!兴趣驱动的社交元宇宙Soul，天花板在哪？

2022-07-25
全球热点评！看了Soul的数据，我发现陌生人社交的赛道塌了

2022-07-25
每日热门：破圈经济学：小红书迎“男”而上

2022-07-25
天天观察：00后为什么也爱周杰伦？

2022-07-25
世界快看：杀不死抖音的，必使爱奇艺强大？

2022-07-25
天天头条：大众CEO迪斯意外离职：长年激烈博弈中被赶下台

2022-07-24
焦点滚动:速成的运营师成不了高薪敲门砖

2022-07-24
环球精选！Web3.0会怎样改写营销与商业？

2022-07-24
焦点热文：苹果供应链十年浮沉：洋班主任和它的中国学生们

2022-07-24
今日精选：戴草帽的特斯拉车主带火一个品类！不少商家单品月销超10万件

2022-07-24
世界观速讯丨一百个用户眼中，就有一百个QQ

2022-07-24
世界热门:Q2中国一级市场融资事件同比减少57.54%；医疗行业热度不减；红杉中国出手次数占据榜首丨睿兽投融资季报

2022-07-24
最资讯丨没人也没技术，“中国乐高”要砸52亿做光伏电池

2022-07-24
热资讯！亚马逊计划收购初级保健技术提供商One Medical

2022-07-24
观点：超级独角兽SHEIN的ESG隐忧

2022-07-24
全球短讯！投屏收费背后：爱奇艺季度盈利，优酷急了？

2022-07-24
速讯：如何靠常识，让一家蛋糕企业两年做到月销3000万？

2022-07-23
【当前独家】世纪佳缘失联高管被拘留；元气森林将推出无糖可乐；茅台冰淇淋代购十几天赚10万丨消费周报

2022-07-23
速递！电动车席卷全球，沙特转型，盯上007座驾

2022-07-23
焦点速看：林志颖都撞了，特斯拉还敢开吗？

2022-07-23
全球今亮点！“老司机”帮小米造车

2022-07-23
世界快看点丨抖音爱奇艺牵手成功，西瓜怎么办？

2022-07-23
天天快看点丨爆红一年后，鸿星尔克直播间怎么样了？

2022-07-22
快资讯丨融资丨「瞰瞰智能」完成近亿元A1轮融资，致力于智能影像研究

2022-07-22
环球热头条丨林志颖父子驾特斯拉撞车起火；东方甄选拉黑趣店罗敏；中青宝被爆踩版号出售红线，回应：消息不实｜文娱周报

2022-07-22
热头条丨泰伯网“2022最具创新力企业”TOP50榜单重磅发布

2022-07-22
即时焦点：欠债68亿的贾跃亭，是不是个好老板？

2022-07-22
当前视点！演化中的web3游戏

2022-07-22
天天动态:滴滴公司被罚80.26亿元！16项违法事实曝光

2022-07-22
天天即时看！PFP会是数字藏品的未来吗？

2022-07-22
世界即时：这款横空出世的产品，三年来究竟给SaaS产业带来了多大改变？

2022-07-22
【世界热闻】九乐政研｜《关于开展网络安全服务认证工作的实施意见（征求意见稿）》公布

2022-07-22
最新资讯：融资丨「祁铭供应链」完成Pre-A轮数千万元融资，熊猫资本独家投资

2022-07-22
全球短讯！海外创投丨「Auron Therapeutics」获4800万美元A轮融资，DCVC Bio领投

2022-07-22
天天观天下！羽生结弦退役，年入千万美元“钞能力” 是否会封印

2022-07-22
今日热议：世纪佳缘“大地震”

2022-07-22
郭光灿院士团队提出了利用极弱的光学非线性实现光子阻塞的新原理和新方案

2022-07-22
全球今热点：中国内地门店即将停业，Lady M为何“落荒而逃”？

2022-07-22
我国科学家周文彬团队在水稻中研究发现了水稻高产基因

2022-07-22
精彩看点：重磅推荐 | 由实入虚去物质化！如何挖掘数字经济的商业空间？

2022-07-22
天天观热点：一文弄懂什么是vlan、三层交换机、网关、DNS、子网掩码、MAC地址

2022-07-22
世界观点：上海报业集团王子靖：SUMG在5G+媒体融合的应用案例

2022-07-22
全球最资讯丨三大运营商出席党二十大代表名单公布！

2022-07-22
今日观点!苹果多项AR新专利曝光；迪拜启动大规模元宇宙战略

2022-07-22
世界新消息丨融资丨「节卡机器人」完成约10亿元D轮融资，加速协作机器人产品研发

2022-07-22
世界快消息！阿里巴巴设立新的一级业务智能互联，探索更多消费者人工智能形态

2022-07-22
资讯推荐:百度之意，不在“虚拟人”

2022-07-22
全球热议:以色列妈妈从母乳中获取灵感，回收废弃牛初乳做成营养品

2022-07-22
环球新资讯：分子咖啡叫板星巴克：没有咖啡豆的咖啡，能算咖啡吗？

2022-07-22
世界即时看！首发丨「灵西机器人」获数亿元B+轮融资，熙诚金睿领投

2022-07-22