Stability AI连扔两个王炸！首个开源RLHF模型登基，DeepFloyd IF像素级出图|世界微速讯_中国智能在线

开源先锋StabilityAI一天扔了两枚重磅炸弹：发布史上首个开源RLHF大语言模型，以及像素级图像模型DeepFloyd IF。开源社区狂喜！

【资料图】

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：Aeneas 好困，创业邦经授权转载

最近，大名鼎鼎的Stable Diffusion背后的公司，一连整了两个大活。

首先，Stability AI重磅发布了世上首个基于RLHF的开源LLM聊天机器人——StableVicuna。

StableVicuna基于Vicuna-13B模型实现，是第一个使用人类反馈训练的大规模开源聊天机器人。

有网友经过实测后表示，StableVicuna就是目前当之无愧的13B LLM之王！

对此，1x exited创始人表示，这可以看作是自ChatGPT推出以来的第二个里程碑。

另外，Stability AI 发布了开源模型DeepFloyd IF，这个文本到图像的级联像素扩散模型功能超强，可以巧妙地把文本集成到图像中。

这个模型的革命性意义在于，它一连解决了文生图领域的两大难题：正确生成文字，正确理解空间关系！

秉持着开源的一贯传统，DeepFloyd IF在以后会完全开源。

Stailibity AI，果然是开源界当之无愧的扛把子。

StableVicuna

世上首个开源RLHF LLM聊天机器人StableVicuna，由Stability AI震撼发布！

一位Youtube主播对Stable Vicuna进行了实测，Stable Vicuna在每一次测试中，都击败了前任王者Vicuna。

所以这位Youtuber激动地喊出：Stable Vicuna就是目前最强大的 13B LLM模型，是当之无愧的LLM模型之王！

StableVicuna基于小羊驼Vicuna-13B模型实现，是Vicuna-13B的进一步指令微调和RLHF训练的版本。

而Vicuna-13B是LLaMA-13B的一个指令微调模型。

从以下基准测试可以看出，StableVicuna与类似规模的开源聊天机器人在整体性能上的比较。

StableVicuna可以做基础数学题。

可以写代码。

还能为你讲解语法知识。

开源聊天机器人平替狂潮

Stability AI想做这样一个开源的聊天机器人，当然也是受了此前LLaMa权重泄露引爆的ChatGPT平替狂潮的影响。

从去年春天Character.ai的聊天机器人，到后来的ChatGPT和Bard，都引发了大家对开源平替的强烈兴趣。

这些聊天模型的成功，基本都归功于这两种训练范式：指令微调和人类反馈强化学习 (RLHF)。

这期间，开发者一直在努力构建开源框架帮助训练这些模型，比如trlX、trl、DeepSpeed Chat和ColossalAI等，然而，却并没有一个开源模型，能够同时应用指令微调和RLHF。

大多数模型都是在没有RLHF的情况下进行指令微调的，因为这个过程十分复杂。

最近，Open Assistant、Anthropic 和 Stanford都开始向公众提供RLHF数据集。

Stability AI把这些数据集与trlX提供的RLHF相结合，就得到了史上第一个大规模指令微调和RLHF模型——StableVicuna。

训练过程

为了实现StableVicuna的强大性能，研究者利用Vicuna作为基础模型，并遵循了一种典型的三级RLHF管线。

Vicuna在130亿参数LLaMA模型的基础上，使用Alpaca进行调整后得到的。

他们混合了三个数据集，训练出具有监督微调 (SFT) 的Vicuna基础模型：

OpenAssistant Conversations Dataset (OASST1)，一个人工生成的、人工注释的助理式对话语料库，包含 161,443条消息，分布在66,497个对话树中，使用35种不同的语言；

GPT4 All Prompt Generations，由 GPT-3.5 Turbo 生成的 437,605 个提示和响应的数据集；

Alpaca，这是由OpenAI的text-davinci-003引擎生成，包含52,000条指令和演示的数据集。

研究者使用trlx，训练了一个奖励模型。在以下这些RLHF偏好数据集上，研究者得到了SFT模型，这是奖励模型的基础。

OpenAssistant Conversations Dataset (OASST1)，包含7213个偏好样本；

Anthropic HH-RLHF，一个关于AI助手有用性和无害性的偏好数据集，包含160,800个人类标签；

斯坦福人类偏好 (SHP)，这是一个数据集，包含348,718个人类对各种不同回答的集体偏好，包括18个从烹饪到哲学的不同学科领域。

最后，研究者使用了trlX，进行近端策略优化 (Proximal Policy Optimization, PPO) 强化学习，对SFT模型进行了RLHF训练，然后，StableVicuna就诞生了！

据Stability AI称，会进一步开发StableVicuna，并且会很快在Discord上推出。

另外，Stability AI还计划给StableVicuna一个聊天界面，目前正在开发中。

相关演示已经可以在HuggingFace上查看了，开发者也可以在Hugging Face上下载模型的权重，作为原始LLaMA模型的增量。

但如果想使用StableVicuna，还需要获得原始LLaMA模型的访问权限。

获得权重增量和 LLaMA 权重后，使用GitHub存储库中提供的脚本将它们组合起来，就能得到StableVicuna-13B了。不过，也是不允许商用的。

DeepFloyd IF

在同一时间，Stability AI还放出了一个大动作。

你敢信，AI一直无法正确生成文字这个老大难问题，竟然被解决了？（基本上）

没错，下面这张「完美」的招牌，就是由StabilityAI全新推出的开源图像生成模型——DeepFloyd IF制作的。

除此之外，DeepFloyd IF还能够生成正确的空间关系。

模型刚一发布，网友们已经玩疯了：

prompt: Robot holding a neon sign that says "I can spell".

不过，对于prompt中没有明确说明的文字，DeepFloyd IF大概率还是会出错。

prompt：A neon sign of an American motel at night with the sign javilop

官方演示

下图可左右滑动查看更多

顺便一提，在硬件的需求上，如果想要实现模型所能支持的最大1,024 x 1,024像素输出，建议使用24GB的显存；如果只要256 x 256像素，16GB的显存即可。

是的，RTX 3060 16G就能跑。

代码实现：https://gist.github.com/Stella2211/ab17625d63aa03e38d82ddc8c1aae151

开源版谷歌Imagen

2022年5月，谷歌高调发布了自家的图像生成模型Imagen。

根据官方演示的效果，Imagen不仅在质量上完胜OpenAI最强的DALL-E 2，更重要的是——它能够正确地生成文本。

迄今为止，没有任何一个开源模型能够稳定地实现这一功能。

与其他生成式AI模型一样，Imagen也依赖于一个冻结的文本编码器：先将文本提示转换为嵌入，然后由扩散模型解码成图像。但不同的是，Imagen并没有使用多模态训练的CLIP，而是使用了大型T5-XXL语言模型。

这次，StabilityAI推出的DeepFloyd IF复刻的正是这一架构。

甚至在测试中，DeepFloyd IF凭借着COCO数据集上6.66的zero-shot FID分数，直接超越了谷歌的Imagen，以及一众竞品（包括自家Stable Diffusion）。

下一代图像生成AI模型

具体来说，DeepFloyd IF是一个模块化、级联的像素扩散模型。

模块化：

DeepFloyd IF由几个神经模块组成（可以解决独立任务的神经网络），它们在一个架构中相互协同工作。

级联：

DeepFloyd IF以多个模型级联的方式实现高分辨率输出：首先生成一个低分辨率的样本，然后通过连续的超分辨率模型进行上采样，最终得到高分辨率图像。

扩散：

DeepFloyd IF的基本模型和超分辨率模型都是扩散模型，其中使用马尔可夫链的步骤将随机噪声注入到数据中，然后反转该过程从噪声中生成新的数据样本。

像素：

DeepFloyd IF在像素空间工作。与潜在扩散模型（如Stable Diffusion）不同，扩散是在像素级别实现的，其中使用潜在表征。

上面这个流程图展示的就是，DeepFloyd IF三个阶段的性能：

阶段1：

基本扩散模型将定性文本转换为64x64图像。DeepFloyd团队已经训练了三个版本的基本模型，每个版本都有不同的参数：IF-I 400M、IF-I 900M和IF-I 4.3B。

阶段2：

为了「放大」图像，团队将两个文本条件超分辨率模型（Efficient U-Net）应用于基本模型的输出。其中之一将64x64图像放大到256x256图像。同样，这个模型也有几个版本：IF-II 400M和IF-II 1.2B。

阶段3：

应用第二个超分辨率扩散模型，生成生动的1024x1024图像。最后的第三阶段模型IF-III拥有700M参数。

值得注意的是，团队还没有正式发布第三阶段的模型，但DeepFloyd IF的模块化特性让我们可以使用其他上采样模型——如Stable Diffusion x4 Upscaler。

团队表示，这项工作展示了更大的UNet架构在级联扩散模型的第一阶段的潜力，从而为文本到图像合成展示了充满希望的未来。

数据集训练

DeepFloyd IF是在一个定制的高质量LAION-A数据集上进行训练的，该数据集包含10亿（图像，文本）对。

LAION-A是LAION-5B数据集英文部分的一个子集，基于相似度哈希去重后获得，对原始数据集进行了额外的清理和修改。DeepFloyd的定制过滤器用于删除水印、NSFW和其他不适当的内容。

目前，DeepFloyd IF模型的许可仅限于非商业目的的研究，在完成反馈的收集之后，DeepFloyd和StabilityAI团队将发布一个完全免费的商业版本。

参考资料：

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

https://stability.ai/blog/deepfloyd-if-text-to-image-model

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

推荐内容

Stability AI连扔两个王炸！首个开源RLHF模型登基，DeepFloyd IF像素级出图|世界微速讯

2023-04-30
世界滚动:高中教师养出40亿美元超级独角兽，Stable Diffusion背后数据集创建者，还发布ChatGPT最大平替

2023-04-30
最挤五一档，没带火电影院今日最新

2023-04-30
五一北京全城开启暴雨拥堵模式，百度AI信控技术助力亦庄出行自由

2023-04-30
年薪20万招不到人？这个副业爆火

2023-04-30
环球微速讯：《流浪地球2》创业未完成

2023-04-30
OpenAI估值已达290亿美元：新一轮融资宣告完成

2023-04-30
忙活4年多，规划投资数十亿，电动MINI还没冰淇淋火？-世界百事通

2023-04-30
微软收购暴雪，要凉？_全球时快讯

2023-04-30
米哈游的新游戏，只记住了「老婆们」_当前速读

2023-04-30
每日速讯：特斯拉，想做「中石化」

2023-04-30
全球视点！滴滴退市后首份年报：2022年营收1408亿元，下降19%；海尔确定不造整车；LVMH总市值距超越特斯拉仅一步之遥丨邦早报

2023-04-30
五一搞钱不出游，90后做副业月入3万天天最新

2023-04-30
东南亚MCN真赚钱吗？

2023-04-29
淄博烧烤热下的加盟启示录环球通讯

2023-04-29
2023年，默默上市的八家半导体企业

2023-04-29
【全球报资讯】字节跳动为何执着于“种草”？

2023-04-29
哈工大兼职教授造出全球最小“人工心脏”，要IPO了

2023-04-29
世界资讯：滴滴退市后发布年报：中国出行今年3月日均完单2820万，同比增长42%

2023-04-29
全球热点！2023上海车展成“史上最卷”：卷细节、卷场景、卷成本

2023-04-29
李亚鹏回应遭强制执行4000万；OpenAI完成103亿美元融资；网信办：不得断章取义企业家过往言论丨邦早报实时

2023-04-29
淘金巴西与复刻全球

2023-04-29
【环球报资讯】大模型“涌现”的思维链，究竟是一种什么能力？

2023-04-29
热推荐：中国企业的巴西故事，谁将走在最前面？

2023-04-29
库迪追着瑞幸开店：下沉再下沉，低门槛吸引加盟商-每日焦点

2023-04-29
我在抖音电商卖鲜花，从每天5单到年入千万

2023-04-29
去长春，理解中国“内循环之难”

2023-04-29
全球热资讯！500万年薪招不到CTO，AI创业潮里的虚幻与真实

2023-04-28
傲慢知乎，何以沦为“UC震惊部”？

2023-04-28
环球视讯！谷歌要将AI引入广告业务，未来广告能由AI来制作

2023-04-28
一季度亚马逊“上岸”了，却跟阿里有着一样的焦虑|每日速递

2023-04-28
米哈游能复制下一个《原神》吗

2023-04-28
浴血硅谷30年，乔布斯的幕后功臣怎么想？天天热门

2023-04-28
融资丨「瑞风生物」完成数亿元Pre-B轮融资，越秀产业基金领投热点聚焦

2023-04-28
世界观焦点：RoboTaxi每天烧4300万，L4巨头摊牌：最多再撑一年

2023-04-28
环球新消息丨融资丨医健创新创业生态运营服务商「XBP和煦园」获中喜基金战略投资

2023-04-28
发文1分钟、盗版上万条？事情正在起变化_环球即时

2023-04-28
融资丨「知迪汽车」完成亿元A轮融资，招商局资本领投

2023-04-28
融资丨「能量奇点」完成近4亿元Pre-A轮融资

2023-04-28
佳能打印机怎么连接所有电脑？佳能打印机3480如何打印？

2023-04-28
佳能90d可以连手机遥控吗?佳能60d无线遥控器怎么用?

2023-04-28
华为相机怎么添加自定义水印?怎么关闭华为相机的休眠模式?

2023-04-28
全彩摄像头必须有灯吗？全彩夜视摄像头晚上会发光吗？

2023-04-28
佳能mf220怎么扫描到电脑？佳能4752怎么连接无线？

2023-04-28
华为息屏显示动态文件在哪里？华为的动态壁纸怎么设置？

2023-04-28
镜头全包和镜头镂空有什么区别?液态镜头和传统镜头哪个好?

2023-04-28
vivox27相机快速打开设置？vivox27照相功能设置？

2023-04-28
华为手环b19有闹钟功能吗？华为手环b29怎么打开应用？

2023-04-28
华为手环b19有闹钟功能吗？华为手环b19开机键在哪里？

2023-04-28
大模型竞速赛，已经开始拼场景、抢客户了_当前热门

2023-04-28

Stability AI连扔两个王炸！首个开源RLHF模型登基，DeepFloyd IF像素级出图|世界微速讯

2023-04-30
最挤五一档，没带火电影院今日最新

2023-04-30
世界滚动:高中教师养出40亿美元超级独角兽，Stable Diffusion背后数据集创建者，还发布ChatGPT最大平替

2023-04-30
全球微速讯：这个“五一”，经开等你来嗨！

2023-04-30
推“99元睡大厅沙发”酒店涉虚假宣传，台州市监部门已立案调查

2023-04-30
CBA资讯速递，郭艾伦因伤缺席，郭士强离队原因曝光，男篮上上签

2023-04-30
华为浏览器携手白金大神作家，邀你五一同游网文世界-环球热讯

2023-04-30
今日热文：机车展+音乐节+集市，台儿庄渔灯巷假期游人如织

2023-04-30
厦门交警提醒：多路段优化调整出游前做好“功课”|焦点关注

2023-04-30
五一北京全城开启暴雨拥堵模式，百度AI信控技术助力亦庄出行自由

2023-04-30
环球快报:文字演变过程图片英语版高清_文字的演变过程图片

2023-04-30
5月4日申购，慧智微IPO定价20.92元/股-环球速讯

2023-04-30
忙活4年多，规划投资数十亿，电动MINI还没冰淇淋火？-世界百事通

2023-04-30
年薪20万招不到人？这个副业爆火

2023-04-30
OpenAI估值已达290亿美元：新一轮融资宣告完成

2023-04-30
微软收购暴雪，要凉？_全球时快讯

2023-04-30
世界热点！飞刀怎么折大全（飞刀怎么折）

2023-04-30
环球微速讯：《流浪地球2》创业未完成

2023-04-30
乾旱威胁巴拿马运河航运|热点评

2023-04-30
每日速讯：特斯拉，想做「中石化」

2023-04-30
米哈游的新游戏，只记住了「老婆们」_当前速读

2023-04-30
天天动态:高速服务区充电桩资源短缺电动车车主难觅充电机会

2023-04-30
城市之星物流电话查询_城市之星物流-世界独家

2023-04-30
公安部交管局部署严查面包车超员违法

2023-04-30
五一搞钱不出游，90后做副业月入3万天天最新

2023-04-30
全球视点！滴滴退市后首份年报：2022年营收1408亿元，下降19%；海尔确定不造整车；LVMH总市值距超越特斯拉仅一步之遥丨邦早报

2023-04-30
2023湖州中考分数线预测多少分上高中

2023-04-30
花鸭借钱借款逾期23天延迟还款会影响征信吗每日报道

2023-04-30
快资讯丨笔记本键盘功能键介绍图（笔记本小键盘怎么关）

2023-04-30
我弟趴我身上喝我奶漫画_我弟趴我身上喝我奶世界快播

2023-04-30
稀缺大消费50强曝光，超级现金奶牛+超级慢牛股集中营，国家队长线重仓6股

2023-04-30
雷竞技资讯：中国台湾省亚运会LOL战队名单！全LPL首发观众看呆了

2023-04-30
快报：还剩6场！西甲积分榜：巴萨11分优势继续领跑，皇马第二

2023-04-30
ez无限乱斗ap出装无限乱斗ez怎么出装_世界今头条

2023-04-30
hmcl下载（hmc）

2023-04-30
依泉轻盈倍护防晒乳_ul标志

2023-04-30
如何理解劳动的供给曲线向后弯曲?_如何理解劳动的供给曲线向后弯曲-世界热讯

2023-04-30
会“呼吸”的海棠园！天津这个公园今日开园！-头条

2023-04-29
提瓦特的戴森球（96）：珊瑚宫见闻

2023-04-29
止斋学派|当前快播

2023-04-29
亏内是什么意思_亏内的解释|动态

2023-04-29
出门游玩，你最关心的天气预报来了！

2023-04-29
中国海军再次从苏丹撤离转运出493人其中外国国籍人员221人|世界今头条

2023-04-29
天天热门:DNF：龙族技攻再受争议！旭旭宝宝带头更换，这次可不能跟风

2023-04-29
2022橙汁十大品牌排行榜_橙汁哪个牌子好

2023-04-29
东南亚MCN真赚钱吗？

2023-04-29
幸福树能放在卧室吗幸福树可以放卧室里面吗-焦点速递

2023-04-29
天王嫂方媛走出闺蜜阴霾！穿深v裙闪耀秀场，同框伊能静像姐妹花

2023-04-29
江苏泰州口腔医学大专学校_泰州职业技术学院怎么样每日消息

2023-04-29
伊欧玟喜欢阿拉贡_伊欧玟全球速看

2023-04-29
环球新动态：欣贺股份(003016)3月31日股东户数2.23万户，较上期增加29.38%

2023-04-29
【热闻】独家现场丨首架接返自苏丹撤离中国公民临时航班抵达北京

2023-04-29
淄博烧烤热下的加盟启示录环球通讯

2023-04-29
3+4高等职业教育本科是什么意思_3+4高等职业教育本科意思是什么

2023-04-29
世界视讯！《快穿之反派逆袭》_快穿之反派的春天风流书呆

2023-04-29
全球快资讯丨渝厦高铁常益长段加开27趟列车应对长沙“五一”客流

2023-04-29
环球快看：广州增城仙村镇开展“健康走基层，关爱暖民心”义诊活动

2023-04-29
2023年4月29日1美元可兑换多少澳门币？焦点讯息

2023-04-29
2023年，默默上市的八家半导体企业

2023-04-29
齐家湾幼儿园小朋友走进市融媒体中心开展社会实践活动|环球今亮点

2023-04-29
触底反弹？全屋定制Q1遇冷龙头称订单低谷已过 | 行业动态

2023-04-29
【环球时快讯】速看！云南省住房公积金最新年度报告出炉

2023-04-29
尹锡悦对美外交被批评是屈辱外交

2023-04-29
【全球报资讯】字节跳动为何执着于“种草”？

2023-04-29
快递业市场回暖彰显流动中国活力与生机-每日热讯

2023-04-29
联想小新mini主机开启预售：3699元起

2023-04-29
哈工大兼职教授造出全球最小“人工心脏”，要IPO了

2023-04-29
全球微动态丨常台高速苏州段多车被扎胎后抛锚，当地：路面有钉子，正在调查

2023-04-29
【环球财经】市场追逐风险资产国际油价28日显著上涨即时

2023-04-29
全球热点！2023上海车展成“史上最卷”：卷细节、卷场景、卷成本

2023-04-29
买回来的小花生怎么种植花生怎么种植方法环球今亮点

2023-04-29
世界资讯：滴滴退市后发布年报：中国出行今年3月日均完单2820万，同比增长42%

2023-04-29
云南昆明至沙溪今起实现全程高速路通达每日看点

2023-04-29
共享消费盛宴北京金控携一卡通公司超多福利亮相“国企消费季” 聚焦

2023-04-29
李亚鹏回应遭强制执行4000万；OpenAI完成103亿美元融资；网信办：不得断章取义企业家过往言论丨邦早报实时

2023-04-29
天津港集团、渤海银行、渤海财险签署战略合作协议-每日热讯

2023-04-29
全球播报:山西2023年高招体育专业考试成绩出来了，快查分！

2023-04-29
【独家焦点】龙软科技：4月28日融资买入600.85万元，融资融券余额8002.63万元

2023-04-29
【环球报资讯】大模型“涌现”的思维链，究竟是一种什么能力？

2023-04-29
热推荐：中国企业的巴西故事，谁将走在最前面？

2023-04-29
世界观点：华铁应急：4月28日融资买入266.11万元，融资融券余额1.43亿元

2023-04-29
淘金巴西与复刻全球

2023-04-29
全省房地产开发投资增长2.4%_环球快讯

2023-04-29
下头男是什么意思_下头男的含义

2023-04-29
去长春，理解中国“内循环之难”

2023-04-29
库迪追着瑞幸开店：下沉再下沉，低门槛吸引加盟商-每日焦点

2023-04-29
我在抖音电商卖鲜花，从每天5单到年入千万

2023-04-29
【以案说医】缪灿铭：疏风祛寒、清热平喘治咳喘|焦点短讯

2023-04-29
驻村故事（逐梦）

2023-04-29
长沙民政职院电子信息工程学院开展“新学期，心旅程”系列团辅活动当前速讯

2023-04-29
天天时讯：美悄然绽放作文600字写疫情_美悄然绽放作文600字

2023-04-29
世界快讯:求字体_压缩性系数怎么求

2023-04-29
花千骨同人小说排行_花千骨同人小说

2023-04-29
【世界热闻】河南城建学院是什么档次的学校_河南城建学院地址

2023-04-29
胜华新材：2023年第一季度净利润约799万元-看热讯

2023-04-29
怎样包粽子简单又好看_怎么包粽子好看图解

2023-04-29
图解*ST银河一季报：第一季度单季净利润同比减396.57%

2023-04-29
中国电信董事长柯瑞文：夯实国云底座加快建设数字中国

2023-04-28
恒林股份2022年营收同比增长12.76% 转型升级扩容行业赛道|实时

2023-04-28
有人说要举报我亲戚没学历在法院靠关系工作，我害怕这个人举报我亲戚没学历在法院靠关系工作

2023-04-28