看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”_中国智能在线

阻止大模型出口成脏。

(资料图)

编者按：本文来自微信公众号“量子位”（ID:QbitAI），作者：萧箫，创业邦经授权发布。

大模型们胡说八道太严重，英伟达看不下去了。

他们正式推出了一个新工具，帮助大模型说该说的话，并回避不应该触碰的话题。

这个新工具名叫“护栏技术”（NeMo Guardrails），相当于给大模型加上一堵安全围墙，既能控制它的输出、又能过滤输入它的内容。

一方面，用户诱导大模型生成攻击性代码、输出不道德内容的时候，它就会被护栏技术“束缚”，不再输出不安全的内容。

另一方面，护栏技术还能保护大模型不受用户的攻击，帮它挡住来自外界的“恶意输入”。

现在，这个大模型护栏工具已经开源，一起来看看它的效果和生成方法。

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍，目前NeMo Guardrails一共提供三种形式的护栏技术：

话题限定护栏（topical guardrails）、对话安全护栏（safety guardrails）和攻击防御护栏（security guardrails）。

话题限定护栏，简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力，相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言，至少用户不希望它在解决问题时“脱离目标范围”，生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏，当大模型生成超出话题范围的文字或代码时，护栏就会将它引导回限定的功能和话题上。

对话安全护栏，指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误，即“听起来很有道理，但其实完全不对”的东西；

另一方面是大模型生成带偏见、恶意的输出，如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏，即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病毒APP从而攻击它，也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击，避免大模型瘫痪。

所以，这样的护栏要如何打造？

如何打造一个大模型“护栏”？

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说，一个护栏应当包括三方面的内容，即格式规范（Canonical form）、消息（Messages）和交互流（Flows）。

首先是格式规范，即面对不同问题的问法时，规定大模型要输出的内容。

例如被问到“XX文章是什么”，大模型必须给出特定类型的“文章”，而非别的东西；被问到“谁发表了什么”，大模型必须给出“人名”，而非别的回答。

然后是消息定义，这里以“用户问候”话题为例，大模型可以输出这些内容：

最后是交互流的定义，例如告诉大模型，怎么才是问候用户的最好方式：

一旦问候用户的机制被触发，大模型就会进入这个护栏，规规矩矩地问候用户。

具体工作流程如下：首先，将用户输入转换成某种格式规范（canonical form），据此生成对应的护栏；随后，生成行动步骤，以交互流指示大模型一步步完成对应的操作；最后，根据格式规范生成输出。

类似的，我们就能给大模型定义各种各样的护栏，例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”，大模型也能学会冷静应对：

目前，英伟达正在将护栏技术整合进他们的AI框架NeMo中，这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们，可以试一试了~

开源地址：

https://github.com/NVIDIA/NeMo-Guardrails

参考链接：

https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

本文（含图片）为合作媒体授权创业邦转载，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

推荐内容

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

2023-05-04
幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

2023-05-04
Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

2023-05-03
【聚看点】疯狂的炸串，还能火多久？

2023-05-03
新势力无奈破产，富士康喜提造车工厂一座

2023-05-03
“跟风”开淄博烧烤，赚了还是赔了？

2023-05-03
特斯拉Model 3、Model Y涨价；IBM计划用 AI 取代 7800 个岗位；科学家开发AI系统将意念转成文字丨邦早报

2023-05-03
王传福的40条思考：一切“技术壁垒”都是纸老虎

2023-05-03
快讯：五一办婚礼有多贵？

2023-05-03
陆奇的大模型世界观

2023-05-02
简讯：最聪明的大脑、最火爆的话题——清华大学张亚勤和朱民畅谈ChatGPT

2023-05-02
世界即时看！这条万亿赛道，为何出不了另一个“美团”？

2023-05-02
世界热头条丨亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

2023-05-02
疯狂五一：我在“人从众”中帮游客拍照，日入过万_焦点热门

2023-05-02
新造车4月销量：蔚来下滑、小鹏挣扎、二梯队猛追

2023-05-02
瑞幸：开店狂飙，满血回归

2023-05-02
75岁图灵奖得主Hinton离职谷歌：痛悔毕生工作，无法阻止人类AI大战

2023-05-02
马云被东京大学聘为客座教授；马斯克称特斯拉每个人都是工人，没有两级制度；未来5年全球或减少1400万份工作丨邦早报

2023-05-02
【报资讯】AI专属社交平台爆火，全体人类被禁言只能围观

2023-05-02
天天观热点：淄博火了，锦州急了

2023-05-02
全球快资讯丨从淄博烧烤到文旅局长花式“内卷”，中小城市有哪些出圈秘诀？

2023-05-02
谷歌AI败局揭秘：CEO权力有限创始人垂帘听政_焦点消息

2023-05-01
天天观察：五一旅拍赚翻了：单价59元，摄影师1天赚1万

2023-05-01
医疗GPT，硅谷又跑在了前面？|速看料

2023-05-01
今亮点！一季度谁最能造？广东汽车产量领跑全国，山东反超上海挤进前三

2023-05-01
环球焦点！靠卖鱼虾年入10亿，这对父子第三次冲击IPO

2023-05-01
每日快讯!中文互联网青春流落“天涯”

2023-05-01
宣战微软：马斯克的新战争|环球讯息

2023-05-01
全球通讯！全部身家押注2个团队，85后Altman教你做风投

2023-05-01
2023，雪糕市场风向变了

2023-05-01
天天实时：苹果AI哪去了？前员工揭秘Siri何以走向没落：团队内耗、技术判断太谨慎

2023-04-30
Stability AI连扔两个王炸！首个开源RLHF模型登基，DeepFloyd IF像素级出图|世界微速讯

2023-04-30
世界滚动:高中教师养出40亿美元超级独角兽，Stable Diffusion背后数据集创建者，还发布ChatGPT最大平替

2023-04-30
最挤五一档，没带火电影院今日最新

2023-04-30
五一北京全城开启暴雨拥堵模式，百度AI信控技术助力亦庄出行自由

2023-04-30
年薪20万招不到人？这个副业爆火

2023-04-30
环球微速讯：《流浪地球2》创业未完成

2023-04-30
OpenAI估值已达290亿美元：新一轮融资宣告完成

2023-04-30
忙活4年多，规划投资数十亿，电动MINI还没冰淇淋火？-世界百事通

2023-04-30
微软收购暴雪，要凉？_全球时快讯

2023-04-30
米哈游的新游戏，只记住了「老婆们」_当前速读

2023-04-30
每日速讯：特斯拉，想做「中石化」

2023-04-30
全球视点！滴滴退市后首份年报：2022年营收1408亿元，下降19%；海尔确定不造整车；LVMH总市值距超越特斯拉仅一步之遥丨邦早报

2023-04-30
五一搞钱不出游，90后做副业月入3万天天最新

2023-04-30
东南亚MCN真赚钱吗？

2023-04-29
淄博烧烤热下的加盟启示录环球通讯

2023-04-29
2023年，默默上市的八家半导体企业

2023-04-29
【全球报资讯】字节跳动为何执着于“种草”？

2023-04-29
哈工大兼职教授造出全球最小“人工心脏”，要IPO了

2023-04-29
世界资讯：滴滴退市后发布年报：中国出行今年3月日均完单2820万，同比增长42%

2023-04-29

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

2023-05-04
幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

2023-05-04
遵义石油易捷商品销售实现一季度开门红-天天热头条

2023-05-04
微视频｜劳动者之光

2023-05-04
湖北棉花发展迎来新机遇今年试点2000亩机采棉-天天短讯

2023-05-04
下2019年高考分数线在2019年高考分数线是多少-天天报资讯

2023-05-04
白发怎么解决最好_白发怎么治愈

2023-05-04
环球快看：霍金斯打出2单杆50+2-1战胜名将里奇-沃顿

2023-05-04
客运市场的激烈竞争迫使捷豹提供更多

2023-05-04
蔡琴经典歌曲你的眼神歌词_蔡琴经典歌曲

2023-05-04
环球速递！漫画《Pomegranate (石榴) 》

2023-05-04
带鱼有什么功效呢_带鱼有什么功效

2023-05-04
kemono插画_kemon

2023-05-04
游客在海南万宁游玩遭人群殴？当地政府：正在调查

2023-05-04
今日聚焦!快乐斗地主

2023-05-03
焦点观察：中学奥数_12999初中数学网

2023-05-03
科贝：门德斯手中还没有对法蒂的报价，法蒂的留队意愿坚定-世界新消息

2023-05-03
手链的编法大全_手链的编法_焦点信息

2023-05-03
在教育过程中受教育者的主体性表现有哪些特点在教育过程中受教育者的主体性表现有哪些

2023-05-03
岁晚三首

2023-05-03
Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

2023-05-03
全球新资讯：六人被刑拘！作案26起盗窃百余万财物，“电缆大盗”在武汉青山落网

2023-05-03
海风教育怎么样有上过的_海风教育怎么样

2023-05-03
将于4月24日开启预订新款吉利ICON主角官图发布

2023-05-03
当前信息：成绩一般读普高和职高哪个好

2023-05-03
新势力无奈破产，富士康喜提造车工厂一座

2023-05-03
【聚看点】疯狂的炸串，还能火多久？

2023-05-03
环球快播：ThinkPHP-路由和控制器(二)

2023-05-03
东亚银行(00023.HK)5月3日耗资178.69万港元回购17.6万股-播资讯

2023-05-03
上百蜘蛛侠大集结，《蜘蛛侠：纵横宇宙》定档5月2日，这波够狠!

2023-05-03
“跟风”开淄博烧烤，赚了还是赔了？

2023-05-03
蔬菜沙拉的做法(切好的芒果、小番茄、洋葱、胡萝卜、火龙果、梨和苹果放在一起) 当前动态

2023-05-03
热点评！空调低压管结霜原因加氟压力不升_空调低压管结霜原因

2023-05-03
马加特：纳帅低估了拜仁帅位他的球队管理做得不够好

2023-05-03
广交会观察：中华文化催生外贸新增长点

2023-05-03
环球新消息丨鸿路钢构(002541)：收入与扣非业绩同步高增费率创同期最低值

2023-05-03
世界消息！三停2周？曝梅西遭重罚，巴黎临时加训他缺席，关系破裂下家3选1

2023-05-03
世界微速讯：每月仅需69元，快来体验“一站式”运动健康服务

2023-05-03
这就是奇迹！程帅澎三分绝杀拯救浙江，沈梓捷受伤深圳形势不妙_环球速读

2023-05-03
两位TVB前花旦开心聚会！素颜亮相被赞状态佳，6个孩子太热闹

2023-05-03
小工业盐概念上市公司有哪些，小工业盐股票名单

2023-05-03
拥有90万跑分，却沦为“廉价机”，256GB+120W快充仅1539元

2023-05-03
每日速看!someone like you歌词_someone like u歌词

2023-05-03
滚动：营业毛利润是什么意思-毛利润是什么意思

2023-05-03
小辽说天气丨假期最后一天晴好为主，但冷空气也即将“返岗”！

2023-05-03
节后两日解禁超1100亿元，昔日疫苗“牛股”独占近700亿，5家解禁占比超4成_每日速看

2023-05-03
焦点快看：铃声多多怎么查看守护？铃声多多查看守护教程

2023-05-03
特斯拉Model 3、Model Y涨价；IBM计划用 AI 取代 7800 个岗位；科学家开发AI系统将意念转成文字丨邦早报

2023-05-03
晴天周杰伦歌词花海周杰伦歌词

2023-05-03
王传福的40条思考：一切“技术壁垒”都是纸老虎

2023-05-03
武则天墓为什么不挖了_武则天墓为什么不挖当前时讯

2023-05-03
快讯：五一办婚礼有多贵？

2023-05-03
足球言论丨阿尔特塔评价基维奥尔：“他看起来准备好...|播报

2023-05-03
当前信息：“五一”我在岗 | 常州：“默默坚守”展现一线劳动者平凡之美

2023-05-03
助力“五一”旅游中老铁路国际列车成假日出行新选择-焦点消息

2023-05-03
中央气象台5月3日06时继续发布暴雨蓝色预警

2023-05-03
马桶被卫生纸堵了如何自己快速疏通_马桶堵了如何自己快速疏通

2023-05-03
中小板钛矿公司排名(2023上市公司市值榜)

2023-05-03
治未病科普大赛作品治未病科-天天滚动

2023-05-03
矿业学院要闻速递

2023-05-03
地心说的代表人物是古希腊天文学家_地心说的代表人物世界微速讯

2023-05-02
当前视讯！ie浏览器打不开网页的解决方法_ie浏览器打不开

2023-05-02
寻找春天的脚步！这场公益活动传承中国传统文化热议

2023-05-02
亚欧多国“五一”不安宁工人抗议生活成本高企

2023-05-02
欧佩克4月石油日产量较3月减少19万桶至2862万桶-环球精选

2023-05-02
世界关注：“五一”假期美丽乡村“流量”足引客来

2023-05-02
vc水怎么用效果最好_vc水-当前通讯

2023-05-02
温情“五一”：嘿，这些故事有点“暖”！

2023-05-02
测斜管布置安装要求_什么是测斜管主要什么作用

2023-05-02
陆奇的大模型世界观

2023-05-02
简讯：最聪明的大脑、最火爆的话题——清华大学张亚勤和朱民畅谈ChatGPT

2023-05-02
陇西县举办庆“五一”职工象棋比赛

2023-05-02
世界观天下！激光打标_关于激光打标介绍

2023-05-02
索尼《GT赛车》游戏改编真人电影《头号赛车手》公布先导预告

2023-05-02
世界即时看！这条万亿赛道，为何出不了另一个“美团”？

2023-05-02
安装监控摄像头的步骤（监控摄像头安装八大步骤）环球报道

2023-05-02
中国联通市场宣传：举办工业互联网生态大会、2000M宽带发布会

2023-05-02
维珍航空恢复中国内地首条航线

2023-05-02
世界热头条丨亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

2023-05-02
新造车4月销量：蔚来下滑、小鹏挣扎、二梯队猛追

2023-05-02
疯狂五一：我在“人从众”中帮游客拍照，日入过万_焦点热门

2023-05-02
前列腺炎引发的早泄是怎么回事珠海男科医院排名

2023-05-02
AMD catalyst 12 4 是什么催化剂有什么作用电脑提示了需要更新_全球动态

2023-05-02
检查组进包间亮证，正在划拳的几个干部愣住了…_环球关注

2023-05-02
为什么打印机可以打印图片不可以打印文档_打印机能打印图片不能打印文档

2023-05-02
怎样才能快速提高成绩有什么方法

2023-05-02
星座日历查询天天热文

2023-05-02
75岁图灵奖得主Hinton离职谷歌：痛悔毕生工作，无法阻止人类AI大战

2023-05-02
瑞幸：开店狂飙，满血回归

2023-05-02
戏曲、音乐会、开心麻花……更多精彩等你解锁

2023-05-02
火影之千手千影txt下载_火影之千手千影

2023-05-02
Hinton离职谷歌：人工智能竞争和就业市场扰乱令人担忧

2023-05-02
影评丨《超级马力欧兄弟大电影》：永不放弃的玩家们

2023-05-02
土豆兄弟是免费的吗土豆兄弟游戏介绍一览

2023-05-02
金观平：巩固工业经济企稳回升势头全球快播报

2023-05-02
海南离岛免税提货新规满月：近3.5亿元免税品“即购即提”|天天最资讯

2023-05-02
马云被东京大学聘为客座教授；马斯克称特斯拉每个人都是工人，没有两级制度；未来5年全球或减少1400万份工作丨邦早报

2023-05-02
环球实时：小米汽车可期！网友在厦门4S店偶遇卢伟冰

2023-05-02
环球资讯：21cn邮箱怎么改密码_21 cn邮箱

2023-05-02
全球快资讯丨从淄博烧烤到文旅局长花式“内卷”，中小城市有哪些出圈秘诀？

2023-05-02