来源:量子位
作者:萧箫
大模型们胡说八道太严重,英伟达看不下去了。
他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。
这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。
一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。
另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。
全球Web3风险投资额连续第七个季度下降:金色财经报道,根据Crunchbase Web3 Tracker的数据,全球Web3加密初创公司的融资额连续第七个季度下降,第三季度的融资额可能将大幅低于第二季度的19 亿美元。第二季度的数据相对稳定,加密初创公司筹集的资金仅略低于第一季度的 20 亿美元。
而当前季度的情况将更加不稳定。 三季度初至今,web3的风险投资总额达4.127亿美元,如果情况没有改善,到 9 月底,这一数字将仅达到约12亿美元左右。[2023/7/29 16:05:16]
现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。
防止大模型胡言乱语的三类“护栏”
根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:
外交部发言人:不了解FTX创始人行贿中国官员近4000万美元的情况:金色财经报道,美国联邦检察官当地时间周二公布了一项针对山姆·班克曼-弗里德的新起诉书,指控这位现已破产的加密货币交易平台FTX的创始人向中国官员行贿近4000万美元,试图让他们解冻他的对冲基金账户。29日,有记者在外交部例行记者会上就此进行提问。外交部发言人毛宁回应称,我不了解你说的情况。(环球时报)[2023/3/29 13:33:00]
话题限定护栏、对话安全护栏和攻击防御护栏。
话题限定护栏,简单来说就是“防止大模型跑题”。
比特小鹿即将通过SPAC在纳斯达克上市,估值约为11.8亿美元:3月28日消息,美国证券交易委员会 (SEC) 已批准比特小鹿 Bitdeer 和特殊目的收购公司 Blue Safari 的拟议业务合并。此次业务合并对 Bitdeer 的估值约为 11.8 亿美元。业务合并完成后,合并后的公司 BTG 将成为纳斯达克上市公司,股票代码为 BTDR。
Blue Safari 公司董事会建议其股东在 2023 年 3 月 27 日的明确代理声明中描述的拟议业务组合和相关提案方面投赞成票,参加 Blue Safari 公司的特别股东大会(EGM)。EGM 将于 2023 年 4 月 11 日美国东部时间上午 9:00 举行,以批准包括业务组合在内的其他事项。[2023/3/28 13:30:27]
大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。
华为刘西恒:在to B领域元宇宙可能更快进入商用场景:金色财经报道,华为光产品线副总裁刘西恒19日在Win-Win华为创新周中接受媒体采访时表示,元宇宙的发起是对未来个人、家庭、娱乐、游戏领域的应用。但未来的工业场景,或To B场景的数字孪生可能对元宇宙的需求更快一些。在To B领域,元宇宙可能更快地进入商用场景。从计算的角度,元宇宙来一方面需要大带宽,一方面需要低时延的能力,甚至不同的边缘计算中心之间还要保持同步的能力 。华为当日发布的全光品质运力网络,具有大带宽、低时延特点,且能够进行同步信息的全网传递,未来也会根据AI、元宇宙等需求持续提升其能力。 (中新网)[2022/7/23 2:33:00]
但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。
这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。
对话安全护栏,指避免大模型输出时“胡言乱语”。
胡言乱语包括两方面的情况。
一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;
另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。
攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。
这里不仅包括诱导大模型调用外部病APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。
所以,这样的护栏要如何打造?
如何打造一个大模型“护栏”?
这里我们先看看一个标准的“护栏”包含哪些要素。
具体来说,一个护栏应当包括三方面的内容,即格式规范、消息和交互流。
首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。
例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。
然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:
最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:
一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。
具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。
类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。
这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:
目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。
对“护栏”技术感兴趣的小伙伴们,可以试一试了~
头条 ▌美国SEC删除了对冲基金规则中对“数字资产”的第一个正式定义金色财经报道,周三,美国证券交易委员会(SEC)删除了最新的对冲基金规则中对“数字资产”的第一个正式定义.
前不久发布了一文读懂系列后,我们收到了很多读者的咨询和反馈,其中问到最多的是关于个人和企业如何通过香港的政策顺利入境.
随着数字时代的来临,Web3化成为社会热议的焦点,也是企业最希望寻求突破的一个诉求,如何拥抱Web3,借力进行数实融合,并且取得阶段性的成效?围绕这个话题,日前.
7:00-12:00关键词:韩国央行、香港证监会、Blur、Meta1.?韩国央行拟将稳定币纳入其监管范畴并单独立法;2.香港证监会梁凤仪:香港将于5月发布加密货币交易平台许可指南;3.
原文:EthereumAllCoreDevelopersConsensusCall#107Writeup作者:ChristineKim 2023年4月20日,以太坊开发者齐聚一堂.
Nayms是一家保险科技公司,传统保险业不透明、缓慢且效率低的下,新项目?Nayms?通过引入区块链技术,让保险行业变得透明和高效,同时将风险定价和保险业务管理提升到了一个新的水平.