NFT:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_Data Vital

作者：

时间：

撰文：TanyaMalhotra

来源：Marktechpost

编译：DeFi之道

图片来源：由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功，大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型，允许用户生成有意义的文本。不仅如此，它还可以回答问题，总结长段落，编写代码和电子邮件等。其他语言模型，如Pathways语言模型、Chinchilla等，在模仿人类方面也有很好的表现。

Sui生态项目Mobius将基于LayerZero转型为全链（Omnichain）协议:6月29日消息，Sui生态NFT交易市场Mobius Protocol发推称，将基于LayerZero转型为全链（Omnichain）协议。Mobius Protocol还提到，此前在Sui生态系统的旅程是一次有学习意义的经历，项目获得了宝贵经验，但也意识到了一些促使该项目寻求变革的潜在风险。

此前消息，Sui团队故意谎报释放量，并且正通过币安抛售通过“锁定”和“非流通”的质押SUI获得的奖励。[2023/6/29 22:06:57]

大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈，而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。

Blockchain.com昨日系统故障，比特币内存池跟踪器骤降至零:金色财经报道，3月13日，加密钱包服务和区块链数据供应商Blockchain.com突发系统故障，其比特币内存池跟踪器骤降至零。在未经确认的比特币交易大幅增加之后，Blockchain.com上的内存池图表从32MB急剧下降至零。其他跟踪器（如Satoshi.info）指出，在Blockchain.com图表崩溃期间，其内存池的大小约为35 MB。截至目前，图表已恢复到30 MB左右。Satoshi.info指出，这显然是Blockchain.com独有的一个系统漏洞。[2020/3/14]

ChatGPT使用来自人类反馈的强化学习，通过最小化偏差对模型进行微调。但为什么不是监督学习呢？一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢？人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因，即为什么强化学习被用于微调而不是监督学习。

动态 | Ryan X Charles：反对比特币现金强制重播保护:据ambcrypto消息，Money Button首席执行官、BSV的支持者Ryan X Charles在接受采访时表示，反对比特币现金强制重播保护。因为这对网络“非常具有破坏性”。他还表示，BSV的关键价值主张是一个稳定的协议，即使不等同于原始的比特币协议，它也是“非常接近”的，这将被重播保护所破坏。[2018/12/4]

不使用监督学习的第一个原因是，它只预测等级，不会产生连贯的反应；该模型只是学习给与训练集相似的反应打上高分，即使它们是不连贯的。另一方面，RLHF则被训练来估计产生反应的质量，而不仅仅是排名分数。

SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的，而监督学习无法提供这种奖励。

不选择SL的第三个原因是，它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上，改变反应中的个别单词可能对整体损失只有很小的影响，但如果一个单词被否定，产生连贯性对话的复杂任务可能会完全改变上下文。因此，仅仅依靠SL是不够的，RLHF对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型，但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示，RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励，而SL由于其文本段落级的损失函数而未能很好做到这一点。

像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中，首先使用SL对模型进行微调，然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容，而RLHF阶段则完善模型的反应以提高准确性。

标签：NFT VITA VIT EFI LIVENFT价格 Data Vital Gravity COREFI价格

AAVE热门资讯

CRYPT:晚间必读 | 去中心化稳定币战争：谁能夺得加密货币的圣杯_比特币

1.金色观察|一文看懂ERC-4337账户抽象在OpenZeppelin最近的审计之后,ERC-4337的“EntryPoint”合约在主网上线,你可以在身边的EVM上使用帐户抽象了.

coinbase:Coinbase 开发主管亲述 Base 诞生的故事_Cryptographic Ultra Money

图片来源：由MazeAI生成北京时间2月23日晚间,Coinbase宣布将基于OPStack推出以太坊Layer2网络Base,这是一个安全、低成本、开发者友好的以太坊Layer2.

BASE:金色Web3日报 | 美国犹他州立法机关已通过DAO法案_coinbull

DeFi数据 1、DeFi代币总市值：488.53亿美元 DeFi总市值及前十代币数据来源：coingecko2、过去24小时去中心化交易所的交易量22.

GPT:经验之谈：我如何从亏损九成到重回巅峰？_FGPT

撰文：Louround 编译：0x11,ForesightNews上一轮牛市期间,我由于贪婪损失了90%的净资产。一年半后,我的投资组合达到了历史最高。这里我分享加密投资者需要避免的五个陷阱.

GPT:ChatGPT思考：探索智能的极限_ING

TheGameofScale在中国已然拉开。2022年12月,ChatGPT横空出世。OpenAI用一个核弹级的成果改变了科学研究和工程应用的范式.

GPT:项目周刊 | BTC 活跃度达到 2 年低点_NAI

金色周刊是金色财经推出的一档每周区块链行业总结栏目,内容涵盖一周重点新闻、行情与合约数据、矿业信息、项目动态、技术进展等行业动态。本文是项目周刊,带您一览本周主流项目以及明星项目的进展.