ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型——BloombergGPT。
3月30日,根据彭博社最新发布的报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。
报告显示,该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务。该模型在金融任务上的表现远超过现有模型,且在通用场景上的表现与现有模型也能一较高下。
一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。
分析 | 多数传统金融行业合规官员不愿冒险进入加密领域 并称这可能会站在政府的对立面:据路透消息,去年7月,在纽约梅隆银行旗下的Pershing和高盛集团等大型金融公司担任了近30年的高级合规职位后,Jeff Horowitz做出了一个非常规的职业选择,他成为加密货币交易所Coinbase的首席合规官,一跃进入监管更为宽松的数字资产领域。在谈到这一职业变化时,他表示“这并不适合胆小的人”。过去一年,加密货币公司大举招聘合规高级管理人员,旨在帮助他们应对日益严格的监管审查,让主流投资者更容易接受,Horowitz就是其中之一,这些公司尤其热衷于挖走像Horowitz这样的高管,他们在大型银行和律师事务所的法律和合规部门工作多年。但猎头公司和近期招聘人员表示,说服他们并不容易。他们倾向于规避风险,可能会被该行业自由意志主义的创业精神所吓倒,这种精神可能意味着对政府监管机构的敌意。为了找到一个拥有技能并且愿意冒险加入加密货币公司的人,这很难。一些做出转变的高管表示,该行业的声誉仍然让他们踌躇不前。日本一家大型交易所的首席合规官表示,加密货币公司的创始人往往缺乏经营金融公司所需的经验和严谨性。[2019/3/28]
关于BloombergGPT
声音 | 朗迪中国创始人:区块链等技术得到了市场验证 智能金融时代已经到来:据新华网消息,在2018年朗迪金融科技峰会上,朗迪中国创始人兼首席执行官海翔表示,在金融科技回归科技本源的大背景下,更多前沿技术的实操应用,包括智能语音、智能风控、区块链科技等,得到了市场的有力验证,智能金融的时代已经到来。[2018/9/10]
报告指出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,通过构建迄今为止最大的特定领域数据集来完成BloomberGPT,并基于通用和金融业务的场景进行混合模型训练:
彭博社主要是一家金融数据公司,数据分析师在公司成立的四十年的时间里收集了大量的金融文件,拥有广泛的金融数据档案,涵盖了一系列的主题。
我们将这些数据添加到公共数据集中,以创建一个拥有超过7000亿个标签的大型训练语料库。
声音 | 中国互联网金融协会会长:区块链等技术发展驱动经济社会各领域向更高阶段发展:在青岛举办的“2018中国财富论坛”上,中国互联网金融协会会长、中国人民银行原副行长李东荣出席并进行题目为《推动新时代财富管理行业规范健康可持续发展》的演讲。他在演讲中说,随着全球信息化进入全面渗透、跨界融合的新阶段,技术创新代际周期大幅缩短,云计算、大数据、人工智能、区块链等数字技术不断取得新的突破,驱动着经济社会各领域向数字化、网络化、智能化的更高阶段发展,也必然对金融业财富管理的经营模式、服务方式、产品工具产生重要影响。[2018/7/8]
使用这个训练语料库的一部分,我们训练了一个具有彭博风格的,达500亿参数的模型,该模型是根据Hoffmann和LeScao等人的指导方针设计,基于通用和金融业务的场景进行混合模型训练。
反金融行动特别工作组将对虚拟货币交易的管制升级:世界权威性国际组织之一的反金融行动特别工作组今日表示,针对虚拟货币交易所的管制,将从之前没有约束力的“指导”升级为各成员国应履行的义务“标准”,并进行更加严格的管制。关于该“标准”将在24日的例会上开始进行具体的讨论,最迟在2019年内实现。[2018/6/12]
结果表明,我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型,而在通用场景上的表现则与之相当甚至优于现有模型。
1.BloombergGPT优势:特定领域模型仍有其不可替代性且彭博数据来源可靠
香港特首林郑月娥:香港金融科技生态蓬勃发展,涵盖区块链等应用研发:6月6日,粤港澳大湾区金融科技论坛在在香港举行。香港特区行政长官林郑月娥表示,目前香港金融科技生态蓬勃发展,业务涵盖区块链、移动支付、网络安全、人工智能、大数据、程序交易等应用研发。香港特区政府很愿意在这个发展过程中扮演一个“促成者”和“推广者”的角色。[2018/6/7]
在论文中,彭博社指出,现阶段,通用的自然语言处理模型可以涵盖许多领域,但针对特定领域模型仍有其不可替代性,因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型尤其优势,同时可以在通用LLM基准测试上保持竞争力:
除了构建金融领域的LLM外,本文的经验也为其他研究领域的专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用基准上表现优异的模型。
此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。
2.BloombergGPT的训练数据集:
BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。
为了提高数据质量,FINPILE数据集也使用了公共数据集,例如ThePile、C4和Wikipedia。FINPILE的训练数据集中大约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。
对金融领域的理解更准
报告指出,在金融领域中的自然语言处理在通用模型中也很常见,但是,针对金融领域,这些任务执行时将面临挑战:
以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情感,但在金融情感方面,它有时可能被认为是积极的,因为它可能导致公司的股价或投资者信心增加。
报告指出,从测试来看,BloombergGPT在五项任务中的四项表现最佳,在NER中排名第二。因此,BloombergGPT有其优势性。
测试一:ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。
测试二:FiQASA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。
测试三:标题,数据集包括关于黄金商品领域的英文新闻标题,标注了不同的子集。任务是判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。
测试四:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。
测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。
对于ConvFinQA来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。
ChatGPT为彭博点赞
华尔街见闻就这个问题专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:
它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。
这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。
2022年注定将被铭记,因为它是区块链领域最具戏剧性和动荡的年份之一。基于技术进步和有利的经济条件,区块链行业在2021年迎来大发展,但随后由于一系列毁灭性的金融事件,区块链市场在2022年遭受.
7:00-12:00关键词:Sei、DoKwon、信标链、SafeMoon、ThetaLabs1.以太坊信标链质押总量接近1800万枚ETH;2.
DeFi数据 1、DeFi代币总市值:480.28亿美元 DeFi总市值及前十代币数据来源:coingecko2、过去24小时去中心化交易所的交易量24.
原文作者:ArthurHayes原文编译:GaryMa吴说区块链自从美联储在2022年3月开始加息以来,我一直认为,最终的结果总是会出现重大的金融动荡,接着就是恢复印钞.
文/GustavoLobo,TheTIEResearch译/金色财经xiaozou 1、前言 在快速发展的去中心化金融世界中,稳定币市场经历了显著的增长,越来越多样化.
撰文:JonCharbonneau编译:0x11,ForesightNews加密内存池是解决MEV和审查问题的强大工具,目前已有多种可以单独使用的相关方案,它们之间也可以组合使用.