链资讯 链资讯
Ctrl+D收藏链资讯

GPT:巨瓜来临!GPT-4模型构架等信息疑似泄露,给大家讲讲来龙去脉!_IMGNAI价格

作者:

时间:

引子

今天上午正在日常搬砖,突然各路信息席卷而来:“赶紧的,GPT-4模型构架泄露啦,国产大模型要再次超越啦!”。打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息道理有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。我觉得这事儿最有意思的可能还不是爆的料,反而是爆料的这不到24小时发生的这些事。如果再结合前面OpenAI搞得几个大新闻,还确实有点意思。

鉴于目前“FakeNews”满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。爆料谁都可以,前面打车的时候司机师傅还给我爆料ChatGPT是外星科技了,我就一点都没信。现在所谓的“外媒”一爆料我就直接信了,那未免还是对司机师傅有点不尊重了。

来龙去脉

我信息挖掘的起点是HackerNews上发表的这篇文章《GPT-4'sdetailsareleaked.Itisover.》。我点进去发现并非原文,而是一个ThreadReader。所以我就又顺藤摸瓜,找到了这些Twitter的发布人—YamPeleg。

其实我Twitter上知道的人并不多,但是这老哥我还真看过他以前的文章。他是以色列一个创业公司的CEO,本人工程经历丰富,很懂LLM。曾经尝试反向破解过GPT-4和ChatGPT代码解释器。六月OpenAI访问以色列的时候,他还去参加座谈沟通了,并且还和SamAltman合影了。读这老哥的文章,我就禁不住想起来当面在以色列时候的当地的学生联络员Tom,随便说点啥都能给你搞得热血沸腾的。这老哥一直在研究OpenAI,也认识OpenAI内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。

Solana ChatGPT插件正式上线OpenAI插件商城:8月24日消息,Solana Labs宣布,Solana ChatGPT插件已正式上线OpenAI插件商城,支持用户监控钱包余额、知悉交易数据以及获得NFT相关信息,并引入Solana Name Service(SNS)解析以及“Token Name Search”功能。[2023/8/24 18:19:40]

但是!等我晚上准备去仔细研读下他发的东西的时候,突然发现,他把前面发的都删了。说是因为版权问题,本来我以为是被OpenAI捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为OpenAI的版权,而是因为另外一个付费专栏的版权。

原来Yam老哥并不是原创,而是看了SemiAnalysis的付费专栏文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》,然后把里面的一些核心信息加上自己的理解共享出来了。所以其实真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

SemiAnalysis是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计IP和战略的半导体供应链。它由DylanPatel创办,他是一位有着多年半导体行业经验的分析师和工程师。他曾在英特尔、AMD、高通等公司担任过不同的角色,从设计工程师到市场营销经理。SemiAnalysis的团队还包括GeorgeCozma,GeraldWong,MyronXie,AfzalAhmad,AleksandarKostovic,SophiaWisdom等多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计IP和战略的全方位的半导体供应链分析和咨询服务。

加密交易平台Finblox推出人工智能金融顾问FinGPT:5月16日消息,由Dragonfly和Sequoia支持的加密货币交易平台Finblox推出人工智能金融顾问FinGPT,该工具使用户能够使用人工智能算法优化他们的加密资产组合,在Finblox生态系统中提供个性化的建议。据悉,Finblox宣布其原生代币FBX的公开发售将于5月17日结束,代币持有者可以利用FBX访问独家FinGPT功能,销毁代币以获得处理能力,并抵押代币以获得奖励。[2023/5/16 15:05:32]

前面那篇著名的谷歌内部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他们爆出来的,这篇文章后面被证实为真。这样看来,DylanPatel老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。当然,我也发现了他们为啥这么急着让Yam老哥删推,因为这些“内部信息”确实价值不菲,订阅SemiAnalysis的付费文章,一年要500美刀。Yam老哥订阅的精英版更是要1000美刀。

爆料分析

讲清楚了来龙去脉,我们可以得到一个基础结论,就是这个爆料还是有一定的可信性的。然后,我又根据爆料的内容以及前面获得的其他爆料信息,综合分析了下。这里还是先给大家说结论:

日本首相:G7峰会将讨论ChatGPT,须制定国际规则:4月20日消息,日本首相岸田文雄表示,七国集团(G7)领导人将在5月G7广岛峰会期间讨论讨论生成性人工智能ChatGPT相关议题,称“必须制定国际规则”。(日本共同社)[2023/4/20 14:15:08]

爆料可信度较高。本次爆料的来源有一定可信度,爆料的内容和前期已经披露的内容也基本都能吻合。所以我倾向于爆料的大部分内容都是来自OpenAI的泄漏,有真实的事实基础,但是给出的数据未必一定准确。毕竟,也不是所有人都能够获得详细准确的内部数据,但是应该不会偏差太多。爆料对于私有模型有一定意义,对于开源模型意义有限。这次爆料的主要亮点对开源社区的影响可能并不会太大。影响最大的MoE其实已经被爆料过了,目前应该已经有相关的开源模型在路上。除此之外其他的爆料亮点都主要是利好其他私有模型竞争对手,例如比较准确的模型大小、并行策略、模型构架以及多模态构架等。具体我们后面具体分析。个人的奇怪推论。说实话,这个时间点的爆料不得不让我觉得有点奇怪,感觉DylanPatel老哥有一种在帮openAI官方爆料的感觉。结合我这篇文章更是觉得事有蹊跷。要知道,如果这篇爆料文章早一个礼拜发,大家甚至是可以通过ChatGPT的搜索模式直接白嫖文章内容的。咋给我一种,为了让他们能够安心的爆料自己,OpenAI特意把ChatGPT的搜索模式都关闭了的感觉。当然,我这个猜测是毫无根据的,这样做确实也对OpenAI没有任何好处。所以,获取是我多想了,就是赶巧了而已。对于爆料原文感兴趣的可以看我最前面贴的HackerNews的文章,少了些逻辑和修辞,和付费的原文的核心内容是一样的。没耐心一点点钻原文的,我这边直接给大家总结几条要点。

币安:ChatGPT将改善加密货币的采用和教育:2月17日消息,币安在近日的博客文章中对OpenAI开发的AI聊天机器人ChatGPT进行了评估,认为ChatGPT将改善加密货币的采用和教育。博客文章写道,在采用加密货币方面,ChatGPT在信息和教育方面提供了巨大的希望。它可以帮助教育用户了解区块链和加密概念,并使更广泛的受众更容易使用该技术。

不过,币安也指出了ChatGPT存在偏见以及安全和隐私方面的风险。称尽管人工智能会产生自己的反应,但它会受到训练所用数据的影响,因此可能会出现偏见问题。[2023/2/17 12:12:37]

爆料参数整理

这次爆料的一个亮点就是给出了GPT-4的部分明确参数,这些参数前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊。这些参数包括:

模型参数量:1.8兆,比GPT-3.5大10倍左右。模型层深:120层。模型构架:混合专家模型,一共16个专家,每个专家1110亿参数量。每次向前传递选择两个专家。训练数据:共13兆数据。文本数据被重复训练了2次,代码数据被重复训练了4次。这个数据其实挺重要的,后续具体分析。并行策略:8路张量并行+15路管道并行。预训练上下文:8K。32K版本是在8K基础上微调的。我的推论1:GPT-5会是一个全新构架的多模态LLM

GPT-4是一个由16个专家模型组成的MoE。每个专家1110亿参数量。每次向前传递选两个专家。然后注意力机制共享550亿参数。所以,每次推理的时候,事实上耗费的参数量约为2800亿。这个数字也和前期很多学者预测的类似。

Ripple Labs首席技术官驳斥ChatGPT的“Ripple阴谋论”:12月6日消息,人工智能 (AI) 工具ChatGPT声称,XRP Ledger ( XRPL ) 以某种方式被Ripple秘密控制,虽然人们可以参与治理,但Ripple拥有“最终控制权”。

Ripple Labs首席技术官David Schwartz反驳称ChatGPT的回答存在漏洞。“如果它的最终论点是Ripple Labs可能有一些秘密的方式来控制XRP Ledger,为什么不认为Ripple Labs可能有一些秘密的方式来控制比特币区块链呢?”

注:ChatGPT目前已经被证明存在许多自相矛盾的回答。例如,它一方面声称XRP Ledger 是一个去中心化分布式账本,一方面又声称其是中心化机构控制的。[2022/12/6 21:26:01]

训练数据上面写了,我就不复述了。这里强调下,文本和代码数据都是被重复训练了的。再结合MoE构架,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭要么无限制得增大数据量对LLM性能得提升已经非常有限了。但是,无论是哪一种,我们都可以推断,下一步的GPT-5一定会是基于多模态数据的。GPT-5想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据。

但是,根据这次的爆料,OpenAI目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,与文本编码器分开,但存在交叉注意力。它就是在文本预训练后,进行了约2万亿个Token的微调。这种模式明显无法充分利用已有的视频、图片以及音频数据。

所以,前面OpenAI一直强调的没有在训练GPT-5大概率是真话。因为他们在训练GPT-5之前找到一个更好的多模态模型构架,让模型可以充分的利用音视频数据。只有能够利用这些优质的训练数据,GPT-5才有可能获得足够的能力提升。同时,如果GPT-5真的能够充分利用这些音视频数据的话,那不管是AGI还是OpenAI最近提出的超智体,似乎确实也没那么遥远了。

我的推论2:私有模型的竞争将集中在并行能力上

根据此次爆料,目前如果要训练一个GPT-4竞品,按照使用约8,192个H100芯片来估算,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。这个成本对于目前波涛汹涌的LLM市场来说,真的不算大。国内目前的主要玩家都可以比较轻松的承担数次训练。所以,这次说真的,再过半年模型能力对标GPT-4可能真的不是吹牛逼。

如果训练成本不是问题,那么训练数据会不会成为问题呢?目前看来也不会。GPT-4的训练数据共13兆。这个规模并不是特别夸张,且它的很多数据来源国内也可以获取,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是比较公开的。给足够的资源,半年时间应该都可以解决。

所以,最后剩下的就是并行能力了。其实这次爆料里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的。这里我就不具体展开说了,总体来说,就是你有了大模型,如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?

当大家的模型能力都大差不差的时候,那个模型好用,不就取决于用户体验了么!并行处理的能力,就直接决定了用户体验。目前GPT3.5已经做到了无论是ChatGPT还是API都非常丝滑了,这是非常厉害的。这里大家可能会说,我体验的其他国产LLM或者Claude都比GPT3.5还快啊。但是,大家没有考虑使用的量级问题,GPT3.5在这么高的并发下有这样的性能,其他的厂商如果匹配不了OpenAI的这个能力,也就没能力来抢OpenAI的市场。

所以,并行能力可能会成为各路OpenAI竞争对手的角逐重点之一。

我的推论3:OpenAI可能是有意放出的本次爆料

这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。

OpenAI很清楚GPT-4的护城河并不高,即使现在OpenAI已经不open了,但是在这种热潮中,竞争对手迎头赶上也并不困难。并且,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始搞,OpenAI被弯道超车的概率也是很大的。所以这可能是OpenAI的缓兵之计,我就给你们透露一些GPT-4的信息,让头部的玩家都先去做GPT-4的复刻工作,把OpenAI已经走过的路也再走一遍。

如果在这个过程中,OpenAI给GPT-5的训练打好了基础,完成了多模态大模型的前期攻关,即使GPT-4已经被其他的大语言模型超越,OpenAI也有恃无恐了。个人认为,多模态很可能就是人卷人的最后一代了。后面的模型开发和演进说不定就以AGI为主力了,也就是说,这次赢了,可能就赢到最后了。

结语

本次的爆料绝对是GPT-4发布以来最大的瓜。但是,我并不是很推荐大家去研究这次的爆料内容,大家看看别人的总结就好了。爆料的很多内容看起来还是比较费劲的,并且费半天劲看懂了也没用,懂了你也没法实践,白懂。

不知不觉又码了这么多字,能看到这里的都是真爱,看完留个记号再走吧,您的支持就是对我最大的鼓励~

博览AI的奥秘,博学AI的知识,博交AI的朋友,我是博而不士,欢迎加入我的AI探索之旅。关注我,一起玩转AI。

推荐阅读:

Claude:无需魔法、完全免费、GPT3.5的最佳国内替代「一文说清」

标签:GPTOPENPENNAIBlockGPTOpenLive NFTOpen PlatformIMGNAI价格

欧易交易所app下载热门资讯
HELLO:榴莲大王「洪九果品」,供应链撑起的万亿江湖路_数据链公链

一根扁担,挑起东南亚进口水果的半壁江山。一颗榴莲,稳坐国内水果市场的第一把交椅。36年前,洪九果品的创始人尚在挑担卖水果;36年后,洪九果品已成为中国榴莲大王,更是“中国水果行业龙头第一股”.

SIM:数字人民币SIM卡硬钱包落地,手机没电没网也能“一卡走天下”_聚币网app下载

“在更换了中国联通超级SIM卡后,手机就可以在无电、无网的条件下,进行数字人民币的碰一碰支付,非常的便捷.

SIM:暴跌2000亿,迪士尼只剩一张底牌_AND

新一线城市在等一座迪士尼,至少从最近的传言来看是这样。成都、天津、青岛、武汉都开始争夺尚不存在的“中国第三座迪士尼”,随后被迪士尼一一否认.

CHO:44张照片看世界,跳跃的猎豹,飞翔的灰背隼,敏捷的蛇鹫_Porkchop

猞猁雪中捉兔。猞猁特别狠,可以干掉灰狼,而且是见一个杀一个,绝不手软,因为灰狼是它的宿敌。猞猁喜欢杀小狼与母狼,但也有不少杀死成年公狼的纪录。 战争太残酷.

GPT:“甲醛大户”被公开:家中有这3样东西该丢就丢!都是甲醛的源头_NAI

听到甲醛两个字,你想到的是什么?呼吸系统疾病,皮肤变差,损害健康,以至于癌症,应该是许多读者听到甲醛的第一反应。甲醛是现代工业不可缺少的存在,方方面面影响着人类的生活.

300:我们修财路,不是修给印度的,不需要印度支持,更无所谓印度反对_杭州女子花300万买比特币后续

引言: 在当今全球化的世界中,国际经济关系变得更加紧密和复杂。中国作为世界第二大经济体,其在国际经济舞台上的角色日益重要.