来源:《科创板日报》
记者张洋洋
“根据现在的反馈,任务性能测试上,包括ChatGPT在内,没有一个大模型能够全部达标。”这基本上是业内对雨后春笋般不断涌现的人工智能大模型的共识。
ChatGPT推出后,基于大语言模型技术的同类型产品还在加快涌现。进入4月以来,从互联网大厂,到A股上市公司,以及一众创业公司,再加上高校科研院校,都先后发布各自的大模型,总数已经超过30家。
短短数月,多个模型竞相涌现,各家模型实力究竟如何?国内大模型是否过剩了?行业终局,究竟是百花齐放,还是赢家通吃?在这场技术变革的讨论声中,大模型带来的新能力里,哪些是最为关键的,最有可能带来长期影响的?
AI大模型如雨后春笋任务性能测试还未有“满分答卷”
据民生证券的统计,国内已有超30个大模型亮相,行业俨然一副“百模大战”的场景。
根据《科创板日报》记者约访的人工智能行业人士反馈来看,业内目前还没有就具体模型给出直接的评判定论,但他们提供了一些维度,供外界做参考。
Ethereum Fair 宣布推出 ETF Grant 及生态激励计划:9月20日消息,目前 Ethereum Fair 官方宣布推出生态激励计划以及ETF Grant。ETF Grant 将对生态项目进行资助,通过资助优质项目实现资源的管理和利用,持续为优质项目提供全面资金和技术支持,重点资助与Ethereum Fair生态相关的开发和研究工作,Grant 计划将在 Web3 和ETF生态发展中产生长期的积极影响。[2022/9/20 7:08:43]
思必驰联合创始人兼首席科学家、上海交通大学教授俞凯在接受《科创板日报》记者采访时表示,一个必须要承认的事实是,现在的大模型,只有ChatGPT通过了通用性测试,国内大模型与之对比,均还存在差距。
俞凯告诉记者,衡量一个大模型实力,第一是可以基于任务的性能测试,即通过定义任务集的方式,去比较所有大模型在每个任务上面的完成度。这种性能测试与人类能力对齐,包括理解能力、推理能力、判断能力等。根据现在的反馈,任务性能测试上,包括ChatGPT在内,没有一个大模型能够全部达标。
第二,从安全性角度去判断,这一点更多的体现为大模型与人类价值观的耦合程度。
第三,是模型运行角度,从工程特性去判断。“这是一个特别重要的能力。”俞凯强调,如该大模型能够接收多大的文本、回答反应的速度、运行的性能等。
Prime Blockchain宣布与10X Capital Venture结束12.5亿美元的合并交易:金色财经报道,空白支票公司10X Capital Venture周一表示,它已经终止了与加密货币采矿和基础设施公司Prime Blockchain的12.5亿美元合并交易。(路透社)[2022/8/16 12:28:35]
俞凯所言,侧重于技术指标。当然,也有从资源禀赋层面作出判断的。
大模型领域资深行业人士王钧则告诉记者,做大模型对团队要求非常高,资金、技术、工程、产品、商业化等多个方面都不能有短板,最终考验的是:核心成员对大方向、大节奏有没有真正想清楚,能不能获取足够多的资源和支持,能否吸引各方面的关键人才加盟,吸引了一群不同背景的牛人之后,能不能磨合好。
“其中最稀缺的是核心算法研究和平台工程的技术人才,这方面整个华人圈子人数都不多。”王钧强调。
人才之争,这在大模型市场的起势阶段已有十分鲜明的写照。
“先发制人”的百度,派出的掌舵者是CTO王海峰,创业者团队中,澜舟科技的周明,衔远科技的周伯文等,他们在人工智能行业的影响力已经无需多言。此前,高调官宣人工智能创业的王慧文,入局的第一步就是在其个人社交媒体平台发英雄帖,重金招聘顶级研发人才。
yearn.finance为DAI和USDC金库推出许可存款功能:12月8日,yearn.finance官方发文公布项目进展。内容显示,Yearn.Finance核心开发者banteg宣布推出许可存款功能(permit-deposit)。该功能可供DAI和USDC的金库使用,用户可在单笔交易中使用签名许可将资金存入DAI和USDC金库,可实现零交易费用。[2020/12/8 14:37:04]
“判断做得好不好的标准,不能看各公司自己的宣传,一些业界公认的评测基准当然也可以作为参考,但最重要的还是用户的认可,用户尤其是高频或者付费用户最多的才是最好的。”王钧称。
逼近了AGI核心产业应用“泛化性”才是关键
囿于各种商业原因,对于各公司大模型实际的数据、测试反馈指标、投入的资源情况,乃至用户数据等,外界很难全然知晓,那么对其实力情况,也很难去做全然科学的判断。
但记者注意到,受访者们均提到了一个显性的评测角度,那就是“用户反馈”,如回答的反应速度、准确性、可用性、上下文连贯逻辑等。这也是为何,每逢一个大模型新品推出,用户第一时间会去关注回答是否会“翻车”。
就国内当下几个代表性大模型,《科创板日报》记者此前均有过实际体验,结合多位用户的使用反馈,目前大模型整体呈现如下特征:
Chainlink参与Gitcoin资助计划以支持以太坊基础设施项目发展:据11月30日消息,Chainlink宣布通过参与开源软件资助平台Gitcoin的第8轮Gitcoin Grants计划,以支持有需求的以太坊基础设施项目的发展。注:Gitcoin Grants是Gitcoin的二次资助计划模式,用户捐款会获得一定比例的匹配资金,用以资助加密项目。(AMBCrypto)[2020/11/30 22:31:19]
ChatGPT-4是一个多模态大型语言模型,支持图像和文本输入,以文本形式输出,在“模拟人类”的文本输出方面,以及用户规模上,综合实力领先。
相比之下,国内大模型种类多样,能力各有千秋,目前更注重探索产业应用,用于解决产业技术壁垒问题。
在中文语义方面,国内包括文心一言、千义通问等各模型理解能力有高有低,并未明显拉开距离。在对刁钻中文语句的理解方面,因国内大模型的训练数据主要来自中文语料库,相比于ChatGPT主要来自英文语料库,国产大模型因而会更胜一筹。
但也有个例。复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,其英文回答水平比中文高,原因在于,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,且相较中文数据,英文数据开源程度高。
印度第五大IT公司将投资1亿加元推动区块链和AI发展:印度第五大IT公司Tech Mahindra未来5年将投资1亿加元建立一个英才中心,旨在推动发展区块链和AI解决方案。在此之前,该集团及其子公司曾在区块链领域进行过数个试点项目。2016年11月,Tech Mahindra公司宣布正与IBM合作开发一个许可的,基于分布式账本技术的“金融供应链”系统。在2017年1月,有消息称Tech Mahindra公司计划在印度以外的地方建立一个区块链初创企业孵化基地。[2018/2/24]
另外,MOSS在设计时考虑了人类的伦理道德准则,不会产生有偏见或可能有害的回答,这在一定程度会避免一些潜在的法律风险和商业伦理问题。这一点上,ChatGPT则没有明确地处理。
大模型测评声仍在此起彼伏。但俞凯坦言,目前去评判各模型能力如何以及好坏,其实不是合适的时间点。
在他看来,现在已经面世的大模型,变革在于,基本都已实现思维链的涌现能力,逼近了AGI最核心的部分,业界现在更关注大模型是否有足够的“泛化性”,即广泛使用,但从产业角度而言,国内大模型的用户量级也还未达到泛在化。
“在未达到广泛的通用性之前,以通用性的标准去做评判,还是需要慎重。”俞凯强调。
大模型并未过剩先发者未必就是"王者"
多个模型短期内同时涌向市场,也有观点提出,现在需要这么多大模型吗?换句话说,大模型现在过剩了吗?
行业普遍认为,尽管现在这么多大模型出现,但还远达不到过剩的程度。
王钧认为,大模型对厂商的技术、资金、实力要求,目前只能说现在的产品刚刚能够用得上。
俞凯表示,未来的行业AI应用范式将从一个通用模型变成一簇通用模型,大模型会分化,如按照领域区分,按功能区分,结合具体行业具体场景。现在来看,非常专业的精深大模型还没出来,这些会在今后不断涌现。
达观数据创始人兼CEO陈运文在接受《科创板日报》记者采访时也表示,大模型赛道目前国内是处于探索赶超阶段,技术本身也还不成熟,未来还有很大的成长空间,“就像现在的饮料品牌一样,如果拉长时间线来看,今天的大模型数量其实并不多。”
那么在未来,行业的终局,究竟是百花齐放,还是赢家通吃?
俞凯和陈运文均表示,未来将会是百花齐放的状态,原因就在于现在正处于起步阶段,未来大模型在每个行业里面生长出来的产品形态都会不一样,而面向不同的行业,也将会出现垂直行业的应用模型。
王钧则表示,大模型的高门槛决定了这是少数玩家才能做的事情,未来不会是百花齐放的姿态,但究竟会不会像搜索引擎一样一家独大,还是操作系统只有两三家的局面,亦或是云计算多家发展的格局,“现在没法判断,还是有些变量。”
多位资深业内人士告诉《科创板日报》记者,在人工智能大模型上,OpenAI只是暂时一个暂时领先的“先发者”,微软绑定OpenAI后确实取得了一定的竞争优势,但要看到谷歌、亚马逊、Meta等也正在奋起直追。未来到底哪家公司能够携AI大模型取得类似苹果今天一样的全球市场地位,目前还极难判断。先发者并不是最后王者的案例太多太多,以中国互联网发展为例,最先出发的是新浪、搜狐、网易,但后面真正切得大蛋糕的却是腾讯、阿里和字节等。
要更多地关注和深入思考AI的应用场景
无论是诧异ChatGPT的惊人表现,还是对“百模大战”的思考,今日种种关于大模型的讨论,本质无外乎这场技术革命给人类带来的机会和挑战。
但在网易有道CEO、计算机科学博士周枫看来,在这场技术风潮讨论中,还有一个问题没有被充分讨论,那就是大模型带来的新能力中,哪些是最为关键的,最有可能带来长期影响的。
周枫认为,与之前众多的自然语言处理技术相比,大语言模型至少具有三项根本性新能力:涌现能力、作为基座模型支持多元应用的能力、支持对话作为统一入口的能力。
周枫表示,涌现能力之所以重要,不仅因为它们是大模型出现后才有的新能力,而且由大模型涌现出来的,多数是非常重要的能力。例如,常识推理能力一直是AI领域的重大难题,而大模型的出现使得常识推理取得了重大进展。再比如,一旦‘推理‘能力涌现,“思维链提示”策略就可以用来解决多步推理的难题。“因此,涌现能力的出现,是大模型带来的一项根本性变化”。
在基座模型方面,周枫说到,大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为AI应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。
本轮让大语言模型真正火爆的契机,是基于对话聊天的ChatGPT。周枫表示,虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。未来或将涌现出很多类似的以对话形态让助手完成各种具体工作的项目。
“这三项能力在学术界已经被广泛讨论,甚至被视为常识,但是在产业界和产品团队中却缺乏足够的关注。”周枫称,“这些大模型技术的特点已经改变了我们对业务和产品规划的思考方式,也会改变很多产品的经济模型。因此,产品经理和业务负责人需要更多地关注和深入思考这些新能力的应用场景。”
俞凯也认为,在这场技术变革,除了技术层面的参数量级,资源层面的算法、算力、数据、人才资金等的讨论,更需要关注的是,除大语言模型之外,其他与人工智能体系相关的东西。
这些就包括对语言的理解,对对话式人工智能的理解,以及对多模态人工智能的理解等。这些不仅是单独算法的问题,还关涉业务,训练策略,以及对人工智能技术历程的理解。
起初,很多人认为空投效应所引起的Arbitrum爆发式增长会转瞬即逝。但数据不会说谎,以下5张图表可以证明Arbitrum的快速发展将持续下去.
自成立Bankless以来,Ryan和我一直怀着崇高而独特的抱负打造它:让10亿人使用加密技术.
原文:《解读Base和Linea:为何Coinbase、ConsenSys等加密巨头纷纷布局Layer2?》作者:饼干.
编译丨海伦无忌 来源:腾讯科技 图片来源:由无界AI工具生成 丨划重点 ①AIGC火了,但在最近这波竞争浪潮里,苹果早些年推出的主打语音智能的Siri,处境却并不理想.
吉尔吉斯斯坦与比特币矿工的关系很复杂。如果做得好,比特币开采对吉尔吉斯斯坦来说可谓是一个巨大的机会。吉尔吉斯斯坦,一个位于中亚山区的小型发展中国家,比特币正成为其出口贸易越来越重要的组成部分.
前两周长沙出差,结识了一个很有意思的朋友,超维元宇宙的华群总。晚宴之时,我们坐隔壁桌,一开始是普普通通的常规社交尬聊,不知怎么就聊到区块链代币激励,我说:你看过那本《公司制的黄昏:区块链思维与数.