C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  四级军士长

注册:2007-10-294
发表于 2024-12-19 23:37:35 |显示全部楼层

亚星游戏官网-yaxin222


「第一」「最强」叙事,是对复杂场景的简单化。

编辑 | Cynthia

编辑| 郑玄




没有刷不了的榜,只有还没 over-fitting 的数据集;

没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?

去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。

亚星游戏官网-yaxin222


吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如,使用测试集中数据提问 phi-1.5,模型会立即给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立即变得牛头不对马嘴幻觉频出。

原因很简单,为了刷榜,模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集,做了针对性训练。

过拟合的 A 面,是让模型在打榜过程中取得了人人都是大模型第一的地位,B 面则是,模型的泛化能力被极大削弱,失去了大模型应有的创造与思考的能力。

大模型落地,苦「第一」久矣。尽管,这已经成为大模型产业心照不宣的秘密。

那么,「第一」真的代表更强的能力吗?所谓的最强大模型真的存在?行业落地,又到底需要怎样的标准?

或许,前赴后继的刷榜本质,是独属于大模型产业的强者傲慢。

01

最佳大模型的傲慢与偏见

一定程度上,基准测试失真,于大模型而言,表面上看是标准问题,实际上是宣传问题,本质上则是如何落地的商业模式难题。

Scaling law 的主导下,进入万亿参数时代的大模型强者恒强成为唯一的生存密码:根据公开信息披露,仅 GPT4 就有约 1.8 万亿参数,其训练过程,需要消耗约 2.15e25 FLOPS 算力,更直观来说,需要约 25,000 个 A100 GPU,马力全开,训练足足 100 天。以云上每个 A100 GPU 每小时 1 美金来算,理想情况下,一次训练的成本就需要花费至少 6000 万美金。

与此同时,头部大模型玩家,平均两个月左右,就会迎来一次技术或产品的迭代;而形成鲜明对比的是,国内的大模型六小龙,即使如今估值最高的智谱,算上最新一轮融资,其总融资额,也不过 55 亿。

一边是不断膨胀的参数,不断增加的成本;一边是盲盒黑箱式的技术原理,与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值,打榜自然也就成了最直观的捷径。

但这一切的前提是,大模型落地,真的存在所谓的最强大模型吗?

答案或许是否定的。

技术落地与研究不同,具体到场景之中,强如 Open AI、GOOGLE与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求,往往对应着不同的最优解法:其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku;GPT 4o 分为标准版与 mini 版;GOOGLE Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是,各大模型的增强版与 mini 版,在实际部署中,往往是拥有更低时延与低成本优势的 mini 版本,会更受欢迎。

亚星游戏官网-yaxin222


即使单纯聚焦到技术的单一维度,「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中,各家大模型评分往往各有千秋;而一旦将视角转为写作、绘画、视频生成,那么如何评定最优大模型,1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台,AMAZON云科技,就曾注意到:在AMAZON云上,不同开发者往往会关注不同性能,比如,有人会关注更低的延迟、更低的成本,有人更关注模型是否具备微调能力、能更好地协调不同常识库以固定数据,还有团队更关注模型的多模态能力,或者常识扩散迁移能力。

也是因此,什么才是所谓的最强大模型,在一轮轮热潮中,这个话题被反复讨论、被热议、被反思,但从来未被解决。

但可以肯定的是,任何单一维度的「第一」「最强」叙事,都是对复杂场景的简单化。

02

Choice is All You Need

「最强」=无敌,只是技术至上者的傲慢,以及对用户真实需求的偏见,这一点已经在无数行业中被反复证实。

二十一世纪初期,许多经济学家、产业学家,在观察了日本一众历史优势产业的发展之后都发现了一个怪状:

无论电视机,亦或半导体,乃至汽车,日本无疑是「最强」叙事的顶级推崇者,以及最佳实践案例,但最终的解决却无一例外,集体走向没落。

比如,日本的电视,在显像管时期做到画质最高,却在短短几年被更轻薄的液晶打败;日本面向大型机时代研发的存储芯片,一度做到保质期 30 年,却在消费电子浪潮中被韩国SAMSUNG质量参差不齐的低价「次品」打败;日本的汽车,在燃油车时代无疑是最耐用、最保值的代名词,甚至是新能源时代,也一步到位发展了最清洁的氢能源燃料电池,却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰?生物学家给出了解答——日本产业,陷入了加拉帕戈斯陷阱,一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」,往往在面对复杂的真实场景与需求会显得格格不入,乃至不堪一击。

相比「最佳」,行业更需要的是,需求被看见,过程有的选,结果更适合。

就像数据库领域,即使传统的 SQL 数据库已经常年占据统治地位,依然会有各种各样的 noSQL 数据库冒出,甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架,也是个最好的例子,TensorFlow 之前,cafe 就足以满足市场的需求,但此后 TensorFlow 出现,一统天下,然而,没几年后,PyTorch 就横空出现,从学术领域出发逆袭,成为一代新的框架之王,但与此同时,TensorFlow 以及其他小众 AI 框架,依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

AMAZON CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上,就分享了这样一个观察:

亚星游戏官网-yaxin222


「在AMAZON内部,所有开发者都有自主选择的权利,原本以为大家都会选用 Anthropic 的 Claude 模型,毕竟过去一年多它在全球属于性能顶尖的模型,确实有很多内部开发者在使用 Claude 模型,但他们也会采用 Llama 模型、Mistral 模型,还会运用自己开发的一些模型,甚至会使用自行研发的模型。」

比如,金融行业更需要内容生成的绝对准确性;大部分企业,则需要在性能与成本之间,做反复的平衡。甚至,同样是绘画,在诸如还原山海经之类场景中,大模型幻觉就是产生想象力的最佳礼物;而在绘制写实风漫画或人物建模,任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门,那么与其替用户选择,不如给足用户选择。

03

AMAZON云科技的 Choice matters

事实上,让客户有的选,是各大公有云厂商都在宣传的口号。但何谓有的选,选择的范围如何,背后的定义却往往各有千秋。AMAZON云科技无疑是其中,最开放、最激进的一个。

在AMAZON云科技,有的选,可以被解读出三重含义。

第一重,性能还是成本,用户有的选。

re:Invent 期间,AMAZON云科技推出全新发布的自研 Nova 基础模型,一共包括 Micro、Lite、Pro、Premier 四个版本。其中,可以做到 210 tokens/s 的 亚马逊 Nova Micro 是纯文本模型,主打高效级;其余三大多模态大模型中,Lite 主打轻量级,Pro 主打平衡,旗舰模型 亚马逊 Nova Premier,则主要用于应对复杂任务。

亚星游戏官网-yaxin222


第二重,AMAZON云科技 or 其他,用户有的选是最高原则。

相比自研的 Nova 基础模型,如何支撑更多的模型上架AMAZON云科技,才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型,AMAZON云科技的大模型货架 亚马逊 Bedrock 不仅上架自家的 Nova 系列,同时还上线了AMAZON投资的 Anthropic 的 Claude 系列。

此外,亚马逊 Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型,金融领域的 Palmyra-Fin,翻译明星 Solar Pro,多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai,生物学方向的 ESM3 生成式生物学模型,也全部在 亚马逊 Bedrock 上架。

主打一个从自研到第三方,从文本到多模态,从通用到垂直,只要用户需要,亚马逊 Bedrock 应上尽上。

当然,不只是有的选,最重要的也就是第三层,AMAZON云科技不仅要让客户有的选,更能低成本的选。

如果只是上架第三方模型,那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员,能够真正做到不偏心自研产品,以用户需求为导向,还需要观察云服务企业究竟如何设计用户选择的门槛。

首先是定价,如何在AMAZON云科技销售模型,定价由模型提供商自行设置。

与此同时,为了降低用户使用大模型的成本以及选择难度,亚马逊 Bedrock 还提供了自定义微调和模型蒸馏(Model Distillation)功能以及多智能体协作工具(Multi-agent collaboration)、自动推理检查(Automated Reasoning checks)等功能。

亚星游戏官网-yaxin222


一方面,帮助企业更好的选择合适的模型,另一方面,加速不同的模型与智能体之间的高效协同。

当然,这种有的选,不止体现在模型侧,在算力、数据库领域同样如此。

比如,在算力上,AMAZON云科技会提供不同层级的 EC2 实例,用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer,不必受限于单一芯片平台或算力方案。

数据库方向,AMAZON云科技打破 CAP「困境」,推出无服务器分布式 SQL 的数据库 亚马逊 Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库 亚马逊 DynamoDB global tables,敬重客户真正的需求。

从模型到算力再到数据库,一切决策的最高原则都是「Choice matters」,让用户去自由决策。

04

尾声

在经济学中,有一个有趣的悖论叫古德哈特定律。

其提出背景是,一旦大家过度关注乃至管理一个经济指标时,往往会为了达成这一指标而扭曲真实目的,以至于牺牲其他方面的利益,以至于指标本身失效。

AI 领域同理,当参数与性能变成唯一指标,其强大的扭曲力场会让真实的用户需求被忽略。

尽管,用 AI 替代客服所以更关注成本,用 AI 帮助手残画出想要的画面所以更关注多模态能力,用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革,才是 AI 改变世界的真正组成。

而在这一过程中,用户的真实需求被看见,被敬重,有选择,正是一切进步发生的基础。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

大模型跑分会成为一门生意吗?

亚星游戏官网-yaxin222


马斯克:创业成功的原因是因为我可以判断员工是否擅长工程设计。

点赞关注极客公园视频号










来源:网易

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-25 14:13 , Processed in 0.238519 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图