瘍雯新闻网
文|投资界
文|投资界
红杉中国,以出乎料想的方式刷屏海内AI圈。
今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇表明其事情原理的论文。这是自2022年ChatGPT扑灭AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。
过去两年多里,AI benchmark渐渐成为评估基础大模型和AI Agent能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试系统,而众多的基础大模型和AI Agent就像一个个高三学生,不断在各种题库里刷题,测试能力、提拔成绩。
但是快速发展的基础模型和AI Agent究竟不是平凡的高三学生,题库很快被刷爆,并且反复获得高分甚至满分的成绩。这时候,一个重要的问题就涌现了:到底是学生变智慧了,照样卷子出了问题?
睁开剩余 81 %红杉中国出品,有何不同?
xbench最早是红杉中国在2022年ChatGPT推出后,对AGI历程和支流模型进行的内部月评与汇报。在建设和不断升级“私有题库”的过程中,发现支流模型“刷爆”题目的速度越来越快,基准测试的有效时候在急剧缩短。
OpenAI研究员姚顺雨个人博客(评估的有效时候在急剧缩短)
在官宣的技能报告中,红杉中国提出了这个让AI界头疼的问题:想要真实地反应AI的客观能力正变得越来越困难,怎样构建越发迷信、长效和照实反应AI客观能力的评价系统,正成为指引AI基数突破与产品迭代的重要需求。
迷信、长效和照实反应,切中了当前AI基准测试的痛点。红杉中国透露表现,xbench的推出,是在“评估和推动AI系统提拔能力下限与技能边界”的同时,“重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破”。
xbench采用双轨评估系统,构建多维度测评数据集,同时追踪模型的实际能力下限与Agent的实际落地价值。该系统立异性地将评测任务分为两条互补的主线:第一,评估AI系统的能力下限与技能边界;第二,量化AI系统在真实场景的效用价值(utility value)。个中,后者需要静态对齐现实世界的应用需求,基于实际事情流程和具体社会角色,为各垂直领域构建具有明白业务价值的测评标准。
此外,xbench采用长青评估(Evergreen Evaluation)机制,通过持续维护并静态更新测试内容,以确保时效性和相关性。xbench会按期测评市场支流Agent产品,跟踪模型能力演进,捕捉Agent产品迭代过程中的关键突破,进而展望下一个Agent应用的技能-市场契合点(TMF,Tech-Market Fit)。
有用和长青,成为了xbench最大的两个亮点:前者让xbench脱离了市面上很多基准测试中纯真的“智力测验”,后者则形成对AI能力的一连性评估,从而更早更快地推断出AI技能或产品完成落地的“奇点”将涌现在哪里。
价值在哪里?
如果仅仅是推出一款基准测试工具,这在形式上并不新鲜,但连系xbench的特点以及红杉中国的行业地位,此举的意义和造成的影响可能会超越平凡的基准测试本身。
两年多前,ChatGPT的横空出世终于让AI不再是纸上谈兵,给大众看到了实实在在的价值。这就像iPhone的出生被视为移动互联网的劈头一样,不少人将其比方为AI时代的iPhone moment。
10多年前,iPhone等智能终真个涌现和移动通信技能的进步,给移动互联网时代夯实了地基,最直接的显示就是智能手机APP的大爆发。如今,大模型成为了AGI时代的基础设施,AI应用正在像“全民APP”时代一样,呈现出雨后春笋的苗头。
谁人“英雄不问出处”的年代似乎又重现了。移动互联网时代的统统都有望被AGI重构,而且大大降低了立异的成本。未来,一个有划时代意义的AI Agent,不一定非来自于大厂,它或许是某位较量争论机专业大学生的课后作业,甚至是某个高中生极客的灵光一现。
在这个新叙事下,TMF(技能-市场契合)正成为AGI创业的新范式:对大模型的能力和发展有清楚了解,并在这个基础上找到场景,开收回真正有需求的产品。
xbench的涌现,就切中了大模型和Agent的TMF上。在技能报告里,红杉中国用三张图细致表明了TMF在Agent领域创业的阶段:
第一个阶段,未达成TMF:技能可信与市场接受地区没有交集,此时Agent应用仅是工具或概念,没法交付结果或规模化产生价值;Agent对人的影响较小。
第二个阶段,Agent与Human共同事情:技能可信与市场接受地区发生交集,交叉地区是AI带来的价值增量,包括:一,以低于最低人类成本供应可行服务;二,赞助提拔应对重复性、质量要求中等的事情内容。而高水准的事情内容,由于数据稀缺、难度更高、依然需要人来执行,此时由于稀缺性,企业猎取的AI收入可能会被用于领取高端事情产出。
第三个阶段,专业化Agent:领域专家在构建评估系统,并指引Agent迭代。专家的事情从交付结果转向构建专业评估锻炼垂类Agents,并供应规模化服务。
阶段1到阶段2的转变是由于AI技能突破、算力与数据的规模扩大带来的;阶段2到阶段3的希望则依赖于熟悉的垂类需求、标准、历史经验的专家。
如果说这是AGI时代的价值转移之路,那xbench就有望成为这条转移之路上的瞭望塔,第一时候看到和抓到AI技能与产品的突破。
投资机构扎的更深了
在此之前,几乎很少有投资机构会去发表一篇学术论文。投资人更多照样在贸易化的指标里去评估一个项目的价值,再辅之以一系列理性的、微妙的推断。
当AGI的大潮澎湃到来之时,传统的打法正在发生变化。xbench在技能报告最后,收回了社区共建的号召:基础模型与Agent开发者可以使用最新版本的xbench评测集来第一时候验证产品效果,得到内部黑盒评估集得分;垂类Agent开发者和相关领域的专家或企业,可以与xbench共建与发布特定行业垂类标准的Profession-Aligned xbench;以及从事且具有明白设法主意的AI评测研究者,可以猎取专业标注并长期维护xbench的更新。
成为标准的订定者,打造一个高人才密度的社区,在不断寻找和推动AI技能下限的过程中寻找贸易化落地的机会,这或许是红杉中国在AGI时代给出的投资新范式。
发布于:北京市