红杉我国，刚刚发了一篇Paper

瘍雯新闻网

红杉我国，刚刚发了一篇Paper

2025-05-27 15:30:12

阅读（7115）

文｜投资界

红杉中国，以出乎料想的方式刷屏海内AI圈。

今天，红杉中国对外宣布推出一款全新的AI基准测试工具xbench，并发布了一篇表明其事情原理的论文。这是自2022年ChatGPT扑灭AGI赛道之后，第一家由投资机构主导发布的基准测试（Benchmark），给火爆的AI圈增添了新的话题。

过去两年多里，AI benchmark渐渐成为评估基础大模型和AI Agent能力的通用工具，海内外高校、研究机构和AI公司推出了大量不同维度的测试系统，而众多的基础大模型和AI Agent就像一个个高三学生，不断在各种题库里刷题，测试能力、提拔成绩。

但是快速发展的基础模型和AI Agent究竟不是平凡的高三学生，题库很快被刷爆，并且反复获得高分甚至满分的成绩。这时候，一个重要的问题就涌现了：到底是学生变智慧了，照样卷子出了问题？

睁开剩余 81 %

红杉中国出品，有何不同？

xbench最早是红杉中国在2022年ChatGPT推出后，对AGI历程和支流模型进行的内部月评与汇报。在建设和不断升级“私有题库”的过程中，发现支流模型“刷爆”题目的速度越来越快，基准测试的有效时候在急剧缩短。

OpenAI研究员姚顺雨个人博客（评估的有效时候在急剧缩短）

在官宣的技能报告中，红杉中国提出了这个让AI界头疼的问题：想要真实地反应AI的客观能力正变得越来越困难，怎样构建越发迷信、长效和照实反应AI客观能力的评价系统，正成为指引AI基数突破与产品迭代的重要需求。

迷信、长效和照实反应，切中了当前AI基准测试的痛点。红杉中国透露表现，xbench的推出，是在“评估和推动AI系统提拔能力下限与技能边界”的同时，“重点量化AI系统在真实场景的效用价值，并采用长青评估的机制，去捕捉Agent产品的关键突破”。

xbench采用双轨评估系统，构建多维度测评数据集，同时追踪模型的实际能力下限与Agent的实际落地价值。该系统立异性地将评测任务分为两条互补的主线：第一，评估AI系统的能力下限与技能边界；第二，量化AI系统在真实场景的效用价值（utility value）。个中，后者需要静态对齐现实世界的应用需求，基于实际事情流程和具体社会角色，为各垂直领域构建具有明白业务价值的测评标准。

此外，xbench采用长青评估（Evergreen Evaluation）机制，通过持续维护并静态更新测试内容，以确保时效性和相关性。xbench会按期测评市场支流Agent产品，跟踪模型能力演进，捕捉Agent产品迭代过程中的关键突破，进而展望下一个Agent应用的技能-市场契合点（TMF，Tech-Market Fit）。

有用和长青，成为了xbench最大的两个亮点：前者让xbench脱离了市面上很多基准测试中纯真的“智力测验”，后者则形成对AI能力的一连性评估，从而更早更快地推断出AI技能或产品完成落地的“奇点”将涌现在哪里。

价值在哪里？

如果仅仅是推出一款基准测试工具，这在形式上并不新鲜，但连系xbench的特点以及红杉中国的行业地位，此举的意义和造成的影响可能会超越平凡的基准测试本身。

两年多前，ChatGPT的横空出世终于让AI不再是纸上谈兵，给大众看到了实实在在的价值。这就像iPhone的出生被视为移动互联网的劈头一样，不少人将其比方为AI时代的iPhone moment。

10多年前，iPhone等智能终真个涌现和移动通信技能的进步，给移动互联网时代夯实了地基，最直接的显示就是智能手机APP的大爆发。如今，大模型成为了AGI时代的基础设施，AI应用正在像“全民APP”时代一样，呈现出雨后春笋的苗头。

谁人“英雄不问出处”的年代似乎又重现了。移动互联网时代的统统都有望被AGI重构，而且大大降低了立异的成本。未来，一个有划时代意义的AI Agent，不一定非来自于大厂，它或许是某位较量争论机专业大学生的课后作业，甚至是某个高中生极客的灵光一现。

在这个新叙事下，TMF（技能-市场契合）正成为AGI创业的新范式：对大模型的能力和发展有清楚了解，并在这个基础上找到场景，开收回真正有需求的产品。

xbench的涌现，就切中了大模型和Agent的TMF上。在技能报告里，红杉中国用三张图细致表明了TMF在Agent领域创业的阶段：

第一个阶段，未达成TMF：技能可信与市场接受地区没有交集，此时Agent应用仅是工具或概念，没法交付结果或规模化产生价值；Agent对人的影响较小。

第二个阶段，Agent与Human共同事情：技能可信与市场接受地区发生交集，交叉地区是AI带来的价值增量，包括：一，以低于最低人类成本供应可行服务；二，赞助提拔应对重复性、质量要求中等的事情内容。而高水准的事情内容，由于数据稀缺、难度更高、依然需要人来执行，此时由于稀缺性，企业猎取的AI收入可能会被用于领取高端事情产出。

第三个阶段，专业化Agent：领域专家在构建评估系统，并指引Agent迭代。专家的事情从交付结果转向构建专业评估锻炼垂类Agents，并供应规模化服务。

阶段1到阶段2的转变是由于AI技能突破、算力与数据的规模扩大带来的；阶段2到阶段3的希望则依赖于熟悉的垂类需求、标准、历史经验的专家。

如果说这是AGI时代的价值转移之路，那xbench就有望成为这条转移之路上的瞭望塔，第一时候看到和抓到AI技能与产品的突破。

投资机构扎的更深了

在此之前，几乎很少有投资机构会去发表一篇学术论文。投资人更多照样在贸易化的指标里去评估一个项目的价值，再辅之以一系列理性的、微妙的推断。

当AGI的大潮澎湃到来之时，传统的打法正在发生变化。xbench在技能报告最后，收回了社区共建的号召：基础模型与Agent开发者可以使用最新版本的xbench评测集来第一时候验证产品效果，得到内部黑盒评估集得分；垂类Agent开发者和相关领域的专家或企业，可以与xbench共建与发布特定行业垂类标准的Profession-Aligned xbench；以及从事且具有明白设法主意的AI评测研究者，可以猎取专业标注并长期维护xbench的更新。

成为标准的订定者，打造一个高人才密度的社区，在不断寻找和推动AI技能下限的过程中寻找贸易化落地的机会，这或许是红杉中国在AGI时代给出的投资新范式。

发布于：北京市

赞 15 收藏

红杉我国，刚刚发了一篇Paper

热门文章

最新文章

滚动文章