• 2025-05-12 11:53:43
  • 阅读(7376)
  • 评论(16)
  • 作者 |豹变张力

    作者 |豹变张力

    近期,李想带着他的VLA司机大模型再谈AI,距离上一次他开诚布公地谈AI和理想的未来,已往了整整130天。

    130天没有长,但足以让自动驾驶和AI领域改天换地。1月下旬,DeepSeek公布开源推理大模型DeepSeek-R1,连续破圈,在国内引爆新一轮人工智能高潮。上一次理想AI talk中,李想着重夸大自研基座大模型的重要性,“未来几年必须得保证,我们大说话模型的基座模型要做行业前三”。

    而随着DeepSeek-R1横空出世,理想转而基于DeepSeek的开源去做VLA(视觉说话行动模型)的L(language说话)部分,也就是说话模型开发。选择站在巨人的肩膀上,理想汽车在VLA司机大模型的说话能力研发上提速显著,俭省了近9个月的时候和数亿元本钱。

    同一时候里,智能驾驶由于事故频发,遭受平安可靠性质疑,迎来至暗时候,没有过,在李想看来,现阶段对照像黎明前的黑暗,正由于辅助驾驶行业遇到了问题,解决问题才更有价值。

    AI的潜力在解决问题的过程中正变得具象化。没有止理想,小鹏、蔚来这两家与理想差没有多同期创业的造车新势力也在押注AI。

    展开盈余 88 %

    李想称“AI意味着理想未来的全部”,蔚来首创人李斌断言“一家成功的智能电动车公司,也肯定是一家成功的AI公司”,小鹏汽车首创人何小鹏喊出“All in AI”,打造面向全球的AI汽车公司。

    实际上,这面前争夺的是下一代汽车、甚至产品的定义权,以及与此相伴的技术、用户与商业模式的全面重构。

    造车迈入“AI新疆场”

    蔚小理对AI的决心,要追溯到特斯拉的FSD(Full Self-Driving)V12的冲破性进展。

    2024岁首年月,特斯拉智驾团队担任人在X(前推特)上介绍,FSD V12仅训练几个月,就已完全超越经过量年积存的FSDV11。FSD突然变强,是由于他们采纳了一种新的端到端(end to end)的神经网络技术,把传统的感知、决策、控制融会到一个模型中,通过输入信息直接发生执行行动,就跟人在开车时,根据路况做出即时反应一样。

    如许冲破性的进展,属于自动驾驶领域的“涌现”时候,与ChatGPT 3.5横空出世对大说话模型的意义势均力敌。 纵然没有停跟特斯拉硬刚的何小鹏,在体验过FSD V12之后,也没有得没有服,大赞“FSD V12.3.6表现极好,要向其进修”。

    在端到端大模型流行之前,自动驾驶的支流是模块化计划,包含感知、决策、执行三大模块,信息是逐级传导的,车上的传感器(如雷达、摄像头等),相当于人的眼睛和耳朵,把感知到的环境信息,传导到决策模块,雷同于人的大脑,这个大脑里写满了各式百般的规则,决策模块根据这些规则计划出最佳的行驶门路,最终告知给执行模块,相当于人的手和脚,执行转向、加快、刹车等行动。

    模块化计划的一个最大缺陷是,驾驶场景变化多端,决策模块中的规则代码只能越写越多,FSD 11的代码就多达30多万行,大大影响执行服从,更要命的是遇到没有被规则写入的场景,自动驾驶模块就会没有知所措。

    端到端的计划则完满是另一种思绪,外部信息输入自动驾驶大模型,然后直接输出执行行动,整个决策的过程没有工资规则去干涉干与,纯靠模型自己去进修试探如何驾驶才是更好的。以是FSDV12的代码从30多万行缩减到只剩3000行,而且一级一级的信息传输变成端到端的传输,信息传递变得更加准确,且没有损耗,也可以让大模型更正确地掌握全局状况。

    特斯拉把大批真实的驾驶数据投喂给端到端大模型,它就像一个无意识会主动进修的小学生一样,通过模仿观察人类的驾驶视频,涌现出跟老司机一样的智慧。

    在特斯拉影响下,国内智驾门路也因此开始技术转向,2024年端到端大模型开始加快上车。

    但这个进修过程必要较长的时候,而且有可能会出错,就像你必要给小学天生长的时候和空间,而且它是如何进修的,完满是黑箱的状态,这种弗成表明性会严峻影响研发和问题解决的进度,由于涌现问题,研讨人员没有晓得可以从那里提升。

    以是特斯拉在面临复杂路况或者极端情况时,表现的其实没有如意,比如极端大雾、大雨天无法识别妨碍物,但短时候内又难以解决,目前已知的途径就是没有断提升数据质量和数量,但真实且有价值的数据必要时候来积存。

    国内的端到端大模型与特斯拉也并非完全一致。小鹏采纳了分段式“端到端”,把大模型分别引入感知、计划等模块,两头通过人工编写的规则连接。这是一个相对折中的计划。然则连接仍由人工定义,这意味着信息肯定程度的丧失,也晦气于自动化。

    理想在2024年的技术途径取名为端到端+VLM(Vision-Language Model) 双模型分立,理想表明为快系统和慢系统。

    前者如同前提反射,可以处理绝大部分常见场景,而后者则是像老司机的大脑,实时阐明路况,给出最佳的驾驶计划,仍旧没有是真正意义上的端到端。

    模型:端到端2.0的进化

    与此同时,在端到端1.0上显得滞后的蔚来选择了更保守的门路,直接进入智驾行业新方法论——世界模型阶段。

    2024年7月,蔚来创新科技日上公布了中国首个智能驾驶世界模型NWM(NIO WorldModel)。世界模型的核心能力是基于信息的明白,进行想象推演,从而计划轨迹。

    实际上世界模型的概念最早也是在人工智能领域涌现。

    简朴明白,这是一种天生式框架,通过明白实际世界的物理动态(如运动、力和空间关系),来模拟真实环境。这种模型利用多模态输入(文本、图像、视频、传感器数据)展望未来场景,并为自动驾驶端到端大模型天生合成数据,作为训练底子。

    中国的驾驶环境要比美国复杂的多,但市场又弗成能等自动驾驶大模型慢慢进修,达到一个老司机的水平再上线。将世界模型引入到自动驾驶领域,有助于解决数据数量和质量的问题,更无效的处理无量无尽的Corner case。

    蔚来的世界模型NWM(NIO WorldModel)上车表现如何,尚未可知,原本估计本年4月推送,但李斌透露,由于工信部新规窜改,必要等公告后能力进行推送。

    与此同时,理想、小鹏等也在加紧向端到端2.0进化,他们将重心放在搭建更为高阶的VLA(视觉-说话-行动)端到端大模型。

    这一次AI talk中,理想推出司机VLA(视觉-说话-行动端到端)大模型。李想表明,他把智能辅助驾驶分为三个阶段,分别是虫豸植物智能、哺乳植物智能以及人类智能。模块化属于虫豸植物智能,端到端属于虫豸植物智能,而VLA则属于人类智能。

    李想介绍,在VLA阶段,智能辅助驾驶可以像人一样观察世界,世界模型利用3D视觉和2D的组合构建更真实的物理世界,而非VLM阶段仅能看到一张图。此外,VLA具有自己的脑系统,没有仅能看到物理世界,更能进一步明白物理世界,具有自己的说话和头脑链系统,有推理能力,可以像人类一样去执行一些复杂行动。

    小鹏也正在搭建一个LVA基座模型,据介绍这是720亿参数的超大范围自动驾驶大模型,以大说话模型为骨架网络、利用海量优良驾驶数据训练的多模态大模型,具有视觉明白能力、长头脑链式推理能力(CoT)和行动天生能力,从而在充足明白实际世界的底子上,可以或许像人类一样进行复杂的知识推理,并将推理效果转化为行动。

    VLA侧重于多模态输入到行动的映照,而世界模型侧重于环境展望和模拟。两条途径也可以彼此辅助,比如世界模型可以为VLA提供长时间环境展望。

    李想在对谈中表示,理想选择用大批真实数据配合世界模型天生数据,来解决模型的黑盒问题,简朴来说就是给VLA司机大模型创建了一个测验的模型。

    算力:芯片比赛

    完成VLA大模型的训练,算法、算力和数据缺一弗成,ChatGPT的成功,激发全球AI比赛,致使全球算力紧缺,而算力完全仰赖芯片,蔚小理中最先结构芯片的是蔚来。

    李斌进军芯片最后的目的是省钱,市场上高阶辅助驾驶普遍利用的是英伟达Orin X,单颗售价在500美元左右,约合3600元群众币,以蔚来标配4颗Orin X的车型较量争论,光芯片一项的本钱就接近1.5万元。

    2024年NIO IN大会上,李斌从兜里取出已流片成功的神玑NX9031,打出的口号是全球首颗车规5nm高性能智驾芯片,而且一颗顶Orin X 4颗,在AI算力和ISP等首要目标上,至少有4倍以上的性能提升。神玑NX9031集成超过500亿颗晶体管,采纳32核心CPU架构,每秒可处理超过6万亿条指令。

    目前,这颗神玑NX9031已搭载到蔚来ET9,是蔚小理中最早正式量产上车的自研芯片。

    抛弃英伟达,转战自研芯片也是特斯拉淌过的路,由于随着算法的没有断演进,端到端大模型的进化,英伟达的芯片没有能满意自动驾驶公司本性化的需求,特斯拉第一代的FSD芯片早在2019年就量产了。

    小鹏的芯片团队在FSD芯片量产次年搭建,自研图灵芯片,业内以为小鹏选择了性价比更高的7nm制程芯片。据小鹏介绍,图灵芯片具有40核处理器,两个神经网络处理单位(NPU),支撑运转300亿参数的模型,其AI算力接近三颗英伟达Orin X芯片,综合性能上比蔚来的芯片低一些,但造价也会比神玑NX9031低。

    蔚小理中芯片还没出面的是理想,据说理想内部也在推进自研芯片项目,代号“舒马赫”,项目启动比蔚来、小鹏晚,且流片效果没有及预期,目前理想还是继续在英伟达的Thor-U MAX上做开发。

    泛化:从AI到呆板人

    集齐算法、算力再叠加纯AI公司难以获取的真执行车数据,蔚小理在发展AI上占得一些先机,而无论芯片,还是AI算法都可以泛化到汽车之外的行业,李想更是直接预言,“未来任何一家公司都是AI公司”。

    跟智能驾驶汽车最为接近的AI行业就是人形呆板人,由于他们都必要感知复杂的环境,做复杂且即时的决策交互,技术上也相通,都涉及自然说话处理、较量争论机视觉、呆板进修等。

    特斯拉仍旧是最先入局人形呆板人的汽车公司,2021年推出Optimus,马斯克也对人形呆板人寄予厚望,他估计Optimus将超过特斯拉其他业务的总和,这句话有几分可托度必要时候来考证。

    没有过,何小鹏明显是信的。小鹏是蔚小理中最早投入人形呆板人研发的,2023年推出第一代人形呆板人PX5,2024年又推出人形呆板人Iron,估计2026年开始产业化量产,追平特斯拉人形呆板人的量产时候。

    据小鹏介绍,Iron采纳1:1仿生计划,更有高度的人形化特征。具有178厘米的身高和70公斤的体重,全身配备62个主动自由度,手部则具有22个可动自由度,而且Iron已进入小鹏的汽车工厂打工了。

    蔚离开2025年才入局呆板人,已组建了约20人的团队,筹备开发呆板狗。

    李想则相对审慎,他觉得未来肯定会做人形呆板人,但没有是现在,当下的任务是攻克自动驾驶的技术难题。根据李想对AI的最终设想是硅基家人,人形呆板人也只是早晚的事。

    站在技术乐观主义的角度,AI技术无论如何泛化都没有为过,而且商业前景对照明朗,但所要面临的问题也是实际存在的,抛开人才、技术难关等远期难关没有谈,蔚小理最迫切必要解决的是资金问题。

    自动驾驶、AI、芯片、呆板人,每个都是“噬金兽”,何小鹏曾坦言500亿投资仅仅是呆板人的入门,李斌说一颗芯片研发投入可以布1000个换电站,约等于15亿元。而实际是2024年小鹏还没盈利,蔚来吃亏继续扩大,理想盈利80亿元,但增速下落。

    资金掣肘最终会影响资本的分配,而资本决意了以自动驾驶为起点的AI泛化可以或许走多远或者跌多惨,随着AI的摊子越铺越大,可能像马斯克一样创建起他的X帝国,也可能如贾跃亭那般被“生态化反”所吞噬,这其中微妙平衡将连续磨练蔚小理。

    公布于:北京市
    31  收藏