理想汽车AI:VLA司机大模型如何进化至“人类”智能
理想汽车AI:VLA司机大模型如何进化至“人类”智能
未知变量理想汽车的 AI 雄心:VLA 司机大模型如何从“动物”进化至“人类”
5 月 7 日,理想汽车举办了“理想 AI Talk 第二季”,主题聚焦于其雄心勃勃的 VLA(Vision-Language-Action,视觉语言行动)司机大模型,并探讨了其从“动物智能”向“人类智能”的进化路径。理想汽车董事长兼 CEO 李想在活动中,不仅深入解读了 VLA 大模型的核心作用、训练方法及其面临的挑战,还分享了他对人工智能发展趋势、创业历程和个人成长的独到见解。
AI 工具的进化阶梯:从信息助手到生产力引擎
李想首先对当前 AI 技术的进展,特别是大模型和 Agent(智能体) 的应用前景进行了阐述。他将 AI 工具的成熟度划分为三个层级:
- 信息工具:当前多数 AI 应用停留于此,能够提供信息,但往往伴随着大量冗余内容,其结果仅具参考价值。
- 辅助工具:AI 在此阶段能够提升特定任务的效率,例如当前的辅助驾驶系统,但仍离不开人类的监督和介入。
- 生产工具:这是 AI 发展的终极形态,能够独立完成专业任务,实现效率与质量的飞跃。
李想强调:“判断一个 Agent 是否真正智能,关键在于它能否成为一个生产工具。 只有当人工智能进化为生产工具时,其潜能才会彻底爆发。这就像我们雇佣司机一样,未来的 AI 技术也应当能够承担起类似的职责,成为名副其实的生产工具。”
VLA 的进化之路:从“昆虫”到“哺乳动物”,再到“人类”智能
李想指出,当前主流的 L2、L2+ 级别的辅助驾驶系统,本质上仍是“辅助工具”。而理想汽车追求的 VLA 司机大模型,目标是让 AI 真正成为一名专业的“司机”,即交通领域的“生产工具”。
VLA 的实现并非一蹴而就,而是一个循序渐进的进化过程,理想汽车将其划分为三个关键阶段,分别对应其辅助驾驶技术的过去、现在与未来:
- 第一阶段:“昆虫智能”(始于 2021 年):理想汽车自研的辅助驾驶系统,主要依赖规则算法和高精度地图。
- 第二阶段:“哺乳动物智能”(2023 年研究,2024 年推送):引入端到端模型与 VLM(Vision Language Model,视觉语言模型)。尽管端到端模型在处理复杂路况时有所提升,并能借助 VLM 进行辅助理解,但由于 VLM 多基于开源模型,其在专业交通领域的认知能力受限,且端到端模型本身也难以与人类进行有效沟通。
- 第三阶段:“人类智能”(始于 2024 年):为了突破上述瓶颈,理想汽车启动了 VLA 的研究,并已在多项顶级学术会议上发表论文,为理论创新奠定了坚实基础。VLA 在端到端的基础上,实现了质的飞跃:
- 全面的环境感知:通过 3D 与 2D 视觉的融合,VLA 能够完整感知物理世界,超越了 VLM 仅能解析 2D 图像的局限。
- 完整的“大脑”系统:VLA 具备强大的语言理解能力和 CoT(Chain of Thought,思维链) 推理能力,使其不仅能“看懂”,更能“理解”并“执行”任务,真正模拟人类司机的运作方式。
VLA 的“驾校”与“路考”:模拟人类学习,对齐人类价值观
VLA 司机大模型的训练过程,巧妙地模拟了人类学习驾驶的完整流程,主要包括三大环节:
- 预训练(Pre-training):如同人类学习交通规则和物理世界常识。理想汽车通过海量高清的 2D 和 3D 视觉数据、交通领域的语言语料,以及与物理世界相关的视觉-语言联合数据,训练出云端的 VL(Vision-Language)基座模型。随后,通过蒸馏技术将其转化为能在车端高效运行的端侧模型。
- 后训练(Post-training):相当于人类进入驾校系统学习驾驶技能。在这一阶段,通过引入 Action(动作) 数据——即对周围环境和车辆自身驾驶行为的精确编码——VL 基座模型进化为 VLA 司机大模型。凭借短链条的 CoT 推理能力和 Diffusion 扩散模型对其他车辆轨迹及环境变化的精准预测,VLA 具备了在复杂交通环境中进行实时博弈的能力。
- 强化训练(Reinforcement Training):好比人类司机在真实道路上积累经验,不断提升驾驶技艺。此环节的目标是使 VLA 司机大模型在安全性、舒适性上超越人类,并与人类社会的价值观对齐。这包括:
- 基于人类反馈的强化学习(RLHF):确保模型严格遵守交通规则,并贴合中国用户的驾驶习惯,实现安全对齐。
- 纯强化学习模型在世界模型中的训练:提升驾乘舒适性,最大限度避免碰撞事故,并巩固交通规则的遵守。
经过这三个阶段的精心打磨,VLA 司机大模型便可部署到车辆上,为用户提供服务。
届时,VLA 司机大模型将以“司机 Agent(智能体)”的产品形态呈现。用户可以通过自然语言与这位“AI 司机”沟通,就像与人类司机交流一样。简单的、通用的短指令将由端侧的 VLA 直接处理;而复杂的指令则会先由云端的 VL 基座模型进行解析,再交由 VLA 执行。
安全第一,透明可释:破解 AI 决策的“黑盒”难题
在追求卓越专业能力的同时,VLA 司机大模型必须攻克两大核心挑战:安全可控性与模型“黑盒”问题。
李想认为,模型能力越强,就越需要严格的职业性约束来确保其行为的下限。为保障 VLA 司机大模型能达到甚至超越职业司机的安全与舒适标准,并杜绝学习如“加塞”等不良驾驶行为,理想汽车在强化训练环节投入了巨大资源。计划于 2024 年底组建一支超过 100 人的“超级对齐(Super Alignment)”团队,其核心任务就是为“司机 Agent”注入高度的职业素养。
针对AI模型普遍存在的“黑盒”问题,即其决策过程难以理解和追溯,理想汽车采用了重建与生成相结合的技术路径,打造了一个真实且遵循物理世界规律的“世界模型(World Model)”。这个模型能够覆盖所有交通参与者和环境要素。借助世界模型的强大仿真能力,VLA 可以在其中进行低成本、高精度的现实问题验证,从而显著提升问题解决的效率,有效应对“黑盒”带来的挑战。
判断一个“司机 Agent”是否优秀,李想提出了三个关键标准:
- 专业能力:由 VLA 司机大模型本身提供。
- 职业能力:通过“超级对齐”团队的工作来增强。
- 构建信任的能力:VLA 通过理解自然语言、具备记忆能力来逐步建立与用户的信任。
厚积薄发:人工智能时代,苦练基本功方为正道
理想汽车之所以能够实现技术的快速迭代与跨越,其背后是对基本功的执着与积累——从前瞻性的研究,到高效的研发转化,再到将技术能力切实转化为用户价值和业务成果。李想强调,研究是驱动创新的源头,一旦研究取得突破,研发效率便会大幅提升,而最终的目标始终是实现有价值的业务落地。
理想汽车始终坚持核心技术的自研,以技术创新赋能用户价值。例如,在辅助驾驶领域,英伟达的 Orin-X 芯片本身并不直接支持语言模型的运行,这使得“端到端 + VLM”的方案对许多企业而言仍是巨大的挑战。理想汽车凭借其自有的编译团队,成功自研了底层推理引擎,使得芯片能够通过 INT4(4 比特整型)量化的方式高效运行 VLM。不仅如此,依托在芯片理解、控制器设计以及自研汽车操作系统等方面的综合实力,理想汽车实现了让双 Orin-X 芯片和 Thor-U 芯片均能运行同等规模的 VLA 司机大模型。对此,李想坚信:“大型企业所积累的基本功和核心能力,是永远无法被简单逾越的。”
尽管 DeepSeek 等优秀开源模型的出现,为理想汽车在 VLA 司机大模型语言能力的研发上节省了近 9 个月的时间和数亿元的成本,但理想汽车并未止步于此。公司选择在基座模型的研发上投入超预期 3 倍的训练算力,专注于打造能够适配多场景的自研模型。“我们可以站在巨人的肩膀上,”李想说,“但这仅仅是旅程的一部分。” 在受益于开源社区的同时,理想汽车也积极回馈,选择将其自研的汽车操作系统——理想星环 OS——进行开源。
穿越风雨,向阳生长:李想的创业感悟与人生哲学
今年 7 月,理想汽车即将迎来成立十周年的里程碑。回顾创业之路,李想坦言苦远多于甜,但他选择铭记那些珍贵的美好瞬间,以此激励自己持续保有正能量。“创业确实不容易,但是没必要苦哈哈的。苦和甜本就是一枚硬币的正反面,关键在于你选择看哪一面。”他将企业发展中遭遇的挫折视为必须跨越的挑战,而正是这些挑战,锤炼并赋予了理想汽车更强的生命力。正是这份积极乐观的创业心态,支撑着理想汽车迅速成长为一家年营收达千亿规模、累计交付量突破百万的新势力领军企业。
当被问及如何成为一个充满“能量”的人时,李想认为,核心在于向内求索,关注自我成长。这意味着全然接纳自身的优点与不足,并用“成长”——即能力的增强——来替代简单的“改变”。此外,他特别强调了亲密关系的重要性。在他看来,关注他人的成长同样能为自己带来能量,家人和同事是他力量的源泉,能够与他形成优势互补,相互扶持。“我需要家人和同事,甚至超过了他们需要我。首先是我需要他们,然后才是他们需要我,我们在一起能够形成非常强大的脑力和心力。”李想如是说。
回望从高中时代创办个人网站至今的数次创业经历,李想表示,他的核心思维方式始终如一:直面问题,解决问题,尤其是那些他人不愿触碰的难题和用户深切关注的痛点,并在这个过程中持续向优秀的人学习。不同的是,如今他所面临的问题更为错综复杂,服务的用户群体更为庞大,企业的规模与组织也远非昔日可比。“几次创业一路走来,最艰难时总有贵人相助,跌入谷底也能迅速振作,一群人同心同德,共同进步,这本身就是一种幸运,没什么可后悔的。”
面对人工智能浪潮的席卷,李想认为,在 AI 面前,所有的人性都应该被珍视和保留,无论其好坏,因为这些人性特质——文化、生命力、性格、能力——恰恰是人类最宝贵的财富。
结语:以技术创新引领,挑战智能驾驶新高度
从早期采用增程电动和 5C 超充技术攻克新能源汽车电池成本高、充电难、充电慢的三大痛点,到后来下决心自研汽车操作系统,解决传统车载系统性能羸弱、开发迟缓、芯片适配周期漫长等顽疾,理想汽车始终将技术创新作为解决行业核心难题的利器。如今,在自研 VLA 司机大模型的征途上,理想汽车更是勇敢地踏入了人工智能应用的“无人区”。
当前,辅助驾驶技术正站在一个新的十字路口。理想汽车决心持续挑战自我成长的极限,致力于为整个行业和广大用户创造更加深远的价值。





