
转自:新华财经
新华财经北京12月17日电(杨明炜、康耕甫)12月3日,理想汽车推出了AI眼镜Livis,标志着理想汽车董事长兼CEO李想计划将“理想打造成一家具身智能企业”的愿景迈出了实质性一步。
李想认为,具身智能最好的一种方式是跟现有机械,各种常用的机器本体进行结合,并给予它更好的“眼睛”“大脑”和“心脏”。理想汽车正在产品、技术、组织三个维度推进“具身智能”建设,其VLA大模型的空间理解、思维与推理、沟通与记忆、行为和迭代五大核心能力也给用户带来了安全、舒适、高超的驾驶技巧和自然的交互能力,提升了用户体验。
三个维度推进“具身智能”建设
李想在公司2025年第三季度财报业绩会上所作的演讲,进一步证明,公司近期围绕产品、技术、组织三个维度,在为具身智能企业确定下一个十年的战略布局。
产品层面,李想向投资者介绍,理想不做电动车,不做智能终端,而是一家“具身智能”企业。当产品停留在“电动车”,竞争逻辑可能就是堆配置、拼参数,变成参数大战,很多研发投入都是不必要的浪费。如果选择做智能终端,本质上会变成功能的重复建设,例如把手机、电脑上的体验复制到车上,对用户价值的提升有限。
汽车是具身智能产品的核心形态之一,可以通过给予它“眼睛耳朵”(感知能力)、“大脑”(模型)、“神经”(操作系统)、“心脏”(算力)、“身体”(本体),让汽车成为汽车机器人。将汽车作为具身智能产品来开发,这一逻辑才能更好地实现从被动服务,到自动和主动服务,为用户价值创造。
李想认为,具身智能在未来五年会是一个巨大的应用,而具身智能最好的一种方式是跟现有的机械,各种常用的机器本体进行结合,并给予它更好的“眼睛”、更好的“大脑”、更好的“心脏”。“我觉得这是我们看到的机器人的机会,而不仅限于人形机器人这样的一个形式。”
技术层面,理想坚持“深度自研,构建AI系统”。公司认为,做好具身智能,最重要的是构建包含感知、模型、操作系统、算力、本体的AI系统。
技术感知方面,目前3DBEV、OCC占用网络、2DViT,有效的感知距离远不如人类眼睛。如果升级成和人眼工作原理相似的3DViT,有效距离可以扩大2-3倍。感知能力的提升,能够解决50%以上的辅助驾驶常见问题。3DViT不局限于自动驾驶领域,也让用户在车辆内外都能够获得主动交互与服务。
技术模型方面,3DViT让VLA大模型能更好地感知和理解物理世界,也让人类的数据可以更高效地用于训练,世界模型生成的数据可以更好地完善训练,解决目前辅助驾驶舒适性、反应迟钝等问题。此外,需要对传统GPU架构、操作系统和算力进行深度改造和定制,理想自研的M100芯片就是为了解决具身智能面临的各类问题而研发。
技术本体方面,线控体系能够提升辅助驾驶从感知到执行的响应速度,从550毫秒左右提升至350毫秒,大致可以将事故率下降50%以上,带来理性的安全,以及感性的安全感。
由于内部愿景和战略升级,以及没有任何第三方供应商可以完整地提供AI系统,因此理想全面自研、持续加大研发投入。目前,理想已经自研了星环OS操作系统、基座模型等技术底座,2026年将开始交付以M100自研芯片为核心的AI系统。
组织层面,公司管理模式重新回归创业公司模式。随着营收规模扩大,自2022年起,理想开始实践职业经理人的治理体系,但职业经理人模式和创业公司模式的管理理念和要素有所差异,各自适用于不同阶段和行业环境。面向下一阶段,理想坚定选择了具身智能这一新赛道,意味着组织需要更加敏捷高效,并且充满创业公司的活力。因此从今年四季度开始,理想坚定地回到创业公司的管理模式,以此来面对新时代、新技术的挑战。
理想对回归创业公司模式进一步明确了四项具体举措:更多深度对话,而非汇报;聚焦用户价值,而非交付;持续提升效率,而非占有资源;识别关键问题,而非创造信息不对称。
VLA大模型呈现五大核心能力
理想公司作为全球首个基于VLA大模型的辅助驾驶汽车制造公司,一直以来成为大家关注的焦点。原因在于理想自研的VLA司机大模型,是理想构建AI系统、打造具身智能产品的关键路径。
VLA(Vision-Language-ActionModel)是视觉-语言-行为大模型。一句话解释:VLA司机大模型是一个更好的私人司机,其呈现出五大核心能力:
一是空间理解能力。VLA中提升了模型对空间理解的精度与能力,可以感知远距空间,全局语义能力能更好地建模场景关系、理解交通意图,并为轨迹生成、规划与决策提供依据。
二是思维与推理能力。基于CoT(ChainofThought,思维链)的推理能力,VLA能通过对环境充分地理解和感知,生成驾驶决策,存在思维推理的过程。端到端+VLM阶段,用VLM推理既耗时,也不方便整合到端到端整个流程里。但在VLA司机大模型里,可以进行实时推理,保持10Hz以上的帧率,每一帧都经过了非常好的推理。
三是沟通与记忆能力。驾驶员可以用自然语言跟理想同学直接交流,这是VLA含有语言理解能力的体现。开快点、开慢点、左转、右转等基本操作都可以轻松实现,还可以记忆驾驶速度偏好,将车辆开到某一条路上的时候,车辆可以通过语言理解记住了你的速度偏好和选择,并且以后都按照驾驶员的偏好执行。园区行驶中也基于记忆能力,实现了长短时图(刚走过的路&之前走过的路)、分段记忆、分段使用的能力。
四是行为能力。VLA具备拟人的轨迹规划能力,强大的Diffusion扩散模型会生成很多非常接近于人类开车的丝滑体验的轨迹,使得最终的驾驶行为能够像人类一样丝滑。
五是迭代能力。端到端+VLM架构的本质是“模仿学习”,而VLA的本质是强化学习,再配合3DViT加持的世界模型,既提升了生成数据仿真迭代的效率,更好地完善了训练,也实现了VLA的快速迭代。
五大核心产品带给用户的实际体验就是安全、舒适、高超的驾驶技巧和自然的交互能力。
对于外界对“如何判断自动驾驶落地的时间表及商业变现”疑问,理想汽车自动驾驶研发高级副总裁郎咸朋认为,从技术层面看,VLA模型可以走向更高级别的自动驾驶,但现在处于起步阶段,在这个技术周期里,起步阶段VLA模型约等于端到端的上限,它还有很长的一段路要走,这个过程不会特别慢,因为端到端从10MPI到现在100MPI只用了一年左右的时间。VLA模型的迭代速度也会非常快,但前提是要有完备的基础能力,如算法、算力和数据等,并且要有工程能力的支撑才能够实现。尤其VLA相较端到端,它需要更多成熟的仿真环境来进行强化学习的训练,和之前只是单纯依靠实车的数据模仿学习训练完全不同。
“商业变现的影响因素非常多,最核心的是国家法律政策。理想汽车也在积极参与国家相关政策法规的讨论小组,从技术上来看L4级别的自动驾驶落地是非常快的,但从商业角度上看,还有很多问题需要考虑,比如保险、事故之后的赔偿等。”郎咸朋表示。(完)
广州股票配资公司提示:文章来自网络,不代表本站观点。