对话智象未来CEO梅涛:AI公司的竞争,正从模型能力转向产品能力与场景化落地

财经 (2) 2026-05-20 20:49:27

每经记者|可杨    每经编辑|杨翼    

当越来越多AI(人工智能)公司开始将“世界模型”写入技术路线图,视频生成行业正经历新一轮升温。

5月19日,在接受包括《每日经济新闻》记者在内的媒体记者采访时,智象未来创始人、CEO(首席执行官)梅涛反复强调,当前,行业距离真正意义上的世界模型还有很长距离,“到今天为止,我们不会宣称智象未来现在是一家世界模型公司。我认为,市面上所有模型被称作世界模型,说实话还有点早”。

公开资料显示,智象未来是一家多模态生成式人工智能公司,成立于2023年,公司创始人、CEO梅涛是加拿大工程院外籍院士、原京东集团副总裁。近日,智象未来宣布完成新一轮亿元级融资,深创投、金浦投资等多家机构参与。

在受访过程中,梅涛围绕视频生成、原生全模态模型、具身智能与AI商业化等问题,系统谈及了他对行业技术路径、创业公司机会以及AI产业分层的判断。

在梅涛看来,多模态生成技术远未收敛,而AI公司的竞争,也正在从模型能力转向产品能力与场景化落地。

“世界模型不是只有一个模型”

过去一年,世界模型成为AI行业高频词,但在梅涛看来,行业对于这一概念存在明显误读。

“我发现很多人认为世界模型是一个模型,其实这跟我们认知的世界模型不太一样。世界模型有不同路径,将来也不是全世界只有一个模型,存在很多可能性。”梅涛指出,真正的世界模型需要同时具备三类能力:对物理规律的理解与建模,对长上下文因果关系的处理,以及与物理世界的多模态感知交互能力,包括触觉、关节点运动、三维空间自由度等。“我们必须对世界模型的定义、世界模型的场景和科学规律保持一种敬畏之心。”

梅涛用一个具体场景来说明当前的差距:让一个机器人走进房间,知道主人喜欢喝茶还是咖啡,然后完成取瓶、拧盖、倒水、送杯这一系列动作。“今天的机器人,离这个还很遥远。”

安全性,即在真实场景的稳定运营,也是梅涛强调的现实障碍之一。梅涛认为,机器人如果在工厂或家里运作,目前需要很强的安全保障。如果安全性不是百分之百,就像自动驾驶一样,“进家里怎么保证人身安全、怎么保证不损坏贵重物品,还需要相当长的时间”。

对于通往世界模型的路径,梅涛的判断是,目前世界模型的架构尚不明朗,未来可能并非只有一家公司来承担,不同公司会在各自的垂直场景中做出相对通用但实际上高度专用化的模型,“会开车的,会捡东西的,会跑步的机器人,应该都是非常垂直的模型”。

“将来通往世界模型的路上,每个公司说自己是世界模型,我也能接受。但每个人不会做特别通用的事情。”梅涛补充道。

对于具身智能领域与视频模型的关系,梅涛曾公开表示,“很多具身智能公司低估了视频模型的重要性”。

梅涛指出,当前,具身智能公司普遍采用的模型参数量“大概几十亿,不超过100亿”,而这个量级远不足以支撑复杂场景下的泛化能力。

“如果真要做到世界模型,你要干很多活,怎么可能是一个小模型就能搞定?怎么可能采一些数据就能做到符合要求?”梅涛认为,没有足够厚的底座模型,具身智能很难真正实现泛化。

“多模态生成领域技术尚未收敛”

对于当前的技术路径演进,梅涛认为,多模态生成领域技术尚未收敛,“这是创业公司的机会。如果技术完全收敛,统一采用DiT框架,我们也不用做了,因为干不过大厂”。

公开资料显示,DiT架构,全称Diffusion Transformer,是一种将Transformer架构作为骨干网络应用于扩散模型的生成式人工智能架构,主要用于图像和视频生成任务。

“算法、数据、算力,三个都重要。”在梅涛看来,当算法框架固定之后,数据和算力的重要性才会上升,竞争才会真正变成资源的比拼。但当算法出现新的突破,既有的数据积累优势会被部分稀释。这意味着,只要技术路线尚未确定,就仍然存在以算法创新换取相对优势的空间。“如果一旦算法和架构发生了变化,或者有新的架构与新算法出现后,数据的重要性会有所降低。”

对于当前视频生成领域的竞争格局,梅涛将其分为三层:拥有流量入口的平台型企业;做底层基座大模型的公司;以及大量做Agent(智能体)和行业应用的公司。

梅涛表示,智象未来在第二层和第三层之间布局,既打造特色差异化模型,也开展行业应用,智象未来不与大型模型厂商正面比拼底座模型,该领域投入成本极高。基于当前体量,公司选择聚焦特色领域,例如基于全新一代原生全模态架构Unified Transformer(UiT)打造的图像生成模型HiDream-O1-Image。其次,在视频生成领域则做与商业场景紧密相关的内容,例如商业营销、影视创作等垂类场景应用的视频生成模型。

梅涛认为,大模型提供的原子能力不等于最终产品体验。用户,尤其是非开发者,无法直接调用模型接口,中间必须存在一个由API、技能封装再到智能体构成的中间层。

梅涛进一步将AI公司的商业价值分为三层:最底层是算力价值(芯片、基建等),中间层是Token(词元)价值;“大模型的费用,长线来看一定是水电、一定是基建,价格会非常公开、非常透明,也会越来越便宜;最上层是应用落地带来的商业价值,这取决于公司的商业模式。”梅涛认为,创业公司若只卖平台或Token,无法与大厂比拼资源与流量,必须把应用层做厚,与客户共创价值,才能在竞争中建立壁垒。

对于创业公司与大厂的竞争,梅涛表示,大厂不可能覆盖每个角落。“现在,没有一家模型公司能够满足客户的所有需求,这是行业共识。”

对于智象未来自身的定位,梅涛表示,公司长期目标是探索并构建世界模型,但在当下,智象未来更严谨地将自己定义为一家原生多模态大模型公司,在迈向世界模型的过程中还是会先聚焦在图像、视频、3D交互这些多模态数据的生成、理解与建模上。

梅涛认为,原生多模态一定会通往世界模型,但中间还有很长的路。“世界模型一定有清晰定义,包括其能力边界、技术内涵和应用目标。否则,相关讨论容易停留在概念层面,不加定义的话说得不好听就是‘耍流氓’,难以指向一个具备统一认知和构建能力的世界模型。”

封面图片来源:每经媒资库

THE END
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。