每经记者|王晶 吴泽鹏 每经编辑|陈俊杰
4月24日,AI(人工智能)领域的目光不约而同地聚焦在同一件事上——DeepSeek正式发布并开源了全新系列模型V4的预览版本,同步推出高性能版的DeepSeek-V4-Pro,以及轻量版的DeepSeek-V4-Flash。据官方披露,DeepSeek-V4拥有百万字超长上下文,在Agent(智能体)能力、世界知识和推理性能上均在国内和开源领域保持领先。
人们在讨论新模型到底有多强的同时,另一个更具产业意义的话题也迅速升温——DeepSeek首次在官方技术报告中,把华为昇腾NPU(神经网络处理器)和英伟达GPU(图形处理器)写进了同一份硬件验证清单。“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。”这标志着万亿参数级别的模型首次在正式文档中完成了对国产AI芯片的“官方认定”。
长期以来,中国大模型厂商的训练与推理几乎全部依赖英伟达的GPU和CUDA生态,但DeepSeek-V4的发布,终于打破了这个局面。
这背后是一条清晰的国产算力替代逻辑:如果DeepSeek这样一个顶级开源大模型,能够在华为昇腾生态上跑出不输于英伟达平台的推理性能,那么它将向整个行业释放一个信号——在大模型推理侧,国产芯片已具备承载实际商业负载的能力。
在DeepSeek-V4发布前,市场上便传出其已提前适配华为昇腾950等国产AI芯片。随着正式发布,目前可以确认的是,该模型已经完成了在昇腾NPU平台上的推理适配(不一定基于昇腾950训练)。
在以往大模型开发过程中,早期测试与适配往往优先开放给英伟达、AMD等美系芯片厂商。此次DeepSeek在模型阶段就推进国产算力适配,也被业内视为路径上的重要变化。
昇腾芯片是国产算力阵营中的代表,也是华为整个AI战略的基础。2018年10月,华为全联接大会正式发布首款采用华为自研达芬奇架构的AI芯片昇腾910与昇腾310。其中,昇腾310是SoC(系统级芯片)小芯片,和人们的手机芯片差不多,只有指甲盖那么大;昇腾910是大芯片,和人们的掌心差不多大,主要面向云端高性能计算;2019年昇腾芯片正式投入商用,但此后几年,昇腾在公开市场的声量和产品节奏上都相对低调。
直到2025年9月,华为轮值董事长徐直军罕见公布昇腾芯片的演进和目标。他表示,未来三年,华为已经规划了昇腾多款芯片,包括950PR,950DT以及昇腾960和970。其中,昇腾950系列分为两个型号——950PR与950DT,两者共用Ascend 950 Die,但面向不同任务场景。其中,950PR面向推理Prefill阶段和推荐业务场景,规划于今年第一季度推出;950DT则更注重推理Decode阶段和训练场景,规划将于2026年第四季度推出。
从发布节奏来看,昇腾芯片将进入一个快速迭代和性能持续飙升的周期。不过,由于受限于先进制程的获取,华为单颗昇腾芯片的算力目前还难以直接与英伟达芯片竞争。为此,华为还选择了一条不同的技术路径:通过“超节点+集群”的算力解决方案,将多颗芯片高效互联,以集成的方式满足持续增长的算力需求。
以芯片制程为例,在摩尔定律放缓的情况下,7纳米到3纳米,可能每代性能提升不超过20%。而超节点可以将模型算力利用率从30%提升到45%,相当于提升了50%,通过资源的高效调度,在一定程度上可以弥补芯片工艺代差。目前,国内除了华为,包括阿里、字节、腾讯、百度、中科曙光、浪潮信息、新华三等多家厂商均推出超节点方案。
“由于美国‘制裁’,我们不能产出最先进工艺制程的芯片,但我们基于过去三十多年构筑的联接技术能力,使得我们能够做到万卡级的超节点,经营万卡级的超节点,做到在世界上算力最强。”徐直军说道。
如果说昇腾950解决的是“能不能跑”,那么Atlas 950 SuperPoD解决的则是“能不能跑得更便宜、更大规模”。
从价格看,DeepSeek V4-Pro每百万Tokens(词元)输入是1元,输出是12元,V4-Flash每百万Tokens输入是0.2元,输出是2元。但同时,DeepSeek明确表示:“预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。”
据悉,华为Atlas 950 SuperPoD采用面向大规模AI训练场景的超节点架构设计,该系统由8192张基于950昇腾加速卡构成,总体由128个计算机柜和32个互联机柜组成,整套系统共计160个机柜,其上市时间为2026年四季度。相较于英伟达同样将在下半年上市的NVL144,Atlas 950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍。不过客观来看,集群也面临诸如能耗、占地DeepSeek面积大等问题。
从架构上看,DeepSeek-V4属于典型的MoE模型,总参数规模达1.6万亿、激活参数49B,这对推理集群的规模和效率提出了极高要求。外界普遍认为,一旦昇腾950超节点批量上市,理论上将带来三重变化。
具体来看:首先,吞吐能力显著提升。 8192卡的超节点尤其适合MoE架构、上下文并行、专家并行与高并发推理场景;其次,单位Token成本下降。 高并发推理的关键不在单卡峰值算力,而在单位时间能服务多少请求、生成多少Tokens。吞吐提升后,API价格便有了下调空间;第三,国产算力供给规模化。 如果DeepSeek-V4-Pro不再高度依赖稀缺的海外高端GPU,Pro版本就可以走向“大规模商业化”,并且适配国产芯片也证明了,AI推理不一定只能依靠最贵的GPU,国产算力同样可以开辟一条新路。
DeepSeek-V4适配昇腾的消息,也让国产算力产业链彻底站上了聚光灯下——一颗昇腾芯片背后,是一条从服务器整机到覆铜板的庞大链条。在这个链条上,最核心的环节是什么?哪些上市公司参与了关键节点的产业分工?市场规模到底有多大?《每日经济新闻》记者进行了梳理。
首先,在国产AI芯片格局上,昇腾已实现断层领先。根据市场研究机构IDC最新发布的报告,2025年中国AI加速卡市场总出货量达到约400万张,其中国产芯片合计出货约165万张,市场份额首次突破四成,跃升至41%。英伟达以55%市场份额排名第一,该公司此前市场份额高达95%。
在国产阵营中,梯队格局已基本成形。华为出货量达81.2万张,不仅断层领跑各大国产厂商,还占据了国产芯片总出货量的近一半,占全市场约20%的份额。阿里巴巴旗下的平头哥以约26.5万张位列第二,百度昆仑芯与寒武纪各约11.6万张,并列第三。
更重要的是市场趋势的变化。知名调研机构Bernstein Research发布报告指出,受外部出口管制持续加码等因素影响,2026年以华为昇腾为首的国产AI芯片市占率有望首次超过50%,预计到2028年,中国本土AI芯片产量即可覆盖国内需求,供应需求比例预计达到104%。
其次,从产业链的价值分布来看,最核心的环节是服务器整机制造。AI芯片必须被物理集成到服务器中,才能进入算力中心、云厂商和政企客户,这一环节也最快转化为订单和营收。根据中商产业研究院分析师预测,2026年市场规模将达到2859亿元。
围绕服务器整机制造,昇腾产业链分为三层:最内层是服务器整机制造商,获单最为直接;中间层是由CANN架构为核心的软件生态,决定厂商的生态黏性;最外层是上游材料和元件供应商,包括覆铜板、交换机、高速铜连接模组等。
在整机制造环节,目前格局高度集中。华鲲振宇是华为生态中唯一同时获得“鲲鹏+昇腾”双领先级认证、连续两年获评战略级伙伴的企业,其“天宫”系列AI服务器已量产并进入多个省级智算中心。A股上市公司中,神州数码旗下神州鲲泰自有产线是华为昇腾生态的重要整机硬件伙伴。拓维信息则是华为鲲鹏、昇腾、鸿蒙的全方位合作伙伴。
在上游材料和组件的“卖铲子”领域,同样有关键企业深度嵌入昇腾产业链。例如,华丰科技是华为高速背板连接器的核心供应商,作为第一大客户,在去年贡献了超60%的收入。
此外,伴随昇腾芯片从910C向950的升级,超节点架构对交换芯片、交换机和铜连接等环节的需求大幅提升。华泰证券研报判断2026年为“国产超节点元年”,并测算到2028年国产超节点市场空间有望达到3414亿元,2026年至2028年的年复合增长率高达194%。
如果说硬件性能的突破是基础,那么软件生态就是昇腾能否长期繁荣的关键,CANN作为昇腾的软件层,其生态主导权正在演变为关键竞争壁垒——历史上,英伟达正是凭借CUDA生态奠定了其在AI领域的统治地位。一个重要的信号来自运营商层面:根据中国移动采购与招标网的公示信息,中国移动2026年—2027年人工智能超节点设备集中采购项目已开标,采购规模为6208张AI加速卡,总金额约20.6亿元,中标文件明确全线采用华为CANN生态方案,涵盖华鲲振宇、河南昆仑、长江计算等五家企业。有分析指出,这是三大运营商在集团层面首次启动AI超节点设备集采,标志着运营商级基础设施正在加速接入国产CANN生态。
需要说明的是,产业链机遇的背后也有变数——其中,算力供给瓶颈是最关键的不确定性——昇腾芯片的产能能否跟上爆发式需求,将直接决定整条产业链的订单能否如期兑现。而这场由DeepSeek与昇腾共同点燃的算力变革,才刚刚拉开序幕。
封面图片来源:兰素英