技术周评(海外) | 繁荣的规则与荒芜的角落:MIT万字报告揭开AI治理的结构性错位
来源
路透社Mapping the AI Governance Landscape: April 2026 Update,
https://airisk.mit.edu/blog/mapping-the-ai-governance-landscape-april-2026-updat
当下,人工智能已成为大国战略博弈的核心领域之一。近日,中国AI企业深度求索(DeepSeek)宣布其新一代旗舰大模型V4将运行于华为昇腾950PR芯片之上,标志着中国首次在万亿参数级别的顶级大模型上实现了从底层芯片到上层框架的国产化适配。它不仅是中国在“卡脖子”领域寻求技术突围的关键一步,更可能重塑全球AI产业链的权力结构与既有的技术治理秩序。下文将从事件核心细节、国产算力生态的演进逻辑与挑战,以及此次突破的战略价值三个维度展开分析与研判。
一、事件概述与背景
2026年4月初,中国AI初创企业深度求索(DeepSeek)即将发布的新一代旗舰大模型V4,预计将完全运行于华为昇腾950PR芯片之上,并打破AI行业长期依赖英伟达等美国算力生态的惯例。这标志着中国首次突破万亿参数级别的顶级大模型,也代表着“国产算力体系”逐步成型。在美国持续收紧高端芯片出口管制的背景下,这一合作为中国AI产业开辟出了一条自主可控的新道路。
1.DeepSeek V4的核心变革
具体来看,DeepSeek自推出以来便以“高性能、低成本”的模型路径迅速崛起,在全球开发者社区中形成“效率优先”的技术标签。进入V4阶段,其技术路线不仅继续强化模型能力边界,同时开始主动重构底层适配逻辑。
在架构层面,V4采用混合专家架构(Mixture of Experts,MoE),总参数量高达1万亿,每次推理仅激活约370亿参数,支持文本、图像与代码的多模态输入,在保持低延迟的同时实现了计算效率的跃升。MoE架构将一个庞大的神经网络拆解为多个“专家”子网络,每次推理只调用与当前任务最相关的部分专家,使V4能够在有限算力约束下承载万亿参数规模,为大模型的工程化落地开辟了新路径。
在能力层面,V4实现了真正的多模态输入,支持文本、图像与代码的无缝融合,实现了一个能够理解视觉信息与编程语言的通用智能系统。在适配路径面,V4的底层代码已从英伟达CUDA框架全面迁移至华为自研CANN框架,且仅邀请国内芯片企业参与V4的提前测试和早期优化,打破了AI大模型开发中“优先适配美系芯片”的长期惯例。V4原计划于2026年2月发布,但由于其将模型从英伟达架构迁移至华为芯片需要重写底层代码和反复测试对齐精度,导致其延迟发布。
2.华为昇腾950PR与国产芯片的突破
此次承载这一要求是华为于2026年3月发布的昇腾950PR处理器,芯片采用中芯国际7nm工艺,搭载华为自研达芬奇架构,是昇腾950代际首款上市的硬件产品,在算力、访存、编程模式等微架构层面实现了显著升级。
950PR首次引入了FP8/FP4低精度格式,FP8精度算力达1 PFLOPS,尽管华为并未回避其仍存在落后于H200的差距问题,但芯片胜在生产与供应链具有稳定性。同时FP4配备华为首款自研高带宽内存HiBL 1.0,容量112GB,带宽1.4TB/s,互联带宽为2TB/s,支持多芯片集群的线性扩展。软件生态CANN Next兼容CUDA,新增SIMT编程模型,可直接适配英伟达代码环境,降低开发者转向国产算力的门槛。在架构创新层面,950系列华为自研HiF8格式实现了“低精度+高保真”的平衡,精度接近FP16,解决了大模型训练中的算力与精度矛盾,单位能耗下的计算效率显著提升,与当前“推理成本下降”的产业趋势契合,成为国产AI芯片在2026年交出的一份硬核答卷。
二、国产算力生态的演变与挑战
近年来,随着技术不断进步,中国AI领域的自主研发取得了显著成果。国产算力生态的发展历经了从依赖进口芯片到逐步实现自主可控的过程。随着华为昇腾950PR芯片和DeepSeek V4大模型等关键技术的突破,国产算力的实力不断增强,国内AI产业逐步摆脱了对国外技术的依赖。这一转变不仅提升了算力性能,降低了成本,还推动了国产AI产业的国际竞争力。然而,国产算力生态的全面崛起也面临一系列技术、市场和政策方面的挑战。
1.从备选方案到首选路径
在过去的几年中,中国AI产业的算力需求主要依赖于英伟达、AMD等国际厂商的GPU芯片。国内企业的AI算力主要依赖进口芯片,导致AI企业在进行大模型训练和推理计算时面临高成本和供应链不稳定的问题。
为了打破这种局面,我国加大了对国产算力的投资力度。特别是2019年后,华为、寒武纪、平头哥等企业纷纷推出了自主研发的AI芯片。在此背景下,华为昇腾950PR芯片的问世成为国产算力的一大突破。根据华为官网公开资料,搭载昇腾950PR的 Atlas 350 在推荐场景下性能较前代提升 2.5 倍。另据华为中国合作伙伴大会现场披露数据,Atlas 350 单卡算力达到英伟达 H20 的 2.87 倍,HBM 容量为 112GB,多模态生成速度提升约 60%。
DeepSeek V4大模型的发布也进一步证明了国产算力生态的进步。这款大模型在训练过程中完全采用了华为昇腾950PR芯片,并且使用国产框架进行全栈开发,突破了传统依赖国外技术的局限。
随着国产芯片和大模型的崛起,国产算力生态逐渐从“备选方案”发展为国内AI产业的首选路径。这一进程不仅降低了国内AI企业的算力成本,还增强了产业链的自主可控能力,为中国AI产业的发展提供了有力支撑。
2.国产算力生态的挑战
(1)技术创新的瓶颈
尽管国产芯片在计算能力上不断提升,但与国外的顶级芯片相比,仍存在一定的差距。以华为昇腾950PR为例,虽然在推理性能和能效上具有竞争力,但在处理多任务、高并发计算等领域,依然不及英伟达的A100等芯片。根据国外一些AI研究机构的数据,英伟达A100芯片在深度学习中的并行计算能力依旧是市场的领先者,其在多个深度学习基准测试中的得分仍远超国内芯片。
(2)市场竞争的压力
随着国产芯片的逐步商用,市场竞争愈加激烈。华为昇腾、寒武纪、阿里平头哥等厂商不断推出新的AI芯片,这使得芯片市场呈现出高度竞争的格局。随着市场需求的增大,如何保证稳定的供应和持续的技术创新,成为国内厂商需要面对的关键问题。
三、DeepSeek V4的
战略意义与未来展望
DeepSeek V4从英伟达CUDA生态全面迁移至华为昇腾950PR平台,是中国AI产业从模型自主迈向算力+模型双自主的里程碑式跨越。这一事件以顶级大模型与国产高端算力的深度协同,完成了从“单点技术突破”到“全体系安全突围”的关键一跃,其战略价值贯穿技术底座、产业生态、全球竞争等多重维度,也为国产AI长期发展打开了全新格局。
从技术安全维度看,此次迁移彻底打通国产AI“卡脖子”的核心堵点。长期以来,国产大模型虽在算法与效果上快速追赶,但训练与推理高度依赖海外高端GPU,面临供应链断供、采购成本高企、数据合规风险等多重隐患。昇腾950PR作为国产高端AI算力芯片,推理性能达到海外同类型产品的近3倍,单卡即可支撑70B参数大模型高效运行,而DeepSeek V4的全栈迁移,首次验证了国产高端芯片能够稳定承载旗舰大模型的全流程工作负载,真正实现芯片、框架、模型、部署全链路自主可控,为中国AI产业筑牢了安全可控的技术底座。
从产业发展维度看,它激活了“芯片—模型—应用”的全产业链协同效应。此次迁移通过深度适配与算子优化,大幅降低了其他大模型迁移至国产算力平台的门槛。过去“有模型无优质算力、有芯片无顶级模型适配”的割裂局面被打破,昇腾CANN框架的兼容性与工具链快速成熟,带动算子优化、集群调度、行业部署等配套能力同步升级,推动国产算力从“可用”走向“好用”,为政务、金融、能源、制造等对安全与稳定性要求极高的领域,提供了可规模化落地的自主AI解决方案,加速AI技术向千行百业渗透。
同时,在生态构建方面,这是国产AI生态打破海外垄断、走向自我循环的关键起点。英伟达凭借CUDA构建了长达20年的生态壁垒,一度成为全球AI开发的“唯一标准”。而DeepSeek V4的全面迁移,用实战证明昇腾+CANN方案能够承接顶级模型的性能需求,CANN对CUDA代码的兼容性达80%,大幅压缩迁移成本,形成极具说服力的标杆效应。这将吸引更多开发者、算法团队、企业与科研机构加入国产生态,推动生态从碎片化走向统一化,形成“芯片迭代牵引模型优化、模型落地反哺芯片成熟”的正向循环,堪称中国AI产业的“安卓时刻”——为全球AI发展提供了独立于原有垄断体系之外的可靠选择。
在高端算力出口管制持续收紧的背景下,国产AI产业不再被动依赖外部供给,而是建立起自主演进的技术体系与产业路径。DeepSeek V4与昇腾950PR的组合,既保障了国内AI产业的供应链安全与数据主权,也为全球市场提供了更开放、更具性价比的AI算力方案,推动全球AI生态从“单一主导”走向“多元共存”,显著提升中国在全球AI技术与产业规则制定中的话语权。
展望未来,此次迁移只是国产AI加速崛起的起点。短期来看,它将带动更多主流大模型向国产算力平台迁移,推动昇腾950PR等国产芯片快速实现规模化商用,落地更多高价值行业场景;中期来看,模型与芯片的深度协同将持续推动技术迭代,算力性能、部署效率、生态成熟度将同步提升,形成更完善的自主AI产业体系;长期来看,国产AI将逐步实现从“算力自主”到“创新引领”的跨越,在大模型算法、算力芯片、行业应用等领域形成全球竞争力,为数字经济发展与科技自立自强提供核心支撑。
撰稿|朱政宇 刘冬澈 余植巽 苏来提
排版|韩智颖
审核|智库编审委员会
