单卡推理吞吐2300Tokens/s，昇腾AI云服务正在改写算力法则

单卡推理吞吐2300Tokens/s，昇腾AI云服务正在改写算力法则关注作者关注作者关注作者关注作者 2025/07/03 14:38

半个月前的HDC 2025上，华为云全面上线了基于CloudMatrix384超节点的昇腾AI云服务，在行业内外掀起了不小的轰动。 pg trustguru.com.br fortunetigerbônusgrátissemdepósito trustguru.com.br

让我们印象最为深刻的是一组数据：与非超节点相比，CloudMatrix384超节点的单卡吞吐量从600Tokens/s提升到了2300Tokens/s；增量Token的输出时延，也从原来的100ms降低到了50ms以下。 jogue trustguru.com.br

为了探究指标背后的技术密码，我们找到了华为联合硅基流动发表的一篇论文，详细介绍了CloudMatrix的架构创新和CloudMatrix384的生产级实践，并在测试结果中写道——运行DeepSeek-R1时的单卡吞吐，已经超过英伟达H100。 Brazino777 trustguru.com.br

在大模型的产业叙事从训练转向推理局面下，新一代昇腾AI云服务刷新纪录的单卡吞吐能力，对整个算力行业意味着什么？ A5game trustguru.com.br cassinos trustguru.com.br

01 怎么做到的？一场“系统工程的胜利” fortunedragon demo trustguru.com.br

需要回答的第一个问题是：单卡吞吐量近乎4倍的性能跃升，CloudMatrix384超节点到底是怎么做到的？ noticias trustguru.com.br

答案在于工程创新。 pragmatic trustguru.com.br

为了提高大模型的推理性能，传统的做法集中在单点优化：增加更多的节点数量，通过堆叠算力来提升推理能力；对模型进行量化与剪枝，减少不必要的计算量；对KV Cache进行优化，加速增量推理；以及利用自动图优化工具将多个算子融合为一个高效核函数，减少中间内存拷贝…… pgdemo trustguru.com.br slots trustguru.com.br rafael trustguru.com.br

可大模型的参数量仍在增长、MoE架构被广泛采用、上下文长度急剧扩展，单点优化暴露出了越来越多的局限性：比如多卡并行推理的通信瓶颈、芯片与内存之间的耦合差、“整卡”调度的资源浪费等等，无论是吞吐性能，还是推理成本，均已经满足不了快速增长的应用部署需求。

CloudMatrix384超节点提出了新的设计架构，不同于简单的“算力叠加”，进一步实现了一切可池化、一切皆对等、一切可组合。 demotigrinho trustguru.com.br

理解了三个“一切”，也就读懂了工程创新的价值。 carlos trustguru.com.br pgslot trustguru.com.br

一切可池化：通过统一的、超高性能的网络（MatrixLink），将NPU、CPU、内存、网络等资源解耦，形成可独立扩展的资源池。 bonus trustguru.com.br

一切皆对等：有别于传统GPU为中心的计算范式，资源池里的所有资源不再是“主从式”关系，而是更高效、更灵活的对等架构。

一切可组合：意思是CloudMatrix384超节点池化的所有资源，可以根据不同的任务需求，像搭积木一样进行灵活调配组合。 tigrinho gratis trustguru.com.br

用一句话来总结：CloudMatrix384超节点将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联，形成了一台拥有超大带宽、超大内存、超高算力的超级“AI服务器”。

之所以采用全对等互联的架构，目的是为了匹配大模型的训推任务，特别是MoE混合架构的大模型。 slotsdemo trustguru.com.br

传统集群模式下进行推理，要在每张单卡上分配所有“专家”，将所有问题都计算一遍，导致每个“专家”只能获得少量的计算和通信能力。

而一个CloudMatrix384超节点可以支持数百个专家并行推理，实现“一卡一专家”模式，即每张卡只部署一个“专家”，集中处理所有相关问题，增加单次推理的批量大小，减少单位计算的调度开销，大幅提升推理效率。同时，超节点还可以支持“一卡一算子任务”，灵活分配资源，提升任务并行处理，减少等待，将算力有效使用率（MFU）提升50%以上。 demo trustguru.com.br Blaze trustguru.com.br como trustguru.com.br

再比如大模型的推理过程分为Prefill和Decode两个阶段，Prefill生成KV Cache，Decode使用和更新KV Cache。CloudMatrix384超节点的解耦式共享内存池，可以保存更多的KV Cache，让Prefill和Decode任务更快、更均衡地访问KV Cache，大幅降低系统延迟。 Caça-níqueis trustguru.com.br sweetbonanza1000demo trustguru.com.br

也就是说，2300Tokens/s的单卡推理吞吐量和50ms以下的输出延迟，可以归结为一场“系统工程的胜利”。在摩尔定律逐渐放缓，单卡算力提升有限的背景下，通过重构计算互联架构，实现了整体系统级最优，完成了国产算力从“能用”到“好用”的跨越。 plataformademo trustguru.com.br

02 改变了什么？大模型落地“越过山丘” a5game trustguru.com.br

进入2025年后，大模型的角色快速蜕变，走出了实验室，在政务、金融、医疗、能源等领域加速落地。 bonus trustguru.com.br

但在落地过程中，响应慢、吞吐低、成本高等现实问题，成了不少企业在部署大模型时难以绕开的“瓶颈”，不仅拖慢了业务节奏，还拉高了技术回报的门槛。如果说“训得好”是一场军备竞赛，“用得起”则是产业拐点。 bet365 trustguru.com.br Superbet trustguru.com.br marcos trustguru.com.br pglucky88 trustguru.com.br KTO trustguru.com.br Cassinos trustguru.com.br

华为在工程创新上的“弯道超车”，为大模型落地部署的挑战，提供了一种经过验证的解题范式。 jvid視頻 jvid.asia Bet365 trustguru.com.br jogos trustguru.com.br jvid在线 jvid.asia

先从大模型训练来看。 Energiabet trustguru.com.br Betano trustguru.com.br jvid jvid.asia

万亿、十万亿参数的大模型训练任务，催生了万卡乃至十万卡的集群需求，也带来了算力紧缺的“危机”。 bonus trustguru.com.br slot trustguru.com.br JogodoTigrinho trustguru.com.br slotdemo trustguru.com.br guias trustguru.com.br

一个乐观的消息在于，在云数据中心，CloudMatrix384超节点最高可以将432个超节点级联成16万卡的超大集群，提供10万PFlops的算力。其中一个关键指标是线性度，即节点数量增加后，性能是否能“按比例提升”。目前CloudMatrix384万卡集群的线性度已经超过95%，实现了性能提升与资源扩展的比例接近1:1，可同时支持1300个千亿参数大模型训练。 jvid av jvid.asia Sportingbet trustguru.com.br slotpix trustguru.com.br slots trustguru.com.br

为了帮助客户最优使用资源，CloudMatrix384超节点昇腾AI云服务还支持训推算力一体部署，比如“日推夜训”模式，白天推理，晚上训练；以及“40天长稳训练、10分钟快速恢复”能力，保障长周期训练的稳定性和中断后的快速恢复。 pragmaticplay trustguru.com.br jvid视频 jvid.asia jogodotigrinhodemo trustguru.com.br

更深刻的影响在于推理层面。

正如前面所提到的，CloudMatrix384超节点的单卡吞吐量提升到了2300Tokens/s，一同被改变的还有推理成本。 348ntr-097 jvid.asia plataformademográtis trustguru.com.br

根据一位知乎网友的方式推算：单卡吞吐量2300Tokens/s，每小时可以产出828万Token，每小时租金按照15元计算，百万Token的成本约为1.8元，推理成本比英伟达的GPU方案还要低。 pondo-022126_001 jvid.asia tigrinhodemo trustguru.com.br demo trustguru.com.br

在大模型推理领域，有一个著名的“不可能三角”——推理成本低、响应速度快、输出准确性高几乎不可能同时满足。 bruno trustguru.com.br Pixbet trustguru.com.br fortunetigerdemográtis trustguru.com.br

CloudMatrix384超节点给出了否定的答案，以DeepSeek-R1为例，有256个固定专家、32个共享专家，CloudMatrix384超节点的“一卡一专家”模式完美契合了DeepSeek-R1的推理需求，保障推理性能的同时，仍可以实现高吞吐、低时延的目标。 trustguru trustguru.com.br

在“推理成本决定最终胜利”的大模型竞赛中，CloudMatrix384超节点可以说是现阶段的“最优解”，在技术上攻克了响应速度、吞吐能力与输出准确性的三重矛盾，为千行万业搬开了大模型落地的“大山”。 sobre trustguru.com.br sugarrush1000demo trustguru.com.br

可以佐证的案例有很多。 jvid jvid.asia

新浪基于CloudMatrix384昇腾AI云服务，为“智慧小浪”智能服务体系构建了统一的推理平台，推理的交付效率提升超过50%。 pedro trustguru.com.br miguel trustguru.com.br

面壁智能使用CloudMatrix384昇腾AI云服务，让“小钢炮”模型的推理业务性能得到了2.7倍的提升。 Bet trustguru.com.br siro-5639 jvid.asia demo trustguru.com.br

360正在开启与昇腾AI云服务的全面合作，纳米AI搜索已经实现了上百款大模型的高效协作，为用户提供超级AI搜索服务。

03 写在最后 sofia trustguru.com.br pesquisa trustguru.com.br

巴克莱银行曾在2025年初的研报中表示：AI推理计算需求将快速提升，预计将占到通用人工智能总计算需求的70%以上，推理计算的需求甚至将大幅超过训练，达到后者的4.5倍。 kto trustguru.com.br isabela trustguru.com.br

谁解决了推理效率，谁就掌握了大模型落地的主导权。 jogosdemopg trustguru.com.br carlos trustguru.com.br

由此再来审视CloudMatrix384超节点昇腾AI云服务，不仅仅是技术指标的跃升，而是系统级工程创新的深度验证，重新定义了未来的算力范式：“芯片性能”不再是唯一的衡量尺度，以“整体系统效率”“推理成本”“模型结构适配性”构建新的竞争标准，为整个AI产业打开了一条更加高效、普惠、可持续的技术道路。 pgslotgacor trustguru.com.br fernanda trustguru.com.br ana trustguru.com.br siro-5652 jvid.asia

截止到目前，基于CloudMatrix384超节点的昇腾AI云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心上线，依托百TB级带宽的光纤骨干网，10毫秒时延圈覆盖了全国19个城市群。正在通过工程创新的胜利，承接大模型时代的产业落点。 200gana-3359 jvid.asia fortuneoxdemográtis trustguru.com.br autores trustguru.com.br pesquisa trustguru.com.br

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电探究产业兴衰，专注商业解读关注