摩尔线程,走Nvidia的路,也走自己的路
作者:BET356官网在线登录日期:2025/12/22 浏览:
图片来自 AI Generation 在进军资本市场之后,Moore Threads 有更大的问题需要回答。在摩尔线程首届MUSA开发者大会(简称:MDC 2025)上,摩尔线程创始人、董事长兼CEO张建中展示了一系列“硬货”,包括全功能GPU架构“花岗”、夸鹅万卡智能计算集群、下一代超级节点架构、搭载AIBOOK智能计算的AIBOOK赋能本等。 SoC芯片“长江”等。如果只看产品名称、参数和发布节奏,MDC 2025很容易被误认为是常规升级。但如果你完整听完张建中两个小时的演讲,你就会发现摩尔线程想要传达的不仅仅是国产GPU有多快,而是一个根本趋势:国产GPU终于像真正的基础设施公司一样思考。摩尔线程一直被认为是“中国版的NVIDIA”,这一点可以从所有它的方面。张建中曾担任NVIDIA全球副总裁兼中国区总经理。他深耕GPU行业近二十年。团队中不乏有NVIDIA经验的人。该公司的行为与NVIDIA非常相似。例如,MDC 与 NVIDIA 的 GTC 进行基准测试。 Moore Thread之所以会选择全功能GPU,符合Nvidia“通用并行计算”的理念。这并不意味着纯 AI 加速器、图形、AI、HPC 和视频能够共存。他们认为下一代应用应该是混合计算而不是推理模型。 NVIDIA最被低估的不是芯片,而是CUDA生态系统。摩尔线程最容易被忽视的也是MUSA。 NVIDIA确实完成了从一家GPU公司到一家计算基础设施公司的质的转变。摩尔的帖子这两年的变化也很明显,从从单卡到万卡集群,从追求性能到追求稳定性、线性度、MFU等系统级指标。然而,如果你只看到“像NVIDIA”,你就会得出摩尔线程“抄袭NVIDIA”的错误结论。事实上,情况并非如此。 NVIDIA 成长于高度全球化、低摩擦的工业环境中。摩尔线程要应对供应链不确定性、技术封锁、国内生态不良等问题。这是 NVIDIA 以前从未遇到过的问题。更准确地说,摩尔线程是用NVIDIA的方法来解决中国自己的计算能力问题,并且在中国现有的产业条件下,经历了与GPU相同的过程。为什么需要全功能 GPU?张建中演讲一开始,他首先解释了为什么要使用摩尔线程作为全功能GPU。 “全功能GPU的演变就是一部计算能力的演变史,”他说。如果你回头看纵观GPU的发展历史,你会发现它并不是为特定类型的应用而生,而是不断拓展其在计算领域的边界。早期,GPU主要负责图形和3D渲染任务;进入本世纪后,GPU以其可编程能力而闻名,开始向通用并行计算平台演进。此后,GPU广泛应用于科学计算和深度学习领域,使其逐渐成为人工智能时代算力的主要载体。在 Trans 中,前架构促进了生成式 AI 的爆发。人工智能正在从感知AI、生成AI走向代理AI,并超越物理AI阶段,深度融入现实世界。未来五到十年,实体智能等新形式的应用将要求计算平台具备计算、模拟、图形和感知能力同时具备的能力。单功能加速器无法做到这一点。张建中表示,从长远来看,p未来五到十年的主要应用形式很可能集中在体现智能领域。具身智能通过将人工智能能力嵌入到现实世界的物理实体中,促进虚拟世界、数字世界和物理世界的深度融合。它所依赖的是能够支持复杂计算形式的人工智能物理基础设施。在这个演进过程中,“3D+AI+HPC”并不是偶然的组合,而是全功能GPU自然演进的结果。随着GPU能力在图形、计算、仿真等多个维度的不断融合,逐渐演变成支撑新一代技术发展的核心基础设施。实践一再证明,在张建中的看来,基于全功能GPU构建的计算基础设施更有能力支撑技术体系的持续演进和长期领先。从技术架构上看,全功能GPU的核心取决于其内部集成的多类型计算引擎,以实现对多样化计算需求的统一支持。目前,全功能GPU主要包括四类核心计算引擎:一是AI计算引擎,涵盖模型训练、推理、综合训练推送等典型场景。这是支持大型模型和各种人工智能应用的关键能力。二是3D图形渲染引擎,为数字内容制作、数字孪生、仿真可视化等场景提供高性能图形处理能力。三是高性能计算和物理仿真引擎。这种能力在科学计算中具有重要价值科学计算和人工智能,可以支持复杂的物理过程模拟和大规模科学计算任务。第四是智能视频编解码引擎。尽管这种能力常常被低估,但在主流云计算的背景下,视觉仍然是人们看到计算结果的主要方式。良好的视频编解码能力决定了云计算结果能否稳定、低成本地交付给最终用户。 MUSA是“首款产品” MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一计算架构,涵盖了从芯片架构、指令集、编程模型到软件运行时库和驱动框架的全栈技术体系。完整的MUSA统一系统架构,底层是摩尔线程,配备全功能GPU,可以处理不同行业、不同精度、不同性能的数据nt类型和不同的格式。在全功能 GPU 之上是硬件系统。摩尔线程的智能计算集群叫做夸鹅。快鹅智能计算集群可大可小,从小系统到大型万卡集群、十万卡集群,甚至更大的超大规模。在硬件基础上,摩尔线程构成了所有软件堆栈。第一个是整个MUSA软件堆栈,包括所有加速库、所有开发人员调试工具以及开发应用案例和示例。快鹅核心软件可以构建在整个MUSA架构套件之上。在此基础上,Moore Thread继续发展MUSA生态。可见MUSA是一个从芯片到生态系统的完整系统。 MUSA 升级到 5.0 标志着一个架构里程碑。 Native MUSA C 与 TileLang、Triton 等编程语言完全兼容。核心计算库muDNN实现GEMM/FlashAttention效率9以上8%,通信效率97%,编译器性能提升3倍,并集成高性能算子库,显着加快了整个训练和推理过程。 Moore Thread计划逐步开源计算加速库、通信库、系统管理框架等关键组件,并开放深度优化开发者社区的底层能力。据悉,摩尔线程即将推出兼容跨代GPU指令架构的中间语言MTX、渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q、计算光刻库muLitho,持续拓展全功能GPU的算力边界。 “MUSA不仅支持国际标准CPU系统,还支持国产CPU操作系统和国内开发环境。使用我们国产的EC“摩尔线程的统一软件栈可以覆盖全系列产品,覆盖‘云端’和‘边缘端’三大系列。这些产品可以用同一套软件支持不同的硬件产品。‘花岗’新架构、两颗芯片和快鹅万卡集群。过去几年,国内GPU厂商最常被问到的问题是:‘哪一代’?”性能方面你达到了吗?”摩尔线程给出了自己的答案。基于统一的MUSA系统,摩尔线程发布了新一代全功能GPU架构“华罡”,凭借计算密度优势,在能效、精度支持、连接能力和图形技术等方面取得了全面的成就。其主要特点包括:性能:基于新一代指令集,算力密度提升50%,能效高度优化;支持从FP4到FP64的全精度端到端计算,并增加了MTFP6/MTFP4和混合低精度支持。异步编程和超大规模互联:融入新一代异步编程模型,优化任务调度和并行机制;通过自主研发的MTLink高速互联技术,支持10万卡以上智能计算集群的扩展。图形与AI深度融合:内置AI生成渲染架构,改进硬件光线追踪加速引擎,全面支持DirectX 12 Ultimate,实现图形渲染与智能计算的高水平协同。全栈自研安全可信:架构为batis全栈自研lopment主要从事研发,拥有坚实的专利壁垒(截至2025年6月30日,公司共拥有授权专利514项,其中发明专利468项),具备全栈自研、自主可控的核心能力。通过四层硬件安全架构,提供从芯片到系统经过验证的安全防护。基于“华钢”架构,摩尔线程公布了未来将发布的两条芯片技术路线:“华山”致力于AI与超大规模智能计算的联合培养和推广。它结合了新一代异步编程和全精度张量计算单元,支持从FP4到FP64的全精度计算,为万卡级智能计算集群提供强大高效的算力支撑,为打造下一代“AI工厂”奠定坚实的基础。 “庐山”专攻高性能图形渲染ing。其图形性能实现全面飞跃:AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,纹理填充、原子内存访问能力和显存容量显着提升。 AI生成渲染、UnitE统一渲染架构和全新硬件光追引擎的融合,为3A游戏和高端图形创作提供强大的计算支持。人工智能基础设施的边界已经超越了芯片的边界,也通过摩尔线程扩展了集群系统层面的能力。本次大会上,摩尔线程正式发布了跨鹅万卡智能计算集群。集群具备全精度、全功能通用计算能力,实现高效、稳健的AI训练和推理e 在万卡规模。 Among its major achievements are: the floating-point computing power reaches 10Exa-Flops, the training computing power utilization (MFU) reaches 60% in the Dense large model, and 40% in the MOE large model.有效训练时间达到90%以上,训练线性扩展效率达到95%。与国际基础生态非常契合,能源效率在多项指标上具有显着优势。 On the training side, the leading training process on large models is completely done based on sa native FP8 capabilities, and has reached the international mainstream level in a number of key accuracy indicators. Achieve major optimizations at the technical level: Flash Attention's computing power utilization exceeds 95%, and overcomes major technical bottlenecks such as FP8 aggregate accuracy, fully unleashing the potential performance of domestic GPUs in large-scale training models.在推理方面,摩尔线程结合了采用硅基流程,通过系统级工程优化和 FP8 精度加速,在 DeepSeek R1 671B 全模型中实现了性能提升:MTT S5000 单卡 Prefill 吞吐量突破 4000 个 token/s,Decode 吞吐量在新基准中突破 1000 设置。表现。面向未来,MTT C256超级节点架构方案已发布。 prThis pipeline采用计算与交换一体化的高密度设计,旨在系统提升万卡集群的训练性能和推理能力,为下一代超大规模智能计算中心构建超高密度和极致能效的硬件基石。摩尔线程大会更像是国内算力进入长期主义阶段的宣言。这条路不会很快,也不会一帆风顺,但至少从这个MDC开始,它不再是一个分散的点,而是一条可以n 被重新陈述、理解和遵循。 (本文作者|张帅,编辑|盖宏达)
特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(如有,包括照片和视频)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。 上一篇:俄罗斯总统助理:俄已移交1003具乌克兰士兵遗骸
下一篇:没有了
下一篇:没有了
相关文章
- 2025/12/22摩尔线程,走Nvidia的路,也走自己的路
- 2025/12/21俄罗斯总统助理:俄已移交1003具乌克兰士
- 2025/12/21美国对马杜罗家族成员及相关人员实施制
- 2025/12/20北京超实惠的披萨自助餐也想卖给上海人
- 2025/12/20今天北京有6至7级风,最高气温仅4℃



客户经理