“DeepSeek 甚至绕过了 CUDA”，论文细节再引热议

发布时间：2025-01-29 14:34:31来源：

英伟达才刚从因 DeepSeek - R1 引发的股价暴跌中稍有缓和，却又面临新的挑战。近日，硬件媒体 Tom's Hardware 带来开年重磅消息，引发人工智能领域新一轮热议：DeepSeek 甚至绕过了 CUDA，采用更底层的编程语言进行优化。

此次热议源于 DeepSeek - V3 论文更多细节被挖掘。韩国未来资产证券（Mirae Asset Securities Research）分析指出，V3 硬件效率能比 Meta 等高出 10 倍，关键在于 “他们从头开始重建了一切” 。在使用英伟达 H800 GPU 训练 DeepSeek - V3 时，DeepSeek 团队将 132 个流式多处理器（SMs）中的 20 个进行修改，使其负责服务器间的通信，而非计算任务，从而巧妙地绕过了硬件对通信速度的限制。

而实现这一操作的并非 CUDA，而是英伟达的 PTX（Parallel Thread Execution）语言。PTX 在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和线程 / 线程束（Thread/Warp）级别的调整。但这种编程方式极为复杂且难以维护，因此行业普遍采用 CUDA 这样的高级编程语言。也就是说，DeepSeek 将优化做到了极致。

消息一出，网友们纷纷热议。有网友调侃：“如果有一群人嫌 CUDA 太慢而使用 PTX，那一定是前量化交易员。” 一位亚马逊工程师更是发出灵魂质问：“CUDA 是否还是护城河？毕竟这种顶尖实验室可以有效利用任何 GPU 。” 甚至有网友大胆畅想，如果 “新源神” DeepSeek 开源一个 CUDA 替代方案，人工智能领域又会发生怎样的变革。

不过，需要明确的是，PTX 仍是英伟达 GPU 架构中的技术，是 CUDA 编程模型中的中间表示，用于连接 CUDA 高级语言代码和 GPU 底层硬件指令。在实际编译流程中，CUDA 代码首先被编译为 PTX 代码，PTX 代码再被编译为目标 GPU 架构的机器码（SASS，Streaming ASSembler）。CUDA 提供高级编程接口和工具链，极大简化了开发者的工作，而 PTX 作为中间层，在高级语言和底层硬件之间起到桥梁作用，两步编译流程也赋予了 CUDA 程序跨架构的兼容性和可移植性。

反过来看，DeepSeek 直接编写 PTX 代码的做法，虽然展现出强大的技术实力，但也面临诸多难题。有从业者表示，针对 H100 优化的代码迁移到其他型号 GPU 上时，可能效果大打折扣，甚至根本无法运行。所以，DeepSeek 做了 PTX 级别的优化，并不意味着完全脱离 CUDA 生态，但确实表明他们具备优化其他 GPU 的能力。事实上，DeepSeek 已与 AMD、华为等团队紧密合作，第一时间为其他硬件生态提供支持。

此外，还有人提出，让 AI 擅长编写汇编语言或许会成为 AI 自我改进的一个方向。此前，Llama.cpp 项目中的一个新 PR 请求，使用 SIMD 指令（允许一条指令同时处理多个数据）显著提升 WebAssembly 在特定点积函数上的运行速度，提交者表示这个 PR 中的 99% 的代码都是由 DeepSeek - R1 编写，自己仅负责开发测试和编写提示。Llama.cpp 项目的创始人检查代码后，也不禁感叹 “比预期的更出色” ，这也从侧面反映出 DeepSeek - R1 编写底层代码和优化自身代码的强大能力。

DeepSeek 在技术上的大胆探索和突破，不仅为自身发展开辟新路径，也为整个 AI 领域带来新思考。未来，随着技术的不断演进，DeepSeek 能否进一步完善技术，以及其对 CUDA 乃至整个 GPU 生态会产生何种深远影响，值得持续关注。

（作者：阿毛视界）

“DeepSeek 甚至绕过了 CUDA”，论文细节再引热议

相关阅读

推荐

旅游

教育

文史

最新资讯