Skip to main content
Inference Learning home page
Inference Learning
Search...
⌘K
Search...
Navigation
Mooncake AI Infra
AI Infra 基础入门
Docs
Inference Learning
Mooncake AI Infra
AI Infra 基础入门
Claude Tutorial
Privacy Inference
On this page
AI Infra 基础入门
系统推理架构
SM 架构
HBM 架构
DP/PP/MP/TP
RMDA
NCCL 通信库
Moonckae 架构
Mooncake AI Infra
AI Infra 基础入门
系统推理架构、并行策略(DP/PP/MP/TP)与 Mooncake 架构解析
AI Infra 基础入门
系统推理架构
SM 架构
SM 架构解答
HBM 架构
DP/PP/MP/TP
DP 数据并行
:每个GPU保存完整的模型副本,处理不同的数据批次
MP 模型并行
:将模型切分到不同GPU,每个GPU只存储部分参数
GPU利用率低,存在流水线气泡
PP 流水线并行
:结合数据并行和模型并行,将数据分批处理以减少空闲时间。
TP 张量并行
:单层计算拆分到多个GPU
RMDA
允许机器直接访问另一台机器的内存,无需CPU介入
NCCL 通信库
Moonckae 架构
Inference Learning
Claude Code 程序员效率手册
⌘I