AI Infra 基础入门
系统推理架构
SM 架构
HBM 架构
DP/PP/MP/TP
RMDA
NCCL 通信库
Moonckae 架构

AI Infra 基础入门

系统推理架构

SM 架构

SM 架构解答

HBM 架构

DP/PP/MP/TP

DP 数据并行:每个GPU保存完整的模型副本，处理不同的数据批次

MP 模型并行：将模型切分到不同GPU，每个GPU只存储部分参数

GPU利用率低，存在流水线气泡 PP 流水线并行：结合数据并行和模型并行，将数据分批处理以减少空闲时间。

TP 张量并行：单层计算拆分到多个GPU

RMDA

允许机器直接访问另一台机器的内存，无需CPU介入

NCCL 通信库

Moonckae 架构

Inference Learning Claude Code 程序员效率手册