IB RoCE iWARP 区别

IB（InfiniBand）以太网RoCE（RDMA over Converged Ethernet）以太网iWARP（internet Wide Area RDMA Protocal）

这些有什么区别？

这三者本质上都是 RDMA 技术体系，区别主要体现在底层网络、协议栈位置、对网络环境的要求以及部署复杂度。可以从「是不是专用网络」「是否依赖 TCP」「对以太网的约束」这几个维度来理解。

1. IB（InfiniBand）

定位

原生 RDMA 网络，从物理层到传输层都是为 RDMA 设计的。

关键特征

专用网络（非以太网）
自有协议栈（IB Link / Network / Transport）
硬件级可靠传输
极低延迟、极高带宽
不使用 TCP/IP

技术要点

可靠性由 IB 传输层保证（ACK、重传等都在 NIC 内完成）
支持 RC / UC / UD 等多种 Queue Pair 类型
网络天然无丢包设计

优缺点

优点

延迟最低
吞吐最高
语义最“纯粹”的 RDMA

缺点

成本高（交换机、网卡都专用）
与以太网生态不兼容
运维复杂

典型场景

HPC（高性能计算）
超算集群
高端 AI 训练集群

2. RoCE（RDMA over Converged Ethernet）

定位

在以太网上跑的 RDMA，但仍然使用 IB 的传输语义。

分类（很重要）

RoCE v1：二层（不可路由）
RoCE v2：UDP/IP（三层，可路由）

关键特征

使用以太网物理层
不使用 TCP
对网络环境要求高（必须“近似无丢包”）

技术要点

传输层仍是 IB Transport
RoCE v2 用 UDP + IP 封装
依赖 DCQCN / PFC / ECN 等机制避免丢包

优缺点

优点

使用以太网，成本低于 IB
延迟接近 IB
易与现有数据中心融合

缺点

对网络配置极其敏感
PFC 可能引发拥塞扩散（Head-of-Line Blocking）
运维难度高

典型场景

云厂商数据中心
AI 训练/推理集群
存储网络（如 NVMe-oF over RoCE）

3. iWARP（Internet Wide Area RDMA Protocol）

定位

跑在 TCP/IP 之上的 RDMA

关键特征

基于 TCP
完全兼容普通以太网
不需要无丢包网络

协议栈

RDMA
 └─ iWARP
     └─ MPA
         └─ TCP
             └─ IP

技术要点

可靠性、拥塞控制交给 TCP
RDMA NIC 仍然支持零拷贝、内核旁路
延迟比 RoCE / IB 高

优缺点

优点

网络部署最简单
可跨三层网络、广域网
无需 PFC / ECN

缺点

TCP 带来额外延迟
高速场景下吞吐不如 RoCE / IB
市场支持度低（主流厂商偏向 RoCE）

典型场景

跨机房
广域网 RDMA
对网络改造受限的环境

4. 核心差异对比表

维度	InfiniBand	RoCE	iWARP
底层网络	专用 IB	以太网	以太网
是否 TCP	否	否	是
是否需无丢包	是（天然）	是（需配置）	否
可路由性	是	v1 否 / v2 是	是
延迟	最低	很低	较高
运维复杂度	高	很高	低
成本	最高	中	低
主流程度	HPC 主流	数据中心主流	较小众

5. 一句话理解

IB：为 RDMA 而生的“高速专用公路”
RoCE：在以太网上铺的“高标准高速公路”
iWARP：跑在普通公路（TCP）上的 RDMA

6. 如果你从学习/工程角度选重点

结合你在学网络与系统：

理论理解：IB → 最清楚 RDMA 语义
工程主流：RoCE v2（必学）
补充对比：iWARP（理解 RDMA over TCP 的取舍）

如果你愿意，我可以进一步从
“协议栈位置” 或 “拥塞控制差异（DCQCN vs TCP）” 角度再拆一层讲。

Converged Ethernet Internet Wide Area 这有什么区别？

这三个词本身不是同一层级的概念，而是分别在描述以太网的能力范围、使用场景和网络尺度。放在 RDMA 语境里，很容易被混在一起。下面按概念 → 技术含义 → 在 RDMA 中的作用来区分。

1. Ethernet（以太网）

是什么

一种二层网络技术标准（IEEE 802.3），定义了：

帧格式
MAC 地址
介质访问方式
物理速率（1G / 10G / 100G / 400G …）

关键点

本质是 L2
默认是 尽力而为（Best Effort）
允许丢包
不保证延迟和带宽

在 RDMA 中

iWARP / RoCE 都是跑在以太网上
但原生以太网并不适合 RDMA

2. Converged Ethernet（融合以太网）

是什么

不是一种新协议，而是一组增强机制的统称：

在以太网上“融合”多种对网络质量要求很高的流量。

解决的问题

传统上：

存储（FC）
管理
普通 IP 流量

需要多张网、多套网络
→ Converged Ethernet 试图用一张以太网承载所有流量。

核心技术（DCE）

PFC (Priority Flow Control)：按优先级暂停，避免丢包
ETS (Enhanced Transmission Selection)：带宽保障
ECN：显式拥塞通知
DCQCN：数据中心级拥塞控制（RoCE）

在 RDMA 中

RoCE 必须运行在 Converged Ethernet 上
“Converged” ≈ 让以太网接近无丢包

3. Internet Wide Area（广域网 / Internet）

是什么

描述的是网络规模和管理方式，不是具体协议。

特点

跨运营商
多跳
强异构
不可控
高丢包 / 高抖动 / 高时延

在 RDMA 中

RoCE：不适合
IB：不可能
iWARP：唯一能工作的 RDMA

原因：

广域网不可能提供 PFC / 无丢包保证
TCP 才能在这种环境下生存

4. 放在一起对比（关键）

维度	Ethernet	Converged Ethernet	Internet / WAN
概念层级	二层技术	以太网增强体系	网络规模
是否丢包	允许	尽量不丢	高概率丢
是否可控	可控（局域网）	强可控（DC）	不可控
拥塞控制	简单	精细（PFC/ECN）	TCP
适合 RDMA	否	是（RoCE）	仅 iWARP

5. 和你前面 RDMA 的关系串起来

InfiniBand
  → 专用网络，天然无丢包

RoCE
  → Ethernet + Converged Ethernet（DCE）
  → 数据中心内部

iWARP
  → Ethernet + TCP
  → Internet / WAN

6. 一句话总结

Ethernet：普通以太网，能跑 IP
Converged Ethernet：为 RDMA / 存储“特训过”的以太网
Internet Wide Area：不可控的广域网络环境

如果你愿意，我可以把这三者映射到 OSI 层，或者结合 PFC/ECN/DCQCN 具体展开一条 RoCE 的数据包是怎么“活下来”的。

RDMA与TCP/IP相比，新增了什么约束，获得了什么收益？

这是一个**非常标准、也非常“考试型 + 工程型”**的问题。可以用一句话先定性：

RDMA 通过“增加网络与应用的约束”，换取“极低延迟、极高吞吐和极低 CPU 开销”。

下面严格从 “新增了什么约束” → “因此获得了什么收益” 来对照说明。

一、RDMA 相比 TCP/IP 新增了哪些约束

这些约束不是协议偶然的副产物，而是 RDMA 设计的前提条件。

1. 对网络的约束（最核心）

TCP/IP

网络可以丢包
可以乱序
可以拥塞
网络“不可控”

RDMA（IB / RoCE）

要求近似无丢包
延迟抖动小
拥塞必须被精细控制

具体体现：

IB：网络天然无丢包
RoCE：必须配置 PFC / ECN / DCQCN
iWARP 是例外（用 TCP 承担）

📌 新增约束

网络从“尽力而为”变成“受控资源”

2. 对内存模型的约束

TCP/IP

send / recv 只是字节流
内存可随意使用
内核负责拷贝与缓冲

RDMA

内存必须提前注册（Memory Registration）
内存页必须固定（pin）
访问必须带 rkey / lkey
权限严格（本机 / 远端）

📌 新增约束

内存生命周期受 RDMA 设备约束
应用必须显式管理 buffer

3. 对编程模型的约束

TCP/IP

简单抽象：socket
同步 / 异步都容易
失败语义明确（连接断了）

RDMA

Queue Pair / CQ / WR
强状态机
错误处理复杂
连接建立成本高

📌 新增约束

编程复杂度显著提高
应用更“贴近硬件”

4. 对通信语义的约束

TCP/IP

字节流
无消息边界
数据一定经过 CPU

RDMA

消息 / 内存语义
支持 one-sided（RDMA READ/WRITE）
绕过远端 CPU

📌 新增约束

应用必须设计内存布局与访问协议
同步机制需要应用层保证

5. 对部署与运维的约束

TCP/IP

插上就能跑
路由器/交换机透明

RDMA（尤其 RoCE）

网卡、交换机、固件强依赖
配置复杂
运维门槛高

📌 新增约束

RDMA 不是“随便部署”的技术

二、正因为这些约束，RDMA获得了什么收益

每一个收益都能对应回上面的某条约束。

1. 极低延迟（μs 级）

来源：

内核旁路（Kernel Bypass）
零拷贝（Zero-copy）
NIC 完成传输、重传、ACK

对比：

TCP：10–100 μs（用户态→内核→协议栈）
RDMA：1–5 μs（用户态 → NIC）

2. 极高吞吐（接近线速）

来源：

无内核拷贝
大量 offload 到 NIC
无 TCP 窗口 / 拥塞算法开销

结果：

100G / 200G 网络下 RDMA 更容易跑满

3. 极低 CPU 占用

来源：

传输、重传、排序都在 NIC
One-sided 操作不唤醒远端 CPU

效果：

TCP：吞吐 ↑ → CPU 占用 ↑
RDMA：吞吐 ↑ → CPU 变化小

4. 稳定的尾延迟（Tail Latency）

来源：

无中断风暴
无 socket buffer 抖动
无内核调度不确定性

这是 RDMA 最重要但最容易被忽视的收益。

5. 可扩展性更好（大规模并发）

来源：

大量 QP 并行
NIC 硬件并发
One-sided 减少锁争用

三、约束 vs 收益对照表（核心）

新增约束	换来的收益
无丢包网络	低延迟、稳定尾延迟
内存注册/固定	零拷贝
复杂编程模型	One-sided 通信
NIC 复杂化	CPU 解放
运维复杂	数据中心级性能

四、一句话总总结（非常重要）

TCP/IP 是“为通用性付出性能代价”，
RDMA 是“为性能牺牲通用性”。

五、如果你从考试 / 论文角度回答

可以用这个模板：

RDMA 相比 TCP/IP，引入了对网络无丢包、内存注册和编程模型复杂化等约束；通过将数据传输、可靠性和同步机制下沉到硬件，实现了零拷贝、内核旁路和 one-sided 通信，从而显著降低延迟、CPU 开销并提高吞吐与尾延迟稳定性。

如果你愿意，我可以帮你压缩成“考试 5 行版”，或者结合 NVMe-oF / 分布式 KV / AI 参数服务器举一个工程级例子。

内存必须提前注册（Memory Registration）

内存页必须固定（pin）

访问必须带 rkey / lkey

权限严格（本机 / 远端）

TCP无消息边界

One-sided 操作有没有对应的Two-sided操作？

尾延迟是什么？

解释上面的概念和问题

下面把你列出的概念逐条解释，并把你问到的两个问题（Two-sided 是什么？尾延迟是什么？）放进同一套逻辑里说明。整体按 “概念 → 为什么需要 → 带来的影响” 来讲。

一、内存必须提前注册（Memory Registration）

是什么

在 RDMA 中，NIC 不能直接访问任意虚拟内存。
应用必须显式告诉 NIC：

这段虚拟地址 + 长度，是可以被 RDMA 访问的。

这个过程叫 Memory Registration（MR）。

做了什么事

建立 虚拟地址 → 物理页 映射
将映射信息下发到 NIC
生成访问凭证（lkey / rkey）

为什么 TCP 不需要

TCP 数据先拷贝进内核 buffer
内核负责内存管理
网卡只看 DMA 地址，不理解应用内存

影响

注册是重操作（涉及页表、DMA）
内存管理复杂
但为 零拷贝 做前提

二、内存页必须固定（pin）

是什么

被注册的内存页不能被换出（swap）或移动。

原因

NIC 通过 DMA 直接访问物理内存
如果页被换走，NIC 会访问错误地址
CPU 的页迁移机制 NIC 无法感知

对比 TCP

TCP 拷贝进内核 buffer
页是否换出由内核控制
应用层无需关心

影响

固定页会占用物理内存
大规模 RDMA 应用容易触及系统内存上限

三、访问必须带 lkey / rkey

是什么

RDMA 内存访问必须携带 key：

lkey（local key）：本机 NIC 访问本机内存
rkey（remote key）：远端 NIC 访问远端内存

本质

这是 硬件级能力令牌（capability token）。

为什么要这样设计

NIC 绕过 CPU
CPU 无法参与权限检查
必须在硬件侧完成安全控制

类比

rkey ≈ “远端内存访问密码”
没有 rkey，RDMA WRITE / READ 会被 NIC 拒绝

影响

安全性强
应用需要显式管理 key 的生命周期

四、权限严格（本机 / 远端）

是什么

RDMA 内存权限是显式声明的：

只读
可写
本地可用
远端可用

示例

本机 buffer：
  允许本机 SEND
  禁止远端 WRITE

对比 TCP

TCP 没有“远端直接写我内存”的概念
所有数据都先到内核，再拷贝

影响

RDMA 的安全模型更底层
应用必须设计好内存暴露策略

五、TCP 无消息边界

是什么

TCP 提供的是 字节流（byte stream）：

send(100 bytes) + send(50 bytes)
↓
recv 可能是：
  150
  80 + 70
  30 + 120

含义

TCP 不知道“消息”
应用必须自己做：
长度字段
分隔符
framing

对比 RDMA

RDMA SEND/RECV 是 消息语义
一次 SEND 对应一次 RECV（大小 ≤ buffer）

六、One-sided 操作有没有 Two-sided 操作？（有）

Two-sided（双边）

是什么

通信双方 都主动参与。

典型操作

RDMA SEND / RECV

特点

远端必须提前 post RECV
远端 CPU 参与
语义类似 message passing

One-sided（单边）

是什么

只有发起方参与，远端 CPU 不参与。

典型操作

RDMA WRITE
RDMA READ
Atomic（CAS / FA）

特点

不需要远端 post RECV
直接读写远端内存
延迟更低、CPU 开销更小

对比总结

维度	Two-sided	One-sided
远端 CPU	参与	不参与
同步复杂度	低	高
延迟	较高	最低
编程难度	较低	高
典型用途	RPC	KV / 存储

七、什么是尾延迟（Tail Latency）

是什么

延迟分布中“最慢的一小部分请求”

常见指标：

P95
P99
P99.9

对比平均延迟

指标	含义
平均延迟	“大多数情况”
尾延迟	“最坏但真实会发生的情况”

为什么重要

在分布式系统中：

一次请求的延迟 = 最慢那个节点

即使平均很快，只要：

某次中断
某次调度
某次 cache miss

都会放大成系统级卡顿。

TCP 中尾延迟大的原因

中断
内核调度
socket buffer 抖动
拥塞重传

RDMA 为什么尾延迟小

内核旁路
NIC 完成传输
无系统调用路径
网络受控

八、把所有概念串成一句话

RDMA 通过内存注册、页固定和硬件级权限控制，使 NIC 能安全地直接访问用户态内存；在此基础上支持 two-sided 的消息语义和 one-sided 的直接内存语义，从而绕过内核和远端 CPU，大幅降低平均延迟并显著改善尾延迟。

如果你需要，我可以把这些内容整理成一张“RDMA 编程模型全景图”，或者用一个 KV 读写流程把 one-sided / two-sided 串起来。

post RECV message passing

下面只解释你点到的两个概念，不扩展新名词，但把它们在 RDMA 里的含义讲清楚。

一、post RECV 是什么

1. 基本定义

post RECV 指的是：

接收方提前向 RDMA NIC 提交一个“接收请求”，告诉网卡：
我准备好了一块内存，可以用来接收一条消息。

这是一个本地主动行为，不是被动接收。

2. 在做什么（从硬件角度）

当你 post RECV 时，你实际上是在：

指定一块 已注册（MR）的内存
指定 buffer 地址 + 长度 + lkey
把这个请求放入 RQ（Receive Queue）

NIC 之后会：

等待匹配的 SEND
收到数据后直接 DMA 到该 buffer
在 CQ 中产生一个 completion

3. 为什么必须“提前” post

RDMA SEND/RECV 是 消息语义（message semantics）：

SEND 不会缓存
SEND 不会等待
SEND 必须匹配一个已存在的 RECV

如果远端没有提前 post RECV：

SEND 可能直接失败
或触发 QP error
或造成消息丢弃（取决于实现）

📌 这是 RDMA 对应用施加的强约束之一。

4. 对比 TCP

TCP	RDMA SEND/RECV
recv() 可以事后调用	RECV 必须事前 post
内核负责缓冲	NIC 不做缓冲
字节流	明确消息

二、message passing 是什么

1. 基本含义

**message passing（消息传递）**是一种通信模型：

通信的基本单位是“消息”，而不是“内存”。

发送方：

发送一条完整消息

接收方：

接收一条完整消息

2. RDMA 中的 message passing

在 RDMA 里：

SEND / RECV = message passing
一次 SEND 对应一次 RECV
消息大小 ≤ RECV buffer 大小

流程：

Receiver:
  post RECV (buffer A)

Sender:
  RDMA SEND (msg)

NIC:
  msg → DMA 到 buffer A

3. message passing 的特点

优点

语义清晰
同步简单
类似 RPC

缺点

必须协调 RECV
远端 CPU 必须参与
扩展性受限

4. 对比 one-sided（仅作定位）

message passing：
双方都参与（two-sided）
one-sided RDMA：
只有发起方参与

三、一句话总结

post RECV：接收方提前把“接收槽位”交给 NIC
message passing：以“消息”为通信单位的双边通信模型
在 RDMA 中：
SEND/RECV = post RECV + message passing

如果你接下来想理解 “为什么 SEND/RECV 比 one-sided 更容易写，但性能差一些”，或者 “post RECV 不够会发生什么”，可以继续往下问。

QP是什么

QP（Queue Pair）是 RDMA 中最核心的通信对象。几乎所有 RDMA 操作，最终都要落到 QP 上。

一句话定义先给出：

QP 是一对由 NIC 管理的队列，用来描述两端如何进行 RDMA 通信。

下面按 是什么 → 由什么组成 → 用来干什么 → 和 TCP socket 的关系 来解释。

一、QP 是什么

抽象层面

QP = 通信端点（communication endpoint）

描述“我”和“对端”之间的通信状态
包含可靠性、顺序、重传等语义
由 硬件 NIC 维护状态

硬件层面

QP 是 NIC 内部的一个状态机：

不是内核对象
不是线程
是网卡里的数据结构

二、QP 由什么组成（为什么叫 Pair）

Queue Pair = 两个队列

队列	全称	作用
SQ	Send Queue	提交 SEND / WRITE / READ
RQ	Receive Queue	提交 RECV

应用通过 post WR（Work Request）：

向 SQ / RQ 投递操作
NIC 异步执行

三、QP 用来干什么

1. 承载所有 RDMA 操作

所有这些都必须通过 QP：

SEND / RECV
RDMA WRITE
RDMA READ
Atomic（CAS / FA）

没有 QP，NIC 不知道：

对端是谁
用什么语义通信
如何保证可靠性

2. 维护通信状态

QP 内部维护：

连接状态（INIT / RTR / RTS）
序号（PSN）
重传窗口
访问权限

这也是为什么：

RDMA 是强状态协议
QP 出错后往往只能销毁重建

四、QP 的类型（非常关键）

QP 的 Type 决定通信语义。

1. RC（Reliable Connected）

可靠
有连接
有序
最常用

用于：

RoCE v2
NVMe-oF
分布式存储

2. UC（Unreliable Connected）

不保证可靠
有连接
少用

3. UD（Unreliable Datagram）

不可靠
无连接
类似 UDP
不支持 RDMA READ/WRITE

用于：

控制消息
服务发现

五、QP 的生命周期（高度受控）

典型状态迁移：

RESET
  ↓
INIT
  ↓
RTR (Ready To Receive)
  ↓
RTS (Ready To Send)

每一步都需要：

设置属性
调用 verbs 接口
确保参数匹配

六、QP 和 TCP socket 的关系（对照理解）

TCP socket	RDMA QP
内核对象	NIC 对象
字节流	消息 / 内存
轻状态	强状态
自动缓冲	必须 post RECV
易恢复	出错即销毁

📌 QP 比 socket 更底层，也更“脆弱”

七、为什么 RDMA 设计成 QP

核心原因：

把通信状态下沉到硬件
实现内核旁路
保证 μs 级延迟

代价：

编程复杂
状态管理严格
对网络和应用约束更强

八、一句话总结

QP 是 RDMA 中的“硬件级 socket”，由发送队列和接收队列组成，负责承载和维护一次 RDMA 通信的全部状态。

如果你愿意，下一步可以继续问：

CQ 是什么
WR / WQE / CQE 的关系
一个 QP 能同时处理多少并发请求