产品核心技术解决方案实测验证客户案例目标客户知识产权关于我们投资者关系新闻 联系 English

术语表

AI 算力中心存储加速领域的核心术语解释(KV Cache、存算分离、EBOF、NVMe-oF 等)。

速答

AI 存储有哪些必须先搞懂的术语?

存算分离
存储与计算解耦、各自独立扩展的体系结构
KV Cache 卸载
把占显存的 KV Cache 按热度分层卸载到外置高速全闪
NVMe-oF / RoCEv2
经无损以太网访问远端 NVMe,接近本地盘时延
EBOF
以以太网直连的全闪存储扩展柜

KV Cache

大模型推理时缓存的注意力键值对,用于避免重复计算、加速长上下文生成;占用大量 GPU 显存。

KV Cache 存储卸载

把 KV Cache 分层卸载到外置高速存储,以扩展上下文、提升并发与 token 产出(行业最高降本约 73.7%,S5)。

存算分离

将存储与计算解耦、独立扩展的架构,避免“为扩存储而买算力”,提升资源利用率与弹性。

EBOF

Ethernet-attached Bunch of Flash,以太网直连的全闪存储扩展单元,配合 NVMe-oF 实现存算独立扩展。

GPUDirect Storage

让 GPU 绕过 CPU 直接与存储交换数据的技术,降低拷贝与时延(顺序读可达 351 GiB/s,S4)。

NVMe-oF

NVMe over Fabrics,把 NVMe 协议扩展到网络,使远端全闪存储具备接近本地盘的低时延。

RoCEv2

RDMA over Converged Ethernet v2,在以太网上实现低时延、无损的 RDMA 数据传输。

CPFS

并行文件系统,为多 GPU 并发训练/推理提供高聚合带宽的共享存储。

Token 产出

单位算力在单位时间内可生成的有效 token 数,是衡量算力中心经济性的关键指标。

GPU 利用率

GPU 处于有效计算状态的时间占比;IO 受限时常仅 30–50%,存储加速可提升 2–3 倍(S4)。

全闪存储

全部采用 NVMe SSD 介质的存储系统,具备高 IOPS、高带宽、低时延特性。

WS5000 / WS7000

中科存储的存算分离全闪加速一体机产品线:WS5000 已定型量产;WS7000 面向 AI 算力中心(7000 万 IOPS 级)。

推理上下文外置

指将大模型推理过程中的中间状态数据集中存放于共享存储层,并通过标准化协议进行统一管理的架构。该设计通过解耦计算与上下文存储,缓解单节点显存瓶颈,支持多实例共享与动态迁移,从而提升集群资源调度效率与横向扩展能力。

微秒级并行数据通道

指面向AI负载构建的存储传输架构,通过多链路聚合提供极低访问延迟与高并发读写能力。该通道可保障计算单元在密集调度时获得稳定数据供给,典型访问时延约20 μs,随机IOPS约50,000,000,有效支撑国产GPU适配约90%+的异构算力集群。

最后更新: