发布日期:2025-03-10 20:35 点击次数:127
DeepSeek 开源周,本日精采收官!
推行依旧惊喜且重磅,平直公开了 V3 和 R1 考试推理历程顶用到的文献系统。
具体来说,包括以下两项推行:
Fire-Flyer 文献系统(简称3FS,第三个 F 代表 File),一种应用当代 SSD 和 RDMA 蚁合的全部带宽的并行文献系统;
Smallpond,基于 3FS 和 DuckDB 构建的轻量级数据处理框架。
划重心便是,3FS 不错把固态硬盘的带宽性能应用到极致,推崇出了惊东说念主的速率:
180 节点集群中的团聚读取迷糊量为 6.6TB/s;
25 节点集群中 GraySort 基准测试的迷糊量为 3.66TB/ 分钟;
每个客户端节点的 KVCache 查找峰值迷糊量跨越 40GB/s。
V3 和 R1 中考试数据预处理、数据集加载、镶嵌向量搜索和 KV Cache 查找等职责,3FS 都立下了功名盖世。
网友们暗示,3FS 和 Smallpond 为 AI 数据处理设定了新基准,将蜕变数据处理的游戏律例。
关于 AI 来说,这就像从自行车升级到了高铁。
将 SSD 和 RDMA 性能榨干
笔据 DeepSeek 团队先容,3FS 是一种高性能的分离式文献系统,面临的便是 AI 考试和推理职责负载的挑战。
它应用当代 SSD 和 RDMA 蚁合来提供分享存储层,从而简化分离式应用要领的竖立。
SSD 便是固态硬盘,而 RDMA(长途平直拜访,remote direct memory access)是一种平直存储器拜访本事。
它不错在莫得两边操作系统介入的情况下,将数据平直从一台缱绻机的内存传输到另一台缱绻机,也不需要中央处理器、CPU 缓存或落魄文交换参与。
特质便是高通量、低延长,尤其合乎在大界限并行缱绻机集群中使用。
具体到 3FS,具有以下特质:
分离式架构:汇聚了数千个 SSD 的迷糊量和数百个存储节点的蚁合带宽,使应用要领好像以不受位置影响的时势拜访存储资源。
强一致性竣事带:分拨查询的链式复制 ( CRAQ ) 以竣事强一致性,使应用要领代码肤浅易懂。
文献接口:文献接口无人不晓且随地可用,无需学习新的存储 API。
何况,3FS 好像适用于大模子考试推理和历程中不同类型的应用负载:
数据准备:将数据分析 pipeline 的输出重组因素层目次结构,并有用处理多量中间输出。
数据加载器:通过跨缱绻节点立地拜访考试样本,摒除了预取或混洗数据集的需要。
Checkpoints:撑握大界限考试的高迷糊量并行 Checkpoints。
用于推理的 KV 缓存:为基于 DRAM 的缓存提供了一种经济高效的替代决策,可提供高迷糊量和更大的容量。
在大型 3FS 集群上的读取测试中,竣事了惊东说念主的高迷糊量。
该集群由 180 个存储节点构成,每个存储节点配备 2 × 200Gbps InfiniBand 网卡和 16 个 14TB NVMe SSD。
简陋 500+ 个客户端节点用于读压测,每个客户端节点成立 1x200Gbps InfiniBand 网卡。
在考试功课的配景流量下,最终团聚读迷糊达到约 6.6TB/s。
DeepSeek 还用 GraySort 基准测试评估了基于 3FS 构建的 smallpond 框架,该基准测试可测量大界限数据集的排序性能。
测试分为两个阶段,先用键的前缀位通过 shuffle 对数据进行分区,然后进行分区内排序。两个阶段既需要从 3FS 读取,也需要向 3FS 写入数据。
测试集群包含 25 个存储节点(2 个 NUMA 域 / 节点、1 个存储作事 /NUMA、2 × 400Gbps NIC/ 节点)和 50 个缱绻节点(2 个 NUMA 域、192 个物理中枢、2.2 TB RAM 和 1 × 200 Gbps NIC/ 节点)。
最终对 8192 个分区中 110.5TB 数据进行排序,耗时 30 分 14 秒,平均迷糊量为 3.66TB/ 分钟。
另外,KV 缓存客户端的读取迷糊量,峰值也达到了 40GB/s。
One More Thing
回归 DeepSeek 这五天开源的推行,果然都和 AI Infra 相干:
第一天,,DeepSeek 独创 MLA 架构的高性能版块,平直打破 H800 缱绻上限;
第二天,, 第一个用于 MoE 模子考试和推理的开源 EP 通讯库,提供高迷糊量和低延长的 all-to-all GPU 内核;
第三天,,一个通用矩阵乘法库,仅 300 行代码,是 V3/R1 考试推理要道躲避;
第四天,,转换的双向活水线并行算法 DualPipe、用于 MoE 的负载平衡算法 EPLB,以及考试和推理框架的性能分析数据;
第五天,3FS 和 Smallpond,高效的分离式文献系统和以之为基础的数据处理框架。
何况主打的便是相称压缩资本,镌汰消费的同期将多样硬件的性能全部施展到极致。
而另外一边,有网友仍是在期待 V4 和 R2 的上线了。
至此,DeepSeek 开源周的连载也要告一段落了,但 DeepSeek 后续算作依然值得握续温情。
感酷好的话,迎接扫码备注「DeepSeek- 奇迹 / 姓名」加入群聊,一皆温情 DeepSeek 更多动态!
形势地址:
https://github.com/deepseek-ai/3FS
参考贯穿:
https://x.com/deepseek_ai/status/1895279409185390655开云体育(中国)官方网站