不要存储服务器了?! VAST Data省掉CPU,采用GPU+DPU为AI应用 提速降本

服务器 0

Aug 06, 2024 By Tim Lustig

Spotlight: NVIDIA BlueField DPUs Power the VAST Data Platform for AI Workload Optimization | NVIDIA Technical Blog

聚焦:NVIDIA BlueField DPU

为 VAST 数据平台提供动力,以优化 AI 工作负载


随着对复杂 AI 能力的需求不断增加,VAST 数据推出了 VAST 数据平台,该平台现已增强了 NVIDIA BlueField DPU。这项创新旨在满足 AI 驱动的数据中心的严格要求,并优化 AI 工作负载和数据管理。
这篇文章介绍了 BlueField DPU 如何在性能和效率方面为 VAST 提供显著提升,以确保更快的数据访问和处理速度,同时降低功耗和空间需求。


1、管理 AI 工作负载的挑战


优化 AI 工作负载需要管理大量非结构化数据,确保高速数据访问,并保持强大的数据安全。传统的数据存储和处理系统通常在延迟、低效和可扩展性问题上挣扎,这可能会阻碍 AI 应用程序的性能。此外,对实时数据处理和严格安全的需求增加了有效管理 AI 工作负载的复杂性。


2、NVIDIA BlueField DPU 的好处


BlueField - 3 DPU 使组织能够满足现代 AI 工作负载的苛刻要求,确保更快的数据访问、强大的安全性和提高整体效率。继续阅读以了解更多关于 NVIDIA BlueField DPU 为 VAST 数据平台和 AI 工作负载带来的具体好处。


3、提高存储效率、数据完整性和安全性


将 NVIDIA BlueField DPU 集成到 VAST 数据平台代表了存储处理技术的重大飞跃。通过将基本的存储操作卸载到 DPU,结果是降低了功耗和空间,同时增强了存储网络带宽,提高了性能,并确保了可扩展性。这些增强对于处理 AI 应用程序中典型的大量数据至关重要,有助于更快的数据访问和处理速度。
VAST 数据的最新产品代表了 AI 环境数据平台的关键发展,将高密度存储与尖端的 BlueField DPU 技术相结合。这种强大的组合确保了卓越的性能,最大限度地提高了效率,并为最苛刻的 AI 环境提供了所需的可扩展性。


NVIDIA BlueField - 3 DPU 和 SuperNIC 部署图,包括 GPU  服务器(顶部)、两个交换机(中间)和 VAST 数据节点(底部)。


图 1. NVIDIA BlueField DPU 提高了服务器、存储控制器和存储机柜中的存储性能、安全性和效率

在 VAST 数据的传统架构中,CNodes(计算节点)是负责运行存储协议和管理服务的 x86 服务器。VAST 的独特方法包括将 NVIDIA BlueField DPU 集成到他们的平台中。这种集成将基本的存储操作从 CPU 卸载到 DPU,增强了存储网络带宽并降低了功耗。卸载到 DPU 允许减少所需的专用 CNodes 的数量,因为 DPU 可以更有效地处理必要的计算任务。

同样,通过减少计算节点,对外部网络交换机的依赖也减少了,降低了所需的交换机端口数量以及管理它们的复杂性和成本,从而简化了网络架构。BlueField DPU 通过卸载和隔离存储功能,显著增强了 I / O 操作的处理能力,协助并行数据服务,并在 AI 环境中提供块存储服务。结果是一个更精简、更高效的基础设施,需要更少的物理服务器来实现相同的性能水平。


NVIDIA BlueField DPU 以多种方式增强了 VAST 数据平台,包括:
1)提高 I / O 性能:BlueField 促进了 NVMe 存储访问,能够以超过 60 GB /s 的速度处理数据,优化了数据密集型应用程序的访问速度。
更好的存储性能:支持高达 400 Gbps,BlueField DPU 增加了吞吐量并提高了 I / O 效率。像 1)2)GPUDirect Storage 和基于融合以太网的 RDMA(ROCE)这样的功能促进了高效、低延迟的数据传输,这对于高速数据密集型应用程序至关重要。
3)服务质量:每个 GPU 服务器都配备了一个专用的 BlueField - 3 DPU,为 VAST 并行服务操作系统提供动力。这允许每个 DPU 在 VAST 数据平台的共享命名空间中进行读写,而无需跨容器协调 I / O,从而消除了竞争。
4)加速安全:BlueField DPU 卸载关键的安全任务,如加密和深度数据包检查,减少了 CPU 的计算负载,并增强了整体系统性能。BlueField - 3 还消除了对处理 IO 的内核驱动程序的需求。这种方法减少了攻击面,并最大限度地减少了基于主机的漏洞的潜在影响,特别是在多租户环境中。
5)提高效率:BlueField DPU 显著增强了存储处理能力,在提高存储网络带宽的同时降低了功耗和空间需求。


4、结果


将 NVIDIA BlueField DPU 集成到 VAST 数据平台取得了令人瞩目的结果:
1)增强性能:BlueField - 3 从主 CPU 卸载计算密集型任务以提高性能,这对于 AI 应用程序至关重要。
2)服务质量:通过在容器内操作共享命名空间,每个 GPU 服务器都有一个专用的 BlueField DPU,能够与数据节点直接通信,减少延迟和跳数,以简化 I / O 操作。
3)提高效率:通过将功耗降低 77% 和机架空间需求降低 73%,该平台为数据中心提供了更可持续的解决方案。
4)强大的安全性:增强的安全功能确保数据完整性和防止未经授权的访问。


这些进步使 VAST 数据平台成为推动 AI 驱动的数据中心性能和效率的关键组件。该平台处理大量数据的能力具有最小的延迟和高安全性,特别值得注意,为 AI 创新提供了坚实的基础。


通过集成 BlueField,VAST 加速了操作,简化了安全管理,并增强了监控能力。BlueField 提供了改进的数据服务和强大的安全功能,包括用于实时洞察和快速异常检测的先进遥测。这种集成不仅优化了性能,而且减少了对大量硬件的需求,使系统更高效、更具成本效益。BlueField DPU 是推动 VAST 数据平台先进性能和效率的关键组件,专为现代 AI 数据中心量身定制。


VAST 数据与 NVIDIA 的合作对于推进 AI 基础设施至关重要,并彻底改变了 AI 驱动的数据基础设施的格局。通过利用 BlueField - 3 DPU,VAST 数据成功地增强了其 AI 云架构,提供了前所未有的性能、安全性和效率。这种集成使 VAST 数据能够将关键的网络、存储和安全任务从 CPU 卸载到 DPU,显著减少了数据中心的占地面积和功耗。


5、总结


NVIDIA 和 VAST 数据合作开发了一个强大、可扩展和安全的 AI 基础设施,专为现代企业和服务提供商量身定制。这种集成解决方案提高了 AI 工作负载的性能,并简化了广泛 AI 系统的部署和管理。


此外,BlueField - 3 DPU 使 VAST 数据能够采用零信任安全模型,确保数据隔离和强大的威胁防护。这是多租户环境的基本特征,在多租户环境中,安全高效的数据管理至关重要。DPU 还支持将存储和安全处理服务直接集成到 AI 服务器中,并实现服务质量(QoS)功能,用于协调跨 DNodes(数据节点)的 I / O,以促进真正的线性可扩展性并消除数据服务的竞争。


随着 AI 继续推动创新并重塑行业,VAST 数据与 NVIDIA 的合作体现了将先进的 DPU 技术集成到数据中心架构中的好处。

乐生活与爱IT 编者 备注:受刘年超刘总启发,我稍微做了一下调研,期间借用了ChatGPT、豆包等AI工具,大约只需40分钟,即可找到原始文章,并翻译和发布。

也许您对下面的内容还感兴趣: