浪潮信息元脑R1服务器支持开源框架SGLang

2025年02月27日

浪潮信息元脑R1推理服务器已完成对开源框架SGLang最新版本的深度适配，成功实现在单机高性能运行DeepSeek R1 671B模型时可最大支持超过1000路的用户并发访问。

DeepSeek R1参数量达到6710亿，采用了MLA注意力机制和共享专家、路由专家共同组成的混合专家(MoE)架构，其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从AI服务器和推理框架入手开展了协同优化工作。

元脑R1推理服务器NF5688G7原生搭载FP8计算引擎，针对DeepSeek R1 671B模型部署速度快且无精度损失，1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求，单机支持全量模型推理情况下，仍保留充足的KV缓存空间。显存带宽高达4.8TB/s，完美契合DeepSeek R1模型“短输入长输出、显存带宽敏感”的技术特征，在推理解码阶段可实现极致加速。在通信方面，GPU P2P带宽达900GB/s，保障单机部署张量并行最佳通讯性能。

目前，元脑R1推理服务器 NF5688G7已完成SGLang最新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践，在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型，成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。

浪潮信息团队正与业内团队密切合作，在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力，旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案，助力大模型快速落地应用。