• 全国高校最强“全华班”算力:上海交大“致远一号”平台搭载 1024 张华为昇腾 910B 加速卡

      发布时间:2026-04-19 23:31:05   作者:玩站小弟   我要评论
      杭州3月7日电 题:从辅导员到“金牌导师” 一位浙工大女。

    12 月 23 日消息,上海交通大学“致远一号”于今日全面建成启用,是全国高校最大的国产智算算力基础设施,本地部署了包含 DeepSeek 在内的 8 款主流大模型。

    根据上海交通大学高性能计算中心介绍,“致远一号”平台硬件配置包括 1024 张华为昇腾 910B 加速卡,FP16 峰值算力 313P,配合 Pacific 分布式存储与 BurstBuffer 架构,总存储容量 13.6PB。

    计算方面,“致远一号”配备 101 台 CPU 节点,形成 5000+ vCPU 的通用计算池;云服务支持 IaaS、PaaS、SaaS 全栈功能,具备异构算力调度与云化弹性部署,能够满足教学、科研和管理等多样化需求。

    “致远一号”的网络与算力资源由智算集群区、云平台区和存储区构成:

    智算集群区部署 128 台 Atlas 800T A2 昇腾服务器,共 1024 张 NPU 卡,峰值算力 320P,每机柜安装 5 台,单柜功率 30kW。网络架构分为参数面(200GE RoCE,1:1 收敛,32 台 CE9855 Leaf + 16 台 CE9855 Spine)、业务面(100GE,SDI 智能网卡,8 台 CE8850 Leaf + 2 台 CE9865-4C Spine)和样本面(25GE RoCE,1:1 收敛,8 台 CE6865E Leaf + 4 台 CE8850 Spine)。

    云平台区基于 HCSO 和 ModelArts,配置 101 台鲲鹏 Taishan 200 2280 V2 服务器及 60 台网络设备,并提供 2PB 云对象存储、1PB 云块存储和 1.6PB 云文件存储。

    存储区采用全闪与混闪架构,全闪 Pacific 9950 提供 43 节点、6.5PB 容量,混闪 Pacific 9550 提供 12 节点、2.5PB 容量,为并行计算与大规模模型训练提供高效数据支撑。

    机房建设方面,该平台共设 52 个 47U 加高机柜,分布在 3 组封闭微模块中,其中 34 个用于智能计算服务器(单柜功率 30kW),18 个用于存储和网络服务器(单柜功率 20kW)。

    “致远一号”的供电系统额定功率 960kW,机房配电总功率 1380kW,采用小母线架构,每个机柜配备双路 PDU,存储和网络机柜还接入 UPS,断电可维持 15 分钟不间断供电。

    “致远一号”的制冷系统配置 30 台风冷列间精密空调,单台 60kW,按“N+2”冗余方案部署,总制冷功率 1440kW,并采用氟泵双循环自然冷却技术,全年综合 PUE(注:数据中心消耗的所有能源与 IT 负载消耗的能源的比值,越接近 1 表明能效越高)约 1.3。

    类型设备参数数量计算CPU 节点CPU: 2*Kunpeng 920

    Mem:

    2048GB DDR5(4800MHZ)

    512GB DDR5(4800MHZ)

    1024GB DDR5(4800MHZ)

    101NPU 节点CPU:4*Kunpeng 920NPU: 8 * 昇腾 AI 处理器128存储高性能分布式存储节点可用容量:2.5PB型号:OceanStor Pacific 9950主存盘:7.68T NVMe SSD*1043高容量分布式存储节点可用容量:6.5PB型号:OceanStor Pacific 9550主存盘:16T SATA HDD *5012云存储总可用容量:4.6PB1网络参数面高性能交换机主型号:CE9855-32DQ端口:32 x 400GE + 2 x 10GE交换容量:25.6Tbps包转发率:8000Mpps48样本面高性能交换机主型号:CE8850-64CQ-EI端口:64 x 100 GE交换容量:12.8Tbps / 204.8Tbps包转发率:4,482Mpps24

    上海交通大学官方介绍显示,该校于 2012 年成立高性能计算中心,2013 年建成“交我算”的第一个集群 π1.0,再到今天“致远一号”平台全面落地,“交我算”品牌已经有 10 多年的发展历程。

    上一代“思源一号”高性能计算平台建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算):

    CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;

    GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。

    采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%;

    计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB;

    集群额定功率 900kW,其中 IT 设备额定功率 800kW,制冷、配电设备额定功率 100kW;

    单机柜(水冷)额定功率 55kW,机柜总数 18 个,PUE 约 1.10。

    图片

    广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。