10月31日,在2023云栖大会“人工智能”技术主题论坛上,超聚变AI服务器产品总经理朱勇作《聚变创新,助力AI产业筑牢数智发展根基》主题演讲,对超聚变AI开发平台,进行重点介绍。
超聚变AI服务器产品总经理朱勇
近年来,ChatGPT引爆AI大模型,各行业AI算力需求暴增。大模型训练需要集群支持,而AI集群需要大量高性能AI服务器、高性能存储和智能无损网络设备以及大量硬件基础设施投资支持。
在使用AI集群的过程中,需要有强大的作业调度能力,跨节点调度能力,集群故障实时监测和及时诊断能力,以及断点续训和故障节点自动隔离等诸多能力,以达成稳定训练,确保集群的高效运行。
超聚变推出的AI开发平台,是一站式 AI 模型开发训练部署平台,具备开放、高效、可靠、易用四大特性,打通AI开发全流程,为用户提供友好易用的AI开发环境,保护客户投资。
多算力资源统一调度、统一管理,降低客户运维难度
支持GPU、NPU等多算力,通过节点标签定义各类资源池,各类AI任务可灵活选择最匹配的资源池。
丰富的北向标准化接口,易与客户自有系统集成对接
提供REST、SNMP等标准北向接口,方便客户自有系统灵活按需调用。
增强作业调度,资源利用率提升50%以上
支持Gang、Binpack、Proportion、Priority等高阶调度策略,适用不同场景。
GPU服务器资源跨集群弹性调度,实现资源共享
GPU节点可以通过裸金属服务在多个租户资源池中动态管理,结合调度感知,GPU节点可以在不同集群中弹性分配。
GPU/NPU多实例和虚拟化技术,有效降低客户TCO
GPU多实例技术,单卡物理切分成多卡;GPU/NPU虚拟化技术,单卡逻辑切分成多卡,1张GPU卡可以当100张GPU卡用。
支持低至30秒的Checkpoint时长
支持快速保存训练过程中的数据,训练时长最多可缩短6%。
强大的作业卡死检测功能,节省训练资源成本
自动识别作业是否卡死,告警提醒用户及时释放资源。
GPU故障诊断准确率达96%
覆盖GPU所有关键信息,多种展示方式,通过BMC和多种诊断工具,支持集群的GPU批量故障诊断和监控。
断点续训,自动隔离故障节点,秒级恢复任务
训练过程中检测到节点故障、计算资源耗尽、程序崩溃等故障后自动从最近的Checkpoint点恢复训练,训练任务秒级恢复。
一站式 AI 模型开发训练部署,打通深度学习全链路
集成数据管理、算法开发、训练管理、模型管理、推理服务、镜像管理等多个功能模块。
预置大语言模型和深度学习框架镜像,助用户快速开发AI应用
预置LLaMA、BLOOM、GLM 等常见预训练模型和TensorFlow、PyTorch、Caffe、MindSpore、飞桨等多个深度学习框架镜像。
集成模型迁移工具,助力客户业务快速上线
实现模型迁移和可视化性能分析。
展望未来,超聚变将持续深耕智算基础平台,基于超聚变AI开发平台和专家团队,提供标准化、低门槛AI专业服务,持续释放智算动能,让算力更好地服务您。