聚变创新，助力AI产业筑牢数智发展根基

聚变创新，助力AI产业筑牢数智发展根基

2023年11月01日阅读 1207

分享至

10月31日，在2023云栖大会“人工智能”技术主题论坛上，超聚变AI服务器产品总经理朱勇作《聚变创新，助力AI产业筑牢数智发展根基》主题演讲，对超聚变AI开发平台，进行重点介绍。

超聚变AI服务器产品总经理朱勇

近年来，ChatGPT引爆AI大模型，各行业AI算力需求暴增。大模型训练需要集群支持，而AI集群需要大量高性能AI服务器、高性能存储和智能无损网络设备以及大量硬件基础设施投资支持。

在使用AI集群的过程中，需要有强大的作业调度能力，跨节点调度能力，集群故障实时监测和及时诊断能力，以及断点续训和故障节点自动隔离等诸多能力，以达成稳定训练，确保集群的高效运行。

超聚变推出的AI开发平台，是一站式 AI 模型开发训练部署平台，具备开放、高效、可靠、易用四大特性，打通AI开发全流程，为用户提供友好易用的AI开发环境，保护客户投资。

开放

多算力资源统一调度、统一管理，降低客户运维难度
支持GPU、NPU等多算力，通过节点标签定义各类资源池，各类AI任务可灵活选择最匹配的资源池。

丰富的北向标准化接口，易与客户自有系统集成对接
提供REST、SNMP等标准北向接口，方便客户自有系统灵活按需调用。

高效

增强作业调度，资源利用率提升50%以上
支持Gang、Binpack、Proportion、Priority等高阶调度策略，适用不同场景。

GPU服务器资源跨集群弹性调度，实现资源共享
GPU节点可以通过裸金属服务在多个租户资源池中动态管理，结合调度感知，GPU节点可以在不同集群中弹性分配。

GPU/NPU多实例和虚拟化技术，有效降低客户TCO
GPU多实例技术，单卡物理切分成多卡；GPU/NPU虚拟化技术，单卡逻辑切分成多卡，1张GPU卡可以当100张GPU卡用。

支持低至30秒的Checkpoint时长
支持快速保存训练过程中的数据，训练时长最多可缩短6%。

可靠

强大的作业卡死检测功能，节省训练资源成本
自动识别作业是否卡死，告警提醒用户及时释放资源。

GPU故障诊断准确率达96%
覆盖GPU所有关键信息，多种展示方式，通过BMC和多种诊断工具，支持集群的GPU批量故障诊断和监控。

断点续训，自动隔离故障节点，秒级恢复任务
训练过程中检测到节点故障、计算资源耗尽、程序崩溃等故障后自动从最近的Checkpoint点恢复训练，训练任务秒级恢复。

易用

一站式 AI 模型开发训练部署，打通深度学习全链路
集成数据管理、算法开发、训练管理、模型管理、推理服务、镜像管理等多个功能模块。

预置大语言模型和深度学习框架镜像，助用户快速开发AI应用
预置LLaMA、BLOOM、GLM 等常见预训练模型和TensorFlow、PyTorch、Caffe、MindSpore、飞桨等多个深度学习框架镜像。

集成模型迁移工具，助力客户业务快速上线
实现模型迁移和可视化性能分析。

展望未来，超聚变将持续深耕智算基础平台，基于超聚变AI开发平台和专家团队，提供标准化、低门槛AI专业服务，持续释放智算动能，让算力更好地服务您。

分享至

上一篇：超聚变亮相2023云栖大会，释放智算动能

下一篇：超聚变获颁零碳企业领袖奖，助力绿色算力未来

产品

解决方案

生态创新及服务

产品

解决方案

生态创新及服务

集成实施服务

客户支持服务

AI专业服务

培训服务

集成实施服务

客户支持服务

AI专业服务

培训服务

合作伙伴平台

市场管理

查找合作伙伴

合作伙伴平台

市场管理

查找合作伙伴

合作伙伴平台

市场管理

查找合作伙伴

产品支持

固件与驱动

服务支持

在线工具

产品支持

固件与驱动

服务支持

在线工具

产品支持

固件与驱动

服务支持

在线工具

关于我们

新闻与活动

发现更多

关于我们

新闻与活动

发现更多

关于我们

新闻与活动

发现更多

聚变创新，助力AI产业筑牢数智发展根基

开 放

高 效

可 靠

易 用

开放

高效

可靠

易用