• 首页
  • 关于超聚变
  • 新闻公告
  • 聚变创新,助力AI产业筑牢数智发展根基

    聚变创新,助力AI产业筑牢数智发展根基

    聚变创新,助力AI产业筑牢数智发展根基

    2023年11月01日 阅读 1182

    10月31日,在2023云栖大会“人工智能”技术主题论坛上,超聚变AI服务器产品总经理朱勇作《聚变创新,助力AI产业筑牢数智发展根基》主题演讲,对超聚变AI开发平台,进行重点介绍。

    超聚变AI服务器产品总经理朱勇

    近年来,ChatGPT引爆AI大模型,各行业AI算力需求暴增。大模型训练需要集群支持,而AI集群需要大量高性能AI服务器、高性能存储和智能无损网络设备以及大量硬件基础设施投资支持。

    在使用AI集群的过程中,需要有强大的作业调度能力,跨节点调度能力,集群故障实时监测和及时诊断能力,以及断点续训和故障节点自动隔离等诸多能力,以达成稳定训练,确保集群的高效运行。

    超聚变推出的AI开发平台,是一站式 AI 模型开发训练部署平台,具备开放、高效、可靠、易用四大特性,打通AI开发全流程,为用户提供友好易用的AI开发环境,保护客户投资。

    开 放

    多算力资源统一调度、统一管理,降低客户运维难度
    支持GPU、NPU等多算力,通过节点标签定义各类资源池,各类AI任务可灵活选择最匹配的资源池。

    丰富的北向标准化接口,易与客户自有系统集成对接
    提供REST、SNMP等标准北向接口,方便客户自有系统灵活按需调用。

    高 效

    增强作业调度,资源利用率提升50%以上
    支持Gang、Binpack、Proportion、Priority等高阶调度策略,适用不同场景。

    GPU服务器资源跨集群弹性调度,实现资源共享
    GPU节点可以通过裸金属服务在多个租户资源池中动态管理,结合调度感知,GPU节点可以在不同集群中弹性分配。

    GPU/NPU多实例和虚拟化技术,有效降低客户TCO
    GPU多实例技术,单卡物理切分成多卡;GPU/NPU虚拟化技术,单卡逻辑切分成多卡,1张GPU卡可以当100张GPU卡用。

    支持低至30秒的Checkpoint时长
    支持快速保存训练过程中的数据,训练时长最多可缩短6%。

    可 靠

    强大的作业卡死检测功能,节省训练资源成本
    自动识别作业是否卡死,告警提醒用户及时释放资源。

    GPU故障诊断准确率达96%
    覆盖GPU所有关键信息,多种展示方式,通过BMC和多种诊断工具,支持集群的GPU批量故障诊断和监控。

    断点续训,自动隔离故障节点,秒级恢复任务
    训练过程中检测到节点故障、计算资源耗尽、程序崩溃等故障后自动从最近的Checkpoint点恢复训练,训练任务秒级恢复。

    易 用

    一站式 AI 模型开发训练部署,打通深度学习全链路
    集成数据管理、算法开发、训练管理、模型管理、推理服务、镜像管理等多个功能模块。

    预置大语言模型和深度学习框架镜像,助用户快速开发AI应用
    预置LLaMA、BLOOM、GLM 等常见预训练模型和TensorFlow、PyTorch、Caffe、MindSpore、飞桨等多个深度学习框架镜像。

    集成模型迁移工具,助力客户业务快速上线
    实现模型迁移和可视化性能分析。

    展望未来,超聚变将持续深耕智算基础平台,基于超聚变AI开发平台和专家团队,提供标准化、低门槛AI专业服务,持续释放智算动能,让算力更好地服务您。

    分享至