AI高性能算子开发

面向大模型迁移和调优阶段,提供自定义算子开发和融合算子开发服务,显著地提高模型性能和精度
  • 首页
  • 服务
  • 服务详情

    1. 适用产品

    AI高性能算子开发服务的覆盖场景为模型训练推理开发环境迁移至国产化GPU生态,为已购买超聚变AI高性能算子开发服务的客户,在规定的服务支持工作时间范围和响应时间内,提供优质的客户服务,面向大模型迁移和调优阶段,提供自定义算子开发和融合算子开发服务,提高模型性能和精度。其他迁移场景需联系超聚变售前人员进行评估才可提供服务。

    2. 服务描述

    AI高性能算子开发服务是超聚变工程师根据客户需求制定AI模型的算子评估及开发计划,并完成算子调优工作,服务内容包括成立需求评估调研、算子开发设计、算子源码开发、算子调优及测试、验收上线五个关键步骤。

    在AI高性能算子开发的准备过程中需对业务系统进行兼容性评估,确认可行性并制定详细的算子开发方案、测试方案和实施计划。算子开发过程中,对OS和固件、驱动的兼容提供咨询、技术指导,出现模型算子的精度和性能不达标问题,提供专业的算子开发及调优服务,协助客户解决问题,使项目能够顺利进行。算子调优完成后协助客户对AI模型开发环境的功能性测试,以保证业务系统后续的正常运行。

    • AI高性能算子开发服务中的双方职责列表:
    序号
    服务项
    内容
    超聚变
    客户
    1
    需求评估调研
    信息收集
    S
    R
    实验环境配置确认
    R
    S
    算子兼容性评估
    R
    S
    2
    算子开发设计
    算子依赖清单
    R
    S
    算子性能基准评估
    R
    S
    详细设计方案编写
    R
    S
    3
    算子源码开发
    算子源码获取
    R
    S
    算子源码编程
    R
    S
    算子调试及版本打包
    R
    S
    4
    算子调优及测试
    算子性能测试
    R
    S
    算子调优
    R
    S
    业务环境算子切换
    S
    R
    5
    算子源码开发
    验收测试
    R
    S
    高性能算子替换上线
    S
    R
    监控运行
    R
    S
    项目移交
    R
    S

    R:Responsibility; S:Support;

    3. 服务内容

    • AI高性能算子开发服务中的双方职责列表:
    阶段
    关键步骤
    工作内容
    算子开发准备
    需求评估调研
    • 信息收集:明确AI模型开发环境,调研相关软硬件环境、运行状态和关联业务信息
    • 实验环境配置确认:确认现网的实验环境配置情况,评估可行性条件是否满足
    • 算子兼容性评估:使用算子分析工具进行兼容性评估
    算子开发设计
    • 算子依赖清单:根据当前AI模型开发环境信息和兼容性评估,借助工具检索出算子的依赖清单,确保后期业务的模型可以正常运行
    • 算子性能基准评估:通过算子初始版本的基础测试,获取到当前算子的性能基准值,用于对比评估测试
    • 详细设计方案编写:根据客户需求和算子本身特性,编写算子开发的详细设计方案
    算子开发实施
    算子源码开发
    • 算子源码获取:获取算子的初始源码版本,并做好备份打包
    • 算子源码编程:根据详细设计方案进行算子源码开发,并做好代码版本管理
    • 算子调试及版本打包:算子开发过程中进行调试,bug修复及内部测试,形成版本迭代,最终稳定版本进行打包输出
    算子调优及测试
    • 应急预案制定:针对算子开发过程中可能存在的风险提前规划应对措施
    • 算子性能测试:对最终稳定版本打包的算子进行完整的性能测试,输出测试报告
    • 算子精度调优:对算子开发过程中,出现算子精度不达标问题,进行针对性的精度调优,算子代码逻辑优化,确保精度指标满足客户要求
    • 算子性能调优:对算子开发过程中,出现算子性能不达标问题,进行针对性的性能调优,算子代码逻辑优化,确保性能指标均满足客户要求
    • 业务环境算子切换:依据实施计划,执行业务环境算子切换,完成AI高性能算子切换实施
    算子验收上线
    验收上线
    • 验收测试:通过工具分别对算子替换后的AI模型开发环境和业务进行功能、性能等测试,确保AI模型开发环境和业务的功能和运行指标正常
    • 高性能算子替换上线:系统测试后,客户确认验收完毕,业务割接上线试运行时提供技术保障,模型部署及业务上线工作内容由客户执行并负责
    • 监控运行:使用工具定期健康巡检,监控运行实时告警,解决可能遗留的迁移问题
    • 项目移交:试运行期结束后整体移交客户运维部门,输出移交报告

    4. 服务免责

    • 超聚变服务免责说明如下:

    1、下列情况可能导致超聚变服务不能按要求提供:

    1)不可抗力(如:火灾、水灾、地震、雷击等)引起的意外情况;

    2)社会性问题(如:动乱、战争、罢工、政府管制等)引起的服务条件恶化;

    3)能量供应中断(如:电力、供水、油料等)引起的服务无法实施。

    2、超聚变不提供本文不涉及的任何明确或隐含的商业和技术保证。

    3、任何情形下,超聚变都不因本服务说明书对您的直接或间接经济损失承担责任,超聚变对由于其责任所导致的您的损失的最大赔偿额不高于购买该产品/服务所支付的金额。

    4、本服务是一项可以选择的服务,您可以选择是否购买相关的服务并选择何时终止。如果您选择购买相关的服务,则表示您允许超聚变在提供服务时访问、采集和处理故障、检测、定位、调试相关的信息。超聚变将在您同意的前提下,遵从您的要求访问和处理相关信息。由于您是这些信息的控制者,超聚变无法确认此类信息是否包含您的机密信息或个人数据,应当保证其将根据所适用的法律要求,获得或保留所有必要的同意、许可、授权(“同意”)用于让超聚变提供此服务,使超聚变在提供相关服务时不会违反适用的法律要求、您的隐私政策、或者您与用户的协议。