AI模型迁移调优

提供模型迁移和精度性能调优服务,提升原生开发效率,保障客户AI模型快速落地
  • 首页
  • 服务
  • 服务详情

    1. 适用产品

    AI模型迁移调优服务的覆盖场景为模型训练推理开发环境迁移至国产化GPU生态,为已购买超聚变AI模型迁移调优服务的客户,在规定的服务支持工作时间范围和响应时间内,提供优质的客户服务。其他迁移场景需联系超聚变售前人员进行评估才可提供服务。

    2. 服务描述

    AI模型迁移调优服务是超聚变工程师根据客户需求制定AI模型开发环境迁移计划并完成模型迁移调优工作,服务内容包括成立需求评估调研、迁移方案设计、模型适配验证、迁移实施及模型调优、验收上线五个关键步骤。

    在AI模型迁移调优准备过程中对业务系统进行兼容性评估,确认可行性并制定详细的迁移方案、测试方案和迁移计划。迁移过程中,对OS和固件、驱动的兼容提供咨询、技术指导,出现模型训练推理的精度和性能不达标问题,提供专业的模型调优服务,协助客户解决问题,使项目能够顺利进行。模型迁移完成后协助客户对AI模型开发环境的功能性测试,以保证业务系统后续的正常运行。

    • AI模型迁移调优服务中的双方职责列表:
    序号
    服务项
    内容
    超聚变
    客户
    1
    需求评估调研
    信息收集
    S
    R
    实验环境配置确认
    R
    S
    兼容性评估
    R
    S
    2
    迁移方案设计
    测试方案制定
    R
    S
    迁移计划制定
    R
    S
    迁移整体方案编写
    R
    S
    3
    模型适配验证
    适配修改
    R
    S
    适配验证
    R
    S
    模拟迁移
    R
    S
    4
    迁移实施及模型调优
    应急预案制定
    R
    S
    迁移实施及模型调优
    R
    S
    业务切换
    S
    R
    5
    验收上线
    验收测试
    R
    S
    模型上线
    S
    R
    监控运行
    R
    S
    项目移交
    R
    S

    R:Responsibility; S:Support;

    3. 服务内容

    • AI高性能算子开发服务中的双方职责列表:
    阶段
    关键步骤
    工作内容
    迁移准备
    需求评估调研
    • 信息收集:明确待迁移的AI模型开发环境,调研相关软硬件环境、运行状态和关联业务信息
    • 实验环境配置确认:确认现网的实验环境配置情况,评估可行性条件是否满足
    • 兼容性评估:使用工具进行兼容性评估
    迁移方案设计
    • 设计迁移方案:根据当前AI模型开发环境信息和兼容性评估,设计详细的迁移方案,包括:迁移批次、迁移策略、迁移模式、适配方案、风险识别、数据迁移和备份等
    • 制定测试方案:确定测试对象、测试环境、测试用例、测试方法、测试工具、验收标准等
    • 制定迁移计划:明确各阶段的工作内容和时间点、资源需求、相关责任人和输出内容
    迁移实施
    模型适配验证
    • 适配修改:根据兼容性评估报告逐项适配修改,包括:硬件适配、OS软件包/基础库的适配、配置适配、应用软件适配等
    • 适配验证:每个兼容性项适配后在业务模拟环境下进行验证,根据实际情况调整迁移方案
    • 模拟迁移:兼容性适配完成后在模拟环境做迁移预演和业务验证,解决实际迁移过程中可能遇到的问题
    迁移实施及模型调优
    • 应急预案制定:针对迁移过程中可能存在的风险提前规划应对措施
    • 实施迁移:对待迁节点做业务割接,再根据数据备份说明,使用工具对待迁节点的系统/业务数据或配置进行备份。依据迁移计划、迁移方案和适配测试报告执行AI模型迁移
    • 模型精度调优:对模型迁移过程中,出现模型训练的精度不达标问题,进行针对性的精度调优,训练框架代码逻辑优化,确保loss值及收敛性等指标满足客户要求
    • 模型性能调优:对模型迁移过程中,出现模型训练推理的性能不达标问题,进行针对性的性能调优,训练推理框架代码逻辑优化,确保单步迭代时间及吞吐率等训练性能指标和时延、并发和吞吐率等推理性能指标均满足客户要求
    • 业务切换:依据迁移计划,执行业务切换,完成AI模型迁移实施
    验收上线
    验收上线
    • 验收测试:通过工具分别对迁移后的AI模型开发环境和业务进行功能、性能等测试,确保AI模型开发环境和业务的功能和运行指标正常
    • 模型业务上线:系统测试后,客户确认验收完毕,业务割接上线试运行时提供技术保障,模型部署及业务上线工作内容由客户执行并负责
    • 监控运行:使用工具定期健康巡检,监控运行实时告警,解决可能遗留的迁移问题
    • 项目移交:试运行期结束后整体移交客户运维部门,输出移交报告

    在AI模型迁移时除了需要考虑如何便捷快速地部署外,还需要尽可能满足客户对AI模型开发环境软件的版本要求,以贴合客户使用习惯。超聚变提供了三种模型部署迁移场景:物理机部署迁移、虚拟机部署迁移、容器部署迁移。(具体采用的部署迁移场景需根据客户已有的AI模型开发环境平台具体评估)

    4. 服务免责

    超聚变服务免责说明如下:

    1、下列情况可能导致超聚变服务不能按要求提供:

    1)不可抗力(如:火灾、水灾、地震、雷击等)引起的意外情况;

    2)社会性问题(如:动乱、战争、罢工、政府管制等)引起的服务条件恶化;

    3)能量供应中断(如:电力、供水、油料等)引起的服务无法实施。

    2、超聚变不提供本文不涉及的任何明确或隐含的商业和技术保证。

    3、任何情形下,超聚变都不因本服务说明书对您的直接或间接经济损失承担责任,超聚变对由于其责任所导致的您的损失的最大赔偿额不高于购买该产品/服务所支付的金额。

    4、本服务是一项可以选择的服务,您可以选择是否购买相关的服务并选择何时终止。如果您选择购买相关的服务,则表示您允许超聚变在提供服务时访问、采集和处理故障、检测、定位、调试相关的信息。超聚变将在您同意的前提下,遵从您的要求访问和处理相关信息。由于您是这些信息的控制者,超聚变无法确认此类信息是否包含您的机密信息或个人数据,应当保证其将根据所适用的法律要求,获得或保留所有必要的同意、许可、授权(“同意”)用于让超聚变提供此服务,使超聚变在提供相关服务时不会违反适用的法律要求、您的隐私政策、或者您与用户的协议。