AI集群规划设计与集成实施

针对AI解决方案,提供算存网的AI集群规划设计服务和软件集成实施服务
  • 首页
  • 服务
  • 服务详情

    1. 适用产品

    本服务覆盖的产品范围为采用超聚变服务器、东方主流生态GPU产品、西方主流生态GPU产品组建AI集群的场景,其他AI集群场景需联系超聚变销前人员进行评估才可提供服务。

    2. 服务描述

    AI集群规划设计与集成实施服务旨在帮助客户快速完成AI集群的搭建,保障业务快速上线。服务内容包含业务上线前的实施规划、软硬件安装部署、系统联调,验收等工作,即包括前期的规划设计和后期在硬件安装完毕后到AI业务上线前的软件安装部署配置、系统联调、项目验收等全部工作。

    • AI集群规划设计与集成实施服务中的双方职责列表:
    序号
    服务项
    内容
    超聚变
    客户
    1
    项目启动
    启动前准备
    S
    R
    项目启动会
    S
    R
    2
    评估调研
    信息收集
    R
    S
    实验环境部署
    R
    S
    兼容性评估
    R
    S
    3
    规划设计
    实施方案设计
    R
    S
    测试方案制定
    R
    S
    实施计划制定
    R
    S
    实施整体方案编写
    R
    S
    4
    适配验证
    适配修改
    R
    S
    适配验证
    R
    S
    5
    方案实施
    应急预案制定
    R
    S
    方案实施
    R
    S
    6
    验收上线
    验收测试
    R
    S
    业务上线
    S
    R
    监控运行
    R
    S
    项目移交
    R
    S

    R:Responsibility; S:Support;

    3. 服务内容

    AI集群规划设计与集成实施服务产品提供符合客户需求的实施方案,并完成相关实施工作。超聚变将提供以下服务内容:

    • 客户环境调研
    • AI集群实施方案设计
    • 项目交付
    • 调测
    • 项目验收&知识移交

    4. 交付流程

    4.1接收服务申请

    工作项目说明
    用户与超聚变签署了AI集群规划设计与集成实施服务购买合同后,可向超聚变申请进行AI解决方案交付实施工作,超聚变在确认合同信息后会安排工程实施人员与用户进行电话联系,确认服务实施时间和地点等相关信息。
    超聚变责任
    用户责任
    • 安排工程实施人员与用户联系
    • 向超聚变申请进行服务实施
    • 与工程师确认服务实施时间和地点等相关信息

     

    4.2开工协调会及项目前期交流

    工作项目说明
    如果服务实施工作涉及多方面实施人员,如:集成商、代理商等,在AI集群规划设计与集成实施服务实施前需要与项目相关人员进行工作协调,讨论项目计划和依赖关系,确保项目正常实施。
    超聚变责任
    用户责任
    • 参加项目计划讨论并记录参加项目各方的接口人及联系方式
    • 通知工程师参加项目开工会

     

    4.3收集客户环境信息

    工作项目说明
    在服务实施前,需要收集用户现有系统环境中的必要信息,用以支撑项目计划和方案设计。需要收集的信息包括且不限于:业务需求,机房和机柜环境信息,现有网络信息等。
    超聚变责任
    用户责任
    • 将信息收集表格提交给客户填写
    • 整理并识别相关的信息
    • 配合超聚变工程师,提供方案实施的必要信息及信息查询方式
    • 提供服务实施使用的相关账号信息和接入条件

     

    4.4方案设计

    工作项目说明

    AI集群规划设计与集成实施服务方案设计包括以下几部分内容:

    1.明确客户需求
    明确用户系统中各个模块的AI集群实施需求,优先级别。

    2.方案设计
    根据客户需求完成方案详细设计及实施步骤(初步),更新系统网络环境拓扑图。

    3.风险识别
    识别用户系统环境和方案的特点,识别出其中潜在的风险,并设计对应的风险应急处理措施。

    超聚变责任
    用户责任
    • 完成方案设计工作并提交用户评审
    • 与超聚变工程师澄清方案需求及要求
    • 评审确认方案

     

    4.5制定项目实施方案

    工作项目说明

    制定项目实施方案包括以下几部分内容:

    1.项目规划
    定义项目资源、责任、实施时间、交付件、项目完工条件等一系列项目要素。

    2.实施步骤
    根据基线后的实施设计方案和实施步骤完成实施。

    超聚变责任
    用户责任
    • 完成实施方案设计并提交用户评审
    • 评审确认实施方案

     

    4.6收集客户环境信息

    工作项目说明
    根据与用户确定的时间,完成AI集群集成实施。
    超聚变责任
    用户责任
    • 在双方认可的环境下开始进行方案实施工作
    • 确认方案实施的完成
    • 确定AI集群集成实施工作的时间点
    • 超聚变工程师完成AI集群集成实施工作后配合完成性能测试工作

     

    4.7方案验收

    工作项目说明
    AI集群集成方案实施完成,用户确认已达到用户计算能力需求,系统运行正常,即视为达到项目验收水平,项目交付通过验收。完成方案实施后总结项目工作。
    超聚变责任
    用户责任
    • 编写《项目完工报告》并提交给用户
    • 为用户刷新设备档案
    • 确认系统运行状态
    • 确认计算能力需求
    • 确认并签署《项目完工报告》

     

    4.8交付责任矩阵

    项目阶段
    项目交付详细行为
    标准服务
    超聚变
    用户
    服务器硬件安装配置
    设备到货与清点
    R
    R
    硬件(服务器、IB或RoCE交换机)布局与上架
    R
    S
    电源线连接(1+1冗余)
    R
    S
    BMC网线和业务网线连接
    R
    S
    BMC 网络配置
    R
    S
    BIOS、BMC 等硬件firmware升级
    R
    S
    BIOS配置
    R
    S
    RAID配置
    R
    S
    集群信息收集,比如:SN、MAC、firmware版本
    R
    S
    IB或RoCE网络驱动安装
    R
    S
    IB或RoCE网络配置
    R
    S
    GPU驱动、NPU驱动固件
    R
    S
    网络安装配置
    交换机网络连接与布线
    R
    S
    以太网交换机配置(管理IP、用户名、密码等)
    R
    S
    IB或RoCE交换机配置(管理IP、SM等)
    R
    S
    BMC网络、业务网络、参数面网络配置
    R
    S
    管理软件交付
    管理节点操作系统安装部署激活
    R
    S
    集群管理软件部署
    R
    S
    计算节点批量部署
    R
    S
    存储节点批量部署
    R
    S
    性能测试
    系统自检,包括计算节点配置一致性(CPU、内存、硬盘)
    R
    S
    AI集群网络性能测试
    S
    R
    DFS存储性能测试
    R
    S
    大模型最佳实践测试
    R
    S
    客户验收
    与客户共同完成验收测试报告并签字
    R
    S
    交付集群客户文档,包括所有节点的用户名、密码、IP和配置信息等
    S
    R
    交付软件使用文档,包括用户、管理员等角色的相关文档
    R
    S

    R:Responsibility; S:Support;

    5. 用户收益

    通过超聚变提供的AI集群规划设计与集成实施服务,用户可以获得以下收益:

    • AI集群集成方案交付是具备丰富经验的实施团队,降低交付风险

    从用户实际系统环境出发,针对用户系统和应用特点,为用户量身定制方案;具有上百个项目交付经验的实施团队是实现项目成功的保障。

    • 完整的风险控制计划来保持项目成功

    实施方案根据用户业务需求和特点设计,方案实施过程中把控实施风险,确保项目及时成功交付。

    6. 服务免责

    超聚变服务免责说明如下:

    1、下列情况可能导致超聚变服务不能按要求提供:

    1)不可抗力(如:火灾、水灾、地震、雷击等)引起的意外情况;

    2)社会性问题(如:动乱、战争、罢工、政府管制等)引起的服务条件恶化;

    3)能量供应中断(如:电力、供水、油料等)引起的服务无法实施。

    2、超聚变不提供本文不涉及的任何明确或隐含的商业和技术保证。

    3、任何情形下,超聚变都不因本服务说明书对您的直接或间接经济损失承担责任,超聚变对由于其责任所导致的您的损失的最大赔偿额不高于购买该产品/服务所支付的金额。

    4、本服务是一项可以选择的服务,您可以选择是否购买相关的服务并选择何时终止。如果您选择购买相关的服务,则表示您允许超聚变在提供服务时访问、采集和处理故障、检测、定位、调试相关的信息。超聚变将在您同意的前提下,遵从您的要求访问和处理相关信息。由于您是这些信息的控制者,超聚变无法确认此类信息是否包含您的机密信息或个人数据,应当保证其将根据所适用的法律要求,获得或保留所有必要的同意、许可、授权(“同意”)用于让超聚变提供此服务,使超聚变在提供相关服务时不会违反适用的法律要求、您的隐私政策、或者您与用户的协议。