超聚变推出基于英特尔CPU的AI推理一体机解决方案，助力普惠式AI推理应用

2024年10月29日阅读 58

分享至

随着人工智能技术的迅猛发展，落地AI推理应用已成为提升企业运营效率的关键措施，然而GPU等AI算力的高价格使得AI应用的起建成本高昂，让很多企业在AI应用的选择上面临较大的资金压力，尤其对于小微企业成了可望而不可及的奢侈品。

超聚变推出基于英特尔CPU的AI推理一体机解决方案，让通用服务器也可以运行AI大模型推理应用，有效降低AI应用的起建成本，为客户提供普惠式AI推理应用机会，帮助企业以较低的投入享受到智能化带来的便利性和价值。

通用服务器运行AI大模型推理所面临的挑战

强大的算力需求：AI大模型推理需要强大的并行计算能力。这既包括硬件提供的计算能力支持，也包括向量化指令集和矩阵计算指令集的支持。
较大的内存容量和带宽：推理任务需要存储大量的模型参数和中间数据，且存在超大量的数据交换，需要较大的内存容量和带宽。
合理的算力调度和分配：部署方案关系到推理执行的并行能力和算力发挥的充分性，影响整体推理性能和吞吐量。
有效的推理调度策略：当前主流AI大模型的推理调度框架和调度策略主要是围绕GPU算力设计和开发，并不能很好的适应CPU推理，需要重新以CPU为中心进行设计和优化，减少数据交换提升CPU执行效率。

超聚变 AI推理一体机解决方案

超聚变AI推理一体机解决方案是基于超聚变高性能服务器，搭载第五代英特尔^®至强^®可扩展处理器，每个CPU具备8个通道DDR5内存，围绕大模型推理计算流程进行多重技术深度改造，可充分发挥CPU算力以满足20B以内大模型推理应用。

充分利用AMX加速：充分发挥英特尔AMX向量化指令集和矩阵计算指令集的加速能力，实现AI高性能推理。
优化CPU和内存配置关系：根据模型参数量、CPU算力、内存带宽等信息设计最优的CPU和内存配置方案，充分匹配并发挥各环节资源优势，在模型推理过程中提供最优的读写带宽。
模型极致部署，提升推理并行能力：优化模型的部署策略，减少CPU之间的通信开销，提升推理任务执行时的并行处理能力，充分释放多核CPU的利用率。
创新的推理框架设计，智能精调推理调度策略：采用创新的推理框架设计，结合用户输入数据特征的智能精细化调度策略，提升推理任务的调度和执行效率，满足实时性要求。

该解决方案基于FusionServer 2288H V7部署13B模型，模拟20个用户下发不同数据同时访问，实测整机吞吐量可以达到40tokens/s，是第五代英特尔^®至强^®可扩展处理器原生通用服务器的2倍，可满足20人以内的团队AI推理使用。

当前，数字经济发展迎来新一轮机遇期，智能算力为数字经济创新提供了核心动力。超聚变通过纵向做深、横向拓展，持续焕新计算产业生态，将持续携手生态伙伴，释放算力新价值，让算力更好地服务您。

分享至

上一篇：超聚变亮相里约石油天然气展会，助力巴西石油行业数字化转型

下一篇：超聚变FusionPoD for AI荣获CAHK绿色ICT解决方案金奖

产品

解决方案

生态创新及服务

产品

解决方案

生态创新及服务

集成实施服务

客户支持服务

AI专业服务

培训服务

集成实施服务

客户支持服务

AI专业服务

培训服务

合作伙伴平台

市场管理

查找合作伙伴

合作伙伴平台

市场管理

查找合作伙伴

合作伙伴平台

市场管理

查找合作伙伴

产品支持

固件与驱动

服务支持

在线工具

产品支持

固件与驱动

服务支持

在线工具

产品支持

固件与驱动

服务支持

在线工具

关于我们

新闻与活动

发现更多

关于我们

新闻与活动

发现更多

关于我们

新闻与活动

发现更多

超聚变推出基于英特尔CPU的AI推理一体机解决方案，助力普惠式AI推理应用