算力在AI浪潮中的硬核力量，中国智算中心的瓶颈与突破-深圳人工智能展新闻-AGIC深圳国际通用人工智能博览会【官网】

文章正文

算力在AI浪潮中的硬核力量，中国智算中心的瓶颈与突破

发布时间：2024-10-12

中国在用算力中心机架总规模超过830万标准机架，算力总规模达246Eflops（2460万亿次浮点运算），位居世界前列，工业、教育、医疗、能源等多个领域算力应用项目超过1.3万个。

算力规模.png

中国信息通信研究院发布的《中国综合算力指数报告（2024）》显示，美国和中国算力基础设施增长居全球前列。我国58.3%的算力中心已连接到国家骨干网，为数据的高效传输提供了有力支撑。算力网络互联互通水平大幅提升，国家算力枢纽节点已全面实现20毫秒时延保障能力，全国65%的省市可以在5毫秒内接入一个算力数据集群。从省级行政区来看，综合算力指数排名前10位的依次是河北、广东、上海、江苏、北京、浙江、山东、山西、内蒙古和宁夏。其中，北京、上海、广东和江苏连续3年跻身前5位。

算力进展.jpg

算力指数.jpg

回顾整个2023年，中国GenAI进入发展元年，模型参数量持续扩大，训练任务所需单集群规模正从128集群向256集群演进。同时，随着头部GenAI产品的落地，智能算力需求爆发式增长。相比于2022年，2023年智算服务市场增长81.6亿元人民币。其中GenAI IaaS市场贡献59%，智算集成服务市场贡献38%，Non-GenAI IaaS仅贡献3%的增量。由于需求的快速变动以及所需基础设施的投资运营门槛较高，头部的科技企业更偏爱采用GenAI IaaS服务。

Iaas服务商.jpg

阿里云

无论是训练还是推理，大模型都离不开云。阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭提到，在新增算力市场上，超过50%的新需求由AI驱动产生，AI算力需求已经占据主流地位，这一趋势还会持续扩大。CPU主导的计算体系正在加速向GPU主导的计算体系转移，AI计算正在加速渗透千行百业。当前，行业前沿模型训练计算量每年增长4~5倍，中国AI算力规模2022～2027年复合增长率高达33.9%；模型参数以10倍速增长，模型数据集以50倍速增长，对存力也提出了更高需求。

自宣布“AI驱动、公共云优先”以来，阿里云大刀阔斧地进行投入AI基础设施建设，单网络集群已拓展至十万卡级别，正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面，重新打造面向未来的AI先进基础设施。

阿里云新上线的磐久AI服务器，支持单机16卡、显存1.5T，并提供AI算法预测GPU故障，准确率达92%；阿里云ACS首次推出GPU容器算力，通过拓扑感知调度，实现计算亲和度和性能的提升；为AI设计的高性能网络架构HPN7.0，可稳定连接超过10万个GPU ，模型端到端训练性能提升10%以上；阿里云CPFS文件存储，数据吞吐20TB/s，为AI智算提供指数级扩展存储能力；人工智能平台PAI，已实现万卡级别的训练推理一体化弹性调度，AI算力有效利用率超90%。

阿里云.jpg

（APSARA云栖大会）

商汤

全国首个5A级智算中心诞生，在上海自贸区临港新片区，商汤智算中心通过理论算力、有效算力、算力能效、业务模型场景支持能力、加分项等5个维度的技术评测，获得5A级智算中心算力性能认证，成为国内智算中心建设的“样板间”。这个项目一期投资56亿元，主要建设园区智算大楼与科研行政大楼，用于AI智算中心平台硬件搭建、平台软件、平台管理系统和大模型应用等多领域研发。算力为14000 PFLOPS，远远超出立项规划的3740 PFLOPS算力总量。经过持续扩容，算力可支撑超过20个千亿参数超大模型同时训练，并支持万亿参数大模型的全生命周期生成。

在硬件技术上，智算中心实现了万卡的超大集群互联，并保持90%的加速效率。在训练稳定性上，具备超30天不间断训练AI大模型的能力；出现训练间断时，诊断恢复时长已缩短至半小时。

在软件技术上，商汤大装置与“日日新”大模型体系的集合，重构了算法的供给模式。通过提供“日日新”基础模型，各行各业的用户只需在此基础上进行微调或增量训练，就可以高效率地开发出符合自身需求的行业模型。这种服务实现了算法的基础设施化，与算力基础设施的服务配套，让国内各种行业大模型的开发更为高效、便捷。

商汤临港智算中心的服务器.jpg

（商汤临港智算中心服务器）

不过，国际数据公司（IDC）中国分析师杜昀龙表示，“算力需求是很大，只不过现有类型无法满足用户需求。无论是适配方面还是性价比角度，都达不到客户的预期。”

● 如何解决智算中心成本过高的问题？

当前，AI大模型服务器算力需求提升，使得智算中心单机柜功率密度大幅度增长。在智算中心的运营上，电费占运营支出的60%以上，有企业测算，马斯克最近落成的10万卡AI集群“孟菲斯”一天的耗电，相当于北京东城区一天的电量。电费很大部分来自制冷产生的费用，优化制冷系统，已成为数据中心提高能源效率、降低成本的重要环节。

近日，京东云液冷服务器在2024中国算力大会上荣获“DC Tech 创新先锋”优秀成果奖，服务器采用EVAC 散热器及液冷技术，可使散热效能提升 50%；基于多元供电方案，在单机柜 20KW 的条件下，单机柜功耗 1 年可节省 8500 度电。

为应对GPU服务器高功耗、传统风冷机房改造升级等难题，京东云液冷服务器采用冷板式设计，能够支持多个平台的GPU共计 750W的功耗；整机部件采用模块化设计，灵活支持前置I/O或后置I/O，免工具维护，能够直接替换标准散热器，同时支持整机柜部署和传统机柜部署。液冷服务器已经成为智算中心内名副其实的节能降耗利器。

● 智算中心如何由“量”转“质”？

高质量算力不能只关注芯片，还应从系统角度综合考虑满足实际应用。国家信息中心信息化和产业发展部主任单志广就提醒称，在一体化构建算力体系过程中，要避免重建设、轻需求，应以应用为导向，提高整个算力中心的利用度。

中国信息通信研究院云计算与大数据研究所总工程师郭亮称，“建设智算中心需要‘适度超前’，结合当地实际需求做整体的分析和预判。”

北电数智战略与市场负责人杨震表示，“长远来看，‘以终为始’地打造一个健康良性的智算中心商业闭环，或是更为关键和有效的方式。”如何以终为始打造智算中心的商业闭环，本质上还是发掘人工智能的应用场景，实现当地产业或企业智能化转型升级。比如，地方政府最初可把自身一些数据、场景释放出来，形成一些人工智能标杆，再进一步与当地产业、头部企业结合，将雪球越滚越大。

综上所述，中国算力产业在基础设施、技术创新以及产业应用上取得了长足的进步，但也面临着运营成本高、资源利用率不均衡等挑战。未来，智算中心的建设不仅要追求算力规模的扩展，还应注重系统性优化和应用导向。只有这样，算力基础设施才能在支持各行各业数字化转型中发挥更大作用，助力中国在全球科技创新竞争中取得更为显著的领先地位。

AI美图