分享好友 厨具导购网站首页 频道列表
人工智能的发展如何引发数据中心的重新设计
2024-06-07 14:27    3741    中华厨具网

正在进行的数据中心重新设计的一个主要方面是,由于人工智能的庞大、复杂的工作负载以及需要添加更多图形处理单元(gpu)、张量处理单元(tpu)或加速器。

这些单元所需的功率和产生的热量,迫使设计人员重新思考什么是可行的和最佳的布局设计。而且,重新设计的成本正在不断增加。

因此,根据tirias research的数据,到2028年,业主每年可能会在新的人工智能数据中心基础设施上花费760亿美元。

数据中心当前面临的挑战:当今基于gpu的密集集群

tom's hardware的antonshilov最近评估了人工智能工作负载对gpu的巨大需求:omdia表示,nvidia在2023年第二季度实际上售出了900吨h100处理器。omdia估计,nvidia在第二季度为人工智能(ai)和高性能计算(hpc)应用销售了超过900吨(180万磅)h100计算gpu。omdia认为,带有散热器的nvidiah100计算gpu的平均重量超过3公斤(6.6磅),因此nvidia在第二季度出货了超过30万台h100。

因此,单个nvidia h100图形处理单元(gpu)的重量约为一个轻型保龄球的重量。omdia上面计算的重量不包括相关的布线或液体冷却。

施耐德电气数据中心创新副总裁steven carlini表示,用于人工智能的机架必须重新设计,以适应额外的重量和热量。其将当今密集的人工智能服务器集群与“整齐分布”的成排普通服务器机架进行了对比,这些服务器机架在当代人工智能开始认真发展之前很常见,将整齐的行变成了密集的热运行集群。

carlini表示,这些人工智能集群每个机架的功耗高达100千瓦,而传统的非人工智能数据中心机架的每个机架功耗高达20千瓦。施耐德电气能源管理研究中心的高级研究分析师victor avelar指出,每台nvidiah100的功耗为700瓦,而旧款a100的功耗为400瓦,后者的需求量仍然很高。两种gpu类型都需要液体冷却。

每个gpu中密集的800亿个晶体管硅区域产生大部分热量。amazon和google等企业正在安装的一台人工智能服务器包含8个这样的gpu。如果设计得当,人工智能服务器集群可以持续100%运行,相比之下,非人工智能ai应用的服务器利用率要低得多。

数据中心能源管理的长远视角

承载当今人工智能工作负载的主要数据中心的所有者,长期以来一直致力于减轻对环境的影响,并且在能源管理方面,他们往往着眼于长远。的确,能源消耗比以往任何时候都高,但现在大部分顶级数据中心容量都是由可再生能源供电,业主正在寻找其他零排放替代方案。例如,microsoft在5月份签署了一份合同,从2028年开始从聚变能源初创企业helion购买至少50兆瓦的电力。

victoravelar致力于量化当今数据中心在其生命周期内的碳足迹,并帮助优化未来数据中心的布局和设计。avelar在其免费的数据中心生命周期二氧化碳当量计算器上进行了演示,该计算器既关注了隐含碳,如数据中心建设中使用的混凝土的资源、制造和浇筑过程中排放的碳,也关注了数据中心运营过程中产生的碳。

成本计算器帮助规划者考虑替代方案并选择最佳设计标准。例如,schneiderelectric对电源进行了研究。avelar对比了西弗吉尼亚州的一个燃煤电厂和法国的一个核电厂。

通过按范围查看年度总二氧化碳当量,发现西弗吉尼亚选项的范围2(从当地公用事业购买的电力)排放量在混合排放中所占的比例要大得多。相比之下,法国的选项在范围3(间接能源,例如新数据中心混凝土中的隐含碳)中所占的比例更大。范围1和范围2的排放更多地在规划者的控制范围内。

数据中心所有权的转变

carlini指出,从历史上看,数据中心往往遵循一种类似购物中心的模式,即主要租户和精品店,所有者只专注于满足当地需求的建筑业务,并管理空间租赁。

但最近,大型云计算、媒体和saas提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言,没有标准的数据中心设计。每个数据中心都是不同的,当前环境下的主要挑战就是跟上所有正在发生的变化。

来源:中自网

以上是网络信息转载,信息真实性自行斟酌。

版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网