欢迎访问特米网-生活知识百科|生活百科小窍门|生活小常识大全|日常生活小窍门|生活常识百科宝典

特米网-生活知识百科|生活百科小窍门|生活小常识大全|日常生活小窍门|生活常识百科宝典

特米网 > 生活 >

1次练习用电2.4亿度,人工智能为何那样耗电

www.huifengyu.com 2024-04-13 10:23 生活

只是GPT-4的GPU,一次练习就会用去2.4亿度电。人工智能为何那样耗电?它们用掉的电都跑到哪儿去了?大概收购这类电转化成的能量吗?

撰文 | 猛犸

今天大家所说的AI(人工智能),主要指的是生成式AI。而其中一大多数,是基于大语言模型的生成式AI。

它们需要大规模的数据中心来练习和推理。这类数据中心由很多服务器组成,服务器消耗的电能绝大多数转化成了热能,最后通过水冷系统释放出来。所以也可以说,人工智能的物理硬件是个巨大的“电热水器”。

这个说法听起来仿佛有点奇怪。大家都了解,服务器是一种电子计算机,而计算机中处置的是信息。信息和能量又有哪些关系呢?

还真有。

处置信息需要消耗能量

1961年,在IBM公司工作的物理学家拉尔夫·兰道尔(Rolf Landauer)发表了一篇论文,提出了后来被叫做“兰道尔原理”(Landauer's Principle)的理论。这一理论觉得,计算机中存储的信息发生不可逆的变化时,会向周围环境散发一点点热量,其散发的热量和计算机当时所处的温度有关——温度越高,散发的热量越多。

兰道尔原理连接起了信息和能量;更具体地说,连接到了热力学第二定律上。由于逻辑上不可逆的信息处置操作,也就意味着湮灭了信息,这会致使物理世界中熵的增加,从而消耗能量。

这一原理自提出以来遭受过不少质疑。但近十几年来,兰道尔原理已被实验证明。2012年,《自然》杂志发表了一篇文章,研究团队初次测量到了一“位”(bit)数据被删除时释放的微量热量。后来的几次独立实验,也都证明了兰道尔原理。

所以,处置信息是有能量本钱的。

目前的电子计算机在计算时实质消耗的能量,是这个理论值的数亿倍。科学家们一直在努力探寻更高效的计算办法,以减少本钱。不过从现在的研究进展状况来看,或许只有真的的室温超导材料能广泛应用于计算设施时,这个能耗才大概离兰道尔原理所描述的理论值近一些。

人工智能大模型确实需要很多计算。它的工作过程大致可以分为练习和推理两个阶段。在练习阶段,第一需要采集和预处置很多的文本数据,用作输入数据。然后在适合的模型构造中初始化模型参数,处置输入的数据,尝试生成输出;再依据输出与预想之间的差异,反复调整参数,直到模型的性能不再显著提升为止。而在推理阶段中,则会先加载已经练习好的模型参数,预处置需要推理的文本数据,再让模型依据学习到的语言规律生成输出。

无论是练习还是推理阶段,都是一连串信息重组过程,也同样遵循兰道尔原理。而大家也不难推知,模型的参数目越大,需要处置的数据越多,所需的计算量也就越大,所消耗的能量也就越大,释放的热量也就越多。

只是,这只不过人工智能耗电中微不足道的一小部分。更大的消耗来自另一个大家更熟知的物理定律:焦耳定律。这就要从集成电路说起了。

更“大头”能耗来自电流

今天的电子计算机打造在集成电路的基础上。大家常常把集成电路叫做芯片。每一个芯片中,都有很多晶体管。

不严格地描述,晶体管可以理解成微小的开关。这类开关串联或者并联在一块,就能达成逻辑运算。“开”和“关”表示两种状况,也就是所谓的1和0,这就是计算的基本单位“位”。它是计算机二进制的基础。计算机通过迅速改变电压,来拨动这类开关。

改变电压,需要电子流入或流出。而电子流入流出,就构成了电流。又由于在电路中一直有电阻,就产生了热能。焦耳定律告诉大家,产生的热量与电流的平方成正比,与导体电阻成正比,与通电时间成正比。

集成电路技术进步至今,芯片中的晶体管已经变得极为微小。所以,单个晶体管所产生的热量并不会太高。但问题是,芯片上的晶体管实在是已经多到了常人没办法想象的程度——譬如,在IBM前几年发布的等效2纳米制程芯片中,每平方毫米面积上,平均有3.3亿个晶体管。再小的热量,乘上这个规模,结果肯定相当可观。

一个可能叫人暴跌眼镜的有趣事实是,今天芯片单位体积的功率,比太阳核心多出好几个数目级。典型的CPU芯片功率大概是每立方厘米100瓦,即每立方米1亿瓦;而太阳核心的功率只有每立方米不到300瓦。

在Open人工智能练习大语言模型GPT-4时,完成一次练习需要约三个月时间,用大约25000块英伟达A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,每次运算又涉及到很多个晶体管的开关。

容易算出,只是这类 GPU,一次练习就用了2.4亿度电。这类电能几乎全部转化成了热能,这类能量可以将大约200万立方米冰水——大概是1000个奥运会标准游泳池的水量——加热到沸腾。

为何人工智能需要用这么多的强大GPU来练习?由于大语言模型的规模实在太大。GPT-3模型拥有1750亿参数,而据推断,GPT-4拥有1.8万亿参数,是GPT-3的十倍。要练习这种规模的模型,需要在大规模数据集上反复迭代,每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值,这类计算最后会表现为晶体管的开开关关,和集成电路中细细的电流——与热量。

能量没办法创造也没办法消灭,它只能从一种形式转化成另一种形式。对于电子计算机来讲,它最主要的能量转化方法,就是从电能转化成热能。

大语言模型也是这样。它对电能和冷却水的需要,正带来愈加紧急的环境问题。

收购“电热水器”中的热量?

就在不久前,有Microsoft企业的工程师说,为了练习GPT-6,Microsoft和Open人工智能建造了巨大的数据中心,将会用10万块英伟达H100 GPU——性能比A100更强,当然功耗也更大——但,这类GPU不可以放在同一个州,不然会致使电网负荷过大而崩溃。

人工智能进步带来的能源短缺问题,已经开始浮现。在今年的达沃斯世界经济平台上,Open人工智能的CEO山姆·阿尔特曼(Sam Altman)觉得,核聚变可能是能源的进步方向。但要开发出真的可用的核聚变技术,可能还需要一些时间。

水的问题也是一样。过去几年,那些在人工智能大模型范围先行一步的大企业们,都面临水消耗大幅增长的局面。2023 年6月,Microsoft公司发布了2022年度环境可持续进步报告,其中用水一项,有超越20%的显著增长。Google公司也类似。

有研究者觉得,人工智能的进步,是这类科技巨头用水量剧增的重要原因——要冷却疯狂发热的芯片,水冷系统是最容易见到的选择。为人工智能提供硬件基础的数据中心,好似一个巨大的“电热水器”。

怎么样让这类散失的热能不至于白白浪费?最易想到也容易达成的,是热收购技术。比如,将数据中心收购的热量用于提供民用热水,冬天提供民用采暖。目前有一些企业已经着手在收购废热再借助了,比如中国移动哈尔滨数据中心、阿里巴巴千岛湖数据中心等。

这大概也算是一种解法,但并不可以从根本上解决问题。人工智能产业的进步速度之快,在人类历史上没任何产业能与之相比。平衡人工智能技术的进步与环境的可持续性,或许会是大家将来几年的要紧议题之一;技术进步和能源消耗之间的复杂关系,从来没这么急迫地出目前人类面前。

本文受科普中国·星空计划项目扶持

出品:中国科协科普部

监制:中国科技出版社公司、北京中科星河文化传媒公司

特 别 提 示

1. 进入『返朴』公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成是那一年的+月份,如“1903”,可获得2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不能转载和摘编。转载授权请在「返朴」公众号内联系后台。

Tags:芯片

热点排行
热门推荐
热门tag
高度 老年人 表面 服务管理 入库 红苞片 芋包 停车场 反复 牵牛花 贵妃 成都 龙口 稳定 Xiaoyi Chen 商场 脱毛 伊明善 甲鱼蛋 双指 抗逆性 唐山 航空 刘大群 驿站 黄油 点击查看 盐腺 土鸡肉 大礼包 芦头 直升机 敷泥灸 零度 明君 奖学金 护照 葡萄糖 仇思隽 首都 录取结果 解题 前山 动物胰腺炎 体格检查 东唐吧 食用方法 丁英辉 东涛鸡 新生儿 拿破仑 虱子 英雄 养殖场 翘嘴鱼 清汤排骨 商会会长 牛初乳 群游 脸部