特米网 > 生活 >
只是GPT-4的GPU,一次练习就会用去2.4亿度电。人工智能为何那样耗电?它们用掉的电都跑到哪儿去了?大概收购这类电转化成的能量吗?
撰文 | 猛犸
今天大家所说的AI(人工智能),主要指的是生成式AI。而其中一大多数,是基于大语言模型的生成式AI。
它们需要大规模的数据中心来练习和推理。这类数据中心由很多服务器组成,服务器消耗的电能绝大多数转化成了热能,最后通过水冷系统释放出来。所以也可以说,人工智能的物理硬件是个巨大的“电热水器”。
这个说法听起来仿佛有点奇怪。大家都了解,服务器是一种电子计算机,而计算机中处置的是信息。信息和能量又有哪些关系呢?
还真有。
处置信息需要消耗能量
1961年,在IBM公司工作的物理学家拉尔夫·兰道尔(Rolf Landauer)发表了一篇论文,提出了后来被叫做“兰道尔原理”(Landauer's Principle)的理论。这一理论觉得,计算机中存储的信息发生不可逆的变化时,会向周围环境散发一点点热量,其散发的热量和计算机当时所处的温度有关——温度越高,散发的热量越多。
兰道尔原理连接起了信息和能量;更具体地说,连接到了热力学第二定律上。由于逻辑上不可逆的信息处置操作,也就意味着湮灭了信息,这会致使物理世界中熵的增加,从而消耗能量。
这一原理自提出以来遭受过不少质疑。但近十几年来,兰道尔原理已被实验证明。2012年,《自然》杂志发表了一篇文章,研究团队初次测量到了一“位”(bit)数据被删除时释放的微量热量。后来的几次独立实验,也都证明了兰道尔原理。
所以,处置信息是有能量本钱的。
目前的电子计算机在计算时实质消耗的能量,是这个理论值的数亿倍。科学家们一直在努力探寻更高效的计算办法,以减少本钱。不过从现在的研究进展状况来看,或许只有真的的室温超导材料能广泛应用于计算设施时,这个能耗才大概离兰道尔原理所描述的理论值近一些。
人工智能大模型确实需要很多计算。它的工作过程大致可以分为练习和推理两个阶段。在练习阶段,第一需要采集和预处置很多的文本数据,用作输入数据。然后在适合的模型构造中初始化模型参数,处置输入的数据,尝试生成输出;再依据输出与预想之间的差异,反复调整参数,直到模型的性能不再显著提升为止。而在推理阶段中,则会先加载已经练习好的模型参数,预处置需要推理的文本数据,再让模型依据学习到的语言规律生成输出。
无论是练习还是推理阶段,都是一连串信息重组过程,也同样遵循兰道尔原理。而大家也不难推知,模型的参数目越大,需要处置的数据越多,所需的计算量也就越大,所消耗的能量也就越大,释放的热量也就越多。
只是,这只不过人工智能耗电中微不足道的一小部分。更大的消耗来自另一个大家更熟知的物理定律:焦耳定律。这就要从集成电路说起了。
更“大头”能耗来自电流
今天的电子计算机打造在集成电路的基础上。大家常常把集成电路叫做芯片。每一个芯片中,都有很多晶体管。
不严格地描述,晶体管可以理解成微小的开关。这类开关串联或者并联在一块,就能达成逻辑运算。“开”和“关”表示两种状况,也就是所谓的1和0,这就是计算的基本单位“位”。它是计算机二进制的基础。计算机通过迅速改变电压,来拨动这类开关。
改变电压,需要电子流入或流出。而电子流入流出,就构成了电流。又由于在电路中一直有电阻,就产生了热能。焦耳定律告诉大家,产生的热量与电流的平方成正比,与导体电阻成正比,与通电时间成正比。
集成电路技术进步至今,芯片中的晶体管已经变得极为微小。所以,单个晶体管所产生的热量并不会太高。但问题是,芯片上的晶体管实在是已经多到了常人没办法想象的程度——譬如,在IBM前几年发布的等效2纳米制程芯片中,每平方毫米面积上,平均有3.3亿个晶体管。再小的热量,乘上这个规模,结果肯定相当可观。
一个可能叫人暴跌眼镜的有趣事实是,今天芯片单位体积的功率,比太阳核心多出好几个数目级。典型的CPU芯片功率大概是每立方厘米100瓦,即每立方米1亿瓦;而太阳核心的功率只有每立方米不到300瓦。
在Open人工智能练习大语言模型GPT-4时,完成一次练习需要约三个月时间,用大约25000块英伟达A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,每次运算又涉及到很多个晶体管的开关。
容易算出,只是这类 GPU,一次练习就用了2.4亿度电。这类电能几乎全部转化成了热能,这类能量可以将大约200万立方米冰水——大概是1000个奥运会标准游泳池的水量——加热到沸腾。
为何人工智能需要用这么多的强大GPU来练习?由于大语言模型的规模实在太大。GPT-3模型拥有1750亿参数,而据推断,GPT-4拥有1.8万亿参数,是GPT-3的十倍。要练习这种规模的模型,需要在大规模数据集上反复迭代,每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值,这类计算最后会表现为晶体管的开开关关,和集成电路中细细的电流——与热量。
能量没办法创造也没办法消灭,它只能从一种形式转化成另一种形式。对于电子计算机来讲,它最主要的能量转化方法,就是从电能转化成热能。
大语言模型也是这样。它对电能和冷却水的需要,正带来愈加紧急的环境问题。
收购“电热水器”中的热量?
就在不久前,有Microsoft企业的工程师说,为了练习GPT-6,Microsoft和Open人工智能建造了巨大的数据中心,将会用10万块英伟达H100 GPU——性能比A100更强,当然功耗也更大——但,这类GPU不可以放在同一个州,不然会致使电网负荷过大而崩溃。
人工智能进步带来的能源短缺问题,已经开始浮现。在今年的达沃斯世界经济平台上,Open人工智能的CEO山姆·阿尔特曼(Sam Altman)觉得,核聚变可能是能源的进步方向。但要开发出真的可用的核聚变技术,可能还需要一些时间。
水的问题也是一样。过去几年,那些在人工智能大模型范围先行一步的大企业们,都面临水消耗大幅增长的局面。2023 年6月,Microsoft公司发布了2022年度环境可持续进步报告,其中用水一项,有超越20%的显著增长。Google公司也类似。
有研究者觉得,人工智能的进步,是这类科技巨头用水量剧增的重要原因——要冷却疯狂发热的芯片,水冷系统是最容易见到的选择。为人工智能提供硬件基础的数据中心,好似一个巨大的“电热水器”。
怎么样让这类散失的热能不至于白白浪费?最易想到也容易达成的,是热收购技术。比如,将数据中心收购的热量用于提供民用热水,冬天提供民用采暖。目前有一些企业已经着手在收购废热再借助了,比如中国移动哈尔滨数据中心、阿里巴巴千岛湖数据中心等。
这大概也算是一种解法,但并不可以从根本上解决问题。人工智能产业的进步速度之快,在人类历史上没任何产业能与之相比。平衡人工智能技术的进步与环境的可持续性,或许会是大家将来几年的要紧议题之一;技术进步和能源消耗之间的复杂关系,从来没这么急迫地出目前人类面前。
本文受科普中国·星空计划项目扶持
出品:中国科协科普部
监制:中国科技出版社公司、北京中科星河文化传媒公司
特 别 提 示
1. 进入『返朴』公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成是那一年的+月份,如“1903”,可获得2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不能转载和摘编。转载授权请在「返朴」公众号内联系后台。
- 上一篇:巴西龟为何不睁双眼,如何解决
- 下一篇:没有了
猜你喜欢
- 2024-03-15 2024年绍兴曹娥江半马比赛检录时间+起跑顺序
- 2024-02-10 集成电路和芯片不同
- 2024-02-08 3844芯片引脚功能
- 2024-02-07 GooglePixel
- 热点排行
- 热门推荐
- 热门tag