北京论坛(2023)| 高文:中国算力网的需求与挑战

中国算力网的需求与挑战

(摘自高文在北京论坛开幕式上的演讲实录)

高文

北京大学信息与工程科学部主任

鹏城实验室主任、中国工程院院士

6e0d0015910e4b6fbd7c39d65a9840dd.jpg

今天我想跟大家介绍的,是名叫“中国算力网”的项目。“中国算力网”有三个重要部分,一是算力节点,二是网络连接,三是资源调度。

算力应该是我们整个时代发展中非常重要的一个支撑要素,无论是人工智能还是互联网的发展,都离不开算力。从整个经济的发展来看,算力和GDP正相关。研究表明,GDP越大,算力指数越高,反之亦然。现在全球GDP最高的是美国,其算力指数也是最高,中国GDP是美国的70%左右,算力指数刚好比美国低了30%,经济排名第三的日本算力指数也是世界第三。

这几年,中国经济发展速度非常快,算力发展的速度也在攀升,我们可以清晰地看到中国算力指数在所有国家中增长最快,平均年增长在13%左右。那么,既然算力这么重要,为了未来经济科学和绿色地发展,我们需要考虑今后的算力怎么布局?安放在哪里?怎么使用?未来算力能否像今天的电力一样,不管放在哪里,想用的时候插上就能用?

我们的设想是,希望在中国建立一张网,“这张网”可以把中国算力连接起来,任何人、任何企业、任何大学想使用算力时,可以将“接口”插到一个插座上面,这个插座就能把算力送到你的桌面。

在算力的布局方面,我们希望算力的计算放在西部,这需要解决很多问题,例如算力如何分装,如何满足设施要求,如何让带宽不受限制,这些都是我们必须回答的问题。

为此我们提出了“中国算力网”的概念——希望像建设电网一样建立“算力网”,像运营互联网一样运营“算力网”,让用户像用电一样方便地使用算力,这是我们设定这个项目的发展愿景。而做到这一点需要面临很多挑战,包括算力的供给,越是在大城市,大学和企业越需要更多的算力。最近,工信部发布了《算力基础设施高质量发展行动计划》,提出了2025年发展量化指标,到2025年中国算力规模超过300EFLOPS,一个E就是10的18次方。这里面的算力分三种,分为超算算力(超级计算机)、智能算力、云算力,三种算力加在一起规模超过300EFLOPS,其中和AI有关的算力占到1/3,约为105EFLOPS。

48ba33295895485d81067cff80c119b2.jpg

第二个需要考虑的问题,就是如何把算力连接起来,让它延迟最短。很多云计算的算力中心、云中心和用户之间的距离不会超过200公里,否则会导致实时响应不够。如果要落实“东数西算”,把算力中心放在成都、重庆、青海,相互间相隔两三千公里以上的距离,我们需要超低延迟和超宽带链接来保证传输的效率。当前,算力正在被不同的运营商、不同的互联网厂商管理着,难以做到统一调度。因此亟需构建一个全新的调度网络,像通过电网调度电力一样,将算力调度到需要的地方。

鹏城实验室正在牵头做“中国算力网”,我们主要落实三件比较大的工作:

第一,建立超级算力节点,“超级算力”的概念大概是中国所需要的算力的1/6。

第二,建立比现在市场上连接速度更快的网络连接,达到差不多100T到P级的连接,即10的15次方,目前这是现有技术无法实现的目标,我们正在研发该项技术,通过使用不同光纤,冲刺比现有任何速度快100倍的速度,甚至更快。

第三,做好算力调度,建立云原生网络的调度系统。我们在深圳建立智能超算平台,“鹏城云脑Ⅱ”智能算力平台大概有1000P的算力,目前正在研发的下一代鹏城云脑,预计能达到16,000P的算力,这个数字正好是2025年中国需要的智能算力的1/6。“鹏城云脑Ⅱ”AI性能是全世界超级计算机里面最好的,在全球IO500总榜单已经连续6次排名第一名,在AIPerf500连续3年排第一。这台机器做出来后,我们支持了很多国内企业做大模型的计算,包括华为、百度等,他们很多大模型都是在我们的机器上进行训练。除了提供给国内的合作伙伴外,我们实验室还训练了一批AI模型,这些模型大部分与北京大学、清华大学等高校合作,包括了自然语言模型、计算机视觉模型、生物医学模型等。

最近,我们刚刚完成了一项工作,训练了“鹏城·脑海”大模型,这个模型有200B的规模,2000亿参数。鹏城实验室通过开源的方式在做“鹏城·脑海”,最后都将变成Open Source模型,我们把上面可能需要的一些工具做完后,将开源开放,供大家使用。

目前“鹏城云脑Ⅱ”上运行的200B的AI大模型,训练一次需要几个月的时间。为了让效率更高,我们正在研发下一个版本、拥有16,000p算力的机器,叫做下一代鹏城云脑,做出来之后将比现在的机器算力提高20倍。原本训练AI大模型需要200天,现在10天就能训练结束,这台机器将会是算力节点。

还有几个问题我们也在思考。关于光网络,希望把所有的算力节点和枢纽用的光网络连接起来。设计光网络,要特别考虑在远距离时,实现不低于100T的带宽。设计光网络有很多科学问题,既涉及到光,也涉及到通信,包括传输、交换、管控、光纤等等,我们设置了多芯光纤,一束光纤可以有若干根“芯”,至少4根,也可能19根,使用的技术是SDM技术,它能使通信的速度呈19倍增长。由于光纤的成本增加很少,可以使用新的技术实现长距离、大带宽的通信连接,目前我们已经完成了200T、2000公里的光通信实验。而网络运营商现在提供的光纤网络,单根光纤100G或者400G,一根纤上面一个波,一根线上可以用很多波,现在4根纤对应同一类设备成本大大降低,将使得整个传输系统更高效。

关于调度,不同的算力资源如何组合起来,让用户需要的时候直接拿到算力,这个需要实现跨地域异构算力。各类算力本身用的芯片系统不一样,如何跨地域使用,存在比较难的封装问题,不同类型的算力封装方式不一样,就如不同的发电厂和源不一样,需要我们尽量去规范。算力原来是什么不要紧,如果要入网重新封装后加入成网并最终让大家看到一样的东西,第一步就要做好异构算力跨域调度的工作,这方面还是有很大的挑战;第二步是统一提交同步做;第三步是跨中心异构做;第四步是把不同的算力源整合进来。

“中国算力网”所有的理念和以往的云计算不一样,我们引入了云原生网络,所有底层都采用同样逻辑、一套体系,第一步在上面建立逻辑调度,对现有的网络做重新梳理更换、提升。现在有很多案例,通过云原生网络可以把所有的数据变成源数据,通过源数据进行调度,通过调度可以就近选择算力源。第二步做到“数”随“算”走,第三步“算”随“数”走,算力网要考虑数据的存在。

2019年我们开始做“中国算力网”的0.1版本,在国家发改委、科技部的支持下,用了不到3年时间,做了“中国算力网”第一期,把全国不同区域几个算力中心整合到一起,通过调度打通,实现不同算力的分配和使用。“中国算力网”的1.0版,可以实现分布式协调训练。

下一步,鹏城实验室在推进“中国算力网”建设的过程中,将通盘考虑所有方面,为中国绿色发展、高效经济发展、智能发展、数字发展提供技术支撑和支持。我们希望“中国算力网”这件事不仅仅在中国能做,还期待未来开展更广泛的国际合作。

国际战略年banner.jpg

转载本网文章请注明出处