北京论坛（2023）| 高文：中国算力网的需求与挑战

中国算力网的需求与挑战

（摘自高文在北京论坛开幕式上的演讲实录）

高文

北京大学信息与工程科学部主任

鹏城实验室主任、中国工程院院士

今天我想跟大家介绍的，是名叫“中国算力网”的项目。“中国算力网”有三个重要部分，一是算力节点，二是网络连接，三是资源调度。

算力应该是我们整个时代发展中非常重要的一个支撑要素，无论是人工智能还是互联网的发展，都离不开算力。从整个经济的发展来看，算力和GDP正相关。研究表明，GDP越大，算力指数越高，反之亦然。现在全球GDP最高的是美国，其算力指数也是最高，中国GDP是美国的70%左右，算力指数刚好比美国低了30%，经济排名第三的日本算力指数也是世界第三。

这几年，中国经济发展速度非常快，算力发展的速度也在攀升，我们可以清晰地看到中国算力指数在所有国家中增长最快，平均年增长在13%左右。那么，既然算力这么重要，为了未来经济科学和绿色地发展，我们需要考虑今后的算力怎么布局？安放在哪里？怎么使用？未来算力能否像今天的电力一样，不管放在哪里，想用的时候插上就能用？

我们的设想是，希望在中国建立一张网，“这张网”可以把中国算力连接起来，任何人、任何企业、任何大学想使用算力时，可以将“接口”插到一个插座上面，这个插座就能把算力送到你的桌面。

在算力的布局方面，我们希望算力的计算放在西部，这需要解决很多问题，例如算力如何分装，如何满足设施要求，如何让带宽不受限制，这些都是我们必须回答的问题。

为此我们提出了“中国算力网”的概念——希望像建设电网一样建立“算力网”，像运营互联网一样运营“算力网”，让用户像用电一样方便地使用算力，这是我们设定这个项目的发展愿景。而做到这一点需要面临很多挑战，包括算力的供给，越是在大城市，大学和企业越需要更多的算力。最近，工信部发布了《算力基础设施高质量发展行动计划》，提出了2025年发展量化指标，到2025年中国算力规模超过300EFLOPS，一个E就是10的18次方。这里面的算力分三种，分为超算算力（超级计算机）、智能算力、云算力，三种算力加在一起规模超过300EFLOPS，其中和AI有关的算力占到1/3，约为105EFLOPS。

第二个需要考虑的问题，就是如何把算力连接起来，让它延迟最短。很多云计算的算力中心、云中心和用户之间的距离不会超过200公里，否则会导致实时响应不够。如果要落实“东数西算”，把算力中心放在成都、重庆、青海，相互间相隔两三千公里以上的距离，我们需要超低延迟和超宽带链接来保证传输的效率。当前，算力正在被不同的运营商、不同的互联网厂商管理着，难以做到统一调度。因此亟需构建一个全新的调度网络，像通过电网调度电力一样，将算力调度到需要的地方。

鹏城实验室正在牵头做“中国算力网”，我们主要落实三件比较大的工作：

第一，建立超级算力节点，“超级算力”的概念大概是中国所需要的算力的1/6。

第二，建立比现在市场上连接速度更快的网络连接，达到差不多100T到P级的连接，即10的15次方，目前这是现有技术无法实现的目标，我们正在研发该项技术，通过使用不同光纤，冲刺比现有任何速度快100倍的速度，甚至更快。

第三，做好算力调度，建立云原生网络的调度系统。我们在深圳建立智能超算平台，“鹏城云脑Ⅱ”智能算力平台大概有1000P的算力，目前正在研发的下一代鹏城云脑，预计能达到16,000P的算力，这个数字正好是2025年中国需要的智能算力的1/6。“鹏城云脑Ⅱ”AI性能是全世界超级计算机里面最好的，在全球IO500总榜单已经连续6次排名第一名，在AIPerf500连续3年排第一。这台机器做出来后，我们支持了很多国内企业做大模型的计算，包括华为、百度等，他们很多大模型都是在我们的机器上进行训练。除了提供给国内的合作伙伴外，我们实验室还训练了一批AI模型，这些模型大部分与北京大学、清华大学等高校合作，包括了自然语言模型、计算机视觉模型、生物医学模型等。

最近，我们刚刚完成了一项工作，训练了“鹏城·脑海”大模型，这个模型有200B的规模，2000亿参数。鹏城实验室通过开源的方式在做“鹏城·脑海”，最后都将变成Open Source模型，我们把上面可能需要的一些工具做完后，将开源开放，供大家使用。

目前“鹏城云脑Ⅱ”上运行的200B的AI大模型，训练一次需要几个月的时间。为了让效率更高，我们正在研发下一个版本、拥有16,000p算力的机器，叫做下一代鹏城云脑，做出来之后将比现在的机器算力提高20倍。原本训练AI大模型需要200天，现在10天就能训练结束，这台机器将会是算力节点。

还有几个问题我们也在思考。关于光网络，希望把所有的算力节点和枢纽用的光网络连接起来。设计光网络，要特别考虑在远距离时，实现不低于100T的带宽。设计光网络有很多科学问题，既涉及到光，也涉及到通信，包括传输、交换、管控、光纤等等，我们设置了多芯光纤，一束光纤可以有若干根“芯”，至少4根，也可能19根，使用的技术是SDM技术，它能使通信的速度呈19倍增长。由于光纤的成本增加很少，可以使用新的技术实现长距离、大带宽的通信连接，目前我们已经完成了200T、2000公里的光通信实验。而网络运营商现在提供的光纤网络，单根光纤100G或者400G，一根纤上面一个波，一根线上可以用很多波，现在4根纤对应同一类设备成本大大降低，将使得整个传输系统更高效。

关于调度，不同的算力资源如何组合起来，让用户需要的时候直接拿到算力，这个需要实现跨地域异构算力。各类算力本身用的芯片系统不一样，如何跨地域使用，存在比较难的封装问题，不同类型的算力封装方式不一样，就如不同的发电厂和源不一样，需要我们尽量去规范。算力原来是什么不要紧，如果要入网重新封装后加入成网并最终让大家看到一样的东西，第一步就要做好异构算力跨域调度的工作，这方面还是有很大的挑战；第二步是统一提交同步做；第三步是跨中心异构做；第四步是把不同的算力源整合进来。

“中国算力网”所有的理念和以往的云计算不一样，我们引入了云原生网络，所有底层都采用同样逻辑、一套体系，第一步在上面建立逻辑调度，对现有的网络做重新梳理更换、提升。现在有很多案例，通过云原生网络可以把所有的数据变成源数据，通过源数据进行调度，通过调度可以就近选择算力源。第二步做到“数”随“算”走，第三步“算”随“数”走，算力网要考虑数据的存在。

2019年我们开始做“中国算力网”的0.1版本，在国家发改委、科技部的支持下，用了不到3年时间，做了“中国算力网”第一期，把全国不同区域几个算力中心整合到一起，通过调度打通，实现不同算力的分配和使用。“中国算力网”的1.0版，可以实现分布式协调训练。

下一步，鹏城实验室在推进“中国算力网”建设的过程中，将通盘考虑所有方面，为中国绿色发展、高效经济发展、智能发展、数字发展提供技术支撑和支持。我们希望“中国算力网”这件事不仅仅在中国能做，还期待未来开展更广泛的国际合作。

北京论坛（2023）| 高文：中国算力网的需求与挑战

专题链接：北京论坛2023

最新新闻

最热新闻

专题热点

北京论坛（2023）| 高文：中国算力网的需求与挑战

专题链接：北京论坛2023

最新新闻

最热新闻

专题热点

热词搜索