湖南省长沙市
新一代自主安全计算系统产业集群

打造“世界知名、国内领先、行业主导”

新一代自主安全计算系统产业集群

王怀民院士:统筹数算、超算、智算,加快构建全国一体化算力网
文章来源:平台管理员
发布时间:2024.05.07

算力是数字经济时代的新型生产力。算力网是支撑数字经济高质量发展的关键基础设施,可通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。中国科学院院士王怀民在第三届中国国际软件发展大会上从算力中心内看纵向贯通、从算力中心间看横向联接、从生态网演化看开源创新三个维度分享了如何加快构建全国一体化算力网,形成跨地域、跨部门协同发展合力,统筹数算、超算、智算协同计算,算力、数据、算法协同应用,以算力高质量发展赋能经济高质量发展。

近年来,中国的算力、基础设施、各类算力中心蓬勃发展。过去20年,通过“东数西算”,中国已经建立了10个国家数据中心集群,为中国互联网产业飞速发展提供重要的基础设施。也是在过去20年,中国的超算中心迅速发展,14个国家超级计算中心已经建立。数据中心和超算中心相互融合,“东数西算”十大数据中心和八大枢纽的建设正在推进。为支持人工智能、大模型技术的发展,9个国家新一代人工智能公共算力开放创新平台已经建立,至少有16个国家级智算中心正在筹备建设。

在这一过程中,不仅超算中心在云化,智算中心也在云化,如何将这些资源有效整合?数据中心为智算中心提供资源,超算和计算相结合,可以为面向科学工程的计算和面向科学工程的人工智能提供支持,形成相互交叉的新兴应用形态,这一过程存在巨大的创新空间。

为满足未来的算力需求,助力数字经济发展,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》(简称《行动计划》)的通知,其中特别提到“推进以云服务方式整合算力资源,充分发挥云计算资源弹性调度优势”,提出“算网融合发展行动”一是探索建设多层级算力调度平台,逐步实现多元异构算力跨域调度编排;二是构建算力互联互通体系,统一算力资源标识和身份认证。依托部省算力互联互通平台开展试点验证。

从算力中心内看纵向贯通

王怀民表示,我们希望算力网络的核心,基础软件以及生态以“纵横交错”的形式有效推进。所谓“纵”是在算力中心内部形成纵向、多级的软件栈,实现有效的对各应用的支撑;“横”是指以云的方式形成算力中心资源的有效链接,通过“生态演化”,促进开源创新模式的有效发展。

在纵向方面,以人工智能为例,纵向用大算力支持大模型,促进大数据的人工智能发展。王怀民以鹏城云脑为例,“鹏城云脑II” 包括4096颗昇腾910 AI处理器和2048颗鲲鹏920 CPU处理器,可以提供1E OPS智能算力,即不低于每秒100亿亿次操作的AI计算能力。这个体系在硬件平台上又构建了完全可以自主发展的人工智能计算架构,高性能的人工智能框架运转的软件栈,深度学习的框架以及大模型的框架。“在此基础上构建一站式的开发环境,支持创建相应的服务项目,进行有效训练,支持学术界的研究工作;支持构建智算中心垂直体系的软件全栈,支持这方面领域的研究,包括若干其它国产硬件平台,以及英伟达在内国际上其它平台有效运作的垂直体系结构。”

AI大模型通常有数亿到数千亿的参数,这些参数用于存储和学习模型的知识。B是Biion(十亿)的意思,如7B模型就是70亿参数量的大模型。根据参数的不同,训练大模型可以分为7B、33B、200B模型。7B用来进行策略的有效选择,33B用来丰富语义的内容生成,200B对标国际先进模型的研究平台,推进各项工作。王怀民表示,鹏城云脑是以华为芯片和相关软件栈为基础的体系架构。在这个体系架构已经形成若干模型训练,包括7B、33B和200B,同时实现机内并行、机间并行以及模型数据和流水线的各类并行模式,支持大模型的训练和研究实验。很多研究机构对于大模型的可能性提出很多假设,但是假设的验证需要算力支持,在应用领域也是如此。

从算力中心内看横向联接

算力中心的横向衔接,可以通过云计算的模式实现。云计算长期面对三个方面挑战:一是从云服务提供者角度看,效费比问题更加突出了;二是从云服务消费者角度看,平台锁定问题更加尖锐了;三是从云生态的角度看,服务模式问题更加现实了。如何解决费效比和平台锁定问题?王怀民表示:“希望建立多数据中心、多云服务商之间的有效协同模式。2017年在国家重点研发的支持下,我们提出云际计算的概念,以云服务商之间的开放协作为基础,通过多方云资源,包括数据资源和模型资源的深度融合,方便开发者通过软件定义的方式实现各类跨算力中心之间的协同,实现服务无边界、云间有协作的云际计算模式,这也是上文提到的《行动计划》所要求的形态。

据王怀民介绍,鹏城·脑海大模型7B版本已于北京、天津、沈阳、大连、长春、西安、武汉、成都8地人工智能计算中心成功测试及部署,优化版本模型持续更新。鹏城·脑海大模型200B版本于武汉人工智能计算中心完成部署,同步进行性能优化测试。

鹏城实验室依托CCF开源发展委员会与8地计算中心基于大模型开源创新研究联合体持续开展优化研究与应用开发探索。这种协同体系如何形成有效的网络化生态,实现开源创新发展?王怀民表示,这需要产业界共同构建。在垂直方向,超算中心、数据中心、智算中心构建软件栈,横向用云际计算连接基础设施,将计算能力提供给全世界的开源社区,让更多的参与开源的开发者能够有效使用软件栈,触达计算资源,高效进行有关试验的研究,进行产业创新生态应用场景的设计。

中国的开源创新正在实现质的飞跃

“开源创新”正成为探索智能世界的关键之举,是迈向万物智联世界的必由之路。在这一过程中,中国已经开展了一系列实践。王怀民举例,比如已经开源共享异构资源的仿真环境,支持研发者边研发边论证,边开展应用研究,全国100多所大学的开发者,在开源生态上托管和人工智能、大模型研究相关约2.1万的仓库和相关开发任务。“我们用云际化的手段,可以支持不同的社区采用统一的代码仓存储模式,在不同的数据中心实现有效的数据共享。帮助不同的社区在不同领域构建项目,在不同的云数据中心管理代码仓,同时能够做出统一的项目管理视图,有效实现数据资源的安全访问和管理,这是正在推进的社区工作。希望通过这样的工作,构建人机协作、持续学习、成长演化的智能软件相关开发环境。”

中国拥有丰富的应用场景,可以提供丰富的算力中心资源,特别是在国家的大力支持下,各级各类创新主体的积极参与下,中国孕育出的算力网基础软件将走向世界、影响世界。在鹏城云脑的部署下,可以实现数据的接入、训练大模型,通过应用、验证,数据再传回,形成人机学习、成长演化的良好生态。“希望大家继续推动这项工作,利用丰富的训练环境产生更好的训练效果,通过高效共建生态,奠定未来中国在整个开源生态中的主导地位。”王怀民表示,“中国的开源创新正在实现质的飞跃,进入蓄势引领的新阶段。“目前,需要具有世界级影响力的开源项目,吸引全球的创新成果和创新资源加入其中,构建全球性的开源生态。期待在中国构建的面向全球的开源平台上,能够出现具有世界影响力的中国智能时代开源软件项目。”

本文转自中国信息化周报,根据王怀民院士公开演讲整理而成,未经本人确认。