全国数据标准化技术委员会成立
2024年10月28日,全国数据标准化技术委员会(以下简称“全国数标委”)成立大会暨第一次全体委员会议在京召开。国家数据局党组书记、局长刘烈宏出席成立大会并讲话。市场监管总局、中央网信办、工业和信息化部、财政部有关司局负责同志,全国数标委主任委员、副主任委员、秘书长、副秘书长以及各位委员出席会议,相关行业专家、标准化组织代表参加会议。 刘烈宏指出,要充分认识数据标准的重要性。数据标准是数据工作体系的重要组成部分,对于筑牢数据经济根基、激活数据潜能、释放数据价值、抢抓发展机遇、构筑数据领域国际竞争新优势具有重要作用。面对新形势新情况新要求,要守正出新、锐意进取,切实做好数据标准化工作,扎实开展数据标准建设。要着力构建数据标准化工作的良好生态,加强理论学习,加快标准制定,注重标准推广实践,密切团结专家,深化国际合作,把全国数标委建成共商合作、共促发展、共享成果的工作交流平台。要发挥人才荟萃、智力密集的优势,多出标准,出好标准,为数据标准化工作和我国数据事业发展贡献力量。 会议审议通过了全国数标委章程、秘书处工作细则、标准制修订工作程序等制度文件,以及全国数标委2024-2025年工作要点、下设工作组组成方案。 本次会议由市场监管总局、国家数据局指导,全国数据标准化技术委员会主办,全国数据标准化技术委员会秘书处(中国电子技术标准化研究院)承办。 (来源:国家数据局)
教育部发布公告 | 4所高校申报新增“密码科学与技术”本科专业
近日,教育部高等教育司正式公示了2024年度普通高等学校本科专业申报材料,标志着本年度专业申报工作已圆满结束。根据《教育部高等教育司关于开展2024年度普通高等学校本科专业设置工作的通知》要求,此次公示旨在增强透明度,接受社会监督,确保专业设置的科学性、合理性和前瞻性。 公示内容涵盖了全国各普通高等学校提交的本科专业申报材料,材料经过严格审核与评估,旨在进一步优化高等教育结构,提升人才培养质量,满足经济社会发展对多样化、高素质人才的需求。
全国18所高校将招收“密码”专业硕士研究生
近日,教育部正式发布了《2025年全国硕士研究生招生考试报名公告》,标志着新一轮的研究生招生工作即将拉开帷幕。据悉,全国硕士研究生招生考试网上报名将于2024年10月15日至10月28日进行。 在众多招生专业中,“密码”专业(专业代码:145200)备受瞩目。根据教育部全国硕士研究生招生考试网上报名和网上调剂指定网站“中国研究生招生信息网”的最新查询结果,全国共有18所高校计划招收该专业的硕士研究生。 这些高校包括(排名不分先后):北京邮电大学、北京电子科技学院、南开大学、黑龙江大学、华东师范大学、杭州电子科技大学、杭州师范大学、闽南师范大学、江西理工大学、河南师范大学、湖北大学、海南大学、电子科技大学、贵州师范大学、西安电子科技大学、南京工程学院、西安邮电大学以及信息工程大学。 “密码”专业作为一门涉及信息安全、网络通信、计算机科学等多个领域的交叉学科,近年来在国家安全、信息化建设等方面发挥着越来越重要的作用。随着信息技术的飞速发展和网络空间的日益扩大,密码技术的应用范围也在不断拓展,对于密码人才的需求也日益迫切。
《瞭望》:大模型开闭源争议何在
模型能力是由算法、数据质量和算力投入大小决定,而不是由开源还是闭源决定 短期看,理想状态是在开闭源两种模式之间找到平衡,在技术进步与生态建立方面优势互补;长期看,大模型可能会像互联网一样,逐步走向开源,由全世界共同维护、共同受益 大模型应该开源还是闭源? 开闭源对应两种软件开发模式——开源指开放源代码,将源代码公开发布并允许任何人查看、修改和使用;闭源则不公开源代码,只对外发布编译后的软件。2022年底ChatGPT横空出世,大模型开闭源路线之争如影随形。今年,国内大模型应用加速落地,开闭源争论愈发激烈。 4月,百度创始人李彦宏公开表示“开源模型会越来越落后”;5月,阿里云首席技术官周靖人称开源对全球技术及生态的贡献毋庸置疑,已没有再讨论的必要…… 在9月底举办的2024世界计算大会上,国内外大模型产业的前沿动态备受关注,其中,大模型开闭源的争论被多次提及。 “现在开闭源模型数量几乎是五五开。”中国软件行业协会副秘书长、湖南先进技术研究院可控开源创新中心副主任杨程在大会上说。《中国人工智能大模型地图研究报告》显示,截至2023年5月28日,我国大模型数量已达79个,超半数属于开源模型,如清华大学的ChatGLM-6B、复旦大学的MOSS等。 业内人士告诉《瞭望》新闻周刊记者,大模型开闭源之争表面上是性能与技术路线之争,实则利益才是重中之重。短期看,理想状态是在开闭源两种模式之间找到平衡,在技术进步与生态建立方面优势互补;长期看,大模型可能会像互联网一样,逐步走向开源,由全世界共同维护、共同受益。 **表面是技术策略之争** 在2024世界计算大会的成果展示区,一款脑血管病专病大模型引来不少观众咨询。新华三集团工程师彭洋说,这款大模型被“投喂”了海量病历数据,医生仅需输入患者血压、心率、病史等信息,大模型就能给出详细的诊疗方案,展现出不俗的应用潜力。 业界将2023年称为大模型产业研发元年,今年则是大模型应用落地之年。推动应用落地,不仅要提升语言模型质量并配套不同技术,还要通过框架优化降低落地成本。在此背景下,开闭源路线之争引发热议。 开源派多论生态建设价值,闭源派则多讲性能领先优势。有业内人士认为,多数开源大模型并非“真”开源,闭源大模型的技术壁垒也尚未稳固,技术路线之争只是表象。 在传统软件领域,开源软件初期研发成本低、技术迭代快、便于建立生态已是不争的事实。据Linux基金会统计,全球软件产业代码中,70%以上源于开源软件。当前主流的基于深度学习框架的大模型大多也基于开源软件而来。 但大模型开发及授权模式与软件不同。杨程说,市面上多数大模型开源是以开放权重,即预训练模型为主,并没有开源数据和训练细节。有业内人士认为,只开放权重的大模型是闭源、开放使用的“免费软件”而非“开源软件”。 受访人士介绍,无论是大模型还是软件,发挥开源优势,本质上是吸收开发者对大模型或软件的改进。目前对开源大模型的改进主要通过微调实现,但因微调主要针对模型输出层调整不涉及核心构架和参数,无法从根本上改变模型的能力和性能。 即便“真开源”,受技术特性与训练成本所限,开放式协作对大模型性能提升效果也有限。杨程说,大模型训练过程需要耗费大量算力,算力成本居高不下,即便创作者开源数据集和训练细节,普通开发者也很难承担复现训练过程的高昂训练成本,模型能力难以因开放而得到实质提升。 数据显示,ChatGPT一次完整的模型训练成本超过8000万元。进行10次完整的模型训练,成本便高达8亿元。 因此,目前全球范围内的顶尖大模型多采取闭源开发策略。不过,闭源模型的性能优势正在减弱。 有海外机器学习科学家统计了2022年4月到2024年4月期间,开闭源模型的性能表现,认为尽管开源模型较闭源模型性能仍有差距,但差距正在缩短,由GPT-4刚发布阶段的滞后几年时间缩短到6至10个月。 “尽管开源模型并不像软件开源那样可直接获得性能提升,普通开发者仍可通过模型测评、论坛讨论等渠道向开发者反馈使用体验,整体上看,开源反馈迭代速度优于闭源。”受访者认为。 短期看,开源与闭源孰是孰非并非绝对。北京智源人工智能研究院副院长、总工程师林咏华认为,模型能力是由算法、数据质量和算力投入大小决定,而不是由开源还是闭源决定。 **核心是利益之争** 开源与闭源既是技术策略,更是商业策略。表面上的发展路线之争,实则是利益之争。 记者梳理国内知名大模型的开闭源情况发现,阿里云、腾讯等云厂商旗下模型更倾向于开源,智谱AI、百川智能、月之暗面等大模型创业公司则倾向于闭源。 “核心还是盈利模式。”受访者认为,生成人工智能算力成本高昂、研发投入较大给企业盈利带来一定困难。 根据市场媒体统计数据,国内已经有近8万家AI企业因为陷入资金困境而淘汰出局。想不被淘汰,找对盈利模式很重要。 选择不同的路线源于开发者基因不同。阿里云等云厂商核心业务是云服务(计算、存储、网络、数据库等),属于大模型的上游业务,选择模型开源的目的是通过免费的下游产品吸引开发者使用,促进数据消耗,带动上游云产品使用量。 选择闭源的企业则多为大模型创业公司,以AI为核心业务,希望靠大模型盈利,因此更强调闭源模型的价值。目前,闭源大模型主要通过应用程序编程接口(API)调用次数,即使用量计费。对企业多是以项目制结算,对消费者,常见模式则是通过订阅和广告抽成。相比开源,闭源的商业模式理论上更为健康,但短期内能否盈利仍有待观察。 在月之暗面创始人杨植麟看来,订阅按照用户数量收费,无法随着产品创造出更大的商业化价值,广告抽成模式即广告主为用户的注意力买单,已在互联网平台得到了验证,但因用户的时间与注意力有限,该商业模式的可持续性也相对局限。 受访人士认为,开源与闭源模式之争表面上是技术路线差异,实则是在大模型应用加速落地的背景下,企业为争夺市场占有率的商业策略之争。 **短期共存 长期走向开源** 大模型企业之间开闭源口水仗不断,但这些争论并不会否定彼此的市场价值。“相比模式选择开源或闭源,用户更关心投入产出比和数据安全。”一家国产软硬件服务供应商负责人认为,在企业的工具箱里,开源模型与闭源模型是互补的。 “开源模型与闭源模型各有利弊。”他说,开源模型前期免费但无法“开箱即用”,后期隐性成本较高,更适合预算有限、对数据安全要求高的学术研究、业务探索等小型项目;闭源模型供应商通常会提供技术服务,模型相对稳定可靠但费用较高,适合对成本不敏感的大型项目。 简单来说,使用开源大模型约等于可以免费使用厨房但不提供菜谱,需要自己买菜做饭;使用闭源大模型则相当于付费去餐厅吃饭,餐厅提供现成的餐食和配套服务。 短期来看,二者并不冲突。记者了解到,一些企业会在前期通过免费的开源模型验证业务效果,中后期购买闭源模型与微调过的开源模型内部“赛马”,根据不同的业务需求随时切换。 对于模型开发企业而言,开源模型与闭源模型也可并行发展——开源前一代性能落后的模型吸引用户,再引导用户付费使用性能更强的闭源模型。“这样既能快速迭代技术、建立生态,也能逐步建立良性的盈利模式。”受访企业负责人说。 短期内,开源与闭源共存并相互竞争有利于国产大模型行业逐步壮大。北京邮电大学人机交互与认知工程实验室主任刘伟在一次采访中表示,开源会使不可控因素增多,但如果都闭源、奉行保守主义,AI技术发展则会放缓。理想状态是在开闭源间寻求平衡,前提是保证技术创新和发展的同时,能兼顾安全隐私、公平竞争、市场秩序、社会责任和可持续发展。如果一味地强调开源或闭源,是在将这个问题简单化。 业内有观点认为,长期来看,大模型或将走向开源。中国科学院院士梅宏在演讲中表示,大语言模型在未来需要像互联网一样,走向开源,由全世界共同维护一个开放共享的基础模型,尽力保证其与人类知识的同步。否则,任何一个机构所掌控的基础模型都难以让其他机构用户放心地上传应用数据,也就很难产生足以满足各行各业业务需求的大量应用。 “在这个开放共享的基础模型上,全球范围内的研究者和开发者可以面向各行各业的需求探讨各种应用,构建相应的领域模型。”梅宏说。
9月24日至25日,2024世界计算大会将在长举办
8月29日,湖南省政府新闻办召开新闻发布会,宣布“2024世界计算大会”于9月24日至25日在长沙举办。湖南省工业和信息化厅党组成员、总经济师熊琛,长沙市人民政府副市长彭涛,中国电子信息产业发展研究院总工程师李宏伟等出席发布会。 18位院士、100多位权威专家齐聚 本届大会由湖南省人民政府主办,湖南省工业和信息化厅、长沙市人民政府、中国电子信息产业发展研究院承办,聚焦“智算万物·湘约未来——算出新质生产力”主题,设置1场开幕式暨主题报告会,10场专题活动、1场创新大赛和1场成果展示。 大会突出科技创新引领产业创新,邀请计算领军人物、权威专家及头部企业高管现场演讲,发布先进计算、算力等系列国家级智库成果,推出行业权威报告、技术路线图和政策解读等,设立了精品展和“芯创杯”高校未来汽车人机交互设计大赛。同时紧扣人工智能赋能新型工业化、算力创新应用、网络安全等主题,突出了因地制宜发展新质生产力的要求。并结合湖南特色,引入在湘高校、平台、机构、企业多方力量合作办会。并面向国内外行业龙头企业以及大型数字企业定向定位招商。 目前,大会已邀请18位院士、100多位权威专家和国内外计算领域龙头企业高管,中国电子学会、中国计算机学会等行业组织代表,以及来自11个国家的近30位国际嘉宾出席大会。届时,中国移动、中兴通讯等企业和湖南省政府及重点园区将进行签约,这些参会头部企业将联合发布相关倡议。据悉,大会将以多媒体全过程呈现大会盛况,使线下、线上同样精彩。 长沙已培育先进计算及关联上市企业56家 世界计算大会于2019年落户长沙,这是一个面向全球计算产业开展的专业化交流、高端化对接、深层次合作国际平台,通过深度研讨计算产业核心技术与应用的创新发展、分享先进计算产业科技创新技术,搭建湖南先进计算产业对接合作的桥梁。 2020年以来,长沙市已先后发布智慧城市建设场景清单5批次,共计544个应用场景,总投资额达205.43亿元,形成百亿级的政务数据资源汇聚,智慧交通、智慧医疗、智慧文旅等重点领域智慧应用亮点纷呈。长沙拥有湖南先进技术研究院等国家级创新平台32个,汇聚先进计算领域“两院”院士20余名,重点企业和高校获国家科技进步特等奖2项、国家科技进步奖3项。在先进计算及其关联领域,长沙先后培育出56家上市挂牌企业、12家国家级制造业单项冠军企业、74家国家小巨人企业、896家规上企业、1023家高新技术企业。 截至2023年底,长沙先进计算产业产值达1800余亿元,平均增长率超6%。汇聚了长城、飞腾、麒麟、湘江鲲鹏、国科微、景嘉微、毂梁微、科创信息、拓维信息、创智和宇、奇安信、深信服等一批龙头企业。首创了“两芯一生态”技术体系,并作为首选技术路线写入了工信部与湖南签署的部省合作协议向全国推广。掌握了CPU、GPU、SSD、DSP、操作系统、北斗等一批关键核心技术。
王怀民院士:统筹数算、超算、智算,加快构建全国一体化算力网
算力是数字经济时代的新型生产力。算力网是支撑数字经济高质量发展的关键基础设施,可通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。中国科学院院士王怀民在第三届中国国际软件发展大会上从算力中心内看纵向贯通、从算力中心间看横向联接、从生态网演化看开源创新三个维度分享了如何加快构建全国一体化算力网,形成跨地域、跨部门协同发展合力,统筹数算、超算、智算协同计算,算力、数据、算法协同应用,以算力高质量发展赋能经济高质量发展。 近年来,中国的算力、基础设施、各类算力中心蓬勃发展。过去20年,通过“东数西算”,中国已经建立了10个国家数据中心集群,为中国互联网产业飞速发展提供重要的基础设施。也是在过去20年,中国的超算中心迅速发展,14个国家超级计算中心已经建立。数据中心和超算中心相互融合,“东数西算”十大数据中心和八大枢纽的建设正在推进。为支持人工智能、大模型技术的发展,9个国家新一代人工智能公共算力开放创新平台已经建立,至少有16个国家级智算中心正在筹备建设。 在这一过程中,不仅超算中心在云化,智算中心也在云化,如何将这些资源有效整合?数据中心为智算中心提供资源,超算和计算相结合,可以为面向科学工程的计算和面向科学工程的人工智能提供支持,形成相互交叉的新兴应用形态,这一过程存在巨大的创新空间。 为满足未来的算力需求,助力数字经济发展,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》(简称《行动计划》)的通知,其中特别提到“推进以云服务方式整合算力资源,充分发挥云计算资源弹性调度优势”,提出“算网融合发展行动”一是探索建设多层级算力调度平台,逐步实现多元异构算力跨域调度编排;二是构建算力互联互通体系,统一算力资源标识和身份认证。依托部省算力互联互通平台开展试点验证。 **从算力中心内看纵向贯通** 王怀民表示,我们希望算力网络的核心,基础软件以及生态以“纵横交错”的形式有效推进。所谓“纵”是在算力中心内部形成纵向、多级的软件栈,实现有效的对各应用的支撑;“横”是指以云的方式形成算力中心资源的有效链接,通过“生态演化”,促进开源创新模式的有效发展。 在纵向方面,以人工智能为例,纵向用大算力支持大模型,促进大数据的人工智能发展。王怀民以鹏城云脑为例,“鹏城云脑II” 包括4096颗昇腾910 AI处理器和2048颗鲲鹏920 CPU处理器,可以提供1E OPS智能算力,即不低于每秒100亿亿次操作的AI计算能力。这个体系在硬件平台上又构建了完全可以自主发展的人工智能计算架构,高性能的人工智能框架运转的软件栈,深度学习的框架以及大模型的框架。“在此基础上构建一站式的开发环境,支持创建相应的服务项目,进行有效训练,支持学术界的研究工作;支持构建智算中心垂直体系的软件全栈,支持这方面领域的研究,包括若干其它国产硬件平台,以及英伟达在内国际上其它平台有效运作的垂直体系结构。” AI大模型通常有数亿到数千亿的参数,这些参数用于存储和学习模型的知识。B是Biion(十亿)的意思,如7B模型就是70亿参数量的大模型。根据参数的不同,训练大模型可以分为7B、33B、200B模型。7B用来进行策略的有效选择,33B用来丰富语义的内容生成,200B对标国际先进模型的研究平台,推进各项工作。王怀民表示,鹏城云脑是以华为芯片和相关软件栈为基础的体系架构。在这个体系架构已经形成若干模型训练,包括7B、33B和200B,同时实现机内并行、机间并行以及模型数据和流水线的各类并行模式,支持大模型的训练和研究实验。很多研究机构对于大模型的可能性提出很多假设,但是假设的验证需要算力支持,在应用领域也是如此。 **从算力中心内看横向联接** 算力中心的横向衔接,可以通过云计算的模式实现。云计算长期面对三个方面挑战:一是从云服务提供者角度看,效费比问题更加突出了;二是从云服务消费者角度看,平台锁定问题更加尖锐了;三是从云生态的角度看,服务模式问题更加现实了。如何解决费效比和平台锁定问题?王怀民表示:“希望建立多数据中心、多云服务商之间的有效协同模式。2017年在国家重点研发的支持下,我们提出云际计算的概念,以云服务商之间的开放协作为基础,通过多方云资源,包括数据资源和模型资源的深度融合,方便开发者通过软件定义的方式实现各类跨算力中心之间的协同,实现服务无边界、云间有协作的云际计算模式,这也是上文提到的《行动计划》所要求的形态。 据王怀民介绍,鹏城·脑海大模型7B版本已于北京、天津、沈阳、大连、长春、西安、武汉、成都8地人工智能计算中心成功测试及部署,优化版本模型持续更新。鹏城·脑海大模型200B版本于武汉人工智能计算中心完成部署,同步进行性能优化测试。 鹏城实验室依托CCF开源发展委员会与8地计算中心基于大模型开源创新研究联合体持续开展优化研究与应用开发探索。这种协同体系如何形成有效的网络化生态,实现开源创新发展?王怀民表示,这需要产业界共同构建。在垂直方向,超算中心、数据中心、智算中心构建软件栈,横向用云际计算连接基础设施,将计算能力提供给全世界的开源社区,让更多的参与开源的开发者能够有效使用软件栈,触达计算资源,高效进行有关试验的研究,进行产业创新生态应用场景的设计。 **中国的开源创新正在实现质的飞跃** “开源创新”正成为探索智能世界的关键之举,是迈向万物智联世界的必由之路。在这一过程中,中国已经开展了一系列实践。王怀民举例,比如已经开源共享异构资源的仿真环境,支持研发者边研发边论证,边开展应用研究,全国100多所大学的开发者,在开源生态上托管和人工智能、大模型研究相关约2.1万的仓库和相关开发任务。“我们用云际化的手段,可以支持不同的社区采用统一的代码仓存储模式,在不同的数据中心实现有效的数据共享。帮助不同的社区在不同领域构建项目,在不同的云数据中心管理代码仓,同时能够做出统一的项目管理视图,有效实现数据资源的安全访问和管理,这是正在推进的社区工作。希望通过这样的工作,构建人机协作、持续学习、成长演化的智能软件相关开发环境。” 中国拥有丰富的应用场景,可以提供丰富的算力中心资源,特别是在国家的大力支持下,各级各类创新主体的积极参与下,中国孕育出的算力网基础软件将走向世界、影响世界。在鹏城云脑的部署下,可以实现数据的接入、训练大模型,通过应用、验证,数据再传回,形成人机学习、成长演化的良好生态。“希望大家继续推动这项工作,利用丰富的训练环境产生更好的训练效果,通过高效共建生态,奠定未来中国在整个开源生态中的主导地位。”王怀民表示,“中国的开源创新正在实现质的飞跃,进入蓄势引领的新阶段。“目前,需要具有世界级影响力的开源项目,吸引全球的创新成果和创新资源加入其中,构建全球性的开源生态。期待在中国构建的面向全球的开源平台上,能够出现具有世界影响力的中国智能时代开源软件项目。” 本文转自中国信息化周报,根据王怀民院士公开演讲整理而成,未经本人确认。
文女士:18570395180
付女士:18673117341