当前位置:首页 > 专家文章

中国工程院院士刘韵洁:确定性网络赋能工业制造升级

发布时间:2024-06-20 21:34:16

5月21日,中国工程院院士、紫金山实验室主任刘韵洁在第四届中国IDC行业DISCOVERY大会上表示,确定性网络有望解决传统互联网拥塞无序的问题,推动互联网从“尽力而为”到“确保所需”技术体系变革,满足工业互联网、元宇宙、东数西算、人工智能大模型等典型场景的网络需求。

5月21日,中国工程院院士、紫金山实验室主任刘韵洁在第四届中国IDC行业DISCOVERY大会上表示,确定性网络有望解决传统互联网拥塞无序的问题,推动互联网从“尽力而为”到“确保所需”技术体系变革,满足工业互联网、元宇宙、东数西算、人工智能大模型等典型场景的网络需求

“大模型+确定性网络已经成为支撑行业大模型高质量发展的重要支撑。”刘韵洁表示,目前国内的大模型技术落后于国外领先水平,尤其是高端算力的封锁,使得国内外单点算力差距变大,亟需通过算力协同、算力组网应对高端芯片与制程封锁的问题。对于行业大模型来说,可通过确定性网络构建区域定制化大模型,跨广域算网融合,实现跨广域超大规模智算集群在低时延、确定性通信环境中实现大模型并行训练、推理。
刘韵洁认为,中国大模型未来的出路在于行业大模型。中国作为世界上工业门类最全的工业制造国家,拥有行业数据的完整性和系统性是最全的,充分利用好这些行业数据,中国在行业大模型将大有可为。
确定性网络,简单来说就是没有延迟的、稳定的、可以信任的网络。据刘韵洁介绍,确定性网络已经成为国内外研究的重点,包括IETF、IEC等国际组织也都在进行相关研究,只是还没有形成统一的标准。
在刘韵洁看来,确定性发展需求目前主要集中在六方面。
一是工业互联网的确定性需求。当前,确定性网络赋能工业制造升级已成为大型企业发展的关键,传统“尽力而为”的网络已无法满足很多企业的业务200us以内的时延抖动保障需求。尤其是云边端协同“远程控制”已成为了IEC工业控制标准61499、61131体系架构重要变革方向,确定性网络是解决目前工业核心技术被国外垄断、通讯协议“七国八制”的关键
二是能源互联网确定性需求。电力系统中控制命令和传感数据对网络传输时延的实时性,确定性、可靠性有严苛的要求,IECTC57/WG10提出了在变电站自动化、纵联保护、微电网、配电通信网等领域应用需求。确定性网络可有效解决传输的服务质量问题,实现带宽、路径、时延、抖动的端到端精准可控,满足“碳中和、碳达峰”应用需求。
三是AR/VR确定性算力需求。面向元字宙、8K、AR/VR等新业务需求,需要提供更高的速率、更低的时延、更低的丢包率,以及更灵活的业务部署能力。
四是大模型算力需求激增,算力组网需求迫切。自2012年起最新模型训练所需计算量每3-4个月翻一倍;在过去5年时间,GPU算力增长近90倍;而网络带宽仅增长10倍,模型训练时间也随之增长。面向AI大模型时代,需要计算、网络、存储、系统协同,构建高性能算力底座,实现超大规模集群万卡协同。
五是我国高质量数据集缺乏,数据隐私成为关键。数据是构成大模型的血液,为其提供了基础支撑,以OpenAl为代表的国外大模型已通过互联网爬取了全球大最数据。针对我国行业数据全球最全、价值最大的现状,亟需解决行业大模型发展中的数据隐私问题。2020年GPT-3数据集达到753GB,GPT-4数据量是GPT-3的10倍以上,亟需构建安全可靠的行业数据专网,解决中文数据集问题。
六是广域确定性无损传输成为算力互联关键。构建“无损确定性广域传输能力”已成为算力广域高效传输互联重要基础。广域算力资源互联共享需要解决并行协同计算来提升算能;远程使用算力资源,需要提升传输效率,节约传输成本。这些都需要确定性网络提供支撑。目前,美国微软Azure云70%以上流量都使用RDMA协议,在2023年初步实现80KM广域RDMA互联。
刘韵洁表示,AI促进了计算和存储的云化,随着计算能力和存储性能的提高,使得网络压力凸显,节点间网络通信时延占比50%以上,成为存储性能瓶颈。“东数西存”等业务需要解决算力节点间隔跨广域算力传输,亟须解决RDMA跨广域问题,“传统以太网丢包对RoCE吞吐率影响大,丢包率必须降到十万分之一以下才能保证RoCE吞吐率不受影响,需要设计新型RDMA广域传输协议,实现算力跨广域传输。”
刘韵洁在现场公布了其关于确定性网络的技术进展,包括突破面向服务的未来网络体系架构与基础理论,推动互联网从“尽力而为”到“确保所需”的技术体系变革,实现互联网核心技术的自主可控。并在未来网络试验设施(CENI)中成功验证;发布全球首个大网级网络操作系统,在运营商A网中稳定运行5年时间;基于未来网络试验设施实现设备异构组网,开通覆盖35个城市的广域确定性网络。
刘韵洁表示,另一个技术进展是发布全球首个大网级网络操作系统(CNOS,司络),首次提出基于服务网络(ServiceMesh)的微服务化网络操作系统,突破异构设备统一驱动框架、容灾高可靠等关键技术。还在全球率先提出了新兴确定性网络体系架构,突破异构设备统一驱动框架、容灾高可靠等关键技术。
“确定性网络在CENI项目中验证成功,非确定路径下随着突发流量大小不同,对业务流量有较大波动影响;而确定性路径下,无论突发流量多大,均能提供稳定的时延抖动和时延保障。”刘韵洁说。
刘韵洁表示,广域无损传输在CENI项目中也已验证成功。针对长距RDMA传输控制控制环路长的挑战,提出在DCI交换机处通过控制报文分别控制发生在两端数据中心拥塞的分段传输控制方法,从而将控制回路缩短至单数据中心规模,并可适配不同侧网卡。
与此同时,刘韵洁表示,在攻关部署TB级分布式智驱安全网络技术方面,将防御分布部署在智驱安全网络的4种数据平面。近期实现超高性能10TB级DDoS安全防护,中心节点对全网安全状态统一研判部署、本地节点独立即时响应决策。
刘韵洁介绍,目前确定性网络在数字经济中已有多个应用。如,CENI算网操作系统构建抗攻击能力强、传输效率高、可定制成本低的算力网络新总线,为“东数西算”重大工程的整体安全、可靠、高效运行提供有力支撑;促进算力的统一供给、智能匹配、按需接入,是推动城市数字化转型的新底座;服务工业互联网(工业外网),建设智能、柔性、安全、可定制的长三角一体化网络,满足江苏省、国家工业互联网、能源互联网、专用场景、车联网等重大科研试验与产业示范应用需求,实现核心技术创新引领与实体经济深度融合,赋能垂直行业;基于确定性网络的能源大数据中心实现了电力系统能源数据秒级监测等。
“数字经济正在成为新的经济增加业态,成为稳增长促转型的重要引擎。刘韵洁表示,我们要抓住全球未来网络发展的重大机遇,突破新型网络体系架构和确定性网络核心技术,建设确定性网络相关产业生态,实现核心标准芯片、设备的自主可控,推动我国算力网络高质量发展。
来源:工业互联网世界