IT之家 9 月 30 日消息,在上周的中國算力大會期間,中國移動攜手全球 50 余家合作伙伴發布全調度以太網(GSE)全套技術標準,以及全球首套 GSE 商用產品。
以太網已成為新一代智算中心網絡技術的發展方向,2023 年 5 月,中國移動聯合 10 余家中國企業率先發布了全調度以太網技術架構(GSE)白皮書,并在 8 月中國算力大會上啟動“GSE 推進計劃”,成員包括國內外主流云服務商、設備商、芯片商、高校等 50 余家產學研機構,與美國公司主導的超級以太網聯盟(UEC)成為全球范圍內兩個具有影響力的技術體系。
為兼顧智算中心建設的節奏與技術發展的需求,全調度以太網技術劃分為 GSE1.0 和 GSE2.0 兩個商用階段,IT之家附介紹如下:
GSE1.0 基于現有芯片最大限度地支持 GSE 新技術,優化網絡性能,目前已在中國移動智算中心(哈爾濱)超萬卡集群實現首次商用,將訓練過程中通信時間占比縮 20% 以上,達到國際先進水平。
GSE2.0 則全面革新以太網底層轉發機制和上層協議棧,通過基于 PKTC 的多路徑噴灑、基于 DGSQ 的擁塞控制機制以及基于 66B 原子碼塊的故障檢測與通告等原創技術創新,從根本上解決傳統無損以太性能和可靠性問題。
此外,為同時滿足以華為昇騰 910 系列為代表的 GPU 集成網卡的 GPU 服務器和以英偉達 H800 系列為代表的配備獨立網卡的 GPU 服務器組網需求,GSE 構建了 GSE-N2N 和 GSE-E2E 兩大技術場景,前者網絡實現全部 GSE 功能,實現計算和網絡與天然解耦,后者將部分 GSE 能力延伸至服務器網卡,借助端網協同實現集群互聯。
本次發布的成果主要有 GSE 全套技術標準包括《GSE1.0 算網協同技術標準》、《GSE 2.0 網絡側優化技術標準》即 GSE-N2N 標準和《GSE2.0 端網協同技術標準》即 GSE-E2E 標準。
GSE1.0 技術標準主要涵蓋端口級 + 算網協同的負載均衡、端網協同的擁塞感知授權等核心技術,已經規模商用;
GSE-N2N 技術標準主要定義了基于 PKTC 的多路徑噴灑、基于 DGSQ 的擁塞控制、控制面設計、網絡健壯性及網絡可視化等核心技術,本次發布的交換機商用產品已全面實現;
GSE-E2E 技術標準主要涉及端網協同機制、多路徑噴灑機制、基于 DGSQ 的擁塞控制、端側亂序重排及快速丟包重傳等核心內容,商用網卡芯片已完成開發。
本次發布的 GSE 商用交換機支持千卡級組網規模,組網性能號稱比傳統 RoCEv2 交換機提升 50% 以上。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。