【環球時報報道 記者 馬俊】伴隨著人工智能(AI)技術的高速發展,包括OpenAI公司CEO山姆·奧特曼在內的業內人士都開始擔心,它將被能源問題“卡脖子”,因為AI當前面臨的現實難題之一就是能源和智能的轉化效率。被稱為“硅谷鋼鐵俠”的特斯拉CEO馬斯克近日也警告稱,“AI算力瓶頸是可以預見的”,未來可能沒有足夠的電力能滿足AI對算力的需求。有沒有辦法緩解AI發展與算力消耗海量資源之間的矛盾?《環球時報》記者就此采訪了業內專家。
訓練AI為何會消耗海量資源
隨著OpenAI公司發布的聊天機器人ChatGPT的爆紅,各國都加快了AI大模型的訓練,需要的算力也急速增加。馬斯克最近在公開采訪中表示,現在AI對算力的需求差不多每半年就會增加10倍,AI算力的瓶頸是可以預見的:“一年前,短缺的是芯片。然后下一個短缺的將是電力。當芯片短缺緩解之后,明年可能就會出現電力將不足以運轉這些芯片。”
為何訓練AI對于電力的消耗如此龐大?這是因為大語言模型的規模實在太大。OpenAI的大語言模型GPT-3擁有1750億參數,而GPT-4擁有2萬億參數。要訓練這種規模的模型,需要在大規模數據集上反復迭代,每次都需要計算和調整其中數百億乃至數千億個參數。為完成如此龐大的計算,需要動用由大量服務器組成的數據中心。例如GPT-4完成一次訓練需要約3個月,使用約2.5萬塊英偉達A100圖形處理器(GPU)。以每塊GPU的功耗400瓦計算,GPT-4一次訓練就要耗費2.4億度電。
據《環球時報》記者了解,數據中心通過網絡提供高效的數據計算和存儲服務,是承載算力的基礎設施。隨著傳統科學與工程計算對算力的需求持續增長以及人工智能應用對算力需求的急劇上升,預計未來5年內智能算力規模的復合增長率將高達52.3%。據統計,2022年中國數據中心耗電量達2700億度,占全社會用電量約3%。預計到2025年,全國數據中心用電量占全社會用電量的5%。2030年全國數據中心耗電量接近4000億度。
除了芯片運算時的耗電量外,數據中心運行時還需要耗費大量淡水用于冷卻服務器產生的熱能。益企研究院創始人張廣彬告訴《環球時報》記者,數據中心消耗的水,主要用于散熱(冷卻)環節。就是通過水的蒸發,換取數據中心內部溫度的降低。美國科羅拉多大學的研究表明,每當ChatGPT回答20-50個問題,就需要消耗500毫升水資源用于冷卻計算設備和為數據中心供電的發電廠。OpenAI公司今年年初發布的“文生視頻”大模型Sora以驚人的視覺沖擊力令全球矚目,但相關評估認為,為此消耗的算力約是生成文字對話的千倍以上,它在峰值運算時消耗的電力和水資源更是天文數字。
對于AI與人爭奪資源的擔憂正在快速增加。谷歌發布的2023年環境報告顯示,該公司2022年耗水量高達2545萬立方米,相當于8500個標準游泳池。到2027年,全球范圍內的AI需求可能需要消耗66億立方米的水資源,幾乎相當于美國華盛頓州全年的取水量。美國AI企業的數據中心從科羅拉多河取水計劃遭到當地民眾的抵制。谷歌在烏拉圭南部建立數據中心、微軟在智利建立數據中心等海外項目也引發了當地人的抗議。
降低散熱能耗,有多條技術路線
業內常用PUE值作為評價數據中心能源效率的指標,它是數據中心消耗的所有能源與IT設備能耗的比值,PUE值越接近1,說明能效水平越好。傳統風冷數據中心PUE值在1.5左右,意味著IT設備自身能耗占比約為六成,以制冷為主的其他能耗約四成。因此降低散熱能耗,不但是數據中心最直接的節能方向,還可節省大量用于散熱的水資源。
臉書、谷歌等公司紛紛選擇在北極圈附近修建大型數據中心,借助低溫的自然環境,可節省大量的冷卻電力。中國近年推動的“東數西算”戰略,在貴州、青海、內蒙古等地修建數據中心,在很大程度上也考慮了這方面的因素。在海底數據中心方面,微軟早在2015年就將試驗性的數據中心建在蘇格蘭周邊的北海海域水下,但沒有大規模推廣。
中國海南海底數據中心于2022年12月成功將全球首個海底數據中心核心裝備“海底數據艙”放入海底,開啟了全球商業海底數據中心運營的先河。業內人士介紹說,“以陸地1萬個機柜為例,同等算力的海底數據中心,每年能節省用電總量1.75億度、節省淡水15萬噸。數據艙內恒壓恒濕無氧無塵的環境還會讓服務器的可靠性大幅提升。”
但這些方案受到自然環境、網絡技術等約束較大,而且會讓數據中心遠離主干網絡,影響運維的便捷性。對于常規地面數據中心而言,更可行的方案是將風冷模式轉為液冷模式,即用特制液體取代空氣作為冷媒為發熱部件進行散熱,主要包括冷板式“非接觸液冷”以及浸沒式和噴淋式“接觸液冷”技術。
曙光數創股份有限公司董事長任京暘接受《環球時報》記者采訪時表示,國家相關部門多次出臺有關政策,推動數據中心等設施的節能減排,如明確要求到2025年,全國新建大型、超大型數據中心PUE值降到1.3以下。從曙光實踐來看,最先進且成熟度最高的液冷技術是“浸沒式相變液冷方案”,能讓數據中心PUE值最低降至1.04,這一結果在世界范圍來看,是處在第一梯隊的。它在完全釋放計算設備性能的同時,可極大提高設備穩定性。但最顯著的一點還是可極大降低數據中心設備的散熱能耗,且不受地域、環境等影響。
張廣彬表示,液冷技術是當前數據中心節能的熱門方向。他透露,液冷技術還有一個光看PUE值體現不明顯的優勢。在IT設備能耗中,包括了服務器風扇的用電和電源模塊轉換的損耗,其中風扇的用電是大頭,能占到服務器總用電的10%甚至更多。而浸沒式液冷理論上可以完全不用風扇,冷板式液冷的風扇只需要負責20%-30%的散熱量。所以采用液冷技術的數據中心PUE值可能沒有很明顯下降,但實際更省電了。
任京暘還介紹說,在節水方面,曙光最新研發的“液冷節水型室外機”,采用離心霧化等新型散熱技術,在西北限水、缺水地區部署,相比傳統閉式冷卻塔設備可節水70%-80%。該方案通用于風冷、液冷等多模式數據中心,可最大程度支持我國西北缺水地區建設中大型節水數據中心。
超算互聯網是未來方向之一
張廣彬認為,數據中心基礎設施層面節能減排的傳統手段,隨著PUE值逐漸逼近1,已快趨近極限了。“采用各種節能措施,把供電損耗、制冷開銷等環節的浪費控制在很低的水平之后,剩下的就是必需的業務需求了。不能單純指責數據中心耗能,這應該是信息社會的必需開銷。總不能通過削減真實的應用需求,來達到節能的目標。”他認為,未來數據中心節省耗能仍然大有可為,包括對上層軟件和應用進行優化,減少不必要的算力使用量。“如果通過優化大模型,讓60億參數的模型能達到原來130億參數模型的效果,那就可以減少GPU和服務器的使用量,最終降低數據中心層面的用電量”。
技術的進步也能在一定程度上緩解外界對于AI能耗的擔憂。英偉達首席執行官黃仁勛6月2日宣布,新一代AI芯片架構在性能提升30倍的同時,能耗只有上一代產品的1/25。美國波士頓大學工程教授科斯昆認為,在AI巨頭完成大模型的測試后,AI能耗問題可能就沒有那么突出了。屆時將確定哪些領域需要復雜模型,哪些領域只要簡單模型就夠了。“人們開始思考這個問題:‘我是否真的需要用大錘子敲擊這個小釘子,也許只用一把螺絲刀就夠了?’”
接受《環球時報》采訪的專家表示,當前流行的通用大模型訓練高度消耗算力,從長遠來看,只有少數有條件有基礎有能力的機構能持續推進。考慮到技術和經濟性,未來更合理的發展方向是針對領域應用問題,基于通用大模型開發領域模型和推理系統。在這方面,美國安騰超級計算機提供了很好的例子。它采用專用超級計算機體系結構用于生物系統的分子動力學模擬,在由專用高速互聯網緊耦合連接的分子動力學計算ASIC芯片上執行海量并行計算,所消耗的能源只有同期最快GPU的1/10。
國內方面,今年4月正式上線的國家超算互聯網,也有望在減少未來AI訓練能耗方面發揮重要作用。國家超算互聯網是以互聯網思維運營超算中心,依托一體化的算力調度、數據傳輸、生態協作體系,實現算力供給、軟件開發、數據交易、模型服務等產業鏈相關各方的緊密鏈接,構建市場化、互聯網化、標準化的先進計算服務環境。國家高性能計算機工程技術研究中心副主任曹振南告訴《環球時報》記者,未來國家超算互聯網所連接的各個算力中心會扮演不同的角色,“類似醫院會分為專科醫院和綜合醫院,未來算力中心可能也會分化為專科算力中心和綜合算力中心,其中專注于大模型訓練的專科算力中心,所使用的能耗、性價比肯定要超過通用算力中心。”其次,國家超算互聯網可優化算力的調度和服務,在提供同樣算力情況下,進一步降低能耗。
中國正在推進的“東數西算”戰略是考慮到東部電力緊張,西部新能源豐富,在西部合理布局建設數據中心,承接東部的算力需求。曹振南表示,通過超算互聯網打造的算力網絡在“東數西算”中節省的能源也是相當可觀的。