在大模型快速迭代、算力需求指數級攀升的背景下,算力產業似乎正在經歷一場路徑層面的調整。
過去幾年,全棧能力一度被視為國產芯片廠商縮短差距、提升競爭力的關鍵路徑,從芯片設計到整機系統,芯片廠商曾試圖以一家之力構建起算力閉環。但在最新的行業共識中,這一路線正被越來越多廠商主動反思甚至修正。
在近日舉行的光合組織2025人工智能創新大會上,多位來自芯片、服務器、整機和系統廠商的核心人物強調:算力競爭已經從單點性能轉向系統效率,從全棧路線轉向多方協同的系統工程。
這一轉向并非理念變化,而是大模型時代真實工程約束下的必然結果。
正如中國科學院院士周成虎所言,數字社會需要一個超級大腦來支配其發展,計算正是這大腦背后的核心支撐,GPU(圖形處理器)、CPU(中央處理器)、TPU(張量處理器)等讓我們能夠通過暴力計算來理解數據的實質。但與此同時,隨著大模型參數量向萬億級甚至十萬億級跨越,過去那種依靠單一芯片性能提升的暴力計算模式正在觸碰物理與效率的極限。
光合組織2025人工智能創新大會現場圖片來源:主辦方從芯片性能到系統效率,單點突破正在失效
“人工智能產業(鏈條),從芯片到系統到應用,整體鏈條非常長,但是現在整體的趨勢又需要這些東西緊耦合在一起,不是某一個環節做好就可以的。”中科曙光高級副總裁李斌判斷,今天的大模型對算力的要求已經不是某一顆芯片算得快不快,而是整個系統能不能長期、穩定、高效地跑起來。
在人工智能發展的初級階段,算力的提升主要依賴于GPU、CPU等單一處理器性能的迭代。但當任務的復雜度實現跨越式提升、處理時長高速增長時,單一芯片的優化已顯得杯水車薪。
隨著模型規模向萬億參數演進,算力系統面臨的挑戰已不再局限于算力峰值,而是延伸至互連帶寬、存儲層級、供電制冷、系統穩定性等系統性指標。
李斌指出,隨著算力規模的不斷擴大,首先需要保障可擴展性,避免計算效率下降,同時,規模擴大意味著可能導致系統可靠性下降的原因也會變多,而可擴展性、可靠性以及系統的能效和能耗都是決定系統是否可用的關鍵因素。
這也意味著,如果不能從系統層面解決能效和推理效率問題,AI的規模化落地將難以為繼。
IDC中國區副總裁兼首席分析師武連峰表示,為了支持萬億規模的大模型,傳統的計算節點已無法適應,行業共識正轉向超節點和超集群模式,即通過超高速總線將不同的GPU焊接在一起,形成高密度的計算單元,以更好地滿足用戶的需求。
武連峰表示,傳統集群在節點規模擴大后,通信開銷往往占用30%~50%的資源,使得算力不能被充分利用,而超集群本質上是把算力從硬件工程升級為系統工程,需要在算、存、網、電、冷、管、軟等多個維度協同融合,而非簡單堆疊芯片。
這也意味著,過去依賴單點性能突破來彌補系統短板的思路正在失效。即便芯片性能持續提升,如果互連協議不統一、系統軟件不兼容、運維可靠性不足,整體算力效率依然會被迅速稀釋。
海光信息副總裁吳宗友在接受包括《每日經濟新聞》記者在內的媒體采訪時也指出,在國產化快速推進的過程中,芯片種類的快速增加反而給用戶帶來了新的負擔,每一種芯片都需要單獨適配、優化和維護,性能并不能直接轉化為用戶的實際收益。
全棧模式的代價:生態內耗與用戶痛點
在市場發展初期,不少國產廠商選擇全棧自研模式,試圖通過緊耦合的技術架構建立競爭圍墻。
李斌在接受采訪時表示,這種現象的背后是廠商的普遍焦慮:由于人工智能產業鏈極長,廠商擔心只做某一個環節無法掌控市場,于是紛紛開啟全棧模式。然而,這種嘗試帶來的結果卻是“內卷”加劇,各家都想做全套,卻在每一層上都難以做到極致,最終形成了多個封閉的小生態。
這種割裂的生態給最終用戶帶來了巨大的困擾。吳宗友指出,過去幾年國產芯片行業發展迅速,但也讓用戶陷入了適配的難題中。面對眾多的芯片路線,用戶需要投入高額成本進行重復的適配和優化,每個芯片的接口、總線各不相同,這種適配難度極大降低了開發效率。
武連峰也證實,目前生態挑戰依然嚴峻,算法和算子往往錨定在某個特定生態,移植過程短則數月,這不僅浪費了時間成本,也造成了人才資源的消耗。
整機廠商的感受更加直接。
雷神科技董事長路凱林提到,國產AI工作棧發展的瓶頸之一正是生態資源的豐富度。相比英偉達積累數年的海量生態,國產算力在硬件與軟件的無縫銜接上仍有差距,“生態的打通和生態的豐富度應該是制約我們快速發展一個很重要的瓶頸,但是好在現在也在快速突破。”
對于廠商而言,維持全棧同樣意味著資源的極度分散。
光合組織秘書長任京暘坦言,以前產業內各自為戰,廠商在不見面的情況下互相揣摩、對抗。
參會的行業人士絡繹不絕圖片來源:主辦方開放計算被推上前臺,但執行成本同樣不低
在反思全棧路線的同時,開放計算被推到了舞臺中央。但多位受訪者也強調,開放并非一條低成本路徑。
任京暘表示,今天的開放計算意味著廠商要從“一家通吃”中跳出來,往多廠商各司其職、相互協作、共贏的方向走。這種轉變的核心在于分層解耦,即在芯片、存、液冷、網絡等每一層都由多個優秀廠商集群式地攻關,打破以自我為中心的緊耦合架構。“以前產業內各自為戰的情況比較多,初期的時候是可以的,大家反正也不知道路在哪兒,摸著石頭過河。現在道路比較清晰了,所以就需要整合”。
然而,走向開放并非易事,它首先要求廠商讓渡一部分控制權和利潤空間。
任京暘指出,真正的開放意味著在關鍵接口和能力上讓渡控制權和部分利潤空間,同時還要建立一套可執行的協調機制,而不是停留在口號層面。在他看來,開放計算的難點不在技術,而在組織和協作分配。
具體到執行層面,開放計算首先要求對產業鏈進行分層解耦。芯片、互連、存儲、散熱等環節由多家廠商并行推進,在各自層面形成競爭與合作并存的格局;與此同時,各層之間又必須通過統一標準重新緊耦合,否則系統效率同樣難以保障。
這種模式對平臺方提出了更高要求。任京暘認為,需要有具備公信力的平臺來承擔協調角色,確保制度保障和資源保障,在供需對接、標準制定和沖突調解中發揮作用。
吳宗友則從市場格局角度提出,開放架構實際上為AI產業的進化提供了一種路徑選擇。在他看來,如果繼續各自為戰,最終開放架構之外的生態很容易跟不上時代。
在路凱林看來,場景正在倒逼技術升級。隨著國產算力增強,垂直小模型在本地工作站部署的需求激增,這種由場景驅動的協同賦能,讓硬件與應用實現了真正的相互咬合。而這種基于生態的開放架構,正實實在在地降低不同行業適配AI的成本。
不過,轉向也并不意味著路線之爭的終結。任京暘在采訪中也談到,緊耦合的封閉體系與開放協同的體系,在國內豐富的應用場景中仍將長期并存。
在大模型和超集群成為常態之后,能否構建一個高效、可協同、可持續演進的系統,將成為決定廠商生存空間的關鍵變量。
(文章來源:每日經濟新聞)