
- 2025
- -
- 02
- -
- 12
-
Spirent STC 對AI資料中心 800G主幹網路
壓力測試的新方法
告別瓶頸:對 AI 800G 主幹網路進行壓力測試的新方法
作者:Aniket Khosla
人工智慧資料中心的流量非常大,嚴重依賴高速乙太網路和後端結構,這些結構必須具有低延遲和接近零資料包遺失,以避免空閒 GPU 造成的昂貴影響。一種新的測試方法可以透過用複雜的 AI 流量模式和擁塞場景對這些結構進行壓力測試來識別問題,從而顯著提高效能和彈性。
高速乙太網路 (HSE) 正在競相支援 AI
AI/ML 應用程式和下一代工作負載正在將網路流量推向前所未有的水平。超大規模企業正在突破乙太網路的界限,以滿足不斷增長的頻寬需求,為後端 AI 叢集迅速過渡到 800 Gbps,並為不久的將來的 1.6T 做好準備。
在超大規模企業的背後,乙太網路的高速採用者是服務供應商、大型企業,以及最終的小型企業——有時可能需要數年時間。 1G、2.5G 和 5G 等較低速度也需要支援接取網路、汽車、工業自動化和物聯網等領域的新興應用。800G 及更高速度正在加速複雜性
遷移到 800G 以滿足市場需求說起來容易做起來難。與前幾代乙太網路相比,升級路徑變得更具挑戰性。那麼,有什麼變化嗎?更多的供應商。
早期的乙太網路由一兩家交換器生態系統供應商主導,因此很少需要進行互通性測試。隨著 400G 和 800G 的出現,這種情況發生了改變,因為許多供應商希望證明他們符合標準、可互通、並能滿足效能要求。超大規模企業或供應商面臨的挑戰是確保所選的光學元件、電纜/收發器和交換器在部署到生產網路之前能夠協同工作。
快節奏的循環。
隨著需求和技術創新的加速,乙太網路速度的採用週期越來越短。晶片組供應商和測試不能等待標準獲得批准,而必須隨著行業的發展而發展,支援早期規範,然後是 IEEE 標準。
快速變化的技術。
正在引入基礎且複雜的技術創新,例如新的前向糾錯、增加每個電氣通道的容量和核心訊號,以支援頻寬和延遲需求。所有這些都必須經過測試。
苛刻的現實世界條件。
系統可能在正常條件下正常運行,但在實際交通情況下會出現故障。在投入生產網路之前,需要驗證系統在規模和壓力下可靠運作的能力。
為了確保成功部署這些快速發展的技術,徹底驗證和測試它們至關重要。其中包括來自晶片、收發器和電纜供應商以及網路設備製造商的嚴格測試解決方案。一旦證明這些組件可以無縫地協同運行,部署服務提供者和超大規模提供者必須優先考慮供應商合規性、系統互通性以及實際交通條件下的效能。必須在實驗室中而不是在即時生產網路中識別和解決問題,因為這些問題可能會顯著增加營運成本並影響服務交付。
人工智慧對資料中心的影響
AI資料中心對AI生態系統至關重要,正在經歷爆炸性成長:大規模GPU部署,叢集每兩年成長四倍,流量每兩年成長十倍。支援人工智慧所需的規模和容量需求是前所未有的。 HSE 對於 AI 資料中心後端結構實現所需的效能至關重要。
除了成長帶來的複雜性之外,AI資料中心中GPU之間的海量資料通訊無法由單一GPU處理。相反,處理是使用高效能運算集體通訊庫 (CCL) 流量模式並行分佈在多個 GPU 上。並行處理對於滿足 AI 效能預期至關重要,但它對延遲和資料包遺失極為敏感。如果所有分散式資料包沒有及時返回或順序混亂,就需要重新傳輸,這會減慢應用程式的回應時間。
人工智慧資料中心面臨的重大挑戰:
* 規模。 AI資料中心必須支援數百台伺服器和數千個GPU,部署成本可能高達數十億美元。
* 彈性。複雜的流量工作負載給網路彈性帶來壓力。
* 穩健性.對延遲、擁塞和資料包遺失的敏感度可能會導致昂貴的 GPU 處於空閒狀態並等待重新傳輸,這種時間多達三分之一。
採用 AI 資料中心不可或缺的新測試方法
測試方法必須隨著 AI 和 HSE 的進步而發展和創新。傳統工具提供基本的 AI 測試,但不適合驗證後端 AI 結構。在具有少量 GPU 叢集的乙太網路結構上進行的業界標準 RFC 2544 測試可能表明吞吐量、延遲、抖動和幀丟失都在可接受的範圍內。然而,當結構部署在生產網路中並承受現實、複雜的工作負載和大規模擁塞時,通常會出現許多問題。這些問題必須在實驗室中發現,而不是在生產網路中發現,因為它們可能會影響服務效能。
Spirent 透過在實驗室中創建大規模生產網路場景,採取了一種新的 AI 測試方法。一旦完成 RFC 2544 AI 基準測試,必須使用 CCL 流量模式和擁塞場景對結構進行壓力測試,以識別和消除流量瓶頸。這種先進的 AI 測試嚴格評估結構的部署準備並確保最佳的 GPU 利用率。
透過先進的 AI 測試,可以在測試硬體上模擬 GPU,以創建逼真、複雜的 AI 工作負載來測試結構。該解決方案透過模擬 CCL 流量模式和擁塞場景在實驗室中對結構進行壓力測試,以確保 AI 資料中心基礎架構以最佳效能運作並避免空閒時間。測驗衡量服務效能,例如作業完成時間和資料包效能。納入負面和受損流量可以測試復原能力。這些測試具有可重複性和一致性,能夠對不同供應商的結構進行基準測試。
AI資料中心測試的要求
新時代的人工智慧測試的另一個好處是降低測試成本、複雜性和維護成本。現在,供應商和超大規模企業不再需要使用真實伺服器和難以獲得的昂貴 GPU 來建立昂貴的實驗室來測試其乙太網路交換器效能。這些物理實驗室的管理和維護成本很高,而且很少有人具備為真實 GPU 創建測試方法的技能。步入人工智慧和高速乙太網路測試新時代
Spirent 先進的 AI 測試解決方案可以模擬真實的 AI 工作負載,超越基本的測試。這揭示了交換結構在複雜的流量和規模下的表現,並識別出導致資源利用不足的潛在瓶頸。
透過直覺的嚮導簡化了測試配置,可以輕鬆設定並產生複雜的流量模式。該解決方案佔用空間小,易於管理,並有世界一流的測試專業知識作為後盾。
廣聯科技 (Paralink Networks)
若您對產品有興趣,請撥打 02-26962828, 或來信 sales@paralink.com.tw. 我們會有專人與您聯絡,謝謝。