ParaLink 廣聯科技-專業網通測試的代言人

首頁 > 最新消息

News最新消息

- 2025
- -
- 02
- -
- 26
Spirent STC 對AI資料中心 800G主幹網路壓力測試的新方法

Spirent STC 對AI資料中心 800G主幹網路

壓力測試的新方法

告別瓶頸：對 AI 800G 主幹網路進行壓力測試的新方法

作者：Aniket Khosla

人工智慧資料中心的流量非常大，嚴重依賴高速乙太網路和後端結構，這些結構必須具有低延遲和接近零資料包遺失，以避免空閒 GPU 造成的昂貴影響。一種新的測試方法可以透過用複雜的 AI 流量模式和擁塞場景對這些結構進行壓力測試來識別問題，從而顯著提高效能和彈性。

高速乙太網路 (HSE) 正在競相支援 AI

AI/ML 應用程式和下一代工作負載正在將網路流量推向前所未有的水平。超大規模企業正在突破乙太網路的界限，以滿足不斷增長的頻寬需求，為後端 AI 叢集迅速過渡到 800 Gbps，並為不久的將來的 1.6T 做好準備。

在超大規模企業的背後，乙太網路的高速採用者是服務供應商、大型企業，以及最終的小型企業——有時可能需要數年時間。 1G、2.5G 和 5G 等較低速度也需要支援接取網路、汽車、工業自動化和物聯網等領域的新興應用。

800G 及更高速度正在加速複雜性

遷移到 800G 以滿足市場需求說起來容易做起來難。與前幾代乙太網路相比，升級路徑變得更具挑戰性。那麼，有什麼變化嗎？

更多的供應商。

早期的乙太網路由一兩家交換器生態系統供應商主導，因此很少需要進行互通性測試。隨著 400G 和 800G 的出現，這種情況發生了改變，因為許多供應商希望證明他們符合標準、可互通、並能滿足效能要求。超大規模企業或供應商面臨的挑戰是確保所選的光學元件、電纜/收發器和交換器在部署到生產網路之前能夠協同工作。

快節奏的循環。

隨著需求和技術創新的加速，乙太網路速度的採用週期越來越短。晶片組供應商和測試不能等待標準獲得批准，而必須隨著行業的發展而發展，支援早期規範，然後是 IEEE 標準。

快速變化的技術。

正在引入基礎且複雜的技術創新，例如新的前向糾錯、增加每個電氣通道的容量和核心訊號，以支援頻寬和延遲需求。所有這些都必須經過測試。

苛刻的現實世界條件。

系統可能在正常條件下正常運行，但在實際交通情況下會出現故障。在投入生產網路之前，需要驗證系統在規模和壓力下可靠運作的能力。

為了確保成功部署這些快速發展的技術，徹底驗證和測試它們至關重要。其中包括來自晶片、收發器和電纜供應商以及網路設備製造商的嚴格測試解決方案。一旦證明這些組件可以無縫地協同運行，部署服務提供者和超大規模提供者必須優先考慮供應商合規性、系統互通性以及實際交通條件下的效能。必須在實驗室中而不是在即時生產網路中識別和解決問題，因為這些問題可能會顯著增加營運成本並影響服務交付。

人工智慧對資料中心的影響

AI資料中心對AI生態系統至關重要，正在經歷爆炸性成長：大規模GPU部署，叢集每兩年成長四倍，流量每兩年成長十倍。支援人工智慧所需的規模和容量需求是前所未有的。 HSE 對於 AI 資料中心後端結構實現所需的效能至關重要。

除了成長帶來的複雜性之外，AI資料中心中GPU之間的海量資料通訊無法由單一GPU處理。相反，處理是使用高效能運算集體通訊庫 (CCL) 流量模式並行分佈在多個 GPU 上。並行處理對於滿足 AI 效能預期至關重要，但它對延遲和資料包遺失極為敏感。如果所有分散式資料包沒有及時返回或順序混亂，就需要重新傳輸，這會減慢應用程式的回應時間。

人工智慧資料中心面臨的重大挑戰：

* 規模。 AI資料中心必須支援數百台伺服器和數千個GPU，部署成本可能高達數十億美元。

* 彈性。複雜的流量工作負載給網路彈性帶來壓力。

* 穩健性.對延遲、擁塞和資料包遺失的敏感度可能會導致昂貴的 GPU 處於空閒狀態並等待重新傳輸，這種時間多達三分之一。

採用 AI 資料中心不可或缺的新測試方法

測試方法必須隨著 AI 和 HSE 的進步而發展和創新。傳統工具提供基本的 AI 測試，但不適合驗證後端 AI 結構。在具有少量 GPU 叢集的乙太網路結構上進行的業界標準 RFC 2544 測試可能表明吞吐量、延遲、抖動和幀丟失都在可接受的範圍內。然而，當結構部署在生產網路中並承受現實、複雜的工作負載和大規模擁塞時，通常會出現許多問題。這些問題必須在實驗室中發現，而不是在生產網路中發現，因為它們可能會影響服務效能。

Spirent 透過在實驗室中創建大規模生產網路場景，採取了一種新的 AI 測試方法。一旦完成 RFC 2544 AI 基準測試，必須使用 CCL 流量模式和擁塞場景對結構進行壓力測試，以識別和消除流量瓶頸。這種先進的 AI 測試嚴格評估結構的部署準備並確保最佳的 GPU 利用率。

透過先進的 AI 測試，可以在測試硬體上模擬 GPU，以創建逼真、複雜的 AI 工作負載來測試結構。該解決方案透過模擬 CCL 流量模式和擁塞場景在實驗室中對結構進行壓力測試，以確保 AI 資料中心基礎架構以最佳效能運作並避免空閒時間。測驗衡量服務效能，例如作業完成時間和資料包效能。納入負面和受損流量可以測試復原能力。這些測試具有可重複性和一致性，能夠對不同供應商的結構進行基準測試。

AI資料中心測試的要求

新時代的人工智慧測試的另一個好處是降低測試成本、複雜性和維護成本。現在，供應商和超大規模企業不再需要使用真實伺服器和難以獲得的昂貴 GPU 來建立昂貴的實驗室來測試其乙太網路交換器效能。這些物理實驗室的管理和維護成本很高，而且很少有人具備為真實 GPU 創建測試方法的技能。

步入人工智慧和高速乙太網路測試新時代

Spirent 先進的 AI 測試解決方案可以模擬真實的 AI 工作負載，超越基本的測試。這揭示了交換結構在複雜的流量和規模下的表現，並識別出導致資源利用不足的潛在瓶頸。

透過直覺的嚮導簡化了測試配置，可以輕鬆設定並產生複雜的流量模式。該解決方案佔用空間小，易於管理，並有世界一流的測試專業知識作為後盾。

廣聯科技 (Paralink Networks)

若您對產品有興趣，請撥打 02-26962828, 或來信 sales@paralink.com.tw. 我們會有專人與您聯絡，謝謝。