通信行业点评：算力调度：未来算力网络的重要拼图

夜夜爽妓女8888888视频_性色AV浪潮AV色欲AV_十七岁完整版在线观看西瓜_人畜禽CROPROATION_免费看人妻换人妻互换A片爽

算力資源有限，調度優化問題緊迫。OpenAI 此前在技術博客《Scaling Kubernetes to2,500 nodes》中提到，OpenAI k8s 集群從500 nodes 擴展到2500 nodes 時遇到諸多存儲、網絡和資源初始化問題，通過可視化監控工具Datadog 發現ETCD（一種Key-Value 存儲服務）寫數據存在幾百毫秒延遲，list API 被頻繁調用、Fluentd 和DataDog 頻繁侵占資源等問題。

(相關資料圖)

什么是算力調度？在云計算中，資源調度是一個非確定性多項式優化問題，往往會出現“拆東墻補西墻”這樣的情況，因此云計算的算力調度必須考慮每個算力資源請求的需求邊界，比如OpenAI 團隊使用“balloons”占位策略解決資源排隊問題：

用一個低優先級pod 占著整個節點，要用節點的時候被自動驅逐掉；使用污點策略手動分配每個訓練請求能使用的節點。

GPU 超算集群中，暴露出的不只是算力調度問題。在此前對英偉達AI 超算的研究中，我們的結論是：通信網絡是制約數據中心算力高低的關鍵因素。在多線程并行計算下，通信成為制約算力的短板，只要有一條交換鏈路出現網絡阻塞或丟包，就會產生I/O 延遲；又如GH200 新增顯存互聯功能，我們認為，相對于無顯存互聯的超算，GH200 對API server 的并發訪問量是指數級增長，將對硬件資源調度提出更高挑戰。

多點硬件部署監控效率更高。我們注意到，OpenAI 在針對網絡監控進行優化時發現Prometheus 這類監控系統時常會導致OOM（Out of Memory，內存溢出），從而不得不削減查詢頻率；每次初始化pod，Prometheus 都要重寫WAL（Write-aheadlogging，預寫式日志）拉長啟動時間。我們認為，以上問題都可以通過嵌入式的多點硬件層監控系統避免上述問題。我們認為，在傳統的計算式和I/O 式云計算中，外部串接監控服務器即可滿足監控需求，而GPU 集群時代，需要并接部署“聯邦集群”并進行不同監控服務器的功能劃分，最后進行北向匯聚，有望提升監控采集效率、降低超算本身的資源侵占。

網絡可視化技術在國內外均處于探索迭代過程中，國內相關廠商的潛在機會巨大。

在北美，目前主流的監控工具是Netscout、Prometheus、Datadog 等，都是基于在超算本地化部署；但在多點硬件部署的AI 超算中，軟硬件結合的廠商成長性有望更為充分，經過多年經驗積累的相關國內DPI 廠商，形成了高容量下的數據監控能力，有望成為全球算力調優的上游關鍵角色。

投資建議：

1）重視GPU 超算集群中交換網絡性能的重要性，而光通信是現有技術下幾乎無法替代的交換網絡方案，關注光通信：中際旭創、新易盛、天孚通信、太辰光、騰景科技、德科立、聯特科技、華工科技、源杰科技、劍橋科技；算力設備：中興通訊、紫光股份、銳捷網絡、菲菱科思、恒為科技、工業富聯、寒武紀、震有科技。

2）重視網絡可視化及算力資源調優策略的軟硬件廠商，該品種目前存在較大預期差，關注恒為科技、浩瀚深度、中新賽克。

風險提示：AI 發展不及預期，算力需求不及預期。

知前沿，問智研。智研咨詢是中國一流產業咨詢機構，十數年持續深耕產業研究領域，提供深度產業研究報告、商業計劃書、可行性研究報告及定制服務等一站式產業咨詢服務。專業的角度、品質化的服務、敏銳的市場洞察力，專注于提供完善的產業解決方案，為您的投資決策賦能。

轉自國盛證券有限責任公司研究員：宋嘉吉/黃瀚/趙丕業/邵帥

關鍵詞：

責任編輯：Rex_11

通信行業點評：算力調度：未來算力網絡的重要拼圖