瞄準五大方向持續攻關(guān)，構建AI網(wǎng)絡(luò )底座

發(fā)布時(shí)間：2024-8-26 21:20 發(fā)布者：eechina

關(guān)鍵詞： AI計算 , AI網(wǎng)絡(luò ) , AI集群

作者：是德科技產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Linas Dauksa

如果企業(yè)擁有數據中心，需要關(guān)注的是人工智能（AI）技術(shù)可能很快就會(huì )部署到數據中心。無(wú)論AI系統是一個(gè)聊天機器人，還是橫跨多個(gè)系統的自動(dòng)化流程，亦或是對大型數據集的有效分析，這項新技術(shù)都有望加速和改善許多企業(yè)的業(yè)務(wù)模式。然而，AI的概念也可能會(huì )令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò )如何工作以及該技術(shù)面臨的獨特挑戰等五個(gè)方面的基本問(wèn)題。

GPU相當于A(yíng)I計算機的“大腦”

簡(jiǎn)單來(lái)說(shuō)，AI計算機的大腦就是圖形處理器（GPU）。過(guò)去，人們可能聽(tīng)說(shuō)過(guò)中央處理器（CPU）是計算機的大腦。GPU 的優(yōu)勢在于，它是一個(gè)擅長(cháng)進(jìn)行數學(xué)計算的 CPU。當創(chuàng )建AI計算機或深度學(xué)習模型時(shí)，需要對其進(jìn)行 “訓練”，這就要求對可能包含數十億個(gè)參數的數學(xué)矩陣方程進(jìn)行求解。進(jìn)行此種數學(xué)運算的最快方法是讓多組 GPU 在相同的工作負載上運行，即便如此，訓練AI模型也可能需要數周甚至數月的時(shí)間。AI模型創(chuàng )建后，會(huì )被遷移到前端計算機系統，用戶(hù)可以向模型提問(wèn)，這就是所謂的推理。

AI計算機集眾多GPU于一身

用于處理AI工作負載的最佳架構是在一個(gè)機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架，按照網(wǎng)絡(luò )層次結構連接所有 GPU。隨著(zhù)所要解決的問(wèn)題的復雜性增加，對 GPU 的需求也就越大，有些將要部署的解決方案可能會(huì )包含數千個(gè) GPU 集群。這不難讓人聯(lián)想到數據中心里一排又一排密密麻麻的服務(wù)器機架，這種場(chǎng)景非常常見(jiàn)。
AI集群是一個(gè)小型網(wǎng)絡(luò )

在構建AI集群時(shí)，有必要將更多GPU連接起來(lái)，這樣它們才能協(xié)同工作。而GPU之間的連接可以通過(guò)創(chuàng )建微型計算機網(wǎng)絡(luò )的方式來(lái)實(shí)現，讓GPU與GPU之間能夠互相發(fā)送和接收數據。

圖1：AI集群

圖1展示了一個(gè)AI集群，其中最下方的圓圈代表了GPU在執行任務(wù)時(shí)的工作流程。將許多GPU連接到了機架頂部（ToR）的交換機。ToR 交換機還連接到了上圖頂部的骨干網(wǎng)絡(luò )中使用的交換機，這張圖充分描繪了需要集成眾多GPU時(shí)所采用的清晰網(wǎng)絡(luò )層次結構。

AI部署的瓶頸在于網(wǎng)絡(luò )

去年秋天，在OCP（開(kāi)放計算項目）全球峰會(huì )上，與會(huì )者重點(diǎn)討論了新一代AI基礎設施。其中，來(lái)自邁威爾科技的Loi Nguyen充分闡述了由此出現的一個(gè)關(guān)鍵問(wèn)題：網(wǎng)絡(luò )已經(jīng)成為新的瓶頸。
GPU在解決數學(xué)問(wèn)題或者處理工作負載方面非常有效。這些系統完成任務(wù)的最快方法是讓所有 GPU并行計算、協(xié)同工作來(lái)處理相同的工作負載。要做到這一點(diǎn)，GPU需要獲取它們即將處理的信息，并且它們彼此之間可以互相進(jìn)行通信。如果其中一個(gè)GPU沒(méi)有得到它所需的信息，或者需要更長(cháng)的時(shí)間來(lái)輸出結果，那么所有其他GPU都必須等待，直到能夠一致協(xié)作來(lái)完成任務(wù)。

從技術(shù)角度來(lái)講，擁堵的網(wǎng)絡(luò )造成的數據包延遲或者數據包丟失可能會(huì )導致系統需要反復重新傳輸數據包，并顯著(zhù)延長(cháng)完成任務(wù)所需的時(shí)間。這意味著(zhù)，可能會(huì )有價(jià)值數百萬(wàn)或數千萬(wàn)美元的 GPU閑置，從而影響最終的結果，當然也可能會(huì )影響希望通過(guò)利用AI技術(shù)獲得商機的企業(yè)的上市時(shí)間。

測試是成功運行AI網(wǎng)絡(luò )的關(guān)鍵

為了高效運行AI集群，用戶(hù)需要確保GPU得到充分利用，這樣才能較早地完成學(xué)習模型的訓練，并將其投入使用，實(shí)現投資回報最大化。這就需要對AI集群（圖2）的性能進(jìn)行測試和基準測試。然而，這并不是一件輕而易舉的事兒，因為GPU和網(wǎng)絡(luò )架構之間有著(zhù)千絲萬(wàn)縷的聯(lián)系和諸多設置，它們需要在架構上實(shí)現互補，以滿(mǎn)足處理工作負載的需要。

圖2：AI數據中心測試平臺及如何測試AI數據中心集群

這給AI網(wǎng)絡(luò )帶來(lái)了諸多挑戰：
- 考慮到成本、設備的可用性、熟練的網(wǎng)絡(luò ) AI 工程師的時(shí)間、空間、功率和熱量等因素的限制，很難在實(shí)驗室中復刻完整的工作網(wǎng)絡(luò )。
- 在工作系統上執行測試會(huì )降低工作系統可用的處理能力。
- 由于工作負載的類(lèi)型以及數據集的規模大小和范圍可能大不相同，因此所要研究的問(wèn)題也會(huì )難以重現。
- 深入洞察GPU之間的集體通信也頗具挑戰性。

應對上述挑戰的方法之一是，首先在實(shí)驗室環(huán)境中對所提出的設置的一個(gè)子集執行測試，以便對JCT、整個(gè)AI集群所能達到的帶寬等關(guān)鍵參數進(jìn)行基準測試，同時(shí)將這些參數與Fabric容量利用率以及內存緩沖區消耗情況進(jìn)行比較。這種基準測試有助于找到GPU/工作負載的分布與網(wǎng)絡(luò )設計/設置之間的平衡點(diǎn)。當計算架構和網(wǎng)絡(luò )工程師對結果比較滿(mǎn)意時(shí)，他們就能夠將這些設置應用到執行任務(wù)的工作系統中并且衡量新的結果是否理想。

小結

為了充分釋放AI的潛能，需要優(yōu)化AI網(wǎng)絡(luò )的設備和基礎架構。企業(yè)的研究實(shí)驗室和學(xué)術(shù)機構致力于對構建和運行高效AI網(wǎng)絡(luò )所涉及的各個(gè)層面進(jìn)行分析，以解決在大型網(wǎng)絡(luò )上執行任務(wù)所面臨的挑戰。尤其是在當前行業(yè)最佳實(shí)踐正不斷發(fā)生變化的情況下，形勢更是如此。只有采用這種可以反復驗證、高度協(xié)作的方法，業(yè)界才能實(shí)現可重復的測試，并靈活地嘗試各種“假設 ”場(chǎng)景，這是優(yōu)化AI網(wǎng)絡(luò )的基礎。

本文地址：http://selenalain.com/thread-869341-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

相關(guān)文章

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页