瞄準五大方向持續攻關(guān),構建AI網(wǎng)絡(luò )底座

發(fā)布時(shí)間:2024-8-26 21:20    發(fā)布者:eechina
關(guān)鍵詞: AI計算 , AI網(wǎng)絡(luò ) , AI集群
作者:是德科技產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Linas Dauksa

如果企業(yè)擁有數據中心,需要關(guān)注的是人工智能(AI)技術(shù)可能很快就會(huì )部署到數據中心。無(wú)論AI系統是一個(gè)聊天機器人,還是橫跨多個(gè)系統的自動(dòng)化流程,亦或是對大型數據集的有效分析,這項新技術(shù)都有望加速和改善許多企業(yè)的業(yè)務(wù)模式。然而,AI的概念也可能會(huì )令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò )如何工作以及該技術(shù)面臨的獨特挑戰等五個(gè)方面的基本問(wèn)題。  

GPU相當于A(yíng)I計算機的“大腦”

簡(jiǎn)單來(lái)說(shuō),AI計算機的大腦就是圖形處理器(GPU)。過(guò)去,人們可能聽(tīng)說(shuō)過(guò)中央處理器(CPU)是計算機的大腦。GPU 的優(yōu)勢在于,它是一個(gè)擅長(cháng)進(jìn)行數學(xué)計算的 CPU。當創(chuàng )建AI計算機或深度學(xué)習模型時(shí),需要對其進(jìn)行 “訓練”,這就要求對可能包含數十億個(gè)參數的數學(xué)矩陣方程進(jìn)行求解。進(jìn)行此種數學(xué)運算的最快方法是讓多組 GPU 在相同的工作負載上運行,即便如此,訓練AI模型也可能需要數周甚至數月的時(shí)間。AI模型創(chuàng )建后,會(huì )被遷移到前端計算機系統,用戶(hù)可以向模型提問(wèn),這就是所謂的推理。

AI計算機集眾多GPU于一身

用于處理AI工作負載的最佳架構是在一個(gè)機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架,按照網(wǎng)絡(luò )層次結構連接所有 GPU。隨著(zhù)所要解決的問(wèn)題的復雜性增加,對 GPU 的需求也就越大,有些將要部署的解決方案可能會(huì )包含數千個(gè) GPU 集群。這不難讓人聯(lián)想到數據中心里一排又一排密密麻麻的服務(wù)器機架,這種場(chǎng)景非常常見(jiàn)。
AI集群是一個(gè)小型網(wǎng)絡(luò )

在構建AI集群時(shí),有必要將更多GPU連接起來(lái),這樣它們才能協(xié)同工作。而GPU之間的連接可以通過(guò)創(chuàng )建微型計算機網(wǎng)絡(luò )的方式來(lái)實(shí)現,讓GPU與GPU之間能夠互相發(fā)送和接收數據。


圖1:AI集群

圖1展示了一個(gè)AI集群,其中最下方的圓圈代表了GPU在執行任務(wù)時(shí)的工作流程。將許多GPU連接到了機架頂部(ToR)的交換機。ToR 交換機還連接到了上圖頂部的骨干網(wǎng)絡(luò )中使用的交換機,這張圖充分描繪了需要集成眾多GPU時(shí)所采用的清晰網(wǎng)絡(luò )層次結構。

AI部署的瓶頸在于網(wǎng)絡(luò )

去年秋天,在OCP(開(kāi)放計算項目)全球峰會(huì )上,與會(huì )者重點(diǎn)討論了新一代AI基礎設施。其中,來(lái)自邁威爾科技的Loi Nguyen充分闡述了由此出現的一個(gè)關(guān)鍵問(wèn)題:網(wǎng)絡(luò )已經(jīng)成為新的瓶頸。
GPU在解決數學(xué)問(wèn)題或者處理工作負載方面非常有效。這些系統完成任務(wù)的最快方法是讓所有 GPU并行計算、協(xié)同工作來(lái)處理相同的工作負載。要做到這一點(diǎn),GPU需要獲取它們即將處理的信息,并且它們彼此之間可以互相進(jìn)行通信。如果其中一個(gè)GPU沒(méi)有得到它所需的信息,或者需要更長(cháng)的時(shí)間來(lái)輸出結果,那么所有其他GPU都必須等待,直到能夠一致協(xié)作來(lái)完成任務(wù)。

從技術(shù)角度來(lái)講,擁堵的網(wǎng)絡(luò )造成的數據包延遲或者數據包丟失可能會(huì )導致系統需要反復重新傳輸數據包,并顯著(zhù)延長(cháng)完成任務(wù)所需的時(shí)間。這意味著(zhù),可能會(huì )有價(jià)值數百萬(wàn)或數千萬(wàn)美元的 GPU閑置,從而影響最終的結果,當然也可能會(huì )影響希望通過(guò)利用AI技術(shù)獲得商機的企業(yè)的上市時(shí)間。

測試是成功運行AI網(wǎng)絡(luò )的關(guān)鍵

為了高效運行AI集群,用戶(hù)需要確保GPU得到充分利用,這樣才能較早地完成學(xué)習模型的訓練,并將其投入使用,實(shí)現投資回報最大化。這就需要對AI集群(圖2)的性能進(jìn)行測試和基準測試。然而,這并不是一件輕而易舉的事兒,因為GPU和網(wǎng)絡(luò )架構之間有著(zhù)千絲萬(wàn)縷的聯(lián)系和諸多設置,它們需要在架構上實(shí)現互補,以滿(mǎn)足處理工作負載的需要。


圖2:AI數據中心測試平臺及如何測試AI數據中心集群

這給AI網(wǎng)絡(luò )帶來(lái)了諸多挑戰:
-        考慮到成本、設備的可用性、熟練的網(wǎng)絡(luò ) AI 工程師的時(shí)間、空間、功率和熱量等因素的限制,很難在實(shí)驗室中復刻完整的工作網(wǎng)絡(luò )。
-        在工作系統上執行測試會(huì )降低工作系統可用的處理能力。
-        由于工作負載的類(lèi)型以及數據集的規模大小和范圍可能大不相同,因此所要研究的問(wèn)題也會(huì )難以重現。
-        深入洞察GPU之間的集體通信也頗具挑戰性。

應對上述挑戰的方法之一是,首先在實(shí)驗室環(huán)境中對所提出的設置的一個(gè)子集執行測試,以便對JCT、整個(gè)AI集群所能達到的帶寬等關(guān)鍵參數進(jìn)行基準測試,同時(shí)將這些參數與Fabric容量利用率以及內存緩沖區消耗情況進(jìn)行比較。這種基準測試有助于找到GPU/工作負載的分布與網(wǎng)絡(luò )設計/設置之間的平衡點(diǎn)。當計算架構和網(wǎng)絡(luò )工程師對結果比較滿(mǎn)意時(shí),他們就能夠將這些設置應用到執行任務(wù)的工作系統中并且衡量新的結果是否理想。

小結

為了充分釋放AI的潛能,需要優(yōu)化AI網(wǎng)絡(luò )的設備和基礎架構。企業(yè)的研究實(shí)驗室和學(xué)術(shù)機構致力于對構建和運行高效AI網(wǎng)絡(luò )所涉及的各個(gè)層面進(jìn)行分析,以解決在大型網(wǎng)絡(luò )上執行任務(wù)所面臨的挑戰。尤其是在當前行業(yè)最佳實(shí)踐正不斷發(fā)生變化的情況下,形勢更是如此。只有采用這種可以反復驗證、高度協(xié)作的方法,業(yè)界才能實(shí)現可重復的測試,并靈活地嘗試各種“假設 ”場(chǎng)景,這是優(yōu)化AI網(wǎng)絡(luò )的基礎。

本文地址:http://selenalain.com/thread-869341-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页