Richard Oxland , 西門(mén)子數字化工業(yè)軟件 Tessent Embedded Analytics產(chǎn)品經(jīng)理 在人工智能和機器學(xué)習應用數據處理的強勁需求下,大規模并行計算迅速興起,導致芯片復雜性呈現爆炸式增長(cháng)。這種復雜性體現在 Cerebras 晶圓級引擎(如下圖)等設計中,該設計是一種平鋪多核、多晶片設計,將晶體管數量增加至數萬(wàn)億個(gè),擁有近百萬(wàn)個(gè)計算內核。 ![]() 人工智能 (AI) SoC 的市場(chǎng)持續增長(cháng),競爭也日趨激烈。半導體公司根據性能、成本和靈活性,來(lái)找到自己的定位,并不斷自我優(yōu)化,從而導致了新型多核架構的爆發(fā)式增長(cháng)。系統架構師正在嘗試不同的方法,希望可以將這種復雜性轉化為競爭優(yōu)勢。 在所有復雜性來(lái)源中,有一個(gè)在多核 AI SoC 中非常重要的來(lái)源:即當有多個(gè)線(xiàn)程在共享數據上并行運行時(shí),會(huì )出現功能錯誤和性能降低問(wèn)題。過(guò)去,設計人員可以使用經(jīng)典的 CPU 運行控制來(lái)調試問(wèn)題,但這種方法對多核架構并無(wú)效果。導致軟件問(wèn)題的根本原因錯綜復雜,包括往返時(shí)延、內核數量、控制和數據并行、多層層次結構和互相依賴(lài)的進(jìn)程,設計人員從中找出真正根源的機會(huì )渺茫。 另外,設計人員還需要考慮軟硬件協(xié)同優(yōu)化,這需要大量的功能分析。為了在 SoC 上部署 AI 應用,設計人員必須編譯源代碼,以充分利用多核架構。這通常需要充分了解 SoC 架構的定制工具鏈。這個(gè)過(guò)程包括一個(gè)硬件和軟件優(yōu)化及測試周期,從 SOC 仿真開(kāi)始,一直貫穿至第一次投片和后續器件迭代,如下圖所示。 ![]() 通過(guò)這一功能分析周期,團隊能夠了解以下內容: • 數據共享的效率; • 片上網(wǎng)絡(luò ) (NoC) 是否超載或不平衡; • 如何在不影響代碼執行的情況下評估應用性能; • 如何優(yōu)化內存控制器配置文件以提升數據處理能力; • 如何關(guān)聯(lián)整個(gè) SoC 中的事件; 要做到這一點(diǎn),我們需要一種全新的方法來(lái)優(yōu)化 AI SoC 及其上面運行的軟件。要將高質(zhì)量的 AI SoC 及時(shí)推向市場(chǎng)并在完成部署后保持性能,必須要進(jìn)行系統范圍的功能分析。系統范圍功能分析的部分功能包括: • 深入洞察子系統或組件 ; • 對整個(gè)系統從啟動(dòng)開(kāi)始的準確、連貫的全景圖; • 事物感知(Transaction-aware) 的互連監控和統計信息; • 傳統的處理器運行控制和追蹤; • 支持所有常見(jiàn)的指令集和互連協(xié)議; • 提供選擇或更改重要子系統的靈活性; • 用于產(chǎn)生數據可見(jiàn)性的靈活強大的工具; 用于監控和分析 IP 的片上基礎架構和軟件提供了所有這些功能,覆蓋范圍可從仿真到部署。下圖即顯示了 SoC 功能監控和分析的典型架構。 ![]() 接下來(lái)的圖中展示的示例是一個(gè)多核芯片配備片上網(wǎng)絡(luò ) (NoC) 監視器,可跟蹤所有 NoC 事務(wù)到循環(huán)緩沖器。由于 NoC 監視器具有事務(wù)感知功能,可將其配置為檢測特定總線(xiàn)條件,例如導致事務(wù)持續時(shí)間超過(guò)特定閾值(按周期數計算)的死鎖。當超過(guò)閾值時(shí),NoC 監視器可以輸出死鎖事務(wù)以及之前事務(wù)的詳細信息,以便對問(wèn)題進(jìn)行診斷。 ![]() 同一個(gè) NoC 監視器也可配置為在檢測到相同死鎖條件時(shí)——例如通過(guò)跟蹤硬件加速器行為的狀態(tài)監視器模塊——使用嵌入式分析消息基礎設施的交叉觸發(fā)功能,在系統中的其他位置觸發(fā)跟蹤。 了解實(shí)施有效的系統驗證和優(yōu)化環(huán)境時(shí)涉及的問(wèn)題,是成功交付多核 SoC 的關(guān)鍵,與該領(lǐng)域內的專(zhuān)業(yè)供應商合作可實(shí)現事半功倍的效果。 如欲了解更多資源,請訪(fǎng)問(wèn)技術(shù)論文:利用系統級數據來(lái)優(yōu)化多核 AI 和 ML 芯片 |