近年來(lái),國家對于高新技術(shù)自主研發(fā)的重視已經(jīng)上升到了國家戰略層面,高校作為國家未來(lái)人才儲備,科研成果最多的單位之一,國家對其投入也在逐年加大。教學(xué)設施的優(yōu)化與科研配套設備對于高校教研工作者來(lái)說(shuō)尤為重要。在眾多科研設備中,高性能計算機和計算中心已經(jīng)越來(lái)越多的作為“基建”設施被各大高校爭先引入。![]() 齊魯工業(yè)大學(xué)作為山東省重點(diǎn)建設的應用研究型大學(xué)、山東省綜合性自然科學(xué)研究機構以及山東省屬高校高水平大學(xué),緊隨國家科技興國的發(fā)展戰略,提前布局高性能計算基礎設施,為教學(xué)、科研、行業(yè)應用等多種應用場(chǎng)景提供完善的融合服務(wù)平臺。尤其是在人工智能方向,校方迫切需要搭建自己的高性能數據分析集群,幫助在校老師及學(xué)生完成在人工智能領(lǐng)域的開(kāi)發(fā)、模型訓練教學(xué)以及科研任務(wù)。 人工智能領(lǐng)域的探索需要強大的算力支撐,高性能數據分析集群是不可或缺的基礎設施。它不僅需要良好的硬件支撐和友好的應用軟件,更需要能把性能發(fā)揮到最大化的中臺系統——“集群資源管理和調度軟件”。所謂集群資源管理和調度軟件就是協(xié)調底層硬件資源與應用層軟件的中樞系統,好比一個(gè)繁忙十字路口的紅綠燈,它可緩解擁堵的道路交通,并最大化提升道路運輸能力,這就是高性能計算中資源管理和調度軟件的作用。沒(méi)有它的管理,會(huì )造成用戶(hù)的任務(wù)大量沖突, IT資源大量浪費,導致科研項目進(jìn)度大大降低。常規的開(kāi)源軟件如基于容器技術(shù)的Kubernetes使用和維護門(mén)檻較高,需要使用者熟悉容器的制作和使用,運行和維護也缺乏代碼開(kāi)發(fā)者的直接支持。 天云軟件與合作伙伴一起積極聽(tīng)取校方的需求與意見(jiàn),從校方的使用場(chǎng)景出發(fā),根據多年的服務(wù)經(jīng)驗和高性能計算、高性能數據分析管理調度軟件的技術(shù)積累,基于天云自主的高性能計算管理和調度系統SkyForm AIP設計出了一套適合于高校的高性能數據分析平臺。重點(diǎn)提升對GPU資源的調度、使用和監控,實(shí)現完全云模式的操作流程,讓老師和學(xué)生們可以像在本地一樣遠程可視化使用應用。調度軟件不僅有效為模型訓練任務(wù)分配GPU,還可監控GPU實(shí)際的使用情況,對已分配GPU后不使用以及隨意使用未經(jīng)調度分配的GPU的任務(wù),將會(huì )根據規則自動(dòng)處理,這樣極大的提高了GPU和集群其他資源的利用率,讓老師和同學(xué)們把精力集中在人工智能的科研和教學(xué)上,而不需要花費大量精力去學(xué)習和處理容器、操作系統命令等復雜的IT問(wèn)題。 ![]() 當然項目也并非進(jìn)行的一帆風(fēng)順。在最初的高性能數據分析集群部署完成后,同學(xué)們爭先恐后的登錄平臺,想在平臺上盡快建立自己的研究項目,但這也引發(fā)了一個(gè)問(wèn)題——稀缺的GPU資源長(cháng)時(shí)間被某些用戶(hù)長(cháng)時(shí)間占用,導致其他人無(wú)法使用。天云軟件的技術(shù)團隊迅速作出反應,對軟件產(chǎn)品進(jìn)行了改進(jìn)。首先對用戶(hù)任務(wù)類(lèi)型分類(lèi),通過(guò)限制登錄時(shí)間和資源分配,有效釋放平臺緊俏資源;其次為防止資源分配沖突,對系統監控功能進(jìn)行了重點(diǎn)升級,使得調度系統在監控下對資源分配得當,效率倍增;最后為了進(jìn)一步提高整體系統安全性,天云軟件技術(shù)團隊對圖形應用內網(wǎng)端口動(dòng)態(tài)端口做了統一映射到一個(gè)固定端口,用戶(hù)通過(guò)網(wǎng)關(guān)訪(fǎng)問(wèn)系統,直接打開(kāi)瀏覽器輸入登錄,安全便捷。齊魯工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院姜文峰老師說(shuō):“平臺最開(kāi)始確實(shí)有些使用問(wèn)題,經(jīng)過(guò)一段時(shí)間的磨合后,天云軟件逐步完善切實(shí)可行的升級方案,并為我們定制化開(kāi)發(fā)了多項配套實(shí)用功能,他們不僅能夠快速響應,還專(zhuān)門(mén)建立了技術(shù)運維社群,7*24全天候在線(xiàn)處理突發(fā)問(wèn)題,這樣的服務(wù)令我們非常滿(mǎn)意,目前碰到的問(wèn)題都已妥善的解決,這個(gè)平臺對于我們學(xué)校的科研教學(xué)工作起到了很大的幫助! 天云軟件與合作伙伴通力合作克服了項目實(shí)施中的諸多難點(diǎn),為齊魯工業(yè)大學(xué)搭建了一個(gè)模塊化、便捷、可靠且可擴展的高新能數據分析平臺。經(jīng)過(guò)近兩年的使用和與運維團隊的緊密配合,系統運行穩定,資源效率實(shí)使用大幅提高,為校方教學(xué)、科研項目提供了良好的技術(shù)支撐,得到了老師同學(xué)們的一致好評。 |