深度學(xué)習——會(huì )開(kāi)發(fā)AI的AI,超網(wǎng)絡(luò )有望讓深度學(xué)習大眾化

發(fā)布時(shí)間:2022-10-13 11:02    發(fā)布者:龍騰亞太
超網(wǎng)絡(luò )(hypernetwork)可以加快訓練AI的過(guò)程。
編者按:在執行特定類(lèi)型任務(wù),如圖像識別、語(yǔ)音識別等方面,AI已經(jīng)可以與人類(lèi)相媲美了,甚至有時(shí)候已經(jīng)超越了人類(lèi)。但這些AI事先必須經(jīng)過(guò)訓練,而訓練是個(gè)既耗時(shí)又耗計算能力的過(guò)程,有上百萬(wàn)甚至幾十億的參數需要優(yōu)化。但最近研究人員做出了能瞬時(shí)預測參數的超網(wǎng)絡(luò )。通過(guò)利用超網(wǎng)絡(luò )(hypernetwork),研究人員現在可以先下手為強,提前對人工神經(jīng)網(wǎng)絡(luò )進(jìn)行調優(yōu),從而節省部分訓練時(shí)間和費用。文章來(lái)自編譯。
劃重點(diǎn):
人工智能是一場(chǎng)數字游戲,訓練耗時(shí)耗力
超網(wǎng)絡(luò )可以在幾分之一秒內預測出新網(wǎng)絡(luò )的參數
超網(wǎng)絡(luò )的表現往往可以跟數千次 SGD 迭代的結果不相上下,有時(shí)甚至是更好
超網(wǎng)絡(luò )有望讓深度學(xué)習大眾化
人工智能在很大程度上是一場(chǎng)數字游戲。10 年前,深度神經(jīng)網(wǎng)絡(luò )(一種學(xué)習識別數據模式的 AI 形式)之所以開(kāi)始超越傳統算法,那是因為我們終于有了足夠的數據和處理能力,可以充分利用這種AI。
現如今的神經(jīng)網(wǎng)絡(luò )對數據和處理能力更加渴望。訓練它們需要對表征參數的值進(jìn)行仔細的調整,那些參數代表人工神經(jīng)元之間連接的強度,有數百萬(wàn)甚至數十億之巨。其目標是為它們找到接近理想的值,而這個(gè)過(guò)程叫做優(yōu)化,但訓練網(wǎng)絡(luò )達到這一點(diǎn)并不容易。 DeepMind研究科學(xué)家Petar Veličković 表示:“訓練可能需要數天、數周甚至數月之久”。
但這種情況可能很快就會(huì )改變。加拿大安大略省圭爾夫大學(xué)(University of Guelph)的Boris Knyazev和他的同事設計并訓練了一個(gè)“超網(wǎng)絡(luò )”——這有點(diǎn)像是凌駕于其他神經(jīng)網(wǎng)絡(luò )之上的最高統治者——用它可以加快訓練的過(guò)程。給定一個(gè)為特定任務(wù)設計,未經(jīng)訓練的新深度神經(jīng)網(wǎng)絡(luò ),超網(wǎng)絡(luò )可以在幾分之一秒內預測出該新網(wǎng)絡(luò )的參數,理論上可以讓訓練變得不必要。由于超網(wǎng)絡(luò )學(xué)習了深度神經(jīng)網(wǎng)絡(luò )設計當中極其復雜的模式,因此這項工作也可能具有更深層次的理論意義。
目前為止,超網(wǎng)絡(luò )在某些環(huán)境下的表現出奇的好,但仍有增長(cháng)空間——考慮到問(wèn)題的量級,這是很自然的。如果他們能解決這個(gè)問(wèn)題,Veličković說(shuō):“這將對機器學(xué)習產(chǎn)生很大的影響!。
變成“超網(wǎng)絡(luò )”
目前,訓練和優(yōu)化深度神經(jīng)網(wǎng)絡(luò )最好的方法是隨機梯度下降(SGD) 技術(shù)的各種變種。訓練涉及到將網(wǎng)絡(luò )在給定任務(wù)(例如圖像識別)中所犯的錯誤最小化。 SGD 算法通過(guò)大量標記數據來(lái)調整網(wǎng)絡(luò )參數,并減少錯誤或損失。梯度下降是從損失函數的高位值一級級向下降到某個(gè)最小值的迭代過(guò)程,代表的是足夠好的(或有時(shí)候甚至是可能的最好)參數值。
但是這種技術(shù)只有在你有需要優(yōu)化的網(wǎng)絡(luò )時(shí)才有效。為了搭建最開(kāi)始的神經(jīng)網(wǎng)絡(luò )(一般由從輸入到輸出的多層人工神經(jīng)元組成),工程師必須依靠自己的直覺(jué)和經(jīng)驗法則。這些結構在神經(jīng)元的層數、每層包含的神經(jīng)元數量等方面可能會(huì )有所不同。
梯度下降算法讓網(wǎng)絡(luò )沿著(zhù)其“損失景觀(guān)”向下走,其中高位值表示較大錯誤或損失。算法旨在找到全局最小值,讓損失最小化。
理論上可以從多個(gè)結構出發(fā),然后優(yōu)化每個(gè)結構并選出最好的。但Google Brain 訪(fǎng)問(wèn)學(xué)者 MengYe Ren 說(shuō):“訓練需要花費相當多的時(shí)間,要想訓練和測試每以個(gè)候選網(wǎng)絡(luò )結構是不可能的。這種做法擴展不好,尤其是如果要考慮到數百萬(wàn)種可能設計的話(huà)!
于是 2018 年,Ren 與自己在多倫多大學(xué)的前同事 Chris Zhang ,以及他們的指導 Raquel Urtasun 開(kāi)始嘗試一種不同的方法。他們設計出一種所謂的圖超網(wǎng)絡(luò )(Graph Hypernetwork, GHN),這種網(wǎng)絡(luò )可以在給出一組候選結構的情況下,找出解決某個(gè)任務(wù)的最佳深度神經(jīng)網(wǎng)絡(luò )結構。
顧名思義,“圖”指的是深度神經(jīng)網(wǎng)絡(luò )的架結構,可以認為是數學(xué)意義的圖——由線(xiàn)或邊連接的點(diǎn)或節點(diǎn)組成的集合。此處節點(diǎn)代表計算單元(通常是神經(jīng)網(wǎng)絡(luò )的一整層),邊代表的是這些單元互連的方式。
原理是這樣的。圖超網(wǎng)絡(luò )從任何需要優(yōu)化的結構(稱(chēng)其為候選結構)開(kāi)始,然后盡最大努力預測候選結構的理想參數。接著(zhù)將實(shí)際神經(jīng)網(wǎng)絡(luò )的參數設置為預測值,用給定任務(wù)對其進(jìn)行測試。Ren 的團隊證明,這種方法可用于來(lái)對候選結構進(jìn)行排名,并選擇表現最佳的結構。
當 Knyazev 和他的同事想出圖超網(wǎng)絡(luò )這個(gè)想法時(shí),他們意識到可以在此基礎上進(jìn)一步開(kāi)發(fā)。在他們的新論文里,這支團隊展示了 GHN 的用法,不僅可以用來(lái)從一組樣本中找到最佳的結構,還可以預測最好網(wǎng)絡(luò )的參數,讓網(wǎng)絡(luò )表現出絕對意義上的好。在其中的最好還沒(méi)有達到最好的情況下,還可以利用梯度下降進(jìn)一步訓練該網(wǎng)絡(luò )。
在談到這項新工作時(shí),Ren 表示:“這篇論文非常扎實(shí),里面包含的實(shí)驗比我們多得多。他們在非常努力地提升圖超網(wǎng)絡(luò )的絕對表現,這是我們所樂(lè )見(jiàn)的!
訓練“訓練師”
Knyazev和他的團隊將自己的超網(wǎng)絡(luò )稱(chēng)為是 GHN -2,這種網(wǎng)絡(luò )從兩個(gè)重要方面改進(jìn)了Ren及其同事構建的圖超網(wǎng)絡(luò )。
首先,他們需要依賴(lài) Ren 等人的技術(shù),用圖來(lái)表示神經(jīng)網(wǎng)絡(luò )結構。該圖里面的每個(gè)節點(diǎn)都包含有關(guān)于執行特定類(lèi)型計算的神經(jīng)元子集的編碼信息。圖的邊則描述了信息是如何從一個(gè)節點(diǎn)轉到另一節點(diǎn),如何從輸入轉到輸出的。
他們借鑒的第二個(gè)想法是一種方法,訓練超網(wǎng)絡(luò )來(lái)預測新的候選結構的方法。這需要用到另外兩個(gè)神經(jīng)網(wǎng)絡(luò )。第一個(gè)用來(lái)開(kāi)啟對原始候選圖的計算,更新與每個(gè)節點(diǎn)相關(guān)的信息,第二個(gè)把更新過(guò)的節點(diǎn)作為輸入,然后預測候選神經(jīng)網(wǎng)絡(luò )相應計算單元的參數。這兩個(gè)網(wǎng)絡(luò )也有自己的參數,在超網(wǎng)絡(luò )能夠正確預測參數值之前,必須對這兩個(gè)網(wǎng)絡(luò )進(jìn)行優(yōu)化。
用圖來(lái)表示神經(jīng)網(wǎng)絡(luò )

為此,你得訓練數據——在本案例中,數據就是可能的人工神經(jīng)網(wǎng)絡(luò )(ANN)結構的隨機樣本。對于樣本的每一個(gè)結構,你都要從圖開(kāi)始,然后用圖超網(wǎng)絡(luò )來(lái)預測參數,并利用預測的參數對候選 ANN進(jìn)行初始化。然后該ANN會(huì )執行一些特定任務(wù),如識別一張圖像。通過(guò)計算該ANN的損失函數來(lái)更新做出預測的超網(wǎng)絡(luò )的參數,而不是更新該ANN的參數以便做出更好的預測。這樣以來(lái),該超網(wǎng)絡(luò )下一次就能做得更好,F在,通過(guò)遍歷部分標記訓練圖像數據集的每一張圖像,以及隨機樣本結構里面的每一個(gè)ANN,一步步地減少損失,直至最優(yōu)。到了一定時(shí)候,你就可以得到一個(gè)訓練好的超網(wǎng)絡(luò )。
由于Ren 的團隊沒(méi)有公開(kāi)他們的源代碼,所以Knyazev 的團隊采用上述想法自己從頭開(kāi)始寫(xiě)軟件。然后Knyazev及其同事在此基礎上加以改進(jìn)。首先,他們確定了 15 種類(lèi)型的節點(diǎn),這些節點(diǎn)混合搭配可構建幾乎任何的現代深度神經(jīng)網(wǎng)絡(luò )。在提高預測準確性方面,他們也取得了一些進(jìn)展。
最重要的是,為了確保 GHN-2 能學(xué)會(huì )預測各種目標神經(jīng)網(wǎng)絡(luò )結構的參數,Knyazev 及其同事創(chuàng )建了一個(gè)包含 100 萬(wàn)種可能結構的獨特數據集。Knyazev 說(shuō):“為了訓練我們的模型,我們創(chuàng )建了盡量多樣化的隨機結構”。
因此,GHN-2 的預測能力很有可能可以很好地泛化到未知的目標結構。Google Research的Brain Team研究科學(xué)家 Thomas Kipf 說(shuō):“比方說(shuō),人們使用的各種典型的最先進(jìn)結構他們都可以解釋?zhuān)@是一大重大貢獻!
結果令人印象深刻
當然,真正的考驗是讓 GHN-2 能用起來(lái)。一旦 Knyazev 和他的團隊訓練好這個(gè)網(wǎng)絡(luò ),讓它可以預測給定任務(wù)(比方說(shuō)對特定數據集的圖像進(jìn)行分類(lèi))的參數之后,他們開(kāi)始測試,讓這個(gè)網(wǎng)絡(luò )給隨機挑選的候選結構預測參數。該新的候選結構與訓練數據集上百萬(wàn)結構當中的某個(gè)也許具備相似的屬性,也可能并不相同——有點(diǎn)算是異類(lèi)。在前一種情況下,目標結構可認為屬于分布范圍內;若是后者,則屬于分布范圍外。深度神經(jīng)網(wǎng)絡(luò )在對后者進(jìn)行預測時(shí)經(jīng)常會(huì )失敗,所以用這類(lèi)數據測試 GHN-2 非常重要。
借助經(jīng)過(guò)全面訓練的 GHN-2,該團隊預測了 500 個(gè)以前看不見(jiàn)的隨機目標網(wǎng)絡(luò )結構的參數。然后將這 500 個(gè)網(wǎng)絡(luò )(其參數設置為預測值)與使用隨機梯度下降訓練的相同網(wǎng)絡(luò )進(jìn)行對比。新的超網(wǎng)絡(luò )通?梢缘钟鶖登Т SGD 迭代,有時(shí)甚至做得更好,盡管有些結果更加復雜。
借助訓練好的 GHN-2 模型,該團隊預測了 500 個(gè)之前未知的隨機目標網(wǎng)絡(luò )結構的參數。然后將這 500 個(gè)(參數設置為預測值的)網(wǎng)絡(luò )與利用隨機梯度下降訓練的同一網(wǎng)絡(luò )進(jìn)行對比。盡管部分結果有好有壞,但新的超網(wǎng)絡(luò )的表現往往可以跟數千次 SGD 迭代的結果不相上下,有時(shí)甚至是更好。
對于圖像數據集 CIFAR-10 ,GHN-2 用于分布范圍內的結構得到的平均準確率為 66.9%,而用經(jīng)過(guò)近 2500 次 SGD 迭代訓練出來(lái)的網(wǎng)絡(luò ),其平均準確率為 69.2%。對于不在分布范圍內的結構,GHN-2 的表現則出人意料地好,準確率達到了約 60%。尤其是,對一種知名的特定深度神經(jīng)網(wǎng)絡(luò )架構, ResNet-50, GHN2的準確率達到了 58.6% 這是相當可觀(guān)的。在本領(lǐng)域的頂級會(huì )議 NeurIPS 2021 上,Knyazev說(shuō):“鑒于 ResNet-50 比我們一般訓練的結構大了有大概 20 倍,可以說(shuō)泛化到 ResNet-50 的效果出奇地好!。
不過(guò)GHN-2 應用到 ImageNet 上卻表現不佳。ImageNet 這個(gè)數據集規模很大。平均而言,它的準確率只有 27.2% 左右。盡管如此,跟經(jīng)過(guò) 5000SGD 迭代訓練的同一網(wǎng)絡(luò )相比,GHN-2的表現也要好一些,后者的平均準確度只有 25.6%。 (當然,如果你繼續用 SGD 迭代的話(huà),你最終可以實(shí)現95% 的準確率,只是成本會(huì )非常高。)最關(guān)鍵的是,GHN-2 是在不到一秒的時(shí)間內對ImageNet 做出了參數預測,而如果用 SGD 在GPU上預測參數,要想達到同樣的表現,花費的平均時(shí)間要比 GHN-2 要多 10000 倍。
Veličković說(shuō):“結果絕對是令人印象深刻;旧纤麄円呀(jīng)極大地降低了能源成本!
一旦GHN-2 從結果樣本中為特定任務(wù)選出了最佳的神經(jīng)網(wǎng)絡(luò ),但這個(gè)網(wǎng)絡(luò )表現還不夠好時(shí),至少該模型已經(jīng)過(guò)了部分訓練,而且可以還進(jìn)一步優(yōu)化了。與其對用隨機參數初始化的網(wǎng)絡(luò )進(jìn)行 SGD,不如以 GHN-2 的預測作為起點(diǎn)。Knyazev 說(shuō):“基本上我們是在模仿預訓練”。
超越 GHN-2
盡管取得了這些成功,但Knyazev 認為剛開(kāi)始的時(shí)候機器學(xué)習社區會(huì )抵制使用圖超網(wǎng)絡(luò )。他把這種阻力拿來(lái)跟 2012 年之前深度神經(jīng)網(wǎng)絡(luò )的遭遇相比擬。當時(shí),機器學(xué)習從業(yè)者更喜歡人工設計的算法,而不是神秘的深度網(wǎng)絡(luò )。但是,當用大量數據訓練出來(lái)的大型深度網(wǎng)絡(luò )開(kāi)始超越傳統算法時(shí),情況開(kāi)始逆轉。Knyazev :“超網(wǎng)絡(luò )也可能會(huì )走上同樣的道路!
與此同時(shí),Knyazev 認為還有很多的改進(jìn)機會(huì )。比方說(shuō),GHN-2 只能訓練來(lái)預測參數,去解決給定的任務(wù),比如對 CIFAR-10 或 ImageNet 里面的圖像進(jìn)行分類(lèi),但不能同時(shí)執行不同的任務(wù)。將來(lái),他設想可以用更加多樣化的結果以及不同類(lèi)型的任務(wù)(如圖像識別、語(yǔ)音識別與自然語(yǔ)言處理)來(lái)訓練圖超網(wǎng)絡(luò )。然后同時(shí)根據目標結構與手頭的特定任務(wù)來(lái)做出預測。
如果這些超網(wǎng)絡(luò )確實(shí)能成功的話(huà),那么新的深度神經(jīng)網(wǎng)絡(luò )的設計和開(kāi)發(fā),將不再是有錢(qián)和能夠訪(fǎng)問(wèn)大數據的公司的專(zhuān)利了。任何人都可以參與其中。Knyazev 非常清楚這種“讓深度學(xué)習大眾化”的潛力,稱(chēng)之為長(cháng)期愿景。
然而,如果像GHN -2 這樣的超網(wǎng)絡(luò )真的成為優(yōu)化神經(jīng)網(wǎng)絡(luò )的標準方法, Veličković強調了一個(gè)潛在的大問(wèn)題。他說(shuō),對于圖超網(wǎng)絡(luò ),“你有一個(gè)神經(jīng)網(wǎng)絡(luò )——本質(zhì)上是一個(gè)黑盒子——預測另一個(gè)神經(jīng)網(wǎng)絡(luò )的參數。所以當它出錯時(shí),你無(wú)法解釋[它]!
不過(guò),Veličković 強調,如果類(lèi)似 GHN-2 這樣的超網(wǎng)絡(luò )真的成為優(yōu)化神經(jīng)網(wǎng)絡(luò )的標準方法的話(huà),可能會(huì )有一個(gè)大問(wèn)題。他說(shuō):“你會(huì )得到一個(gè)基本上是個(gè)黑箱的神經(jīng)網(wǎng)絡(luò ),然后再用圖超網(wǎng)絡(luò )去預測另一個(gè)神經(jīng)網(wǎng)絡(luò )的參數。如果它出錯,你沒(méi)法解釋錯在哪里!
當然,神經(jīng)網(wǎng)絡(luò )基本上也是這樣。Veličković說(shuō):“我不會(huì )說(shuō)這是弱點(diǎn),我把這叫做告警信號!
不過(guò)Kipf看到的卻是一線(xiàn)希望。 “讓我最為興奮的是其他東西! GHN-2 展示了圖神經(jīng)網(wǎng)絡(luò )在復雜數據當中尋找模式的能力。
通常,深度神經(jīng)網(wǎng)絡(luò )是在圖像、文本或音頻信號里面尋找模式,這類(lèi)信息一般都比較結構化。但 GHN-2 卻是在完全隨機的神經(jīng)網(wǎng)絡(luò )結構圖里面尋找模式。而圖是非常復雜的數據。
還有,GHN-2 可以泛化——這意味著(zhù)它可以對未知、甚至不在分布范圍內的網(wǎng)絡(luò )結構的參數做出合理的預測。Kipf 說(shuō):“這項工作向我們表明,不同結構的很多模式其實(shí)多少是優(yōu)點(diǎn)相似的,而且模型能學(xué)習如何將知識從一種結構轉移到另一種結構,這可能會(huì )啟發(fā)神經(jīng)網(wǎng)絡(luò )新理論的誕生!
如果是這樣的話(huà),它可能會(huì )讓我們對這些黑箱有新的、更深入的理解。
學(xué)習和關(guān)注人工智能技術(shù)與咨詢(xún),了解更多資訊。!

本文地址:http://selenalain.com/thread-802996-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页