簡(jiǎn)介 AI研究人員開(kāi)始將AI安全工程設計面臨的主要挑戰列為過(guò)去60年AI失敗的主要原因,例如價(jià)值觀(guān)對接問(wèn)題。同時(shí),另一個(gè)現實(shí)問(wèn)題也暴露出來(lái):機器越智能,人們預測、解釋和理解其影響的能力就越差。 不可預測性 AI的不可預測性是指我們無(wú)法準確、連貫地預測系統將采取哪些具體措施來(lái)實(shí)現其目標。例如,在一場(chǎng)智能?chē)H象棋比賽中,我們可以預測AI將獲勝(如果這是它的目標),但是我們無(wú)法預測AI為了取勝具體會(huì )怎樣走棋。這種情況的后果還無(wú)關(guān)緊要,但隨著(zhù)目標的智能性和復雜性增加,不可預測性也會(huì )隨之放大。如第2部分所述,假設通過(guò)AI來(lái)幫助治療癌癥,理論上講,它可以把殺死人類(lèi)算作把病治好了。 這些中間步驟取決于幾個(gè)因素,包括AI在整個(gè)過(guò)程中的互動(dòng)。在第3部分中介紹過(guò)Microsoft的聊天機器人Tay,因為與人們的在線(xiàn)互動(dòng)而被“教壞”,成了一個(gè)狂飆臟話(huà)的種族主義者。而且,較低的智能系統無(wú)法學(xué)會(huì )預測較高智能系統做出的決策。先進(jìn)的AI可以理論化所有可能的選擇、決策或策略,而人類(lèi)則沒(méi)有這種能力。有的細分應用系統雖然總體上相對人類(lèi)力不能及,但在某些領(lǐng)域具有比人類(lèi)更勝一籌的智能,這些系統可能會(huì )出現類(lèi)似情況。 不可解釋性 不可解釋性是指無(wú)法以一種可理解的準確方式來(lái)解釋智能系統做出的決策。例如,應用于按揭貸款審批的AI可能會(huì )通過(guò)數百萬(wàn)甚至數十億的加權因子進(jìn)行決策。但是當申請人被拒絕時(shí),會(huì )用一兩個(gè)因素來(lái)解釋?zhuān)纭安涣夹庞谩被颉肮べY不夠”。但是,這種解釋充其量只是其簡(jiǎn)化過(guò)的決策方式。這類(lèi)似于低質(zhì)量的圖像壓縮,在壓縮過(guò)程中,即使生成的圖像在很大程度上代表了原始圖像,但數據還是在壓縮過(guò)程中丟失了。同理,把拒絕按揭的原因解釋為“不良信用”,也就忽略了其他因素可能產(chǎn)生的影響。由此給出的解釋是不完整的,因此也不是100%準確。 其他因素是否也應列為拒絕的主要原因? 有可能。以美國為例,不可以根據是否屬于受保護階層來(lái)作出涉及貸款、住房、醫療保健等方面的決定。用于審批按揭貸款的AI不能在決策過(guò)程中使用年齡或性別等因素,但此類(lèi)數據卻可能會(huì )成為決策因素。 例如,如果按揭公司曾拒絕向在舊金山生活的18-25歲沒(méi)有大學(xué)學(xué)歷的拉丁裔女性提供貸款,那么AI可能會(huì )認為符合這些條件的申請人的違約風(fēng)險更高,而不考慮申請人其他的有利條件。在這里又冒出了不可預測性,但這是一個(gè)很好的例子,說(shuō)明了決策需要能夠被準確、完整地解釋的重要性。 不可理解性 如果對拒絕按揭貸款申請的原因進(jìn)行了完整而準確的解釋?zhuān)敲催@種解釋是否可以理解呢? 可理解性或多或少與個(gè)人有關(guān),具有金融學(xué)位或多年按揭貸款行業(yè)經(jīng)驗的人比沒(méi)有類(lèi)似領(lǐng)域知識的人會(huì )對準確而完整的解釋有更透徹的理解,或理解起來(lái)更加輕松。盡管如此,一個(gè)將百萬(wàn)個(gè)不同加權因子納入考量的系統所作出的具體響應仍然可能不被人類(lèi)所理解,因為我們沒(méi)有理解如此多相互關(guān)聯(lián)變量的存儲容量、記憶力和能力。 AI安全性的意義 不可預測性、不可解釋性和不可理解性使實(shí)現100%安全的AI成為妄想,因為即使是已得到公認的標準、法律和工具也無(wú)法恰如其分地鼓勵或阻止不良影響。即使有能力預測AI行為,我們也無(wú)法在不限制智能或系統價(jià)值的情況下有效地控制行為。當然,評估和調試AI故障需要可理解的解釋?zhuān)S著(zhù)機器智能的提高,做到這一點(diǎn)的可能性越來(lái)越小。接下來(lái)的第5部分將探討AI安全性如何影響工程領(lǐng)域。 文章來(lái)源:貿澤電子 作者簡(jiǎn)介:Roman V. Yampolskiy博士是路易斯維爾大學(xué) (University of Louisville) 計算機科學(xué)與工程系的終身副教授。他還是網(wǎng)絡(luò )安全實(shí)驗室的創(chuàng )始人和現任主任,并著(zhù)有多部著(zhù)作,包括《Artificial Superintelligence: a Futuristic Approach》。 |