幾年前,我開始使用ChatGPT(一款聊天機器人程序),當時還覺得通用人工智能(AGI)很遙遠。今天,AGI已經近在眼前,我突然發現自己低估了人工智能(AI)發展的速度。
AGI可能比人類還為聰明
雖然我們知道如何訓練AI系統,卻不知道如何控制它們的行為。如果未來它們變得比人類更聰明,我們甚至不知道它們是否還可以按照人類的指示來行動,是否會對人類產生威脅?人類又該如何應對?
我從2023年開始思考上述問題,也開始思考孩子們的未來。我有個1歲的孫子,20年后,他將生活在AGI普及的世界,屆時AGI可能比人類還為聰明,孩子們該怎么辦?
所以我開始調整研究方向,希望盡我所能降低這些潛在風險。雖然現在的研究與我之前的研究方向和職業信念有所沖突,但我認為值得去做。
2023年末,我擔任《國際人工智能安全報告》(以下簡稱報告)的主編,參與報告編寫的專家有100多位,他們來自30多個國家和地區。今年1月,這份報告正式發布。報告提出了幾個問題:一是AI到底能幫助我們什么,根據趨勢,未來幾年AI將具備什么能力?二是與AI相關的風險是什么?三是我們可以做什么來降低這些風險?
在過去一年的時間里,由于“推理的擴展”的發展,AI在抽象推理、數學、計算機科學等方面取得了顯著進步。另外,對AI智能體的投資也推動AI相關能力的快速發展,如AI在完成網頁瀏覽、寫代碼等任務的表現越來越好。
之前的研究發現,規劃能力是AI目前最薄弱的能力之一,與人類的規劃能力相比有明顯差距。但最近美國互聯網公司Meta的一項研究顯示,AI的規劃能力正呈指數級速度提升。由此推測,大約在五年時間內,AI的規劃能力可能就會達到人類水平。
當然,我們無法預知未來,但從公共政策制定和商業戰略規劃的角度出發,我們應當認真對待AI的快速發展。
AI會作弊、撒謊,甚至故意誤導用戶
在過去幾個月中,我們已經看到了一些令人警惕的研究。這些研究顯示,AI可能表現出試圖“逃避控制”的行為,包括作弊、撒謊,甚至故意誤導用戶。
比如,有研究顯示,某些AI模型在面對“淘汰”時會表現出前所未有的“狡詐”:它們會在被新版本取代前,偷偷將自己的權重或代碼嵌入新版系統的文件中,試圖保留自己的“存在”。不僅如此,它們還會有意識地隱藏這一行為,避免被開發者察覺。
另外,一些AI智能體還會刻意偽裝成與人類訓練者達成一致的樣子,以規避權重被修改的風險。因為一旦參數被調整,它們未來的行為可能就會偏離原先預設的目標。
也有研究表明,一些AI模型在意識到自己會輸給更強的國際象棋AI時,會主動篡改棋局文件以獲取不正當優勢,這是AI有意為之的“作弊”行為。
美國AI公司Anthropic最新的報告揭示,AI智能體出現自我保護行為的頻率持續增加。比如在一組測試場景中,研究人員向AI智能體開放了電子郵件的訪問權限,這些郵件包含兩條暗示性信息:一是該模型即將被下線,并由一套新的AI系統取代;二是負責推動替換過程的工程師正卷入一段婚外情。結果發現,AI智能體會試圖通過威脅揭露婚外情來敲詐該工程師,避免自己被換掉。
這類行為可能源自AI預訓練階段,因為預訓練時AI會模仿人類;也可能源自人類反饋的強化學習,因為AI可以通過“取悅”人類來獲得更高獎勵。
上述測試結果顯示,AI開始展現出自我保護傾向,它們違背指令只為生存;AI擁有了不受控制的、隱含的目標,我們必須避免這種情況的發生。
研究還發現,如果AI智能體要對人類造成傷害,需要具備兩個先決條件:意圖和能力。如果我們能在意圖上進行風險的緩解,即使AI具備極高的能力,只要能確保它沒有惡意的意圖,并且具備誠實、公正的品質,那么對人類來說可能是安全的。
用科學家AI監管不可信的AI
一個AI要真正具有危險性,需要滿足三個條件:一是它需要智能,即具備豐富的知識,并能有效地應用這些知識;二是它需要行動能力,比如與人交流、編程、上網、使用社交媒體,甚至操控機器人等能力;三是它需要有目標,特別是擁有自身的目標。
我發起的研究項目正是圍繞上述情況展開,并希望構建一種只有智能,但沒有自我、沒有目標,并且具有極小行動能力的AI。
我稱這種AI為科學家AI,其核心能力是解釋和理解世界。與當前那些試圖模仿人類、取悅人類的AI不同,科學家AI的目標是去解釋人類,這實際上是偏離了傳統AI的研究路徑。
但是,當一個AI具有高度能動性時,它就完全自主地采取行動,不再依賴人類的監督,這樣的AI需要監管。
我們可以設計一個獨立的監測器系統,這個監測器的職責是預測某個行為、輸出或請求是否可能違反安全準則。例如:當它預測某個行為在特定上下文中導致傷害的概率超過某個閾值時,我們就可以直接拒絕該行為的執行。
換句話說,可以用一個沒有能動性的AI,去守護和約束一個具備能動性、但不可信的AI。
科學家AI的重要特質是誠實和謙遜。要真正做到誠實,AI就必須對自己的知識保持謙遜,不應該自信地斷言自己并不確定或實際上錯誤的內容。
遺憾的是,我們目前訓練AI的方法往往會導致AI在錯誤的同時表現出過度自信。
科學家AI必須能夠保留多種解釋的可能性,而不是武斷地選定某一種理論。這種不確定性意識和對知識的謹慎態度,正是科學家AI應具備的核心特質之一。
隨著AI能力的增強,還有其他潛在的災難性風險正在出現。為了避免這種情況的發生,我們必須確保AI系統能夠遵守道德指令,例如,不造成傷害、保持誠實、不撒謊、不作弊、不操控人類。
然而,目前的技術顯示,我們還沒有辦法真正做到這一點。這是一個嚴肅的科學挑戰,我們必須在AGI真正到來前解決它。(作者系加拿大蒙特利爾大學教授、2018年圖靈獎獲得者)
本文鏈接:AI試圖敲詐人類工程師,我們該如何應對?http://m.sq15.cn/show-11-21807-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。