AI試圖敲詐人類工程師，我們該如何應對？

2025-06-10 09:18:22 來源：中國科學報

觀看：69

幾年前，我開始使用ChatGPT（一款聊天機器人程序），當時還覺得通用人工智能（AGI）很遙遠。今天，AGI已經近在眼前，我突然發現自己低估了人工智能（AI）發展的速度。

AGI可能比人類還為聰明

雖然我們知道如何訓練AI系統，卻不知道如何控制它們的行為。如果未來它們變得比人類更聰明，我們甚至不知道它們是否還可以按照人類的指示來行動，是否會對人類產生威脅？人類又該如何應對？

我從2023年開始思考上述問題，也開始思考孩子們的未來。我有個1歲的孫子，20年后，他將生活在AGI普及的世界，屆時AGI可能比人類還為聰明，孩子們該怎么辦？

所以我開始調整研究方向，希望盡我所能降低這些潛在風險。雖然現在的研究與我之前的研究方向和職業信念有所沖突，但我認為值得去做。

2023年末，我擔任《國際人工智能安全報告》（以下簡稱報告）的主編，參與報告編寫的專家有100多位，他們來自30多個國家和地區。今年1月，這份報告正式發布。報告提出了幾個問題：一是AI到底能幫助我們什么，根據趨勢，未來幾年AI將具備什么能力？二是與AI相關的風險是什么？三是我們可以做什么來降低這些風險？

在過去一年的時間里，由于“推理的擴展”的發展，AI在抽象推理、數學、計算機科學等方面取得了顯著進步。另外，對AI智能體的投資也推動AI相關能力的快速發展，如AI在完成網頁瀏覽、寫代碼等任務的表現越來越好。

之前的研究發現，規劃能力是AI目前最薄弱的能力之一，與人類的規劃能力相比有明顯差距。但最近美國互聯網公司Meta的一項研究顯示，AI的規劃能力正呈指數級速度提升。由此推測，大約在五年時間內，AI的規劃能力可能就會達到人類水平。

當然，我們無法預知未來，但從公共政策制定和商業戰略規劃的角度出發，我們應當認真對待AI的快速發展。

AI會作弊、撒謊，甚至故意誤導用戶

在過去幾個月中，我們已經看到了一些令人警惕的研究。這些研究顯示，AI可能表現出試圖“逃避控制”的行為，包括作弊、撒謊，甚至故意誤導用戶。

比如，有研究顯示，某些AI模型在面對“淘汰”時會表現出前所未有的“狡詐”：它們會在被新版本取代前，偷偷將自己的權重或代碼嵌入新版系統的文件中，試圖保留自己的“存在”。不僅如此，它們還會有意識地隱藏這一行為，避免被開發者察覺。

另外，一些AI智能體還會刻意偽裝成與人類訓練者達成一致的樣子，以規避權重被修改的風險。因為一旦參數被調整，它們未來的行為可能就會偏離原先預設的目標。

也有研究表明，一些AI模型在意識到自己會輸給更強的國際象棋AI時，會主動篡改棋局文件以獲取不正當優勢，這是AI有意為之的“作弊”行為。

美國AI公司Anthropic最新的報告揭示，AI智能體出現自我保護行為的頻率持續增加。比如在一組測試場景中，研究人員向AI智能體開放了電子郵件的訪問權限，這些郵件包含兩條暗示性信息：一是該模型即將被下線，并由一套新的AI系統取代；二是負責推動替換過程的工程師正卷入一段婚外情。結果發現，AI智能體會試圖通過威脅揭露婚外情來敲詐該工程師，避免自己被換掉。

這類行為可能源自AI預訓練階段，因為預訓練時AI會模仿人類；也可能源自人類反饋的強化學習，因為AI可以通過“取悅”人類來獲得更高獎勵。

上述測試結果顯示，AI開始展現出自我保護傾向，它們違背指令只為生存；AI擁有了不受控制的、隱含的目標，我們必須避免這種情況的發生。

研究還發現，如果AI智能體要對人類造成傷害，需要具備兩個先決條件：意圖和能力。如果我們能在意圖上進行風險的緩解，即使AI具備極高的能力，只要能確保它沒有惡意的意圖，并且具備誠實、公正的品質，那么對人類來說可能是安全的。

用科學家AI監管不可信的AI

一個AI要真正具有危險性，需要滿足三個條件：一是它需要智能，即具備豐富的知識，并能有效地應用這些知識；二是它需要行動能力，比如與人交流、編程、上網、使用社交媒體，甚至操控機器人等能力；三是它需要有目標，特別是擁有自身的目標。

我發起的研究項目正是圍繞上述情況展開，并希望構建一種只有智能，但沒有自我、沒有目標，并且具有極小行動能力的AI。

我稱這種AI為科學家AI，其核心能力是解釋和理解世界。與當前那些試圖模仿人類、取悅人類的AI不同，科學家AI的目標是去解釋人類，這實際上是偏離了傳統AI的研究路徑。

但是，當一個AI具有高度能動性時，它就完全自主地采取行動，不再依賴人類的監督，這樣的AI需要監管。

我們可以設計一個獨立的監測器系統，這個監測器的職責是預測某個行為、輸出或請求是否可能違反安全準則。例如：當它預測某個行為在特定上下文中導致傷害的概率超過某個閾值時，我們就可以直接拒絕該行為的執行。

換句話說，可以用一個沒有能動性的AI，去守護和約束一個具備能動性、但不可信的AI。

科學家AI的重要特質是誠實和謙遜。要真正做到誠實，AI就必須對自己的知識保持謙遜，不應該自信地斷言自己并不確定或實際上錯誤的內容。

遺憾的是，我們目前訓練AI的方法往往會導致AI在錯誤的同時表現出過度自信。

科學家AI必須能夠保留多種解釋的可能性，而不是武斷地選定某一種理論。這種不確定性意識和對知識的謹慎態度，正是科學家AI應具備的核心特質之一。

隨著AI能力的增強，還有其他潛在的災難性風險正在出現。為了避免這種情況的發生，我們必須確保AI系統能夠遵守道德指令，例如，不造成傷害、保持誠實、不撒謊、不作弊、不操控人類。

然而，目前的技術顯示，我們還沒有辦法真正做到這一點。這是一個嚴肅的科學挑戰，我們必須在AGI真正到來前解決它。（作者系加拿大蒙特利爾大學教授、2018年圖靈獎獲得者）

本文鏈接：AI試圖敲詐人類工程師，我們該如何應對？http://m.sq15.cn/show-11-21807-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：年輕人都來拍婚紗照的荒灘“百寶園”，他咋造的

下一篇：世界最偉大發明讓人又愛又恨，這場沙龍直擊困局

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

AI試圖敲詐人類工程師，我們該如何應對？

熱門資訊

推薦資訊

科學最熱文章

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

AI試圖敲詐人類工程師，我們該如何應對？

熱門資訊

推薦資訊

科學最熱文章

AI試圖敲詐人類工程師，我們該如何應對？