近日,2025全球數(shù)字經(jīng)濟大會數(shù)字安全主論壇暨2025北京網(wǎng)絡(luò)安全大會在京召開。會上,靈御(PandaGuard)大模型安全攻防評估平臺正式發(fā)布,該平臺創(chuàng)新性地采用多智能體系統(tǒng)建模方法對越獄攻擊進行系統(tǒng)性評估。該框架在現(xiàn)有研究基礎(chǔ)上實現(xiàn)了重要突破,為構(gòu)建安全可控的人工智能生態(tài)提供了重要保障。
北京前瞻人工智能安全與治理研究院院長、人工智能安全與超級對齊北京市重點實驗室主任、中國科學院自動化研究所人工智能倫理與治理中心主任曾毅介紹,靈御平臺通過將大語言模型越獄安全概念化為多智能體系統(tǒng)來解決這些挑戰(zhàn)。在這個系統(tǒng)中,攻擊者、防御者、目標模型和安全判斷器相互作用??蚣艹橄蟛⒛K化了每個組件,支持即插即用的實驗,包含19種攻擊算法、12種防御機制和多種判斷策略,對49個開源和閉源大語言模型安全性進行了系統(tǒng)化評估。
“靈御平臺的這種設(shè)計促進了可控的、可重現(xiàn)的評估,并使得能夠?qū)δP桶踩械目缃M件權(quán)衡進行深度分析?!痹惚硎?,平臺實踐證明,世界上提出的所有安全護欄沒有一個可以防護住所有的攻擊算法,也沒有一個攻擊算法可以突破所有的安全護欄,“在人工智能安全防護領(lǐng)域還有很長的路要走。”
研究發(fā)現(xiàn),不同時間發(fā)布的人工智能大模型并沒有隨著模型能力的提升而同時獲得模型的安全性,近期發(fā)布的國內(nèi)外能力更強大的人工智能模型安全性并沒有展現(xiàn)出顯著的優(yōu)勢,“一些較新的模型在某些安全指標上可能不如早期版本,這揭示了一個重要事實,即安全性能的提升需要專門的優(yōu)化投入,而不是模型能力提高的自然副產(chǎn)品?!痹阏f。
曾毅表示:“現(xiàn)在國內(nèi)外沒有一個絕對安全的人工智能大模型,但通過類似靈御平臺這樣的AI安全護欄加固,每一個大模型都可以做到更安全?!?span style="display:none">IZY速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
目前,靈御人工智能安全攻防平臺的核心框架已開源開放,研究團隊發(fā)布了完整的代碼、配置和評估結(jié)果,以支持大語言模型安全領(lǐng)域的透明和可重現(xiàn)研究。
“安全與治理是人工智能的核心能力,將加速人工智能穩(wěn)健發(fā)展與應(yīng)用。我們的前沿研究表明,如果把安全與模型能力比作魚與熊掌,實則可以兼得。沒有安全治理框架的人工智能不僅是沒有‘剎車’,更是沒有‘方向盤’?!痹阏f。
本文鏈接:靈御人工智能大模型安全攻防評估平臺發(fā)布http://m.sq15.cn/show-11-21811-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 《中國菊科植物彩色圖鑒》(上下卷)出版