在智能駕駛中,城市道路上數百個交通參與者的風險排序需控制在毫秒級別;在短視頻推薦系統,每天要從億級視頻中快速排序以匹配用戶感興趣的內容;大語言模型訓練時,千萬級參數的優先級評估更是家常便飯。這些場景都指向一個核心痛點:排序加速。
由北京大學集成電路學院教授楊玉超、人工智能研究院研究員陶耀宇組成的團隊,在國際上首次實現了基于存算一體技術的高效排序硬件架構,解決了傳統計算架構面對復雜非線性排序問題時計算效率低下的瓶頸問題,將為具身智能、大語言模型、智能駕駛、智慧交通、智慧城市等人工智能(AI)應用提供更高效的算力支持。
6月25日,相關研究成果發表于《自然-電子》。
排序加速:存算一體架構中難啃的“硬骨頭”
排序,作為AI系統中最常用、最耗時的基礎操作之一,廣泛應用于自然語言處理、信息檢索、圖神經網絡、智能決策等領域。
論文通訊作者陶耀宇表示,在傳統的馮·諾依曼計算架構中,處理器與存儲器分離的特點導致數據被頻繁搬運,嚴重制約了計算速度和系統能效,因此將存儲與計算融合的“存算一體”架構是突破硬件性能的必由之路。而排序加速是存算一體架構中難啃的“硬骨頭”。
例如,在智能駕駛場景中,車輛在高速公路等簡單環境中,只需對周邊幾臺車的行進路線進行排序,就能判斷是否會對自身安全產生影響,整個耗時可控制在毫秒級別。但在復雜的城市環境中,風險可能來自周邊的數百個乃至更多的各類交通參與者,排序的復雜程度和硬件延遲就會大幅提高。
再比如,在抖音、小紅書等短視頻平臺的大規模檢索與推薦系統中,對用戶點擊、評分、相似度計算后,常需要對海量的候選內容進行快速排序,找出最相關項,因此,排序性能直接影響系統的響應時間和可擴展性。
另外,在大語言模型訓練、機器人路徑規劃、強化學習搜索等場景中,快速評估多個決策或行動的優劣并進行排序,也是必不可少而又極為費時的步驟。
然而,在傳統計算架構下,大規模的非線性排序難以在端側或邊緣設備高效完成,這一過程消耗大量時間與功耗,極大制約了具身智能、智能駕駛等新興技術的發展與普及。
陶耀宇表示,近年來,存算一體已經在矩陣計算等規則性強的數值計算中取得顯著成果。然而由于排序存在邏輯復雜、操作非線性、數據訪問不規則,缺乏通用、高效的硬件排序原語等諸多障礙,目前國際主流的存算一體架構均無法解決大數據排序問題,這一難題成為了制約下一代AI計算硬件發展的核心卡點問題。
攻克多個核心技術難題
在AI系統中,排序通常作為數據預處理或決策中間環節存在,一旦執行效率不高,將成為整個系統的主要瓶頸。團隊圍繞“讓數據就地排序”的第一性原理目標,在存算一體架構上攻克了多個核心技術難題,實現了排序速度與能效的數量級提升。
據陶耀宇介紹,該工作取得了諸多突破,首先,開發了一套基于新型存內陣列結構的高并行比較機制;第二,開創性地引入“憶阻器陣列”,實現了低延遲、多通路的硬件級并行排序電路設計;第三,在算子層面,優化了面向人工智能任務的算法-架構協同路徑,同時兼容現有矩陣計算;第四,完全自主設計的器件-電路-系統級技術棧整合。
論文第一作者、北京大學集成電路學院博士生余連風介紹:“排序的核心是比較運算,需要精準地實現‘條件判斷+數據搬移’,在復雜的應用場景中,要對不同因素的優先級進行比較,因此排序的邏輯非常復雜。一般排序過程需要構建支持多級‘比較-選擇’的比較器單元,而傳統存算一體架構主要面向‘乘加’‘累加’等操作,難以支持這樣的復雜運算。我們的工作成功解決了這一難題,設計了一種‘無比較器’的存算一體排序架構?!?span style="display:none">D8z速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
實測結果顯示,該硬件方案在典型排序任務中速度提升超15倍,面積效率提升超過32倍,具備并行處理百萬級數據元素排序任務的潛力,功耗僅為傳統CPU或GPU處理器的1/10。在AI推理場景中,支持動態稀疏度下的推理響應速度可提升70%以上,特別適用于要求極高實時性的任務環境。
“正因為排序計算在AI中是高頻、通用、基礎且極難處理的一類操作,這一難題的突破意味著存算一體從‘適合特定應用’走向‘可支持更廣泛的通用計算’,為AI相關任務構建了全鏈路的底層硬件架構支持。”陶耀宇說。
提高計算效率,打造加速引擎
據悉,該技術可用于智慧交通圖像排序系統、金融智能風控評分引擎、邊緣監控設備的目標優先識別模塊等場景,應用前景廣闊。
在相關測試中,該技術展現出高速度與低功耗的顯著優勢。例如,在智慧交通場景中,系統有望在毫秒級內完成十萬級事件優先級評估,為超大規模交通決策、應急響應調度等提供高效的實時算力支持。
當前,隨著AI技術正與物理世界加速融合,算力已從“服務算法”演化為“主導能力邊界”的戰略資源?!按嫠阋惑w”超高性能排序加速架構的成功突破,不僅是一次架構創新的勝利,更是將科研成果轉化為實際應用、服務國家重大戰略需求的重要行動。
陶耀宇表示,該成果未來有望廣泛應用于國產智能芯片、邊緣AI設備、智能制造終端、智慧城市系統等關鍵領域,為我國在下一代AI技術與智能硬件競爭中提供堅實底座,也為構建安全、高效、自主可控的新一代智能算力體系提供了“加速引擎”。
“根據初步測算,若該技術在智能終端、工業控制、數據中心等核心應用場景中推廣,僅在邊緣AI芯片市場就可形成百億元級年產值潛力,大幅提升傳統算力系統的性能。更重要的是,在社會層面,該技術有望推動新一代智慧交通、智慧醫療、智能制造、數字政府系統更加高效運行,釋放數據價值,助力新質生產力形成”陶耀宇說。
相關論文信息:https://doi.org/10.1038/s41928-025-01405-2
本文鏈接:中國團隊國際首創存算一體排序架構,攻克智能硬件加速難題http://m.sq15.cn/show-11-22686-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 第六屆氦低溫工程青年論壇舉辦
下一篇: 龍芯新一代處理器在京發布