在近期一次會議上,西湖大學高性能計算中心高級工程師鄭煥波分享了一個西湖大學學術成果接連不斷產出的“秘密”。
“西湖大學于2018年2月獲教育部批準成立,隨之一同建立并投入運行的還有西湖大學的科學工程計算集群。”鄭煥波介紹說,次年6月,西湖大學高性能計算中心成立;1個月后,冷凍電鏡集群(GPU算力)投入運行;2年后,人工智能集群(AI算力)投入運行。目前,西湖大學支撐科學研究的算力規模在國內高校中名列前茅。
算力堅實地支撐了科學家們的探索發現。據鄭煥波統計,僅2019年—2023年,西湖大學共有278篇各類期刊論文向高性能計算中心提出致謝,其中14篇發表在《科學》《自然》《細胞》等知名期刊;同期,西湖大學還發表了130多篇人工智能會議文章。他透露,西湖大學高性能計算中心(以下簡稱“西湖計算”)現擁有超過1000個校內用戶,提供的計算服務覆蓋該校140多個課題組。
許多人不知道的是,能出色支持如此多的團隊潛心科研,西湖計算還有一條錦囊妙計,那就是在存儲系統上下功夫。
算力之于科學研究的作用不言自明。談及算力之于當前科學研究的重要性,西湖大學高性能計算中心主任李南一語道破:“科研團隊永遠在一個高度競爭的環境下,在國際前沿熱點競爭,就是爭分奪秒。早一秒得出結果,意味著離成功更近一步。”
也正因此,作為保障科研成果不斷產出的得力助手,各大計算集群在科研一線的穩健運行事關重大。而存儲系統,更是計算集群的“大后方”,它的“健康”攸關計算集群能力能否高效發揮。
“存儲的穩定性是整個集群的重中之重。”鄭煥波說,“如果存儲不穩定,整個計算集群就無法使用。”
與單節點計算系統不同,大規模計算集群在數十甚至數百個節點同時運轉時,需要存儲系統的高效支撐——如果把計算集群的算力比作“生產線”,存儲系統就是“原材料倉庫”和“自動輸送管道”。作為“計算工廠運轉的“物料根基”,倉庫庫存既要足夠大(對應數據分布式存儲),生產管線的輸送還要足夠快(對應存儲帶寬),這樣才能保障生產線不“堵料”、不“斷料”,保障計算集群的效率。
對此,西湖計算的專家們自然清楚。他們在構建算力集群之初,就對國內外許多存儲廠商的產品做過各種各樣的評測,并綜合性價比等因素,將西湖計算的存儲帶寬構建在百GB/s級別——這在理論上是“夠用”的。
然而,科學家們還是拋出了難題:各課題組的算力應用以服務科學計算為主,這些應用對數據吞吐量、傳輸效率等的要求比訓練推理應用高很多;而當科學家們提出的計算任務量越來越多、數據體量越來越龐大,即便是在存儲不斷增加的情況下仍然不能滿足需求,“半年就把存儲帶寬占滿了”。
為應對這一情況,西湖計算起初的策略是“擴”。存儲帶寬100GB/s不夠,就擴到400GB/s、500GB/s。然而他們發現,即便如此,也不能很好地滿足科學家們不斷提出的性能需求。
這樣下去不是辦法,西湖計算決定招標。他們希望能有人可以“玩轉”存儲系統,使其能夠完美匹配科學計算和人工智能(AI)計算任務的需要。
正在此時,曙光存儲進入視野。在投標西湖計算的標書中,曙光存儲不僅提供了一份為AI研發、科學計算和信息化平臺等提供存力支持方案,還提出了單節點超過100 GB/s的高標準交付目標。
中科曙光存儲公司副總裁楊志雷至今記得,當時很多用戶都在場,大家對這樣的高標準交付“不能用‘震驚’這個詞,感覺大家更多是在皺眉頭”。楊志雷知道,大家有點不敢相信,曙光存儲能夠把計算集群的單節點存儲性能做到這么高。
“大家可能覺得,花錢(性價比)是一回事,但如果你說得這么好,最后達不到這個水平,就會影響科研效率和成果的產出。”楊志雷對記者表示。
雙方耐心持續的溝通交流,以及后續共同開展的許多測試和驗證性工作,讓西湖計算最終認可了曙光存儲。其呈現出的存儲訪問模式、特點及利用技術手段對算力的釋放優勢,證明了它的價值。
同時,楊志雷表示,曙光存儲提供的不僅是通用存儲,還包括部件更新、運維保障等后續服務能力。“用戶也非常看重我們可以配合他們做深入的功能研發、流程和性能上的優化和治理,這是西湖計算的用戶感觸非常深的。”
另外,曙光存儲交付的產品性能實測顯示,該系統單節點帶寬可達150GB/s,是國際友商的近4倍,充分滿足AI、科學計算需求,超額完成交付目標。
“沒有金剛鉆,攬不了瓷器活。”能中標西湖計算這樣的用戶,曙光存儲“有兩把刷子”。
中科曙光存儲公司總裁何振介紹說,數據作為新時代的“石油”,其存儲、訪問、處理和流動的效率,直接決定了AI智能體的“智商”與“效能”。然而,傳統的存儲架構在應對海量非結構化數據、超高通量并發訪問和極致低延遲需求時,已日益顯得力不從心,“存不下、取不快、流不動”成為制約AI產業釋放更大潛力的瓶頸。為此,曙光存儲專門創新架構,構建“超低阻”數據基礎設施。
據介紹,曙光存儲構建“超低阻”數據基礎設施的關鍵,在于其首創的“超級隧道”技術。該技術理念旨在通過硬件與軟件的深度協同優化,構建高效、低時延的數據傳輸路徑。據何振介紹,“超級隧道”基于無鎖架構、極簡交互及軟硬件協同等核心設計,是當前業內唯一能夠充分釋放PCIe 5.0性能的存儲技術。目前,“超級隧道”支持的集中式全閃存儲產品實現億級IOPS性能、202微秒級時延,并通過“五級加速+三級協同”技術,可將GPU利用率從30%~40%提高至70%~80%。
“我們發現,在存儲技術上的一些調整,可以把整個計算過程加快大概30%。”何振說,目前,曙光存儲已支持西湖計算部署完成全新存儲系統,為AI技術研發、科學數據處理等帶來了可靠的存力保障。
“我們認為在AI時代,‘超低阻’已不再是存儲系統的可選項,而是必然要求。”何振表示,這意味著數據從生成、存儲到服務于計算的全鏈路中,需要實現極致的順暢與高效,最大限度地降低“數據摩擦力”,讓算力得以無阻塞地充分釋放,真正成為賦能千行百業的強大引擎。
本文鏈接:何以成果迭出?西湖大學278篇論文致謝藏“玄機”http://m.sq15.cn/show-11-28427-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 基金委召開青年科學基金項目(B類)啟動會
下一篇: 華中科大“月壤磚”完成首年太空考驗