6月17日,總部位于上海的AI獨角獸企業MiniMax向開源社區投下一枚“重磅炸彈”:正式發布其自主研發的MiniMax-M1系列模型,并宣布開源。據悉,這是行業首個開源的大規模混合架構推理模型。
該模型的技術報告顯示,M1模型在處理百萬級Tokens的長文本上實現了重要突破,成為上下文最長的推理模型;其強化學習(RL)訓練成本下降一個量級,成本僅53萬美元(約合380萬元),推理效率大大提升;在工具使用場景中,MiniMax-M1-40k領跑開源權重模型,超過Gemini-2.5 Pro。
開源技術報告截圖。圖源:MiniMax
MiniMax在開源模型權重的同時,還向社區提供API服務。其定價策略顯示,0~32k Tokens和32k-128k Tokens兩個檔位的定價均低于DeepSeek-R1,超長文本檔位(128k-1M Tokens)為輸入2.4元/百萬Tokens、輸出24元/百萬Tokens,目前DeepSeek模型尚未覆蓋此范圍。
此外,MiniMax宣布,在其自有的App和Web端,M1模型將保持不限量免費使用,旨在推動其技術的普及和應用。
模型發布后,MiniMax在業內公認的17個主流評測集上對M1進行了全面“大考”,結果顯示,M1在軟件工程、長文本理解和工具使用等面向生產力的復雜場景中,優勢突出,尤其是在長文本能力方面。
值得注意的是,在絕大多數基準測試中,擁有更長推理能力的M1-80k版本始終優于M1-40k。相關負責人介紹稱,這證明了其架構在擴展計算資源時的有效性和可塑性。
該負責人告訴記者,MiniMax-M1的卓越性能根植于其獨特的架構設計和算法創新。其中,兩大核心技術——線性注意力機制(Lightning Attention)混合構架和更快的強化學習算法“CISPO”,構成了其高效能、低成本的基石。
MiniMax官方提示稱,完整的M1模型權重、技術報告均已在Hugging Face和GitHub上開放獲取。同時,公司正積極與國家超算平臺、vLLM等業界主流開源框架合作,以確保開發者能夠輕松、高效地部署和使用M1模型。此外,MiniMax還稱,在接下來的四個工作日里,MiniMax計劃每天發布一項新的技術或產品更新。
本文鏈接:百萬級Tokens長文本推理模型,宣布開源http://m.sq15.cn/show-11-22152-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。