中國科學(xué)院上海藥物研究所研究員鄭明月團隊開發(fā)了一種由大型語言模型驅(qū)動的NMR數(shù)據(jù)提取工具NMRExtractor,能夠從海量開放獲取的文獻中自動提取實驗性核磁共振(NMR)數(shù)據(jù),并構(gòu)建出了迄今為止規(guī)模最大的開放式NMR數(shù)據(jù)庫NMRBank。5月28日,相關(guān)研究發(fā)表于《化學(xué)科學(xué)》。
NMR光譜是化學(xué)研究中強大且應(yīng)用廣泛的技術(shù)之一,能夠提供分子環(huán)境的詳細信息,對結(jié)構(gòu)和原子間相互作用非常敏感。在過去二十年中,研究人員開發(fā)了多個數(shù)據(jù)庫用于存儲分子的1H和13C NMR光譜,但這些數(shù)據(jù)庫的規(guī)模仍較為有限。
研究團隊提出的NMRExtractor,可自動從科學(xué)文獻中提取化合物名稱、NMR條件和1H/13C NMR化學(xué)位移等關(guān)鍵信息。基于該工具,研究團隊構(gòu)建了NMRBank,其中包含225809條NMR數(shù)據(jù)記錄,每條記錄包括化合物的IUPAC名稱、SMILES描述符、1H/13C NMR化學(xué)位移、模型賦予的置信度評分,以及文章PMID和期刊名稱等元數(shù)據(jù)。分析結(jié)果顯示,NMRBank所覆蓋的化學(xué)空間顯著超越現(xiàn)有的公共NMR數(shù)據(jù)集。
研究團隊表示,該提取流程具備高度可擴展性,支持新研究論文的自動處理,使NMRBank可持續(xù)更新,不僅拓展了開放NMR數(shù)據(jù)的覆蓋范圍,也為基于人工智能的NMR預(yù)測及相關(guān)化學(xué)研究奠定了數(shù)據(jù)基礎(chǔ)。
相關(guān)論文信息:http://doi.org/10.1039/d4sc08802f
本文鏈接:科學(xué)家構(gòu)建迄今最大規(guī)模開放式核磁共振數(shù)據(jù)庫http://m.sq15.cn/show-11-21583-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。