說話,看似毫不費力,但其實是人類最復雜的認知活動之一。在過去幾十年里,研究人員試圖澄清言語表達(又稱為“語言產生”)背后的認知架構和動態加工過程。近日,中國科學院心理研究所助理研究員馮臣、研究員屈青青與合作者在Nature旗下的《科學數據》(Scientific Data)發表漢語語言產生數據庫。
已有的研究顯示,世界上大約有7000種語言,不同語言的詞匯、語音、字形系統大相徑庭。現有的實證研究與理論框架主要基于印歐語系。與印歐語言不同,漢語有獨特之處。
首先,漢語屬于漢藏語系,是一種聲調語言,同一個音節的不同音調表示不同的詞匯與意義,大多數印歐語言則不使用聲調來區分詞義。其次,印歐語言采用字母拼寫系統,而漢語采用非字母書寫系統。另外,漢語的語音與字形的對應關系較為復雜,例如,聲音“shu”可以對應“書”“梳”“樹”或“薯”等多個不同的字形。因此,漢語研究對回答跨語言普遍性和特異性具有獨特價值和貢獻。
雖然一些研究已經表明,音位是印歐語言語音編碼的主要加工單元,而音節是漢語語音編碼的主要加工單元,但目前大部分關于語言產生的研究側重于印歐語言,而對于漢語這一非印歐語言的研究則相對有限。
馮臣和屈青青等人發現,這些研究主要關注于口語產生過程,對于書寫等字形產生的關注則明顯不足。同時,許多研究依賴于較小的樣本量和有限的實驗刺激,這可能導致統計效力不足和研究結果的可重復性問題。構建漢語語言產生數據庫的需求與日俱增。
此次發表的漢語語言產生數據庫記錄了667名被試在7種不同語言產生任務中的約20萬個試次的反應時間,以及實驗材料的多個語言學變量,如詞頻、字頻、音節頻率、習得年齡等。
據介紹,該數據庫為研究漢語口語和書寫產生的語言加工提供了豐富數據資源,為探索漢語產生的普遍性與特異性提供了數據基礎。此外,該數據庫對于開發漢語語言產生的人工智能模型具有獨特價值與貢獻,有望推動語言認知科學與人工智能領域的交叉與共同進步。
相關論文信息:https://doi.org/10.1038/s41597-024-03022-8
本文鏈接:漢語語言產生數據庫發表http://m.sq15.cn/show-11-3286-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 科學家發現腸道菌群衍生的新型促血栓物質