? ? ? ?近日,南方科技大學生物醫學工程系2021級本科生牟新語,以第一作者身份在國際著名SCI期刊Nature Scientific Data(影響因子9.8)發表了數據集論文“ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding”(用于語義對齊和神經解碼的中文語料庫腦電數據集)。該研究為中文AI模型與腦電對齊提供了開放的數據集,引起國內外神經科學、自然語言處理、語言學領域的重點關注。 ? ? ? ?在當今社會,隨著腦科學和自然語言處理等技術的不斷進步,我們對于大腦與語言之間關系的探索也日益深入。通過分析豐富文本刺激所引發的神經信號,我們能更深入地了解大腦是如何處理語義信息的,這不僅能夠提高我們對大腦編碼機制的認識,還能為腦機接口中語義解碼等一系列任務的設計和性能提升帶來幫助。 ? ? ? ? 在眾多腦影像技術中,腦電圖(Electroencephalogram,簡稱EEG)因其無創性、非侵入性、高時間分辨率以及低成本等優勢,已成為腦機接口、語義解碼等任務的熱門技術,展現出廣泛的應用潛力。目前,以外文自然語言為刺激的EEG數據集已相對完善。然而,面向大規模中文語料的腦電數據集構建仍然是一個空白領域,這一狀況嚴重制約了中文語境下大腦語言表征機制的研究,同時也限制了基于中文語境的BCI技術的準確性。 ? ? ? ? 因此,我們設計了一套針對中文閱讀任務的實驗方案,并基于這一方案構建了一個基于中文語料刺激的高通道EEG數據集ChineseEEG。圖1展示了該數據集的實驗范式和所收集的數據模態。在數據采集過程中,被試在靜默狀態下跟隨屏幕上的高亮指示閱讀中文讀物《小王子》和《狼王夢》。該數據集收集了10名被試在中文閱讀任務刺激下產生的高通道EEG數據和同步眼動數據,其中每位被試的數據記錄時間長達12小時。除了長時間的EEG記錄和眼動數據,我們還為該數據集提供了詳細的EEG預處理方案(如圖2所示),并提供了多個版本的預處理數據以供研究者使用。此外,該數據集還提供了使用預訓練語言大模型提取的閱讀刺激材料的語義嵌入,極大地便利了神經科學和自然語言處理領域的學者。該數據集已嚴格遵循腦影像數據存儲規范BIDS格式進行了整合。其詳細的結構如圖3所示。 圖1 實驗設備,實驗范式和相關數據模態 ? 圖2 數據預處理流程 ? ? ? ? ?ChineseEEG數據集為神經科學、自然語言處理和語言學領域的研究提供了重要支持。這一數據集不僅可作為中文語義解碼等技術任務的基準,推動腦機接口技術的發展,還可促進科學問題的討論,幫助研究者深入了解大腦在中文語境下如何處理和編碼語義信息。此外,ChineseEEG數據集中提供的多模態和多版本預處理數據及衍生數據,將推動神經科學、自然語言處理與語言學等相關領域研究方法的融合,為跨學科研究提供寶貴的資源。例如,研究者可以利用這些數據探索如何有效地對齊大型語言模型與人類認知過程。最后,該項目所提供的任務范式、相關材料和開源代碼,也為同行研究者進一步探索這一領域提供了參考。 圖3 數據集結構 ? ? ? ? ?本研究獲得天橋腦科學研究院(TCCI)MindD計劃,澳門科學技術發展基金(FDCT),廣東省自然科學基金,深港澳科技計劃項目,澳門大學SRG資助的支持。 ? ? ? ?本研究通訊作者為南方科技大學生物醫學工程系劉泉影助理教授和澳門大學認知與腦科學中心伍海燕助理教授。共同第一作者為南方科技大學生物醫學工程系2021級本科生牟新語,澳門大學碩士生何翠琳和譚力維。牟新語同學目前在劉泉影教授領導的NCC Lab參與基于腦電信號的預訓練大模型構建和語義解碼數據集構建等科研項目,未來將在腦科學與人工智能的交叉領域繼續深入研究! ? ? ? ?此外,劉泉影老師指導的神經計算與控制實驗室(NCC lab)本科生積極參與科研,研究成果豐富。其課題組本科生以第一作者身份在CCIE會議(夏中燁,22級本科生)、NeurIPS會議(黃日涵,20級本科生)、IEEE Transactions on Cognitive and Developmental Systems(尹沫文,19級本科生)等會議和雜志發表成果。歡迎本科生們加入生物醫學工程系劉泉影課題組NCC lab。 引用: Mou. X.#, He. C.?#, Tan. L.?#,?Yu. J., Liang. H., Zhang. J., Tian. Y., Yang. Y., Xu. T., Wang. Q., Cao. M., Chen Z., Hu C., Wang. X., Liu. Q.?*, & Wu. H.?*?(2024). ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding. Biorxiv. https://doi.org/10.1101/2024.02.08.579481 #:共同第一作者 *:共同通訊作者