天桥脑科学研究院MindD计划资助项目成果发布:首个中文脑电图数据集亮相《自然》子刊


在神经科学的前沿,脑电图(EEG)技术正在逐步揭开大脑如何处理语言的奥秘。目前,外文自然语言刺激的EEG数据集已较为完善,但中文语料的EEG数据集仍为空白。这限制了中文语境下大脑语言表征机制的研究和基于中文语境的BCI技术的准确性。

近日,南方科技大学刘泉影教授和澳门大学伍海燕教授联合课题组在《自然》子刊Scientific Data上发布了一项突破性研究成果——首个专门针对中文语言的脑电图数据集“ChineseEEG”。这项研究是天桥脑科学研究院(Tianqiao & Chrissy Chen Institute, TCCI)MindD数据支持计划的第一个资助项目。

语言是人类交流的核心,无论是使用母语还是学习新语言,大脑都能迅速理解和表达。这种能力源于大脑对语言的复杂处理机制。当接收语言信息时,大脑会启动一系列神经活动来解析这些数据。通过研究这些神经活动,科学家们可以揭示大脑如何处理和理解语言。

近年来,脑电图(EEG)、功能磁共振成像(fMRI)和皮层脑电图(ECoG)等技术在研究大脑语言处理机制方面发挥了关键作用。然而,大量神经信号数据的获取依然困难,尤其是针对中文的脑电图数据集相对稀缺。不同语言的结构差异意味着大脑处理这些语言的方式也不尽相同,因此创建基于非英语刺激的脑电图数据集显得尤为重要。

为了填补这一空白,刘泉影教授和伍海燕教授的研究团队通过使用两部经典中文小说《小王子》和《狼王梦》作为实验材料。这些文本不仅包含了丰富的常用汉字和表达方式,而且为实验提供了多样化的语言刺激。每位参与者默读了长达12小时的中文文本。期间,研究团队记录了他们的脑电图和眼动数据。实验包括了一个练习阅读阶段和两个正式的阅读阶段,每个阶段均由数个实验运行组成。

ChineseEEG数据集的优势在于,除了提供多种预处理后的脑电图传感器级数据外,还提供了由BERT-base-chinese模型生成的中文文本嵌入,为研究自然语言处理模型中的文本表示与大脑神经活动之间的关系提供了新的视角。研究人员可以利用这些数据集深入分析大脑如何处理中文,推动跨语言神经科学研究的发展。

那么,ChineseEEG可以具体用来做什么呢?首先,由于参与者接受了长达12小时的中文语言刺激,涵盖了丰富的词汇和语义,这对于研究大脑长期处理语言的变化十分有益。其次,利用128个通道的高密度脑电图数据和每秒1000次的采样率,研究人员能够精确追踪大脑在阅读中文时的微妙变化。更为重要的是,研究者提供了经过处理的脑电图数据和文本嵌入,使得不具备神经科学或计算机科学背景的人也能够直接使用这些数据进行研究。

举例来说,这些数据可用于:1、脑电图的时频分析,帮助提取神经振荡的不同频段;2、脑电图源重建,揭示大脑活动的源头;3、文本嵌入,利用预先训练好的技术计算小说的嵌入,探索脑电图与文本之间的关系;4、数据对齐,帮助研究者更好地理解他们收集到的数据,将脑电图数据与文本内容和眼动追踪数据对齐。

ChineseEEG数据集不仅对神经科学、语言学及相关领域有着深远的意义,还将在脑机接口、语义解码等领域带来广泛的应用前景。例如,可以利用基于脑信号的文字转换技术,帮助残障人士通过大脑活动直接控制计算机或其他设备,为他们提供更便捷的交流和生活方式。

伍海燕教授表示:“海量脑科学数据的采集、管理和分析是公认的难题,这也极大地制约了以大模型为代表的新一代AI在相关领域的应用。天桥脑科学研究院推出的MindD数据支持计划及时满足了科学家和临床医生群体的需求。”

MindD数据支持计划面向中国神经科学家、认知科学家、心理学家,以及神经和精神疾病医生开放,在安全合规的前提下,资助人类大脑及相关全身和行为数据的采集、分析和训练。该计划首期预计提供1亿元经费资助,同时免费提供存储服务器、算力等基础设施,创新数据采集技术,以及AI和数据专业人才资源。天桥脑科学研究院与澳门大学伍海燕、南方科技大学刘泉影联合课题组达成的资助正是该计划的首批项目之一。

未来,随着技术的进一步成熟和数据集的不断丰富,预计将有更多创新研究成果涌现,深化我们对大脑如何处理语言和其他复杂任务的理解。MindD计划也将继续帮助相关研究领域突破数据瓶颈,为“AI+脑科学”的发展奠定良好基础,同时吸引更多国际合作和跨学科研究,加速AI技术在医疗和健康领域的实际应用。