德克萨斯大学奥斯汀分校(University of Texas at Austin)研究人员将语言模型和功能性磁振造影(fMRI)技术相结合,开发出具有读心术能力的系统,该系统能够将大脑活动转为文字叙述。 这个研究的价值在于,其证明了非侵入性脑机接口的可能性。

过去科学家虽然通过读取并解码人类脑中的语言活动讯号,开发脑机界面概念性验证,期望有朝一日可以让失去语言能力的人,更容易地与其他人交流,但是过去的实验存在两项主要的限制,而这两项限制也就影响了脑机界面的实用性。
过去的脑机界面解码器,需要执行侵入性的外科手术,而这显然无法适用于大多数用途。 另一个限制,则是来自于fMRI技术,fMRI拥有良好的空间特异性,也就是说,fMRI能够以很高的空间分辨率捕捉脑内活动,精确地在脑中定位出特定区域在特定时间点所出现的变化,这使得研究人员有能力找出脑内特定区域与认知、情感、行为之间的关联。
可惜的是,fMRI所用来反映大脑活动的血氧信号BOLD(Blood Oxygen Level Dependent)却很缓慢,导致fMRI的时间分辨率很低,一般来说自然语言的节奏,大脑每秒处理两个单字以上,也就是说fMRI所拍摄到的每张脑图像,可能受超过20个单字影响,因此要解码连续语言,还需要解决fMRI捕捉脑活动不够敏感的问题。
而研究人员研发出一种能够猜测候选单字序列的解码器来克服这个问题,该解码器根据记录的脑反应,评估每个候选序列的可能性,最终选择出最佳的序列,而这个解码器便能够用于处理连续自然语言。
为了将单字序列与受试者的脑反应相比较,研究人员训练了一个编码模型,该模型能够预测受试者的脑对自然语言短语所产生反应,通过比较脑反应纪录,以及受试者的脑反应,就能推测出受试者正在听,或是想象的候选序列可能性。
每个受试者穿戴fMRI扫描器,听了16个小时的Podcast,研究人员使用解码器和语言模型GPT,将受试者的大脑活动转换成有意义的文字内容。 虽然目前这项研究还在很初期的阶段,但是对于部分刺激,解码器已经可以正确解析出特定的单词,并且生成意思相近的语句。