【VALSE前沿技术选介16-12期】

程一-计算所 · 发表于 2016-4-30 21:30:05

http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=503639274&idx=1&sn=1f2f6dca7d92bb1b8e51beca0dfd91f5#rd

【VALSE前沿技术选介16-12期】

今天要介绍的就是这两天引爆朋友圈和微博时间线的大新闻！即最新一期《Nature》的封面论文《Semantic information in natural narrative speech is represented in complex maps that tile human cerebral cortex》[1]。各路科普文章中的“读心术”等字眼为这篇论文引向了引爆点。

那么这篇论文到底和“读心术”有多大关系呢？又有什么重要突破呢？乍一看，这篇论文其实是将常见的 458 个词都映射到了我们人脑中的对应激活部分，并且因为这种对应的激活映射在7个被试中是非常一致的，所以可以认为这篇论文找到了语义和脑区激活的映射关系。那么，这就是这篇论文的最大贡献么？这个贡献背后的难点又是什么？局限和假设又是什么？推广性又如何？在阅读过论文原文后，我尝试着对几个问题给出自己的（可能不正确的）回答。

如果把这 458 个词和脑区的映射关系叫做 semantic map 或者叫做 Brain Dictionary（这篇论文的配套视频起的名字），那么这个 semantic map 的存在并不是这篇论文首先提出的。semantic map，也叫做 semantic system，是指我们人脑中是存在对应的语义系统的，它与脑区存在着一定的联系。而这个 semantic system 的概念的提出，可以追溯到 2009 年[2]。所以，这篇《Nature》的论文[1] 的突破不是 semantic map/semantic system 的提出，而是验证了 semantic selectivity。具体来说，大家早就认识和观察到不同的词/语义会有对应的脑区，但是无法确定这种脑区和语义的紧密联系，更无法确定这种联系对于每个个体都是一致的，也就无法验证 semantic selectivity。所以，一个自然的问题就是，为啥过去的人验证不出来？他们能验证出来？通过读论文[1]，我认为有两个原因：（1）过去基本都是用独立的词或者词组作为测试，而不是用完整的描述性的句子。这篇论文[1] 是首创用2小时听故事的形式来做检测。（2）但是用连续的文本，一段故事来做检测也不是首创，比如在2015年也有人这么做了[3]，可是仍然没有观察到不同个体之间的 consistency。这就不得不归结于这篇论文的第二个贡献，可能也是最大的贡献。他们提出了一种新方法，叫“PrAGMATiC”的概率和生成模型。这个模型由两部分组成，arrangement 部分（probabilistic）和 emission 部分（generative），成功解决了 fMRI 脑成像建模很困难，受噪音等影响太严重的问题。

由于这个 semantic selectivity 的突破，这篇论文得到了和前人有些相违背的研究结果，其中（1）是最重要的结果：（1）人脑对于语义的响应并不是只集中于左脑的，而是左右脑几乎“对称”的。这个“对称”并不是说语义内容完全内容，比如一个词同时几乎激活左脑的 A 区和对称的右脑的 B区。而是说，左右脑都有相等程度的激活，左脑有77个语义区，右脑有63个。（2）右脑可能对于这种叙述性的语义参与的更多，因为当只用独立的词或者词组做实验时，确实是左脑集中参与，右脑几乎没反应。（3）以前的研究都觉得每个人的脑区激活差异非常大，但是他们的7个被试的激活非常相似，尤其是前6个人，几乎是高度一致。

关于上面说的（3），其实就有一些很容易被 challenge 的点。很多人可能会觉得7这个数字太小，但是按照作者的官方 project page 给出的 FQA，认为在认知方面的实验中，这种小范围被试推广成大结论是很 well accepted 的 norm。所以我们在此不讨论。那么这7个人的样本 bias 会不会大呢？按照论文里的描述，“Functional data were collected from five male subjects and two female subjects: S1 (male, age 26), S2 (male, age 32), S3 (female, age 31), S4 (male, age 31), S5 (male, age 26), S6 (female, age 25), and S7 (male, age 30). Two of the subjects were authors (S1: A.G.H.; and S3: W.A.d.H.). All subjects were healthy and had normal hearing. ”还有俩是作者也是……其实可以看出，这7个被试的差异并不那么大，甚至有可能全部是 UCB 的 students/faculty。所以，可能7个被试的文化水平和文化背景都非常相似，那么得出相似的脑激活行为也是可以理解的。但是如果文化背景的影响没那么强烈，就可以引出这篇论文[1]的另一个辅助的推论：之所以这个 semantic selectivity 如此 consistent，很可能是我们人脑的生理基础（婴儿时期）的构造已经 constrain 了我们后续的发展。因此，他们表示未来也考虑探究不同文化背景的人是否有差异。

这篇论文里还有两个小的有意思的结论让我比较感兴趣。（1）他们在做建模时，为了强化 fMRI 的信号，用了一些 additional features，最后在做 prediction 时又去掉了。但是它们发现，加入 emotional 相关的信号对于预测准确度的提升毫无帮助。这个是否是一种 semantic 和 emotion 是可以完全分离的佐证？但是这个结论并不符合现在很多 word embedding space 的研究。（2）这篇论文的作者们发现布洛卡区（非常有名的语言相关区）对于这个 semantic map 的建立是有干扰的。也就是说，作者在建模时，假设的是每个 area 的功能是单一的。作者也认为这是一个 limit。这个 limit 暂时来看很可能会阻碍一些相关研究。比如如果想探究人类的视觉方面的 semantic selectivity 和听觉方面的 semantic selectivity 是否一致，可能暂时就不行。为什么呢，如论文[1]中的一段话：”One limitation of PrAGMATiC as used here is that each area is assumed to be functionally homogeneous. This is a common assumption in the design and analysis of many neuroimaging studies. However, many cortical maps, including semantic maps in visual cortex, seem to contain smoothly changing gradients of representation.

It should be possible to modify the PrAGMATiC algorithm to model functional gradients explicitly. This will provide an objective tool for determining whether the semantic maps found here are best described as homogeneous areas or as gradients.“ 也就是说，视觉的建模已经比较高级了，而现在这个听觉的建模还比较 simplified。如果要横向比较的话，得先把听觉的建模变得更高级一点。

最后，我来试图分析一下这个论文可以之所以能做出别人做不出的好结果的（可能）原因：（1）他们采用的是让被试听故事的方式，而不是读故事。根据[4]的说法，“听觉相关的核磁共振成像研究不好做，因为核磁共振在扫描时会产生很大的噪音，而我们现在的耳机很难完全隔绝那个噪音。所以在设计实验时，一定要小心不能把我们的实验声音所带来的大脑活动和机器噪音所带来的大脑活动弄混淆了（虽然这不能完全避免）”。所以为了让干扰降到最低，作者们专门选了特别引人入胜的故事。让大家能更 concentrate。这也和我之前玩测脑波的仪器的经验想通。不同 genre/material/content 对于注意力的影响是非常大的。（2）虽然个体差异（可能）很大，但是作者们并没有采取和前人一样用 average of individuals as group 的方式，而是利用各种 additional signals 做 feature 增强。同样的，他们用的是 prediction 的方式，而不是用 significance 的 measurement 来探究具体的 activity behaviour。这也为他们能讲激活从左脑扩展到几乎全脑奠定了理论上的可能性。

最后的最后，发现开头一个问题我还没有回答。这篇论文到底和“读心术”有多大关系呢？之前的 semantic system[2] 的研究都是在人们 introspective 等内观冥想的行为下进行的，而这篇论文[1] 是在人们听故事这个有外界 input 的情况下进行的。他们曾经做出的假设是人们在 introspective 和 passive input 的时候，semantic system 激活是一样的。如果真是如此，那么才真的能说“读心术”是可能的了。但是现在这个论文的工作还不足以说明 introspective/no input 时是怎样的，所以“读心术”至少还有一半没有完成！

[1] Alexander G. Huth, Wendy A. de Heer, Thomas L. Griffiths, Frederic E. Theunissen & Jack L. Gallant. "Semantic information in natural narrative speech is represented in complex maps that tile human cerebral cortex". Nature, 2016.

[2] Jeffrey R. Binder, Rutvik H. Desai, William W. Graves and Lisa

L. Conant. "Where Is the Semantic System? A Critical Review and Meta-Analysis of 120 Functional Neuroimaging Studies". 2009.

[3] Leila Wehbe, Brian Murphy, Partha Talukdar, Alona Fyshe, Aaditya Ramdas, Tom Mitchell. "Simultaneously uncovering the patterns of brain regions involved in different story reading subprocesses". PLoS ONE, 9(11): e112575.

[4] 大脑词汇地图——4月27日最新自然封面文章. https://mp.weixin.qq.com/s?__biz ... SX+OSX+10.9.5+build(13F34)&version=11020201&pass_ticket=nFl31Io1eo7%2F0JK1vKu%2FiOGN6Ab0Yce6PiDlbNSXInUE8C7zh7oS9h9ZIiq7QxCZ

【VALSE前沿技术选介16-12期】

相关帖子