大规模医学图像中的计算与学习问题【VALSE Webinar】Panel实录

程一-计算所 · 发表于 2020-6-11 19:50:03

原文链接：https://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651125303&idx=1&sn=23910c9fb1485db0ec3fc7f5021eb8fb&chksm=84e6df66b3915670372b51bf3821df6473633ead84ffec395d62ca9961fba00e3eb9e2214b8d&token=1529918347&lang=zh_CN#rd

编者按：相比自然图像，医学图像中又会存在哪些计算与学习问题呢？VALSE Webinar 20-12期邀请闫轲（PAII美国东部研究院）、李硕（加拿大西安大略大学）、郑国焱（上海交通大学）、窦琪（香港中文大学）、隋尧（哈佛大学）、夏勇（西北工业大学）针对“大规模医学图像中的计算与学习问题”开展了深入探讨，本文是该次讨论的文字实录，共计5个议题。文字整理：班瀚文。

议题1
由于成像设备和扫描参数等的不同，医学图像的质量会存在比较大的差异，从而会导致模型某些数据集上性能有所下降。对于这个问题，目前有没有比较好的解决方案？

郑国焱：我们最近在做软骨分割，在自己的合作伙伴医院有设立了金标准。软骨分割非常困难，本身从影像上看不到，如果不打造影剂的话，医生有时候都很容易犯错误。同时，哈佛也有意愿进行团队合作。但是他们因为麻烦所以不愿意标注，拿我们的模型直接应用的话，在使用上性能就很差。利用Unsupervised domain adaptation 可以在一定程度上解决这个问题。我们最近的一个工作的基本思路是用预测结果的entropy来guide domain adaptation，从而提升在target domain的分割效果。
窦琪：我报告中的内容基本回答了这个问题，总结来说，一方面通过扩大数据集的来源可以在实际应用中缓解泛化困难，另一方面可以通过技术上的手段基于领域自适应，弱监督学习，迁移学习，元学习等方法处理这个问题。
闫轲：图像之间的domain adaptation可能由多种原因造成，除了成像质量和参数不同外，还有可能因为数据集本身是在不同医院采集，病人的population不一样，医生的标注标准也不一样，导致在一个数据集中他是肺炎的标准，到另外一个数据集上可能就不是肺炎了。今年有关论文表述在不同的ChestX-Ray数据集之间，比如用一个数据集去训，用另外一个数据集去测，同样的一个类别可能只能达到一个60%的准确度，标签之间的不一致性也是造成模型性能下降的一个重要原因。这个问题可以使用一些方式去改善性能，最简单的是先要在一个数量大的数据集预训练，再到另外一个数量小的数据集上去微调，或者用一些multi-task learning的方法。
郑国焱：Entropy guided domain adaptation 基本思路是：用source domain 带标签数据训练的模型apply到来自source domain数据时，预测结果精度高，entropy低；但如果将该模型直接apply到target domain 数据上时，预测得到的结果的精度低，entropy高。提升在target domain 数据上结果的方法是试图要求这时预测结果的确定性也要高，即低entropy。这可以通过设计一个adversarial loss来间接地最小化entropy，本质上是在全局意义上匹配source domain和target domain上预测结果的entropy，再结合其它的一些loss，提升在target domain的分割效果。
夏勇：我最初的考虑是，如果图像质量不一样，是否可以做一些图像的变换或生成，从而把测试数据的质量向训练数据靠近一点。也做了一点尝试，但感觉难度还是比较大。我用图像生成的方法做了一点实验，发现图像生成的问题是太依赖于训练GAN的数据了，如果训练GAN的数据里有一些类别上的偏差，这个偏差可能会带到生成的数据里面去，以至于会带来更多的问题。
李硕：医学图像中的variety一直是困扰我们从医学数据走向医学大数据的一个最主要问题。不仅仅是扫描设备的问题，其实还存在有很多问题；比如不同的医院或者医生使用稍微不同的protocal。我们大概在2014年的时候开始关注这个问题，开始做一系列的工作，目前关注者增多，存在的挑战非常的多，将会是从医学图像走向医学数据分析的一个最主要的障碍。在这个过程中我们大致做了一些工作，其中一个把它叫做M3 segmentation (DOI:10.1109/TMI.2014.2365746)。M3就是multiple anatomic structures in multiple anatomic planes from multiple imaging modalities。这个M就是不同的modality，不同的部分，不同的各种各样不仅仅是采集参数了的CT或MRI，不管从哪一个部分，都要能进行分割。这个在TMI、MICCAI (Multi-Task Shape Regression for Medical Image Segmentation， MICCAI2016)的oral presentation上发表过，当时deep-learning、meta-learning或者是GAN可能都还没有的时候，我们可以通过从传统的机器学习的领域上去考虑。是否可以把图像分割转化成shape再进行边缘regression，把分割的问题变化成shape的regression，通过对于shape的regression可以去掉非常robust的对一部分的variation，但不是所有的。在M3 segmentation、span segmentation这篇文章里面汇报了我们的一些观点。后续我们又陆续做了一些这个方面的探讨，比如SpineGAN (doi: 10.1016/j.media.2018.08.005--，实际上所有的数据都来源于不同的机器，不同的年代，不同的医院。因为医学的数据本身获取比较难，我们就把所有能够找到的数据都放到一起用。对于新的meta-learning，在我们这个领域里面会有更多的共鸣。但是即使没有那些，我们可以用传统的或基础的机器学习的东西从事工作。
隋尧：讨论区留言提问，请问各位老师，归一化窗宽（即灰度阶的dynamic range）和窗位是不是能够彻底解决问题1？在我看来，做这种归一化，基本上对解决问题1不会有太大帮助。单就MRI而言，就算同同一个人的数据，可能在不同的MRI scanner上扫出来的数据都会有bias和variety。成像的机器有1.5T、3T的，还有像素的property不同，sequence的设计不同，都会导致最终得到的数据不同。所以说问题1彻底解决还要走很长的一段路。
郑国焱：关于李硕教授最终谈论的问题，再发表一下个人意见，做shape regression等同于特征，不同的图像，特征上肯定是有对应关系的，虽然图像质量上可能有差别。

议题2
将自然景物图像预训练的模型应用于医学图像分析任务时，可能存在一些域适应的问题。因此，近来有人尝试用不相关的医学图像分析任务做预训练（例如Models Genesis和MedicalNet），但也有人认为这样预训练的模型并不能真的带来性能的提高。各位老师如何看待这种预训练方式？

郑国焱：自然景物里面有很多颜色，一般应该是背景特别复杂，前景相对比较简单。医学图像相反，是有结构化信息的，比如说左边一个肾，右边一个肾，心脏跟肺的这些相对的位置关系，这都是有一个相对之间的约束。所以这里提到的Models Genesis无论在自然景物还是在医学图像领域，还是很有趣的。当然也有人认为这样的预训练模型并不能真的带来性能提高，我认为这取决于看问题的角度，如果有非常强的supervision，比如有很好的label数据，那有可能这种训练达不到supervised learning，但这种self-supervised，当什么条件也没有的时候，这个东西还是可以起到一定的效果。
隋尧：究竟会不会带来性能提高，这个问题和议题一也会有一定的相关度。
李硕：这方面我们尝试的结果是没有办法得出一个准确的结论。做医学应用的时候，很多情况是有这么多米就得做这么多饭。如果有时候没有足够label的话就得想出其他的预训练达到目标。如果在这个应用上有足够多的label数据，不管是用自然图像，还是用其他的医学图像来做预训练，效果并不明显。如果所做的应用上数据不足，那么预训练在这个数据集上可能够带来的性能提高，但是并没有理论上的保障，很难说deep learning的training尤其是预训练能达到一个什么样的结果。再把预训练的结果用到应用上，这时候纯粹取决于运气好坏，运气好，则结果好。这次训练的效果好，下一次训练的结果不一定好。但是不管好坏，目前为止，好像没有理论可以解释或预测，用何种数据集来做预训练会对应用的数据集产生推动。目前还没有找到理论，实践中我们发现纯粹靠运气。如果在应用上有足够多的数据，或能够通过data augmentation等其他方式，获得足够多或相对多的数据，那么在本身的数据集上做完整的training结果最好。如果没有，在其他地方找一些预训练的方式，不同的filter来找不同的feature，有的filter正好能够在应用上得到好处，有的则不能。目前来说还不知道任何一个理论能够对此做出具体的预测或保障。
隋尧：总结来看，这种方法主要还是取决于数据上的质量。很多初学者都会问，为什么用自然图像做预训练会起作用呢？
窦琪：对于这个问题，在现在没有theoretical guarantee的情况下，和当前手头的数据集以及task是非常相关的。大家的可以先尝试，如果预训练的model能够提高精确度，就可以使用预训练的模型，如果不能的话就可以考虑自己设计模型。对于ImageNet预训练能够在MedicalNet上面有效果，这取决比较的基准是什么，如果是跟train from scratch相比的话，预训练模型通常会有效果，即使想象中自然图像和医学图像domain gap比较大。但是如果从CNN本质上在学什么东西的角度去解释，网络的lower-level 提取基本特征比如边缘信息，对比度等，即使图像内容有差别但底层是相通的，所以通过学习这样的一些预训练，模型可以得到一个比较好的初始化状态。但是实用方面来讲，还是要从实验效果和模型性能来看，另外用预训练模型其网络结构会受到既定限制。
闫轲：如果医学数据库比较大，可能预训练就没有太明显的作用。去年谷歌发表的一篇文章中描述用了20万的眼底图像和胸片图像最后发现预训练没有太大的效果。平时我们的数据都比较小，可能几十几百个CT或MR的数据，我的经验是预训练不管是用ImageNet，还是用Models Genesis都会有一些帮助。ImageNet可能是学了一些共同的底层特征，这些底层特征不管是医学图像还是自然图像都是需要的，我们主要是微调后面的一些高层特征。另外DeepLesion信息比较大，如果用DeepLesion去做预训练检测网络再用到LiTS数据集上去做肝肿瘤的检测，效果会有所提高。所以预训练还是会有所帮助的。
夏勇：使用像ImageNet这样的数据做预训练，可以得到各种的底层特征。这些特征有的是有效的，有的是无效的。对于一个这样的预训练模型，如果去做一些剪枝，是否比fine tune模型的复杂度低一点？对底层做一些剪枝，把那些无效的神经元删掉，只是fine tune一个比较轻量化的模型，效果是否会提高？

议题3
使用影像以外的医学数据联合进行诊断无疑是非常必要的，但这方面的研究还是相对较少，其困难主要有哪些？

郑国焱：这个问题很有价值，我认为使用影像以外的医学数据联合进行诊断的研究比较多。有些好的杂志现在纯粹的靠影像来做AI诊断的方面上已经发不出来文章了。前几年，如果要做一个大的数据的AI诊断，例如糖尿病、皮肤癌的诊断，纯粹的是用GoogleNet在JAMA、新英格兰或者是Nature上发表文章，现在是比较困难的。之所以现在看到的研究比较少，可能就是纯影像杂志刊登的这方面文章比较少。其中原因很简单，影像之外的图像数据的获取相对比较困难，也相对比较昂贵。比如现在很多人做radiomics，本科毕业设计都让学生做radiomics，但是加genomics进去就需要找测序，但测序成本昂贵而且还存在获得之后怎么使用的问题。目前的状况我个人认为有两个原因使得大家产生这种印象，一是本行当里这种研究的文章相对比较少，因为做图像分析，大家更感兴趣的是纯粹影像的方法。那么往外扩一点，影响因子比较高的一些高端杂志，关于这方面研究应该挺多的。二是因为纯粹做影像的人要使用这些数据，可能有经费、处理数据、收集数据的困难。
隋尧：大家可以查阅医学相关交叉领域的文献，会对我们的工作帮助非常大。
李硕：我同意郑老师的看法，我们做影像的人觉得这方面研究很少，实际上如果现在要想做大规模数据“自动”分析的话，影像和其他数据在一起分析是不是多的。其中的原因实际上不完全被大家所了解，一方面是把它结合的人的触动点很多时候不是影像。另一方面是因为影像的数据，现在很难做大规模的自动分析。举例说明，前段时间有一个人有genomics的信息，他要求我给他做一个心脏的分割或者是心脏所有参数的测算模型，可以在4万个不同来源的病人身上，都能取得非常好的效果。又回到前面讲的那个问题，现在目前来说，能够在不同的数据集上，尤其是在看不见且不允许查看数据的情况下获得4万个好的结果，其实我们做影像的人还没有做到那么好。在这方面我们最近有个工作 (https://doi.org/10.1016/j.media.2020.101640)，就是把pathology的信息抽取出来，和病人的文本信息联合起来，来做这个liver cancer risk的estimation，估算肝癌病人的survival rate，我们发现从图像上抽取出来的特征，能够比其他的以前医学界所使用的一些文本信息做出的估算，提高10%的精确度。所以说在图像当中确实存在一些可以提高精确度的特征，可以和文本的特征加以融合，这对于所有做影像的人来说是一个机会。

议题4
AI不仅要赋能医生，医生也要赋能AI，而且不仅仅是提供标注数据，而是要在诊断的过程中完成医生与AI的合作。但目前的医学影像智能分析过程很少引入医生的角色，各位老师对这方面有何建议？

郑国焱：关于这个问题我有个困惑，现在AI的诊断，哪个能离开医生的输入？哪个医院敢单纯凭AI程序的诊断就可以做出决策？现在AI还只是医院的一个工具，无论是用什么高端的科技做出诊断，最后签字的是医生。目前还没有医院诊断完全是用程序做出来的，起码最后医生要确认核实一下。所以诊断跟医生早已合作，这个问题是一个很好的问题，也是将来的一个方向，如何在医学影像智能分析过程中引入医生的角色，现在也有这方面的研究，比如active learning里面如何将difficult case引入医生之间的标注来提高深度学习或者是一些工具的性能。目前我认为没有非常好的框架，有的效果有用，有的效果尝试后就没什么用，这个可能是待研究的方向。个人认为，医生肯定参与了诊断过程，在医学影像智能分析过程中医生的参加还有待于进一步的研究。
窦琪：这个问题我涉及的比较少但是很重要。我们之前和医生合作过一个比较简单的放疗靶区辅助勾画的工作，以交互的方式探讨AI模型如何帮助放疗技师提高勾画的效率以及精确度。实验设计的大概流程如下，把AI prediction的结果导入到放疗科医生标注的系统里，在医生标注的时候，提前预导入AI的结果，让医生在这个结果上面进行修改，修改完成后我们记录在AI辅助的情况下，医生标注的准确度和效率有了怎样的变化，同时我们注意到不同医生之前标注的一致性也有所提高。医生如何反过来赋能AI除了在数据的标注还有对于AI的输出有一个校准的同时，还要去发挥更多的想象，有没有更多的可能性、更多的方式医生可以反过来赋能AI，这个也是我们正在思考的问题，相信很多领域内其他的朋友也在考虑类似的问题。
闫轲：我们每个人做了医学图像，实际上都是要接触很多医生，要从医生那去了解需求，要请医生跟我们标一些数据，我们拿到标注后的数据再训练，训练完成后再请医生查看结果好坏。实际上我们都是采用互相协助互相赋能的过程。比如我们把一个病灶检测的结果给医生看，医生发现，我们的结果能够找到一些他们都没有找到的病灶。医生平时比较忙，所以我们也希望在模型的训练阶段可以采取这种交互式的模式，医生标注小部分病灶，我们再去训练模型，在一个大的model无监督的区域上去预测，再把这些结果给医生查看，医生再去找到预测错的地方，再去修改，再去翻修模型。但是在医学智能分析诊断的过程中，如何引用医生的决策，确实还是一个问题。

议题5
近年来，对网络结构搜索和自动机器学习的研究收到了很大关注，进展也很快。网络结构搜索和自动机器学习是否也应该被用于医学图像分析？目前的主要障碍是什么？

窦琪：我自己没有做过这个，但是我之前在帝国理工做博后的课题组有其他同事在做，当时有一些讨论。现在的一些SOTA的网络结构搜索的方法可以在医学影像进行应用。此外，个人建议结合医学影像的特点进行方法创新也值得思考。
闫轲：我的同事郭大洲做过这方面的研究，发现网络结构搜索是可以用在医学图像分割上的，发表了今年的CVPR。他们用的是一种Differentiable NAS的算法用来搜索不同的2d，3d以及pseudo 3d卷积的组合，有一些比较有趣的发现，比如2D和2.5D的组合也可以很好的完成3D分割的任务，而在小目标问题上3D卷积效果更好。我觉得网络搜索的主要障碍之一可能是计算量的问题。不过如果用Differentiable NAS的话，计算量也可以降到一个可以接受的地步。

观众提问
有一个最新的问题说，对于某种具体的病灶，要实现能够匹配或者搜索检索，一定需要一定量的训练样本，能不能给出一个大概的样本数量规模要求？

闫轲：这个问题问的是对于某种具体的病灶，我之前做的是各种病灶，那个数据规模大概是3万个样本或者2万个样本，就是十的四次方的规模，如果是具体的某种病灶的话，可能需要的数量会更少一点。当然多样化是一个关键，像匹配检索需要尽可能地去覆盖各种各样的appearance，这样找到的东西才有意义。

VALSE Webinar改版说明：
自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：
1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。
2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

活动参与方式：
1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；
2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I、J、K群已满，除讲者等嘉宾外，只能申请加入VALSE M群，群号：531846386）；
*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。
3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；
4、活动过程中，请不要说无关话语，以免影响活动正常进行；
5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；
6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；
7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。
8、Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新[slides]。
9、Webinar报告的视频（经讲者允许后），会更新在VALSE爱奇艺、B站、西瓜视频，请在搜索Valse Webinar进行观看。