VALSE

查看: 5821|回复: 0

大规模医学图像中的计算与学习问题【VALSE Webinar】Panel实录

[复制链接]

124

主题

124

帖子

2274

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2274
发表于 2020-6-11 19:50:03 | 显示全部楼层 |阅读模式
原文链接:https://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651125303&idx=1&sn=23910c9fb1485db0ec3fc7f5021eb8fb&chksm=84e6df66b3915670372b51bf3821df6473633ead84ffec395d62ca9961fba00e3eb9e2214b8d&token=1529918347&lang=zh_CN#rd

编者按:相比自然图像,医学图像中又会存在哪些计算与学习问题呢?VALSE Webinar 20-12期邀请 闫轲(PAII美国东部研究院)、李硕(加拿大西安大略大学)、郑国焱(上海交通大学)、窦琪 (香港中文大学)、隋尧(哈佛大学)、夏勇(西北工业大学)针对“大规模医学图像中的计算与学习问题”开展了深入探讨,本文是该次讨论的文字实录,共计5个议题。文字整理:班瀚文。

议题1
由于成像设备和扫描参数等的不同,医学图像的质量会存在比较大的差异,从而会导致模型某些数据集上性能有所下降。对于这个问题,目前有没有比较好的解决方案?

郑国焱:我们最近在做软骨分割,在自己的合作伙伴医院有设立了金标准。软骨分割非常困难,本身从影像上看不到,如果不打造影剂的话,医生有时候都很容易犯错误。同时,哈佛也有意愿进行团队合作。但是他们因为麻烦所以不愿意标注,拿我们的模型直接应用的话,在使用上性能就很差。利用Unsupervised domain adaptation 可以在一定程度上解决这个问题。我们最近的一个工作的基本思路是用预测结果的entropy来guide domain adaptation,从而提升在target domain的分割效果。
窦琪:我报告中的内容基本回答了这个问题,总结来说,一方面通过扩大数据集的来源可以在实际应用中缓解泛化困难,另一方面可以通过技术上的手段基于领域自适应,弱监督学习,迁移学习,元学习等方法处理这个问题。
闫轲:图像之间的domain adaptation可能由多种原因造成,除了成像质量和参数不同外,还有可能因为数据集本身是在不同医院采集,病人的population不一样,医生的标注标准也不一样,导致在一个数据集中他是肺炎的标准,到另外一个数据集上可能就不是肺炎了。今年有关论文表述在不同的ChestX-Ray数据集之间,比如用一个数据集去训,用另外一个数据集去测,同样的一个类别可能只能达到一个60%的准确度,标签之间的不一致性也是造成模型性能下降的一个重要原因。这个问题可以使用一些方式去改善性能,最简单的是先要在一个数量大的数据集预训练,再到另外一个数量小的数据集上去微调,或者用一些multi-task learning的方法。
郑国焱:Entropy guided domain adaptation 基本思路是:用source domain 带标签数据训练的模型apply到来自source domain数据时,预测结果精度高,entropy低;但如果将该模型直接apply到target domain 数据上时,预测得到的结果的精度低,entropy高。提升在target domain 数据上结果的方法是试图要求这时预测结果的确定性也要高,即低entropy。这可以通过设计一个adversarial loss来间接地最小化entropy,本质上是在全局意义上匹配source domain和target domain上预测结果的entropy,再结合其它的一些loss,提升在target domain的分割效果。
夏勇:我最初的考虑是,如果图像质量不一样,是否可以做一些图像的变换或生成,从而把测试数据的质量向训练数据靠近一点。也做了一点尝试,但感觉难度还是比较大。我用图像生成的方法做了一点实验,发现图像生成的问题是太依赖于训练GAN的数据了,如果训练GAN的数据里有一些类别上的偏差,这个偏差可能会带到生成的数据里面去,以至于会带来更多的问题。
李硕:医学图像中的variety一直是困扰我们从医学数据走向医学大数据的一个最主要问题。不仅仅是扫描设备的问题,其实还存在有很多问题;比如不同的医院或者医生使用稍微不同的protocal。我们大概在2014年的时候开始关注这个问题,开始做一系列的工作,目前关注者增多,存在的挑战非常的多,将会是从医学图像走向医学数据分析的一个最主要的障碍。在这个过程中我们大致做了一些工作,其中一个把它叫做M3 segmentation (DOI:10.1109/TMI.2014.2365746)。M3就是multiple anatomic structures in multiple anatomic planes from multiple imaging modalities。这个M就是不同的modality,不同的部分,不同的各种各样不仅仅是采集参数了的CT或MRI,不管从哪一个部分,都要能进行分割。这个在TMI、MICCAI (Multi-Task Shape Regression for Medical Image Segmentation, MICCAI2016)的oral presentation上发表过, 当时deep-learning、meta-learning或者是GAN可能都还没有的时候,我们可以通过从传统的机器学习的领域上去考虑。是否可以把图像分割转化成shape再进行边缘regression,把分割的问题变化成shape的regression,通过对于shape的regression可以去掉非常robust的对一部分的variation,但不是所有的。在M3 segmentation、span segmentation这篇文章里面汇报了我们的一些观点。后续我们又陆续做了一些这个方面的探讨,比如SpineGAN (doi: 10.1016/j.media.2018.08.005--,实际上所有的数据都来源于不同的机器,不同的年代,不同的医院。因为医学的数据本身获取比较难,我们就把所有能够找到的数据都放到一起用。对于新的meta-learning,在我们这个领域里面会有更多的共鸣。但是即使没有那些,我们可以用传统的或基础的机器学习的东西从事工作。
隋尧:讨论区留言提问,请问各位老师,归一化窗宽(即灰度阶的dynamic range)和窗位是不是能够彻底解决问题1?在我看来,做这种归一化,基本上对解决问题1不会有太大帮助。单就MRI而言,就算同同一个人的数据,可能在不同的MRI scanner上扫出来的数据都会有bias和variety。成像的机器有1.5T、3T的,还有像素的property不同,sequence的设计不同,都会导致最终得到的数据不同。所以说问题1彻底解决还要走很长的一段路。
郑国焱:关于李硕教授最终谈论的问题,再发表一下个人意见,做shape regression等同于特征,不同的图像,特征上肯定是有对应关系的,虽然图像质量上可能有差别。

议题2
将自然景物图像预训练的模型应用于医学图像分析任务时,可能存在一些域适应的问题。因此,近来有人尝试用不相关的医学图像分析任务做预训练(例如Models Genesis和MedicalNet),但也有人认为这样预训练的模型并不能真的带来性能的提高。各位老师如何看待这种预训练方式?

郑国焱:自然景物里面有很多颜色,一般应该是背景特别复杂,前景相对比较简单。医学图像相反,是有结构化信息的,比如说左边一个肾,右边一个肾,心脏跟肺的这些相对的位置关系,这都是有一个相对之间的约束。所以这里提到的Models Genesis无论在自然景物还是在医学图像领域,还是很有趣的。当然也有人认为这样的预训练模型并不能真的带来性能提高,我认为这取决于看问题的角度,如果有非常强的supervision,比如有很好的label数据,那有可能这种训练达不到supervised learning,但这种self-supervised,当什么条件也没有的时候,这个东西还是可以起到一定的效果。
隋尧:究竟会不会带来性能提高,这个问题和议题一也会有一定的相关度。
李硕:这方面我们尝试的结果是没有办法得出一个准确的结论。做医学应用的时候,很多情况是有这么多米就得做这么多饭。如果有时候没有足够label的话就得想出其他的预训练达到目标。如果在这个应用上有足够多的label数据,不管是用自然图像,还是用其他的医学图像来做预训练,效果并不明显。如果所做的应用上数据不足,那么预训练在这个数据集上可能够带来的性能提高,但是并没有理论上的保障,很难说deep learning的training尤其是预训练能达到一个什么样的结果。再把预训练的结果用到应用上,这时候纯粹取决于运气好坏,运气好,则结果好。这次训练的效果好,下一次训练的结果不一定好。但是不管好坏,目前为止,好像没有理论可以解释或预测,用何种数据集来做预训练会对应用的数据集产生推动。目前还没有找到理论,实践中我们发现纯粹靠运气。如果在应用上有足够多的数据,或能够通过data augmentation等其他方式,获得足够多或相对多的数据,那么在本身的数据集上做完整的training结果最好。如果没有,在其他地方找一些预训练的方式,不同的filter来找不同的feature,有的filter正好能够在应用上得到好处,有的则不能。目前来说还不知道任何一个理论能够对此做出具体的预测或保障。
隋尧:总结来看,这种方法主要还是取决于数据上的质量。很多初学者都会问,为什么用自然图像做预训练会起作用呢?
窦琪:对于这个问题,在现在没有theoretical guarantee的情况下,和当前手头的数据集以及task是非常相关的。大家的可以先尝试,如果预训练的model能够提高精确度,就可以使用预训练的模型,如果不能的话就可以考虑自己设计模型。对于ImageNet预训练能够在MedicalNet上面有效果,这取决比较的基准是什么,如果是跟train from scratch相比的话,预训练模型通常会有效果,即使想象中自然图像和医学图像domain gap比较大。但是如果从CNN本质上在学什么东西的角度去解释,网络的lower-level 提取基本特征比如边缘信息,对比度等,即使图像内容有差别但底层是相通的,所以通过学习这样的一些预训练,模型可以得到一个比较好的初始化状态。但是实用方面来讲,还是要从实验效果和模型性能来看,另外用预训练模型其网络结构会受到既定限制。
闫轲:如果医学数据库比较大,可能预训练就没有太明显的作用。去年谷歌发表的一篇文章中描述用了20万的眼底图像和胸片图像最后发现预训练没有太大的效果。平时我们的数据都比较小,可能几十几百个CT或MR的数据,我的经验是预训练不管是用ImageNet,还是用Models Genesis都会有一些帮助。ImageNet可能是学了一些共同的底层特征,这些底层特征不管是医学图像还是自然图像都是需要的,我们主要是微调后面的一些高层特征。另外DeepLesion信息比较大,如果用DeepLesion去做预训练检测网络再用到LiTS数据集上去做肝肿瘤的检测,效果会有所提高。所以预训练还是会有所帮助的。
夏勇:使用像ImageNet这样的数据做预训练,可以得到各种的底层特征。这些特征有的是有效的,有的是无效的。对于一个这样的预训练模型,如果去做一些剪枝,是否比fine tune模型的复杂度低一点?对底层做一些剪枝,把那些无效的神经元删掉,只是fine tune一个比较轻量化的模型,效果是否会提高?

议题3
使用影像以外的医学数据联合进行诊断无疑是非常必要的,但这方面的研究还是相对较少,其困难主要有哪些?

郑国焱:这个问题很有价值,我认为使用影像以外的医学数据联合进行诊断的研究比较多。有些好的杂志现在纯粹的靠影像来做AI诊断的方面上已经发不出来文章了。前几年,如果要做一个大的数据的AI诊断,例如糖尿病、皮肤癌的诊断,纯粹的是用GoogleNet在JAMA、新英格兰或者是Nature上发表文章,现在是比较困难的。之所以现在看到的研究比较少,可能就是纯影像杂志刊登的这方面文章比较少。其中原因很简单,影像之外的图像数据的获取相对比较困难,也相对比较昂贵。比如现在很多人做radiomics,本科毕业设计都让学生做radiomics,但是加genomics进去就需要找测序,但测序成本昂贵而且还存在获得之后怎么使用的问题。目前的状况我个人认为有两个原因使得大家产生这种印象,一是本行当里这种研究的文章相对比较少,因为做图像分析,大家更感兴趣的是纯粹影像的方法。那么往外扩一点,影响因子比较高的一些高端杂志,关于这方面研究应该挺多的。二是因为纯粹做影像的人要使用这些数据,可能有经费、处理数据、收集数据的困难。
隋尧:大家可以查阅医学相关交叉领域的文献,会对我们的工作帮助非常大。
李硕:我同意郑老师的看法,我们做影像的人觉得这方面研究很少,实际上如果现在要想做大规模数据“自动”分析的话,影像和其他数据在一起分析是不是多的。其中的原因实际上不完全被大家所了解,一方面是把它结合的人的触动点很多时候不是影像。另一方面是因为影像的数据,现在很难做大规模的自动分析。举例说明,前段时间有一个人有genomics的信息,他要求我给他做一个心脏的分割或者是心脏所有参数的测算模型,可以在4万个不同来源的病人身上,都能取得非常好的效果。又回到前面讲的那个问题,现在目前来说,能够在不同的数据集上,尤其是在看不见且不允许查看数据的情况下获得4万个好的结果,其实我们做影像的人还没有做到那么好。在这方面我们最近有个工作 (https://doi.org/10.1016/j.media.2020.101640),就是把pathology的信息抽取出来,和病人的文本信息联合起来,来做这个liver cancer risk的estimation,估算肝癌病人的survival rate,我们发现从图像上抽取出来的特征,能够比其他的以前医学界所使用的一些文本信息做出的估算,提高10%的精确度。所以说在图像当中确实存在一些可以提高精确度的特征,可以和文本的特征加以融合,这对于所有做影像的人来说是一个机会。

议题4
AI不仅要赋能医生,医生也要赋能AI,而且不仅仅是提供标注数据,而是要在诊断的过程中完成医生与AI的合作。但目前的医学影像智能分析过程很少引入医生的角色,各位老师对这方面有何建议?

郑国焱:关于这个问题我有个困惑,现在AI的诊断,哪个能离开医生的输入?哪个医院敢单纯凭AI程序的诊断就可以做出决策?现在AI还只是医院的一个工具,无论是用什么高端的科技做出诊断,最后签字的是医生。目前还没有医院诊断完全是用程序做出来的,起码最后医生要确认核实一下。所以诊断跟医生早已合作,这个问题是一个很好的问题,也是将来的一个方向,如何在医学影像智能分析过程中引入医生的角色,现在也有这方面的研究,比如active learning里面如何将difficult case引入医生之间的标注来提高深度学习或者是一些工具的性能。目前我认为没有非常好的框架,有的效果有用,有的效果尝试后就没什么用,这个可能是待研究的方向。个人认为,医生肯定参与了诊断过程,在医学影像智能分析过程中医生的参加还有待于进一步的研究。
窦琪:这个问题我涉及的比较少但是很重要。我们之前和医生合作过一个比较简单的放疗靶区辅助勾画的工作,以交互的方式探讨AI模型如何帮助放疗技师提高勾画的效率以及精确度。实验设计的大概流程如下,把AI prediction的结果导入到放疗科医生标注的系统里,在医生标注的时候,提前预导入AI的结果,让医生在这个结果上面进行修改,修改完成后我们记录在AI辅助的情况下,医生标注的准确度和效率有了怎样的变化,同时我们注意到不同医生之前标注的一致性也有所提高。医生如何反过来赋能AI除了在数据的标注还有对于AI的输出有一个校准的同时,还要去发挥更多的想象,有没有更多的可能性、更多的方式医生可以反过来赋能AI,这个也是我们正在思考的问题,相信很多领域内其他的朋友也在考虑类似的问题。
闫轲:我们每个人做了医学图像,实际上都是要接触很多医生,要从医生那去了解需求,要请医生跟我们标一些数据,我们拿到标注后的数据再训练,训练完成后再请医生查看结果好坏。实际上我们都是采用互相协助互相赋能的过程。比如我们把一个病灶检测的结果给医生看,医生发现,我们的结果能够找到一些他们都没有找到的病灶。医生平时比较忙,所以我们也希望在模型的训练阶段可以采取这种交互式的模式,医生标注小部分病灶,我们再去训练模型,在一个大的model无监督的区域上去预测,再把这些结果给医生查看,医生再去找到预测错的地方,再去修改,再去翻修模型。但是在医学智能分析诊断的过程中,如何引用医生的决策,确实还是一个问题。

议题5
近年来,对网络结构搜索和自动机器学习的研究收到了很大关注,进展也很快。网络结构搜索和自动机器学习是否也应该被用于医学图像分析?目前的主要障碍是什么?

窦琪:我自己没有做过这个,但是我之前在帝国理工做博后的课题组有其他同事在做,当时有一些讨论。现在的一些SOTA的网络结构搜索的方法可以在医学影像进行应用。此外,个人建议结合医学影像的特点进行方法创新也值得思考。
闫轲:我的同事郭大洲做过这方面的研究,发现网络结构搜索是可以用在医学图像分割上的,发表了今年的CVPR。他们用的是一种Differentiable NAS的算法用来搜索不同的2d,3d以及pseudo 3d卷积的组合,有一些比较有趣的发现,比如2D和2.5D的组合也可以很好的完成3D分割的任务,而在小目标问题上3D卷积效果更好。我觉得网络搜索的主要障碍之一可能是计算量的问题。不过如果用Differentiable NAS的话,计算量也可以降到一个可以接受的地步。

观众提问
有一个最新的问题说,对于某种具体的病灶,要实现能够匹配或者搜索检索,一定需要一定量的训练样本,能不能给出一个大概的样本数量规模要求?

闫轲:这个问题问的是对于某种具体的病灶,我之前做的是各种病灶,那个数据规模大概是3万个样本或者2万个样本,就是十的四次方的规模,如果是具体的某种病灶的话,可能需要的数量会更少一点。当然多样化是一个关键,像匹配检索需要尽可能地去覆盖各种各样的appearance,这样找到的东西才有意义。


VALSE Webinar改版说明:
自2019年1月起,VALSE Webinar改革活动形式,由过去每次一个讲者的方式改为两种可能的形式:
1)Webinar专题研讨:每次活动有一个研讨主题,先邀请两位主题相关的优秀讲者做专题报告(每人30分钟),随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论(30分钟)。
2)Webinar特邀报告:每次活动邀请一位资深专家主讲,就其在自己熟悉领域的科研工作进行系统深入的介绍,报告时间50分钟,主持人与主讲人互动10分钟,自由问答10分钟。

活动参与方式:
1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互;
2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G、H、I、J、K群已满,除讲者等嘉宾外,只能申请加入VALSE M群,群号:531846386);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备;
4、活动过程中,请不要说无关话语,以免影响活动正常进行;
5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;
6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接;
7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。
8、Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新[slides]。
9、Webinar报告的视频(经讲者允许后),会更新在VALSE爱奇艺、B站、西瓜视频,请在搜索Valse Webinar进行观看。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-11-21 17:06 , Processed in 0.019359 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表