图像质量评价：感知建模vs机器学习【VALSE Webinar】Panel实录

程一-计算所 · 发表于 2020-6-16 19:03:22

原文链接：https://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651125313&idx=1&sn=377aa60e338df08ad4dade57761e6228&chksm=84e6df10b39156063d41df34c3c601b0d430c65905f11effbf2d0515aad090cea4e97c9b9a83&token=1499197849&lang=zh_CN#rd

编者按：图像质量评价（Image Quality Assessment, IQA）在众多领域都有着广阔的应用需求，同时图像质量评价又存在着哪些问题呢？VALSE Webinar 2020-13期邀请李雷达（西安电子科技大学）、马柯德（香港城市大学）、王诗淇（香港城市大学）、吴金建（西安电子科技大学）、徐迈（北京航空航天大学）、吴庆波（电子科技大学）针对“图像质量评价：感知建模vs机器学习”开展了深入探讨，本文是该次讨论的文字实录，共计6个议题。文字整理：班瀚文。

议题1

现有算法在经典图像质量评价数据库已经取得极高的精度，IQA已经是一个solved problem吗？有哪些已经获得工业界认可并广泛应用的IQA模型？何时可以说IQA是一个solved problem？

马柯德：当图像视频领域做到什么时候，或者图像质量评估领域做到什么时候， IQA problem是一个solved problem，这里的IQA problem指传统的Full-Reference IQA或者No-Reference IQA。这个指标很好衡量，当没有图像处理领域的工作可以再做了，就意味着图像质量评估工作已经做得很圆满了。换句话说当图像质量评估这个时刻真正来临的时候，任何的图像处理算法都可以不用做了，使用统一的算法来优化图像指标就可以完成。任何的图像增强，任何的超分辨、去模糊，或者任何的图像生成，只要这个问题解决了，都是有一个统一的模型。Full-Reference优化到Full-Reference Metric的时候就可以。No-Reference相当于建了一个natural image的probabilistic的模型，只需要把你的image、noisy image、compressed image或者discrete image，nonlinear project那个probability model，highly likely对应的点上，如果那个模型很好的话，那些对应的点就是需要对应优化的点。

王诗淇：我以前是做compression的，所以从压缩的角度讲一下我对这个问题的一点拙见。如果一个IQA真的解决比较好的话，可以这样考虑，假如现在所有的image size是100×100，dynamic range也是0-255，没有high dynamic range,那么实际上我们是在256的10000次方的高维空间中。那在这个高维空间中做image compression希望什么呢？我们把所有的natural image都找到，然后用一个index，因为natural image是非常非常sparse的，假设是在一个manifold上，那我们有可能把这个natural image找到，用一个无论是什么样的index去encoding，因为image compression实际上是一个表示的问题，如果我们能把这个东西encode好的话，实际上就可以把这个natural image从这个高维空间中给extract出来。我一直认为图像质量评价会和image compression有一定的联系，那么从图像质量评价中如果能把natural image给collect起来，或者说映射到一个什么样的space上，这样可以从一个工业界的角度解决图像质量评价的问题。另外，现在有FR的quality assessment以及No-Reference quality assessment，我的理解FR实际上是一个fidelity measure，为什么是fidelity measure？因为实际上reference是可以change的，一个图像，我把pixel变化了以后，比如沿着JND的profile变化，实际上reference还是一个pristine的reference，但实际上算出来的quality已经变了。所以我认为FR的终极目的在于做optimization，比如拿image compression的这个角度来解释，实际上这个失真路径是十分固定的，在高维空间中那个点失真了以后，到另外的一个点，我们可以想象原始图像是一个点，在高维空间中是一个点，image compression也是构成了一个失真的profile。但这个失真的profile是非常consistent、非常固定的，那么实际上space非常固定的话，我们是可以用FR来进行评价的，但是如果space不是特别固定的话，我认为FR评价是有问题的。所以这里就存在一个问题，就是怎么样去fake或者从安全的角度来讲来attack这个FR的performance。现在有很多adversary sample，这种都是生成模型，从image compression的角度来看，最大的问题是在image compression中如果去优化一个measure，即使是失真比较consistent的情况下，经常我优化这个measure结果很好，但实际上最后compress出来的结果不好，实际上我们并不用机器学习的模型去造adversary sample，而是说仅仅基于现有的比如HEVC的这种压缩的codec就可以很好地造出来这个adversary sample去attack目前比较流行的这种full reference algorithm，所以我认为这也是现在的一个问题。实际上这个领域从应用角度上，至少从我这个image compression、video compression的角度讲还是有很多open question没有解决。

吴庆波：换句话说，更倾向于从low level，而不是从learning这个角度，更偏向于从感知建模这个角度来探讨，至少可解释性上它可能是更nice的一个方向。

王诗淇：对，即使我们不用Deep Neural Networks，也不用learning的方法，也不用去gradient descent，只用一个video codec就可以attack它。所以这也是一个某些程度上weak的地方，所以我们不一定一定要看PLCC还是SRCC，而是说在real application里面有没有这样的案例。

议题2

深度学习已经广泛应用到IQA研究中，但相应的大尺度公开数据集则极其有限。有哪些方法可以破解当前IQA研究的数据困局呢？

吴金建：我简单分享一下自己做这个问题过程当中的体会。现在做QA很多的精力都是放在无参考这一部分，做无参考不像有参考可以做一些low level或pixel level的对比，一旦牵扯到这个问题，基本最后都是落到机器学习的问题上面。这里最大的问题就是其他的机器学习是有大数据集的，尤其像ImageNet上做分类，个人认为质量评价问题要比分类问题难。分类问题像ImageNet，100万的数据量，1000类，但是做质量评价时从来没有人跟你说这个图像是几种类型的，它是一个广泛的，图像类型、噪声类型，噪声限定到哪几种类型下都是不确定的。从一个映射的方向来说，是从一个比分类维度高很多的地方往一个更低的维度上映射，这个时候是需要很大的样本，但是现在QA由于做样本的数据库的代价问题，实际上这些数据库都非常非常小，最大的一个是wildlife也就1000多幅图，其他的都是几幅或者几十幅转过来的，实际是很难学到有用东西的。现在用深度学习做的时候，所谓的性能调得很好了，一旦跨数据集，它的overfitting是非常非常严重的。光从算法层面解决的话，牵扯到比如小样本学习，如果针对这么大的一个问题，还是很难解决的。但是可能对于某一种噪声类型，也许有比较好的方法。如果是泛在的类型，不限制噪声类型的话是很难解决的。

针对这个问题，我们后来想了一种比较好的方式，建一个更大的数据集。实际上我们现在手里有一个100多万张的图像数据集，再过一段时间会把这个数据集公布出来（下载链接https://web.xidian.edu.cn/wjj/paper.html）。在这个数据集上做了预训练之后，跨库的性能会有比较大的提升，甚至在有些算法上跟性能第二的相比，结果可能是翻倍提升的。这是个人对质量评价数据量不足的问题的看法，谢谢。

李雷达：现在有不少的IQA的方法也都在沿着数据增广的方式在做，我们可以从网络里面拿很多的数据，这个数据是多样化的，内容也是多样化的，通过人为地添加一些噪声、失真的方式，利用现在性能比较好的全参模型打标签。这是一个比较好的思路，当然也确实得到了比较好的性能提升。另外一种思路是基于rank learning去学习图像之间的rank。现在基于rank的方式，固然可以生很多pair，但是有一个问题可能大家目前的关注还不够，就是现在大家在做的时候选取的pair都是相同内容的，但实际上在做评估的时候，图像内容是非常多样化的。所以我认为在后面基于rank学习做这IQA的时候，实际上是可以构造出那些跨内容的多样化的pair添加进去，可能会进一步提升IQA算法的性能。另外也可以基于元学习的方式，元学习也可以用来做质量评估，我们今年在CVPR的一篇文章中也是用元学习处理模型的扩展性问题，目的也是为了解决目前IQA小样本学习的问题。像弱监督学习、小样本学习的思路都可以结合现在的数据增强的方式，包括rank learning的方式来共同推动IQA的研究，能够更多地向实际场景里推进，谢谢。

吴庆波：元学习应该是这个方向小样本非常好的探索，用深度学习做IQA一个非常大的困扰就是常见的方式，大家喜欢用切块的形式，一张图切成很多patch，每个patch分配一个打分，其实这种方式大家都知道很不合理，但是在前期因为数据不足，所以也得使用。后面刚才几个老师提到的这些见解，不管是release一个更加open或者large scale的数据集，还是用一些Meta-learning，再或者使用one-shot learning这些技术，都会是一个非常好的思路。

议题3

无参考模型是否如众多文献中展示的一样，其性能已经优于全参考模型？全参考与无参考模型相比，哪类模型进一步提升和探索的空间更大？

李雷达：无参考模型和全参考模型到底哪一个更值得进一步探索，我认为其实要看应用场景。全参考模型和无参考模型的应用场景是有差异的。在图像压缩和图像增强的场合是有原图可以参考的。在这种情况之下，既然有参考，我们就把这个参考充分利用起来；甚至在一些图像恢复的场景里也是有参考的，只不过那个参考不是一个完美质量的参考，但是也是有一些可以提供给我们做比较的有用信息的。所以全参考IQA算法在这样的一些场景里有很大的成长空间。如果从实际应用的场景来看，真实环境里很多都是无参的场景，比如自然场景里的图像评估，现在的直播场景的视频质量评估，实际上在客户端是无法获得原图的。在这种情况之下，就只能采用无参的模型。所以我个人认为这个问题是取决于要用在什么应用环境下，谢谢。

马柯德：简单说一下我对无参考的看法。首先我很同意金建老师跟雷达老师之前对无参考的看法，其实我每次想无参考的时候就会很intuitive地思考这些问题，比如无参考里面首先哪些问题是值得做的，为什么大家会觉得无参考质量评价的数据集的内容少呢？可能不是因为它跟ImageNet对比，因为ImageNet有100万，我的只有几千。最大的原因应该是我们在这个上面已经overfitting了，因为deep model就很容易over fitting，然后我们会思考这个数据集是不是太小了，稍微有一点就over fitting，我们是不是应该解决的思路是这样的？其实在要建更大数据库之前，我们会想无参考里面还有什么没解决的问题呢？虽然数据库很小，大概有几十个，怎么样同时建一个unified model，比方说我就串一个lightwork，就一套参数，我对这几十个IQA date base它都表现很好，这就是一个非常值得研究的问题。解决思路也非常简单，就是rank learning。因为Blind Image Quality Assessment一开始大家都会认为是一个regression problem，但我认为rank learning才是BIQA的最终出路。

我可以补充一下有关rank learning的内容，我在2017年的文章和2019年的文章都已经是不同的人都可以建pair。我最近的一个文章也是向我刚刚提到的问题做的拓展，怎么样从一个model，在几十个data base，虽然这几十个data base每一个都只有几百张图，表现都非常好，这是非常值得大家研究的问题，也希望你把这些问题给你的同伴，给你的实验室伙伴，让他们加入到我们IQA的研究热潮当中。还有一点就是数据量小，除了把data base建大一点，有没有其他的方法解决？还有一个很好的思路，我现在是discriminative 地去train我的BIQA model，其实BIQA model是跟natural image compress紧密联系在一起的，比如把image说成X，QX是X的质量， PX是X出现的概率QX和PX之间是有非常大的联系。当把这个关系理顺了之后，给BIQA一个判别式且生成式joint的建模，这个生成式建模的很好的信息就能给判别式建模有很强的regularization。这个问题也是怎么样unified去生成建模，也是我跟现在的实验室伙伴，跟我的学生一直在讨论的问题，稍微有一点眉目，但是还是没想清楚，也欢迎大家告诉实验室的小伙伴，加入到我们的IQA的科研热潮当中。

吴庆波：这个问题当中非常大的难点其实就是涉及到data base，一方面是数据本身有一定的bias，还有一方面就是不同的数据集打分的标准也不一样，rank这一方向是很好的思路。

议题4

图像质量评价的实际应用情况如何？有哪些工业界亟待解决的图像质量评价需求?

徐迈：图像质量评价在图像处理任务当中非常常见，图像压缩、图像质量增强、超分辨等等，每一篇论文都会涉及到图像质量评价。因为在它的实践里，必须得评估所提出的算法，在质量方面的性能，比如PSNR、SSIM，或者V-MAF等这些质量评价的方法。事实上图像质量评价是给图像处理提供了一个评价的手段，但更重要的是提供了一个优化的目标。我们首先得知道图像的处理要往什么方向走，处理出什么样的图像是人感觉质量比较好的，跟原图上差异比较小的，这种情况下才能够发展图像处理任务，我发现在做图像视频压缩的过程中，现在分辨率越来越高，用户越来越多，带宽受限所以必须得降码率。降了码率以后，如何保证图像质量，能够让人感知图像的质量比较好，就需要一些质量评价方法。跟其他的主题不一样，图像质量评价是非常非常重要的一个环节。威廉汤姆森热力学之父、英国的皇家科学院院长曾经说过：“如果你无法测量它的话，你就没法提升它。”可见在图像领域，尤其是low level的vision task上，图像处理任务当中，图像质量评价是非常重要的。

另外是在工业界的需求，事实上我们了解像爱奇艺、优酷、腾讯等视频内容商，或基于视频的互联网商，每个公司都有自己的一套图像质量评价方法，优化目标来优化他们的系统，给用户提供更好的服务。现在包括在视频压缩用到移动互联网上还有重要的一个概念叫窄带高清，我们今年也跟一些互联网公司合作做窄带高清。所谓窄带高清就是把带宽降了，质量依然保存甚至更好，这个就需要一个优化的目标来做，我们如何降码了以后让质量更好，这就涉及到图像质量评价。

关于非参考的质量评价方法的用处或者难点这一问题，实际上做窄带高清发现，到后来客观的质量评价方法，包括有参考的质量评价方法，PSNR到SSIM等已经不重要了，重要的是人看起来好就可以了。很多时候我们做优化，比如面向视觉优化，通过一些后续的方法，例如颜色锐化等处理后，发现PSNR降20dB了，和原图差异非常大，但是它的质量反而变好了。所以有时候做视频压缩很有意思，码率降了60%，但质量比原图还好了10%，这个就是应用了一个非参考质量评价方法作为优化目标，来观察图像压缩该往什么方向发展最后能够达到比较好的效果。质量评价无论是有参考的还是无参考的，它在工业界应用空间是非常宽广的。

吴庆波：谢谢徐老师给我们提到非常好的见解，尤其是了解到各个公司相应的需求，这个对我们真正做理论研究有更好的指导方向。

李雷达：和工业界的结合，我们现在做了很多IQA的文章，但和产业的结合还是弱项。实际生产生活里确实有很多应用的需求，比如现在做手机的很需要能够对成像系统进行性能做评估的方法，其核心还是质量评估。最近几年视频直播非常火。直播场景里作为内容提供商，非常希望借助于质量评估模型对直播过程中的用户体验进行实时监测，包括流媒体的视频质量评估的需求，还有医学影像方面也有很强的需求，从医学成像到后期的医学影像的诊疗分析都涉及到很多医学质量评估的分析。如果大家搜索质量评价和医学有关的文献，可以发现有不少是结合质量评价的思路来做医学图像的分析或处理的。所以我认为和这些业界的结合也是我们做质量评价很重要的方向，因为我们做IQA的最终目的还是要应用到业界里去，所以我认为后面的IQA研究也要更多地考虑业界的实际需求，我们相应在算法设计、在测试手段上做调整，谢谢。

议题5

现有脑电信号EEG能为IQA的感知建模提供哪些帮助？脑电传感器与计算模型，谁能成为解决IQA问题的终极答案？

徐迈：刚刚质量评价，包括金建这边在建一个100万的，我觉得非常震撼。但实际上图像质量评价建库的难点或者预测的难点在于ground truth很难获得。因为它有唯一答案，图像中的物体、分类甚至分隔、物理检测，虽然在图像质量评价方面非常强，但它的ground truth很难获得。我们在做图像质量评价的实验当中，发现人与人之间差异很多时候也来自于有些被测者并不一定专心，甚至可能走神了，或者就是为了赚参与的费用，所以并没有投入。如果拿不到这样的MOS，或者拿不到图像质量评价的ground truth，未来再做这个事情就很难。这里EEG的形式就非常好，在做质量评价同人的大脑通过传感拿到底层的信息，通过EEG信号结合人的打分做出一个ground truth的设定，这样有利于模型学习人的主观质量，保证学出来的有效性和真实性，我认为EEG作为补充是非常重要的。第二点， EEG的脑电信号分析已经研究了很多年，通过对于人的底层信息的挖掘、借鉴，事实上也发现很多跟质量评价相关的重要的区域和重要的反应机理，因此我们在构建模型的过程中，也可以结合人的机理来做一些先验知识和模型相结合，提高质量评价模型的精度。当然刚才说了两者的关系，哪个是终极的，目前来说我们还是在一个数据驱动的时代，在一个deep learning的时代，所以EEG这种底层的分析有很长的路要走。目前看来EEG或者脑电信号的分析，还是模型算法的一个补充。但是未来不确定，比如30年后，甚至更长的时间，如果在底层视觉上有一些突破，或许能够取代模型算法作为终极目标，谢谢。

吴庆波：谢谢徐老师分享想法和经验，因为现在包括一些类脑计算也是在机器学习领域里不断在尝试，不止是从算法层面找突破，sensor本身也是增强我们感知很重要的手段。

议题6

针对IQA的深度学习研究中，有哪些独有的特点需要在深度神经网络的构建中特别关注？

王诗淇：我认为可解释性、鲁棒性、cross dataset，testing这样的性能首先是必须要满足的，比如VGA模型为什么可以在质量评价中发挥比较好的作用，有哪些可解释性可以挖掘。另外我们也知道现在在natural image上train的，在screen content上，或者说artificial general content上，性能不是特别好，这样的话它的泛化性不是特别好，如何解决泛化性。我想提出两个看法，从做压缩的角度来讲怎么样利用神经网络这样的特性，因为现在有很多end-to-end compression model，它de-compress的image实际上是由神经网络生成的，而不是传统的信号处理生成的。我们通过实验发现，即使我们生成的图像质量很好，但是很多传统的图像质量评价方法是不work的，包括PSNR，SSIM，传统方法给出的分都很低。基于深度神经网络进行图像质量评价的方法，实际上能达到与人眼主观感知非常不错的拟合程度，从我们的主观实验上来讲是一个这样的结果。所以就引出了一个quality 和fidelity的问题。我会从压缩跟图像质量评价的结合谈得多一点，假如我们要压一幅图片，比如压一只猫，在传统压缩的时候，在低码率时很可能猫脸就已经模糊掉了，已经有blocking artifacts，有各种各样的artifacts。实际上如果有了神经网络这样的生成能力，我们可以生成一张猫脸，这张猫脸可能是很漂亮的。但是问题在于它可能就不是原先你想发送的那只猫脸。我们用一个No-Reference quality assignment去衡量，quality是很好的，但fidelity很差，这就是神经网络出现在图像表示上的问题。从图像表示的角度来讲，这也是对图像质量评价提出了一个挑战，实际上很多task都是一个表示的问题。

回到图像质量评价，怎么样用图像质量评价很可靠地衡量用神经网络图像表示得到的结果。其实人也是有这样的问题，有的时候觉得quality蛮不错的，但是fidelity不是特别好，这时候到底是trust quality还是trust fidelity。比如娱乐的时候就trust quality，但是真正在法庭上拿这张图像的话一定要fidelity，因为编码器一定要fidelity很好。所以我认为如何保持quality 和fidelity这个问题是图像质量评价需要注意的。另外一个方面，传统的MSE(mean-square error)以及一些方法被criticize的一个点是因为它们不是在于perceptually uniform space，如何用神经网络构建一个perceptually uniform space，这个uniform是指local的uniform，我认为可以有一些inspiration的点。

吴庆波：好，谢谢诗淇老师带给我们的分享。在coding这块关于care置信度还是care质量，相当于也涉及到不同业务场景的研究特点。其他老师有想跟我们一起分享的想法和心得吗？柯德老师可以简单聊一下，我记得你之前做深度网络里一个非常有意思的点就是在normalization这一块，是把BN这一块做了相应的改进，专门还针对IQA这一块做了相应的分析。

马柯德：简单说一下，可能我的观点非常bias，有什么特别值得关注的呢？模型一定要越小越好，能用三个convolution解决的问题，千万别用四个convolution。因为模型越小，才更有可能是鲁棒的模型。当然这说的很不确切，因为怎么样定义鲁棒，在什么样的场景中定义鲁棒，可以是很有趣的问题。当模型参数越小的时候，你要依赖的可能就是pre-knowledge，就相当于借助我的视觉系统的neural computation的了解，然后把computational models build到deep neural network当中去。其实divisive normalization很有趣，我的博后导师Iris Charlie最近也提了一个Full Reference matrix，非常强调了要做divisive normalization，他坚信下一个浪潮就是divisive normalization。他说第一个浪潮是linear transform或者现在说的convolution。下一个transform就是deep neural network。Deep neural network火起来的就是ReLU，他说有rectification，所以我有linear transform convolution之后，我要有rectification。他说有了rectification之后还不够，我还要有divisive normalization。Divisive normalization好处是可以把不同dynamic range的信号拉到一个可以比较的range当中，然后场景不同之后，可以拉到一个亮度进行比较，这就可以构造一个loss function，直接做high dynamic range compression，比如亮度是10万candela 每立方米的场景，用显示器亮度最多300，怎样把一个自然场景很合理地显示，就可以做这样的一个东西。

吴庆波：一个在learning非常重要的点，就是要通过控制model的complexity。一般情况下learning的一个基本原则是你希望让model泛化性能越强，就要求复杂度低一点，就像我们常见的用低一点的linear model，要求拟合性能更高，可能模型复杂度更高一点，这就是我们在研究当中大家不同的侧重相应的思路。

VALSE Webinar改版说明：

自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：

1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。

2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I、J、K群已满，除讲者等嘉宾外，只能申请加入VALSE M群，群号：531846386）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。

8、Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新[slides]。

9、Webinar报告的视频（经讲者允许后），会更新在VALSE爱奇艺、B站、西瓜视频，请在搜索Valse Webinar进行观看。