顶刊TPAMI2022｜复旦大学研究团队提出基于贝叶斯理论的图像超分辨率网络BayeSR

论文标题：Bayesian Image Super-Resolution With Deep Modeling of Image Statistics
论文链接：ieeexplore.ieee.org/document/97…
代码仓库：github.com/shangqigao/…
作者单位：复旦大学

欢迎重视@CV顶刊顶会微信大众号，认真且严肃的核算机视觉论文前沿报道~

期刊介绍：IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）是核算机视觉和人工智能范畴公认的尖端国际期刊，是我国核算机学会（CCF）推荐的A类期刊，其最新的影响因子为35.2。

对图画先验的核算信息进行建模关于图画超分辨率使命非常有用。来自复旦大学医学影像、图画视觉与人工智能试验室的研讨团队提出了一个根据贝叶斯理论的图画超分辨率网络（Bayesian image super-resolution network，BayeSR），发表在人工智能范畴尖端期刊IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）上。该结构结合滑润性和稀少性先验对天然图画进行核算建模。详细来说，首先将抱负图画视为滑润重量和稀少残差的总和，并对包括模糊、缩小和噪声损坏在内的实在图画退化进行建模，并且规划了一种变分贝叶斯办法来揣度它们的后验概率。最终作者结合深度神经网络完成了一个单图超分辨率（single image super-resolution (SISR)）变分网络，并且运用一种无监督学习战略进行训练。试验部分作者在三种图画康复使命上进行试验，即抱负的 SISR、实际的 SISR 和实在国际的 SISR，试验结果标明本文提出的办法对不同的噪声水平和退化等级具有杰出的模型泛化才能。本文的代码和模型均已开源。

1.动机

现在用于处理SISR使命的办法大致能够分为根据建模的办法和根据学习的办法，前者将图画退化标明为剖析或核算模型，其目的是在不运用任何进一步数据的情况下康复退化的图画。这种设置下SISR被界说为一种不适定问题。因而，许多图画先验被提出来对天然图画的范畴常识进行建模，例如高斯先验、马尔可夫随机场 (MRF)、稀少性先验和低秩先验等等。但因为实际国际图画的复杂结构，单一的先验建模很难掩盖实际场景。因而，对图画结构进行建模仍然是具有挑战性的论题。而根据学习的办法旨在学习从退化空间到原始空间的映射。深度神经网络应用在 SISR 并取得了优于先前工作的性能。大多数在抱负数据上训练的 SISR 模型，例如，经过双三次插值合成的模型，在图画包括噪声时不能很好地进行泛化。为了处理这个问题，能够在建模进程中明确地对图画先验建模，然后经过贝叶斯推理康复它们。

此外，现有许多 SISR 模型是以监督的方式进行学习的，因而其很难用于没有Ground-Truth的实在场景中。为了处理这个问题，能够运用单个图画本身的信息进行内部学习，但因为其需求许屡次梯度更新，这一类办法需求较长的推理时间。在本文中，作者旨在经过图画先验的显式建模来构建贝叶斯图画康复结构。大多数根据学习的办法不对图画先验建模，一般运用均方误差（MSE）或平均绝对误差（MAE）进行判别学习，一旦输入图画中包括噪声，就可能导致模型泛化才能较差。本文提出研讨两个图画先验，一个是滑润先验，另一个是稀少先验。前者旨在对图画的部分类似重量进行建模，而引进后者是为了拟合图画的非滑润细节。因为任何图画都能够分解为分段滑润重量和更可能是稀少的残差的总和[1]，因而能够构建一个深度网络来康复 SISR 的滑润重量和稀少残差。

本文提出的贝叶斯图画超分辨率网络BayeSR，首先将每个图画建模为滑润重量和稀少残差的总和。然后构建 DNN 来揣度滑润度重量、稀少残差和噪声的变分后验散布，即逐像素高斯散布，如下图所示。最终，咱们对滑润度组合和稀少残差进行采样，采集到的总和能够被认为是用来进行超分的信息，因而，BayeSR能够重复进行最终一步操作来为给定的退化图画生成许多超分版本，因而 BayeSR 是一种随机康复办法，而不是确定性办法。

2.本文办法

2.1 图画退化建模

假定一张退化的图画是从某个变量 $y∈Rdy\mathbf{y} \in \mathbb{R}^{d_{y}}$ 中采样得到的，其间 $d_{y}$ 标明 $y$ 的维度，而一幅明晰的图画是从 $u∗∈Rdy\mathbf{u^{*}} \in \mathbb{R}^{d_{y}}$ 中采样得到，那图画的退化进程能够标明如下：

y=A(x+z)+n\mathbf{y}=\mathbf{A}(\mathbf{x}+\mathbf{z})+\mathbf{n}

其间， $x∈Rdu\mathbf{x} \in \mathbb{R}^{d_{u}}$ 标明先验滑润度变量， $z∈Rdu\mathbf{z} \in \mathbb{R}^{d_{u}}$ 标明稀少先验变量， $n∈Rdy\mathbf{n} \in \mathbb{R}^{d_{y}}$ 为高斯噪声。 $A\mathbf{A}$ 标明含有卷积核 $k∈Rdk\mathbf{k} \in \mathbb{R}^{d_{k}}$ 的下采样矩阵。

下图展现了运用概率图模型标明上述图画退化进程，其也被称为贝叶斯信念网络，对调查值 $y\mathbf{y}$ 进行建模，详细而言， $y\mathbf{y}$ 能够建模为滑润重量 $x\mathbf{x}$ 、稀少残差 $z\mathbf{z}$ 、高斯噪声 $n\mathbf{n}$ 和确定性下采样算子 $A\mathbf{A}$ 的组合，其间 $x\mathbf{x}$ 和 $z\mathbf{z}$ 的总和被视为 $y\mathbf{y}$ 的康复信息。此外，高斯噪声 $n\mathbf{n}$ 由均值 $m\mathbf{m}$ 和方差决议，滑润重量 $x\mathbf{x}$ 由空间相关性 $\nu$ 决议。稀少残差 $z\mathbf{z}$ 由稀少精度 $\omega$ 决议。

2.2 后验散布的变分推理

作者随后运用DNN来对 $x\mathbf{x}$ ， $z\mathbf{z}$ 和 $m\mathbf{m}$ 的变分后验散布进行揣度。如下图所示，变量集合为 $={m,,x,v,z,}\boldsymbol{\psi}=\{\mathbf{m}, \boldsymbol{\rho}, \mathbf{x}, \boldsymbol{v}, \mathbf{z}, \omega\}$ 。

作者运用变分贝叶斯 (variational Bayesian，VB)进行推理，VB 办法经过变分后验散布 $q()q(\boldsymbol{\psi})$ 来迫临 $p(∣y)p(\boldsymbol{\psi} \mid \mathbf{y})$ 。最直接获得变分近似值的办法是最小化 $q()q(\boldsymbol{\psi})$ 和 $p(∣y)p(\boldsymbol{\psi} \mid \mathbf{y})$ 之间的 Kullback-Leibler (KL) 散度，如下所示：

q()∈arg⁡min⁡q()KL(q()∥p(∣y))\breve{q}(\boldsymbol{\psi}) \in \underset{q(\boldsymbol{\psi})}{\arg \min } \mathrm{KL}(q(\boldsymbol{\psi}) \| p(\boldsymbol{\psi} \mid \mathbf{y}))

因而一切变量 $={m,,x,v,z,}\boldsymbol{\psi}=\{\mathbf{m}, \boldsymbol{\rho}, \mathbf{x}, \boldsymbol{v}, \mathbf{z}, \omega\}$ 的边缘散布的变分后验近似能够顺次标明如下，

q(m)=N(m∣m,diag⁡(m2))q()=∏i=1dyG(i∣i,i)q(x)=N(x∣x,diag⁡(x2))q(v)=∏i=1duG(vi∣vi,vi)q(z)=N(z∣z,diag⁡(z2))q()=∏i=1duG(i∣i,i)\begin{aligned} \breve{q}(\mathbf{m}) & =\mathcal{N}\left(\mathbf{m} \mid \breve{\boldsymbol{\mu}}_{m}, \operatorname{diag}\left(\breve{\boldsymbol{\sigma}}_{m}^{2}\right)\right) \\ \breve{q}(\boldsymbol{\rho}) & =\prod_{i=1}^{d_{y}} \mathcal{G}\left(\rho_{i} \mid \breve{\beta}_{\rho i}, \breve{\boldsymbol{\alpha}}_{\rho i}\right) \\ \breve{q}(\mathbf{x}) & =\mathcal{N}\left(\mathbf{x} \mid \breve{\boldsymbol{\mu}}_{x}, \operatorname{diag}\left(\breve{\boldsymbol{\sigma}}_{x}^{2}\right)\right) \\ \breve{q}(\boldsymbol{v}) & =\prod_{i=1}^{d_{u}} \mathcal{G}\left(v_{i} \mid \breve{\beta}_{v i}, \breve{\boldsymbol{\alpha}}_{v i}\right) \\ \breve{q}(\mathbf{z}) & =\mathcal{N}\left(\mathbf{z} \mid \breve{\boldsymbol{\mu}}_{z}, \operatorname{diag}\left(\breve{\boldsymbol{\sigma}}_{z}^{2}\right)\right) \\ \breve{q}(\boldsymbol{\omega}) & =\prod_{i=1}^{d_{u}} \mathcal{G}\left(\omega_{i} \mid \breve{\beta}_{\omega i}, \breve{\boldsymbol{\alpha}}_{\omega i}\right) \end{aligned}

在详细操作时，作者并没有直接核算 KL 散度，而是将其转换为如下更易于推导的公式，

KL⁡(q()∥p(∣y))=E[log⁡q()]−E[log⁡p(∣y)]=E[log⁡q()]−E[log⁡p(,y)]+log⁡p(y)\begin{aligned} \operatorname{KL}(\breve{q}(\boldsymbol{\psi}) \| p(\boldsymbol{\psi} \mid \mathbf{y})) & =\mathbb{E}[\log \breve{q}(\boldsymbol{\psi})]-\mathbb{E}[\log p(\boldsymbol{\psi} \mid \mathbf{y})] \\ & =\mathbb{E}[\log \breve{q}(\boldsymbol{\psi})]-\mathbb{E}[\log p(\boldsymbol{\psi}, \mathbf{y})]+\log p(\mathbf{y}) \end{aligned}

其间，因为一切期望都需求调查 $q()\breve{q}(\boldsymbol{\psi})$ ，而依据 $p(y)p(\mathbf{y})$ 仅取决于先验，该公式标明，最小化 KL 散度能够转化为：

min⁡q()E[log⁡q()]−E[log⁡p(,y)]=min⁡q()KL(q()∥p())−E[log⁡p(y∣)]\begin{aligned} & \min _{\breve{q}(\boldsymbol{\psi})} \mathbb{E}[\log \breve{q}(\boldsymbol{\psi})]-\mathbb{E}[\log p(\boldsymbol{\psi}, \mathbf{y})] \\ = & \min _{\breve{q}(\boldsymbol{\psi})} \mathrm{KL}(\breve{q}(\boldsymbol{\psi}) \| p(\boldsymbol{\psi}))-\mathbb{E}[\log p(\mathbf{y} \mid \boldsymbol{\psi})] \end{aligned}

根据此，模型的最终目标函数能够转化为：

min⁡q()KL⁡(q()∥p())−Eq()[log⁡p(y∣)]\min _{\breve{q}(\boldsymbol{\psi})} \operatorname{KL}(\breve{q}(\boldsymbol{\psi}) \| p(\boldsymbol{\psi}))-\mathbb{E}_{\breve{q}(\boldsymbol{\rho})}[\log p(\mathbf{y} \mid \boldsymbol{\psi})]

随后作者对最终优化目标进行了理论解释，详细细节作者可拜见原文。

2.3 BayeSR深度网络构建

因为迭代的 VB 算法需求对高维参数进行屡次迭代，核算代价较大，因而作者选用DNN来构建BayeSR网络，DNN具有杰出的非线性映射才能以及并行布置功用，更适合处理该问题。

上图展现了BayeSR的全体结构，主要由三种类型的模块组成，即 CNN、上采样模块和下采样模块。CNN 模块能够运用 ResNet 或 UNet 的主干进行规划，CNN模块有三个，即 $CNN_{m}$ ， $CNN_{z}$ 和 $CNN_{x}$ ，分别用来估量 $q(m)\breve{q}(\boldsymbol{m})$ ， $q(z)\breve{q}(\boldsymbol{z})$ 和 $q(x)\breve{q}(\boldsymbol{x})$ 的散布参数。给定调查值 $y\mathbf{y}$ ，首先运用 $CNN_{m}$ 估量出变量 $m\mathbf{m}$ ，随后经过核算残差 $y - m$ ，并运用 $CNN_{z}$ 和上采样模块从残差中揣度出稀少残差 $z\mathbf{z}$ 。最终，经过下采样模块对 z 进行下采样，该模块是为完成下采样算子 $A\mathbf{A}$ 而开发的，并核算另一个残差 $y−m−Az\mathbf{y}-\mathbf{m}-\mathbf{Az}$ 。随后运用相同的办法来估量得到滑润重量 $x\mathbf{x}$ 。

3.试验作用

在本文的试验部分，作者选用三个数据集对BayeSR进行训练，分别是DIV2K、Flickr2K 和 DPED，其间DIV2K1 首次发布于 SISR 上的 NTIRE 2017 挑战赛。Flickr2K 包括 2650 张不同的高分辨率图画。DPED3 由三部智能手机和一台专业相机在野外同步拍摄的相片组成。关于抱负的 SISR，运用双三次 DIV2K，其间的退化图画是经过双三次插值合成的。关于实在的 SISR，运用温文的 DIV2K，其间退化图画被不知道的泊松噪声和随机偏移破坏。关于实际国际的 SISR，选用DPED-iPhone，其间的退化图画被实在噪声破坏了。点评目标选用五个全参阅图画质量评价目标，即 HR 空间峰值信噪比 (PSNR)、结构类似性 (SSIM) 指数、 LR 空间中的 PSNR (LRPSNR)、学习感知图画块类似度 (LPIPS) 和多样性 (Div.) 分数，以及两个无参阅目标，即天然图画质量评价 (NIQE) 和空间质量评价 (BRISQUE)。

下表中展现了在抱负SISR使命上的比照作用。

下图展现了BayeSR与其他办法的超分视觉比照作用，能够发现，BayeSR 能够康复比其他无监督模型更多的图画细节。此外，监督模型可能会产生一些图画伪影，而 BayeSR 因为图画先验的显式建模而保持更好的部分类似性。

4.总结

在本文中，作者提出了一个贝叶斯图画超分结构BayeSR，并结合深度神经网络进行完成。详细来说，BayeSR首先运用滑润度和稀少度先验对图画核算进行建模，并提出了从调查中估量滑润度重量和稀少度残差的变分推理结构。然后，咱们构建了神经网络来完成详细的变量估量，并提出了无监督战略来训练网络。最终，作者进行了大量的试验证明了BayeSR在无监督 SISR 使命中的有效性。

参阅

[1] S. Osher, M. Burger, D. Goldfarb, J. Xu, and W. Yin, “An iterative regularization method for total variation-based image restoration,” Multiscale Model. Simul., vol. 4, no. 2, pp. 460–489, 2005.

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。