华为诺亚&清华：基于认知的万物超分大模型CoSeR-六虎

从低清图画中提取认知特征，这样的超分辨率才更实在。

图画超分辨率技能旨在将低分辨率图画转换为高分辨率图画，然后进步图画的清晰度和细节实在性。随着超分技能的发展和手机硬件性能的提高，人们希望拍摄出愈加清晰的照片。这项技能在手机影像等范畴有着广泛的运用和需求。

然而，现有的超分办法存在一些局限性，如下图所示，主要有以下两个方面：

一是缺少泛化才能。为了完成更好的超分作用，一般需求针对特定场景运用特定传感器收集到的数据来进行模型训练，这种学习办法拟合了某种低清图画和高清图画间的映射，但在其他场景下体现欠安。此外，逐场景训练的办法计算成本较高，不利于模型的部署和更新。
二是缺少了解才能。现有的超分办法主要依赖于从大量数据中学习图画的退化散布，忽视了对图画内容的了解，无法运用知识来精确康复物体的结构和纹路。

图 2. 实在场景超分 SOTA 办法的局限性：（行一）难以处理训练集外的退化散布；（行二）难以运用知识康复物体结构。

人类在处理信息时，有两种不同的认知反馈体系。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考，快与慢》中将它们称为体系一和体系二，如图 3 所示。

体系一是快速的、直觉的、根据记忆的反馈，比方，咱们可以信口开河十以内的加减运算。体系二是缓慢的、多步的反馈，比方，28×39 往往需求逐渐运算。现有的超分办法更靠近体系一，它们主要依赖于从大量数据中学习图画的退化散布，忽视了对图画内容的了解，无法依照知识来精确康复物体的结构和纹路，也无法处理域外的退化情况。

图 3. CoSeR 选用类似于人脑中体系二的修正办法。

近来，由清华大学、华为诺亚方舟实验室、香港科技大学等组织提出的研讨，通过将图画外观和语言了解结合起来生成认知特征，完成了认知超分辨率结构，使 SR 模型可以了解低分辨率图画。

本文以为，真正能有效运用于实在场景的画质大模型应该具备类似体系二的多步修正才能，即根据对图画内容的认知，结合先验知识来完成图画超分（Cognitive Super-Resolution，CoSeR）。

项目主页：coser-main.github.io/

ArXiv：arxiv.org/abs/2311.16…

图 1. LR，GR 和 SR 分别为低清图画、根据对低清图画的认知生成的参阅图画和超分图画。

CoSeR 模仿了人类专家修正低质量图画自上而下的思维办法，首要树立对图画内容的全面认知，包括识别场景和主要物体的特征，随后将要点转移到对图画细节的查看和还原。本文的主要奉献如下：

提出了一种通用的万物超分画质大模型 CoSeR，它可以从低清图画中提取认知特征，包括场景内容了解和纹路细节信息，然后进步模型的泛化才能和了解才能。
提出了一种根据认知特征的参阅图画生成办法，它可以生成与低清图画内容共同的高质量参阅图画，用于指导图画的康复进程，增强图画的保真度和美感度。
提出了一种「All-in-Attention」模块，它可以将低清图画、认知特征、参阅图画三个条件注入到模型傍边，完成多源信息的交融和增强。
在多个测试集和评价指标上，相较于现有办法，CoSeR 均取得了更好的作用。同时，CoSeR 在实在场景下也展现不错。

办法介绍

图 4 展现了 CoSeR 的全体架构。CoSeR 首要运用认知编码器来对低清图画进行解析，将提取到的认知特征传递给 Stable Diffusion 模型，用以激活扩散模型中的图画先验，然后康复更精密的细节。

此外，CoSeR 运用认知特征来生成与低清图画内容共同的高质量参阅图画。这些参阅图画作为辅助信息，有助于提高超分辨率作用。最终，CoSeR 运用提出的「All-in-Attention」模块，将低清图画、认知特征、参阅图画三个条件注入到模型傍边，进一步提高成果的保真度。

图 4. 本文提出的万物超分画质大模型 CoSeR。

图 5 展现了 CoSeR 参阅图画生成的作用。与直接从低清图画中获取描绘的办法比较，CoSeR 的认知特征保留了细粒度的图画特征，在生成具有高度相似内容的参阅图画时具有优势。在图 5 的榜首行，运用 BLIP2 从低清图画生成的描绘无法精确识别动物的类别、颜色和纹路。

此外，CoSeR 的认知特征对于低清图画愈加鲁棒。例如，在图 5 的第二行，因为输入散布的差异，BLIP2 会生成错误的图画描绘，而 CoSeR 生成了内容共同的高质量参阅图画。最后，比较于 BLIP2 大模型接近 7B 的参数量，CoSeR 的认知编码器只有其 3% 的参数量，极大提高了推理速度。

图 5.（行一）运用 BLIP2 描绘生成的参阅图和 CoSeR 生成的参阅图；（行二）CoSeR 的高鲁棒性。

成果展现

表 1 和图 6 展现了 CoSeR 与其他办法的定量和定性成果比照。CoSeR 在含有丰富类别的 ImageNet 数据集及实在超分数据集 RealSR 和 DRealSR 上，都取得了不错的成果。CoSeR 可以康复出愈加清晰和天然的图画细节，同时坚持了图画的内容共同性和结构完整性。

表 1. 定量成果比照。

图 6. 定性成果比照。

本文提出的 CoSeR 模型为图画超分辨率技能供给了一种新的思路和办法，它可以从低清图画中提取认知特征，用于激活图画先验、生成参阅图画，然后完成高质量的万物超分作用。研讨人员表示，未来的研讨要点是如安在不影响超分性能的情况下加速采样，以取得更高的视觉质量。

此外，作者还将探索统一模型在更多样化的图画修正任务中的体现。

华为诺亚&清华：基于认知的万物超分大模型CoSeR

作者信息

推广

华为诺亚&清华：基于认知的万物超分大模型CoSeR

相关文章

Stable Diffusion 是如何工作的？【译】（多图、长文、干货）

MySQL批量插入测试数据的几种方式

2023最新 Photoshop Beta Ai爱国版 安装包及教程视频

机器学习中的数学原理——分类的正则化

作者信息

推广

2023最新 Photoshop Beta Ai爱国版安装包及教程视频