新闻资讯

带有形状和身份证的超分辨率面部

带有形状和身份证的超分辨率面部

尽管在面对超级分辨率(SR)方面取得了令人印象深刻的进展,但重建一个可靠的SR面部来保持真实的面部特征是一个公开的挑战。本文讨论了高分辨率低分辨率问题。为了解决面部SR的不良性质,建议级联超分辨率网络(CSRNET)共同和逐步地利用形状和身份前科,首先探索多重前科。尤其是,csrnet采用级联结构,通过多个阶段逐步地将lr面转换为人力资源面。在每一个阶段,csrnet强迫其输出的面部图像,以匹配形状的前科和从地面真相人类的面部提取的身份前科。在某一阶段估计的形状前驱被合并到它的后续阶段的输入,以提供丰富的信息的面部SR。为了生成现实但具有歧视性的面孔,还提出了级联超分辨率生成对抗网络(CSRGAN)将对抗性损失和识别性损失纳入CSRNET。在流行基准上进行的广泛实验表明,该方法在数量和质量上均优于现有的SALS最新方法,详细的消融研究表明了该方法的优点。在流行基准上进行的大量实验表明,该方法在数量和质量上均优于现有的ZR方法,详细的消融研究表明该方法的优点。在流行基准上进行的大量实验表明,该方法在数量和质量上均优于现有的ZR方法,详细的消融研究表明该方法的优点。

1.导言
面部超分辨率(SR),也被称为面部幻觉,是为了从它的低分辨率对应物中恢复高分辨率的面部图像。在许多应用中,如面孔识别中,面膜SR扮演重要角色[ 1 , 2 ]、个人重新识别[ 3 ,以及面部影像编辑[ 4 , 5 [],在那里r面图像是常见的。由于绝大多数的似是而非的人力资源解决方案同样能够很好地解释被观察到的rr图像,所以SR图像本质上是一个问题。人力资源映像中的许多细节没有出现在输入的r映像中,模型需要填补这些细节。特别是,用大的放大系数(即。8×)需要估计从一个像素的r输入的SR图像64像素,这是一个挑战。因此,早期方法(例如:Vdsr[ 6 ),它直接将lr图像映射到人力资源部的图像中,通常会产生不切实际的、过视距的图像(见图中第二栏  1 ).

详情在图片后面的标题中
图1
在图形查看器中打开
幻灯片
用一些有代表性的放大系数8×的方法生成的表面.VDSR不使用面部前科,超级风扇使用形状前科,CSRIP使用身份前科,而拟议的CSRNET同时使用形状和身份前科。csrnet在关键的面部区域(如眼睛、眉毛和牙齿)提供了更真实的细节。级联超分辨率生成对抗网络(CSRGAN)是带对抗和识别损失的CSRNET网络。一个更大的PSRR/SSY表示更好的图像质量。
面部SR是不同于一般的图像SR,因为在面部图像中有面部前科,可以用来帮助解决问题。 形状前科 例如地标、热图和解析图都描述了全球结构(例如:面部轮廓和局部细节(例如:脸的位置和形状:眼睛、鼻子和嘴的位置和形状。深层次模型,包括后跟模型[ 7 ], MTCNN [ 8 和沙漏[ 9 是为输入面部图像而设计的。 身份证 提供图像中的人的语义信息(即:他是谁?),这对提高SR面部的真实面部特征是必不可少的。这些语义信息可以通过深入的模型(如Faenet)来提取[ 10 , 11 ]及弧面[ 12 ].

很多作品都使用了形状前科来提高面部的SR。例如,超级风扇[ 13 通过强制使用SR面来制作类似于地面真理面的里程碑式热图来训练SR模型。Fsrnet[ 14 ]将估计的解析图与r面融合,作为对SR模型的输入。数据中心[ 15 用一个专注的聚变模块将热图融合到不确定的地方,然后通过卷积操作进行处理。相对较少的作品使用身份证来改善面部SR。西肯[ 16 []将SR模型生成的SR脸输入到面孔识别网络中,并联合培训了硅脸识别网络。集体担保[ 17 使用预先训练的面部识别网络,以鼓励SR面部和地面真相人力资源有类似的分类结果。如图所示  1 ,使用任何一种形状的模型(例如:超级粉丝)或身份证(例如。与vdsr相比,vdsr只使用像素尺寸的重建约束,它更能产生视觉上可信的SR图像。

在此,我们提出了级联超分辨率网络(csrnet),这是第一个联合和逐步利用形状和身份前科来实现我们的最佳知识,这个想法在图中得到了说明。  2 .利用面部SR的形状和身份证,CSRNET能够保持面部SR的视觉和语义品质。与现有的基于形状的和基于识别的面部SR的方法相比,scrnet保留了最真实的面部特征。

详情在图片后面的标题中
图2
在图形查看器中打开
幻灯片
一个示意图的想法背后,我们的csrnet,使用形状和身份前科,以维护视觉和语义的质量的SR面部。(a)、(b)和(c)是三种似是而非的超解析面,用于输入低分辨率脸。与(a)或(b)相比,(c)保留了最真实的面部特征。(最好以颜色观看)。
图中显示了csrnet的总体模型结构。  3 .CSRNET采用级联结构,通过多个阶段逐步地将LL面转换为SR面。在每一个阶段,csrnet应用一个面对线网络(风扇)从SR面提取形状前科。这些形状的前驱力被强迫与从地面真相人类的面部提取的形状前驱力与MSE损失相匹配,并作为下一阶段的输入,以促进SR学习。有关身份证的前科,csrnet使用的是成本--面额--[ 11]在每一个阶段从SR面上提取鉴别嵌入,并强迫它与从地面真相人面上提取的嵌入匹配。在构建RGB面的基础上,csrnet学会了预测地面真相小时表面与简单的Rr面双边插值之间的残余。为了生成现实但又具有歧视性的面孔,我们将对抗性的损失和识别损失纳入了CSRNET,并制定了CSRGAN。与其他方法相比,crgan恢复了实际的语义意义,并生成了更可信的细节。

详情在图片后面的标题中
图3
在图形查看器中打开
幻灯片
系统的整体模型结构。我们的csrnet由三个分支组成:SR分支、形状分支和身份分支。在每一个级联中,SR分支都用2×的因子对面部图像进行超分辨。形状分支从剩余图像中提取出形状前置,并在下一阶段使用在某一阶段获得的形状前置作为SR分支的输入特征。身份分支使用面匹配器从生成的SR面模型中提取语义嵌入。当输入一个r时,csrnet产生具有不同放大系数(例如。在级联SR输出中,2x、4x、8x).
我们对广泛使用的数据集进行了广泛的实验:海伦和塞勒巴。研究结果表明,SCRNET比超风扇、DIC和SCRIP等先进的表面SR方法在PSRR和SSY方面的定量性能较好。通过保存更多的细节,CSRGAN生成的SR面孔也更具吸引力。详细的消融研究证实,形状和识别的前科是互补的,两者都有助于更好的性能的面部SR,这再次显示了我们的CSRNET方法的优势。

总之,我们在这里作出了以下贡献。
据我们所知,csrnet是第一个深面膜超分辨率模型,共同和逐步利用形状前科和身份前科。这是因为不同的面部特征是密切相关的,并提供了不同的角度限制SR解决方案空间。
我们设计了一种有效的CSRNET管道,它采用级联结构,提取残余面部图像上的形状特征,并与语义特征嵌入相结合,以消除身份丢失。这使中间的SR图像和最终的SR图像都能配备面部结构信息和身份识别知识。通过多个阶段使用互补信息的形状和身份前科是新的和必要的,以提高面部SR。
我们对包括塞莱巴和海伦在内的基准进行了广泛的实验,这些实验证明了使用形状和身份证对面部SR的有效性。特别地,我们的csrnet实现了最先进的性能的挑战的任务超解析点面部图像的升级系数8。此外,我们的CSRGAN生成了更真实的,但歧视性的面部图像,对抗和身份损失。
本文件其余部分组织如下。相关工作见本节  2 .拟议的可持续资源管理网见本节  3 .在本节中给出了实验评价  4 .最后,我们在部分中得出一个总体结论  5 .

2相关工作
在此,我们从三个角度回顾相关的作品,即模型体系结构、具有形状前置的脸SR和具有身份前置的脸SR。表中提供了我们的系统控制网络和一些最相关的方法的比较。  1 .值得注意的是,最近的一些方法,如Vqfr[ 18 ],使用参考图像前科或导入预先训练的生成对抗网络(GAN)前科,以改善面部SR结果[ 19 - 22 ],例如全球论坛[ 20 ], GPEN [ 21]以提高面部的敏感度。这些方法侧重于使用额外信息(即:参考图像,或用大规模人力资源面训练的GAN前科)获得高清晰度(1024×1024)SR结果。相比之下,我们的重点是探索一种有效的方法,从r图像中梳理出多个前科。没有利用其他的信息)

TABLE 1. 比较了一些典型的图像SR法,其中VDSR法、SRGAN法和LAPSRN法是一般的图像SR法,而超级扇法、DIC法、SINN法和SSCRIP法是面部SR法,其中超级扇法和DIC法是与形状前科有关的面部SR法,而SISNN法和SINP法则是与身份前科有关的面部SR法。我们的csrnet是一个级联模型,最大限度地利用2,4和8的比例因子来提高SR面的身份和形状。
方法    Vdsr    斯尔根    拉普斯恩    超级风扇    数据中心    西肯    抽打    (我们的)
卡式模型    ✗    ✗    ✓    ✗    ✗    ✗    ✓    ✓
以前的身份    ✗    ✗    ✗    ✗    ✗    ✓    ✓    ✓
先入为主    ✗    ✗    ✗    ✓    ✓    ✗    ✗    ✓
尺度因子    4    4    2, 4, 8    4    8    8    2, 4, 8    2, 4, 8
2.1模型架构
在模型结构方面,现有的表面SR方法可以大致分类为 直接的 和 有壳的 .直接的方法超级分辨率的一个小块图像所希望的空间分辨率在一个镜头。直接方法[ 6 , 23 , 24 ]第一个插值输入(例如:通过双方格插值)高分辨率,然后应用模型调整粗SR图像。例如,VDSR[ 24 使用全局剩余连接将网络深度提高到20层。然而,预定义的插值可能会导致次优化的SR结果。为解决这一问题,引入了基于学习的向上抽样,作为预先定义的插值的替代办法。其他的,例如,卡恩[ 25 ], SRGAN [ 26 ], URDGN [ 27 ),及[ 28 ],学习使用转置卷积层等模型直接使用lr输入的映射[ 29 及次像素层[ 30 ]在深cnn的结尾,使脸具有超分辨率。相比之下,进步的方法,例如,拉普斯罗[ 31 ], MS-LapSRN [ 32 ],及[ 33],学习超分辨输入的LL图像(即学习通过多个阶段来预测地面真相人力资源图像和r输入之间的残余值,每个阶段都使用一个小的提升因子(例如。2×)并使用一个阶段的输出作为下一阶段的输入。渐进式结构(又称级联式结构)的好处是,它允许在每个阶段(特别是早期阶段)发出监控信号,这使模型易于训练。此外,这个渐进的SR培训一个模型,以满足多规模SR重建的需要,而直接架构框架需要培训不同的模型,以适应不同的尺度因素。一般而言,在不考虑面部前科的情况下,SR方法通常采用像素重建损失(即。平均平方误差),以鼓励模型生成的SR图像的纹理类似于地面真相HR图像。

2.2有形状前科的SR
很多方法利用面部的形状来提高面部SR。超级风扇[ 13 介绍一种风扇从面部图像中提取热图的方法,并利用MSE损失来保证目标人力资源面和生成的SR面具有一致的形状。核电站[ 34 ]]通过逐步的超分辨率来扩展超级风扇的分辨率。在茉莉网[ 35 ],风扇和SR网络共享一个通用编码器,它从r面图像中提取浅特征。有些方法使用形状前置来提供监控信号,而不是使用形状前置来输入面部SR。Mtun[ 36 ]将基于组件的热图与其他输入功能图连接起来,作为SR模型的输入。Fsrnet[ 14 由粗的SR网络和精加工的网络组成。精化网络估计从粗SR图像解析地图,并将解析地图以及其他特征地图提供给编码器-解码器网络,该网络生成最终的SR图像。CBN[ 37 ]超分辨输入的r面,一步一步地使用一个门网络来融合粗的SR面和每个阶段的密集的对应文件。为了提高SR的性能,CBN从中间SR面中提取出优先于输入r面的面部。数据中心[ 15 学习一个专注融合模块,该模块使用形状前置作为注意力权重来聚合SR模型中的特征表示。胡等人。[ 38 []将3d面部特征特征和面部特征模型连接在一起,以产生清晰的面部特征。pcrcn[ 39 ]采用级联循环网络对面部SR进行检测,并在每个级联单元中提取和提炼面部解析特征,以促进面部细节的恢复。广播电视网[ 40 )估计粗糙SR面部的面部标志(即而不是LL面)来获得更好的精度。然后将面部标志与面部特征相结合,以增强面部SR。

与现有的工作相比,我们的CSRNET在级联结构中使用形状前置作为监控和模型输入,并提取多个分辨率的形状前置。将某一阶段估计的形状优先值合并到下一阶段的输入中,为面部SR提供丰富的信息。另外,我们从模型生成的残余面上收集形状前置,而不是SR面,从而确保填充的残余是有意义的。我们还表明,使用残余面会产生较低的里程碑误差.

2.3面对有身份前科的斯洛伐克人
在重建的SR面中,提高身份信息的工作很少。西肯[ 16 通过对SR模型和面部识别模型的共同训练,最大限度地缩小了SR面部模型和地面真相人力资源模型之间的身份差异。特别是在SR模型中,采用了像素化重建损失,并在面部识别模型中采用了超身份识别损失。集体担保[ 17 采用级联式结构,在残余面上提取身份证,而不是生成SR面模型。在每一个阶段,它鼓励SR面部和地面真相人力资源面对相似的分类结果训练前的面部识别模型。由于同一个人的面部图像不论图像分辨率如何,都有相同的身份信息,因此Didnet[ 41 通过双环路,由一个脸的SR网络和一个退化网络组成。SR网络确保了超分辨率脸和地面真相脸在人力资源空间具有相同的身份特征。降解网络确保生成的r面和输入的r在r空间中具有相同的标识特性。意识到身份的FSR[ 42 ]包括一个表面SR网络和一个识别特征提取器。SR网络从输入r面上重构了人力资源面,特征提取器提取重建的人力资源面的身份特征。身份特征与大小相关和角相关的特征脱钩,以进行显式监控,保存身份信息。电子邮件网[ 43]利用轻量级边缘块和先识别信息来解决面部部件的变形,从而增强SR。EIPNET由三个残余块组成,边缘块嵌入在多个尺度中,在每个2的升级过程中提供结构信息,并使用亮度-色度误差调整全局形状和颜色。此外,EIPNET还利用身份丢失,鼓励最终的SR面和地面真实面具有相同的类编码向量。

我们的csrnet不同于这些方法,因为我们使用了一个额外的语义嵌入损失来约束身份前置,并从生成的sr表面模型中提取身份前置。此外,我们将多尺度的身份信息纳入到培训中,并强制执行多个分辨率的SR面和相应的人力资源面具有相同的身份。

3个级联超级分辨率网络
在这里,我们首先概述了csrnet,然后详细描述了构成csrnet的三个分支,即sr分支、形状分支和标识分支。

3.1社会保障网络概览
csrnet由三个分支组成,如图所示  3 :(i)使用多个级联(即级联),逐步将输入的r面转换为更高分辨率的SR分支(顶部行)(二)形状分支(第二行),该分支使用风扇从SR分支的输出中提取形状前驱(在我们的例子中是热映射);(三)标识分支(下排),该分支从每个阶段产生的SR面部提取语义嵌入(使用面部匹配器)。

在每一个阶段,SR分支都用2×的系数来分辨面部图像,从而使像素数乘以4×。指训练样本
,其中是输入的,
 是舞台上的真相 s 总共有 S 各阶段。在舞台上 s ,SR分部预测
,其中
是左旋面的双边插值 舞台上 s .我们采用这种残余设计,比直接预测提供了更好的性能和更容易的收敛性。
 [ 33 ]。在阶段上表示SR分支的输出 s 作为
,形状分支从
(即留下的图像)而不是
 (即该模型生成了SR面),并将在某一阶段获得的形状前置融合为下一阶段的SR分支的输入特征。级联级 s (何时))包括低分辨率编码器-解码器特征提取器
一种先入为主的预测因子
是个粉丝。级联块的输出由
因为它是错综复杂的
.卷积运算是由.最后的非线性操作,通过堆叠几个卷积层和反层叠层实现,由
.因此,可通过以下方式制定表面SR过程:
(1)
(2)
(3)
在哪里
是我们最后生成的SR面部。csrnet在每个升级过程中使用了形状前置来保存高频组件。相比之下,身份分支在重建的SR面上运行
由于纹理细节是必要的鉴别特征提取。
在训练阶段,身份科使用训练前的模型,在训练期间没有更新,而风扇(在形状科)和SR科模型是从头开始训练。在推理阶段,标识分支被删除,因为它不参与计算输出SR面。然而,这些风扇被保留下来,因为它们为SR分支提供了形状前置作为输入。在不同阶段下采样不同因素下,生成了输入的r面和地面真实的r面。培训培训的损失功能界定为:
(4)
在哪里
 重建重建损失(即级联SR输出中生成的SR面之间的平均平方误差(图  3 ,第三行)和"地面真理",
测量从SR面部提取的形状前科和从地面真相人力资源的面孔之间的差异,以及
 将身份资料的差异(即:语义嵌入在SR面和地面真理面之间。虽然可以为三个损失项中的每一项指定一个权重系数,但我们发现训练的公式( 4 )已取得良好的性能,因此由于参数调整的额外复杂性,不包括权重因素。
在介绍每个分支机构和损失术语的详细情况之前,我们要讨论csrnet总体结构的基本原理。平面重建损失
 在文献中得到广泛的应用,以确保SR图像的纹理与地面实相类似。然而,纹理相似并不一定导致视觉相似.先前的形状包含了面部的整体结构(例如。如眼、鼻、口等重要面部成分的形状(见图中形状分支的例子)  3 )。通过鼓励SR面部和人力资源面部有相似的形状前科
,SR面部可以保存它的面部结构信息,因此在视觉上看起来更可信。同样的,身份丢失
强迫斯洛伐克人和人力资源人在身份信息上保持一致,使他们看起来与人类视察员相似。该级联结构还允许csrnet在每个阶段引入监控信号,使模型易于训练。据我们所知,csrnet是第一个共同利用的形状和身份前科,从而提供最先进的性能的面部SR。在实验中,我们发现形状前科和身份前科是互补的,两者都能提高性能。

除了联合统一的形状和身份证,在ccrnet中还有几种不同于现有作品的关键设计。首先,与采用级联结构的方法相比,CSRNET将形状前置融合为面向SR的输入特征,以加强对地标地图的引导。第二,不同于现有的从SR面中提取形状前置的工作,我们从残余面中提取形状前置,因为它为形状的事先检测提供了更精确的方法,并确保了填充的残留物是有意义的。第三,我们不再像在CSRIP中那样在残余面部应用面部识别模型,而是从SR面部提取身份前科,因为人类视觉系统识别原始面部而不是残余。

3.2斯洛伐克共和国分支机构
如图所示  3 ,SR网络使用多个cnn级联(例如:CNN),逐步超分辨出一个点对点的更高分辨率。C1、C2和C3)。每一个级联(也称为阶段)都用2×的系数对面进行比例化,而csrnet的总体尺度化系数是所有级联的倍数(例如。8×图  3 )。通过将一个困难的任务分解为连续的简单任务,SR分支的级联结构允许在每个级联上进行中间监控,这使我们能够更好地约束SR解决方案,而不是用一个大比例因子直接超分解r面。此外,这种级联设计也能降低学习难度。

每个级联由编码器和解码器组成。编码器堆叠多个剩余块,每个块有五层连续(即:集装箱运输)。在每个剩余块的第一卷积层和最后一批标准化层之间添加一个跳过连接。每个解码器由三个连续的层(即重新启动)。编码器不改变面的分辨率,而每个解码器的面按其反卷积(去卷积)层的一个2×的倍进行扩展。我们采用不对称金字塔结构[ 33在这种情况下,较低的级联要比较高的级联复杂得多。具体而言,我们使用12、3和3个剩余块分别用于C1、C2和C3。不对称金字塔体系结构的优点是,它能够在保持效率的同时实现大规模的提升因子(避免为更高的级联使用复杂的模型)。

对于C1和C2,我们使用风扇从它们的输出中提取形状前置,这些形状前置在它们的后续级联中被用作解码器的输入特征图。绘制级联输出图至残余面(即
),我们使用一个C1和C2的卷积层,但更多的卷积层(即。C3的三个卷积层),因为它产生最终的SR面。我们对SR分公司的重建损失进行了如下的计算
 
 
 
(5)
在哪里是由不同放大因子组成的训练数据集,
 是舞台上的真相 s ,以及

 在阶段上是输入r面和SR分支输出的双边插值 s , respectively.
鼓励模型生成SR面(即
),以近似地面真相,并在每一个阶段应用,提供连续的监督。
3.3形状分支
至于形状,我们选择标志性的热图,描述的位置和形状的关键面部成分。如图所示  4 ,热图提供丰富的面部结构信息,包括整体结构(例如:面部轮廓及局部细节(例如:眼、鼻、口)。在这里,我们使用了由一个面部图像上的40个标志物生成的8幅热图,这些热图对应于不同的语义成分,即左眉、右眉、左眼、右眼、鼻子、面部轮廓、内嘴和口腔轮廓。

详情在图片后面的标题中
图4
在图形查看器中打开
幻灯片
瀑布状的分支。沙漏网是用来检测40个来自输入残余的标志性标志的面定位网络。形状损失促使模型生成的残余面具有先前的形状(即:与地面真相残留相一致,以保存结构信息。
我们使用沙漏网络[ 9 作为从面部图像中探测地标的风扇。如图所示  4,我们的沙漏网络由4个剩余模块组成,使用64个通道绘制特征图。本文将沙漏网应用于SR分枝预测的残余面上,而不是像现有工程那样检测SR面上的地标。这是因为主要面部成分突出(即:在残余图像中,像素值比邻近图像大,因此具有很高的精度。为了进行公平的比较,我们分别对残余面和SR面进行了两个风扇的训练,并使用越来越小的标准化根平均平方误差(NRMSE)来评价地标检测的准确性。结果表明,在分辨率为48x48、96x96和192x192的图像上,残留面的NrmSE值为0.7482、0.6206和0.6397,SR面的NrmSE值为0.7595、0.7002和0.6433。这些结果支持了我们的设计,即先从产生的残余面中提取形状。图形  5 分别说明了在RGB表面和残余表面上培训沙漏网的面部校准结果。

详情在图片后面的标题中
图5
在图形查看器中打开
幻灯片
用不同沙漏网的例子说明了(a)48x48,(b)96x96,和(c)192x192的面部对准结果。绿色/红色表示训练有残留面和RGB面的网络,仔细研究。
形状分支的损失如图所示  4 定义为
 
 
 
(6)
在哪里
 说明级联风扇模型 s ,以及
是先前从地面真相残余面上提取出来的形状,以及
是形状先从模型生成的残余面.医疗保险损失
鼓励模型生成残留面具有与地面真相残留一致的形状前科。
3.4身份处
记得身份分支约束SR面产生类似于地面真理者的语义嵌入。身份优先约束是至关重要的,因为它们使SR面部和人力资源面部看起来相似的人类检查员。在语义嵌入方面,我们使用了一个表面匹配器(即:模型,以提取一个512维度的特征嵌入从一个面部图像,如图所示  6 .SR模型是通过最小化的欧几里得距离之间的嵌入面对应同一人。因此,语义嵌入损失被定义为
 
 
 
(7)
在那里,中心是面部模型,

分别嵌入了地面真相----------------------------------------------------------------在实际操作中,著名的面部识别模型要求输入图像的图像尺寸大于100x100,因此csrnet只对级联C3应用Faenet。
详情在图片后面的标题中
图6
在图形查看器中打开
幻灯片
级联的身份分支。利用该模型从生成的SR面中提取嵌入的语义特征。标识丢失鼓励生成的SR面模型具有与地面真理人脸一致的语义特征,以保存SR面中的身份信息。
3.5基督教团结会
对具有对抗性损失的SR模型进行培训有助于生成更真实的图像,方法是使用鉴别器网络将超分辨率图像与地面真相--HR图像区分开来,并鼓励SR网络欺骗鉴别器[ 44 ]。根据这一想法,我们将对抗性损失作为一个生成器纳入到了ccrnet中,以确保ccrnet合成真实的图像。此外,我们亦使用辅助分类器(即:提高SR图像的鉴别能力。

如图所示  7 ,例如:一台发电机,)及鉴别分类器(即 )。csrnet从r输入和鉴别分类器生成一个超分辨率的面孔,输出该输入真实的概率及其在身份上的分类分布,遵循与acgan相同的网络结构[ 45 ]。目标函数有两部分:正确来源的逻辑可能性(即:人力资源或人力资源),
以及正确身份的逻辑,
.
(8)
(9)
在哪里是对概率分布的期望。意味着面部图像的来源是一个地面真实的…表示生成的SR面上的面部图像。表示输入面的正确标识.
详情在图片后面的标题中
图7
在图形查看器中打开
幻灯片
拟议的可持续发展委员会框架。我们的CSRGAN是一个生成器,用于生成SR面和鉴别分类器,以区分SR面和地面真实面,并预测正确的身份。因此,csrnet试图通过生成现实但又鉴别的SR面孔来欺骗鉴别器。
在训练期间,受过最大限度的训练
和受过最大限度的训练
. Specifically,
鼓励鉴别器区分超级分辨率的面部图像和人力资源面孔,并预测正确的身份,无论输入的面孔来源。
强迫模型生成SR面要看起来真实,并拥有类似的身份分布作为输入r面.

4次实验评价
在这里,我们首先介绍了实验的设置,然后介绍了主要的结果,比较了我们与最先进的表面SR方法。我们还提供了一个消融研究,以显示共同利用形状和身份前科的好处。

4.1实验设置
4.1.1数据集和业绩计量
我们使用CASIA网络脸数据集进行系统服务网络模型训练[ 46 ],共载有来自10,064个身份的291,515张图像。请注意,这个CASIA数据集是一个可公开获得的版本,上面有不正确的标签,面孔图像是手动删除的。我们主要在两个被广泛应用的标准上进行实验,即:塞莱巴[ 47 和海伦[ 48 , 49 ]。为了进行性能测试,我们使用了来自塞勒巴数据集的1000个图像和来自海伦数据集的330个图像。由于CASIA网站上的面部图像被松散地剪掉,我们首先使用200x200像素的中央图像补丁,然后将图像调整到192x192像素。对于塞莱巴和海伦,我们根据数据集提供的地标对每幅图像中的面部区域进行作物收割。我们的数据集预处理程序遵循《化学品及药物管制条例》[ 17 ]图中有一些预先处理过的面部图像的例子  8 .

详情在图片后面的标题中
图8
在图形查看器中打开
幻灯片
示例显示来自培训数据集的图像。(a)CASIA网页和测试数据集,(b)海伦和(c)塞勒巴。
为了定量地测量所生成的模型SR面的质量,我们使用PSRR和SSY[ 50 ),这些被广泛应用于SR影像文学中。根据约定,将RGB的SR面转换为YCRB空间,并将照度通道与(地面照度通道)的地面照度地形图进行比较,计算出两种测量方法。对于PSRR和SSY,更大的值意味着更好的性能。

4.1.2实施细节
跟随基督教社区议会[ 17 ],我们使用双边性退化来生成来自人力资源面的r面图像。具体而言,预处理面(分辨率为192×192)被用作C3级联的地面真实面,而这些表面被向下采样为96×96和48×48,分别作为C2和C1的地面真实面。对于输入的r面,预处理的面是下降到24×24。我们使用默认参数的亚当优化器训练csrnet,批处理大小为64。我们第一次在没有身份分公司的情况下
作为47个学生的初始学习率。接下来我们将继续使用身份分支,以便在新的四个世纪里进行微调。
.对于SCRGAN训练,我们使用预训练的SCRNET模型作为四个阶段的初始生成器,用自动协调优化器对生成器和鉴别器进行微调。所有的实验都是用张力流2在两个泰坦rtxGPS上进行的。

4.2与最先进方法的比较
我们用11个最先进的SR模型,即VDSR、SRGAN、LPSRN、NLSA、SICNN、CSRIP、超级风扇、RCNET、PCRC、DIC和DICGAN,来比较这11个最先进的SR模型。特别是,我们包括了四个仅使用纹理信息的模型,两个模型包含了身份前科(即。西肯[ 16 ]及康瑞普[ 17 ),以及五款模型(即超级风扇[ 13 ], DIC [ 15 ], DICGAN [ 15 ], RCNet [ 40 ],及太平洋地区委员会[ 39 )。仅文本模型(除了NLSA)和SISNN的结果来自于CSRIP,它使用与我们相同的训练数据集重新训练这些模型。对于NLSA、超级风扇、DIC和DICGAN,我们对CASIA数据集的SR模型进行了培训,为性能进行了广泛的参数调整。对于rcet和pcrcn,我们实现了SR模型,因为没有开源代码,并且在我们的实验设置下对它们进行了培训。我们还包括了双基插值作为一个天真的基线。此外,我们还比较了我们的csrnet与其他级联SR模型(即。拉普斯恩[ 31 ]及康瑞普[ 17 ))带有比例因子2×和4×。复制实验结果所需的守则载於 HTPS://吉图布网/匿名探险者/系统信息网

4.2.1数量比较
我们在表格中报告了csrnet中的PSRR和SSY以及8×的比例系数的比较方法。  2 .结果表明,对于两个测试数据集,csrnet始终优于所有基线。我们还观察到,方法使用的是形状或识别前科(例如。超级风扇和CSRIP)的表现比纯文本方法更好,这验证了面部前科的重要性。利用形状和身份前科,csrnet进一步超越了使用单一类型的优先权方法。

TABLE 2. 利用8×的提升因子,对24x24像素图像进行了超分辨,最终分辨率为192x192像素的现有SR方法与csnet方法进行了定量比较。 红色的 / 蓝色的 表示最佳/次性能。我们的csrnet模型正在为两个数据集设置一个新的SR性能记录。
海伦    西里巴
高级方法    比例尺    Psnr    斯卡姆    Psnr    斯卡姆
双的    × 8    25.34    0.7163    24.59    0.6819
Vdsr[ 6 ]    × 8    26.30    0.7455    25.57    0.7143
srgan[ 26 ]    × 8    27.66    0.7987    26.80    0.7667
拉普斯恩[ 31 ]    × 8    27.07    0.7722    26.21    0.7389
国家lsa[ 51 ]    × 8    27.77    0.7920    26.77    0.7583
西肯[ 16 ]    × 8    27.29    0.7793    26.43    0.7464
集体担保[ 17 ]    × 8    27.81    0.8109    26.99    0.7795
超级风扇[ 13 ]    × 8    28.51    0.8101    27.71    0.7825
区域信息网[ 40 ]    × 8    25.99    0.7411    25.18    0.7077
pcrcn[ 39 ]    × 8    26.30    0.7286    26.30    0.7286
数据中心[ 15 ]    × 8    28.29    0.8016    27.13    0.7635
迪根[ 15 ]    × 8    27.68    0.7737    26.99    0.7487
(我们的)    × 8    27.64    0.7852    26.90    0.7581
(我们的)    × 8    28.71    0.8143    27.86    0.7867
在比较方法中,LAPSRN和CSRIP采用级联结构,从而可以生成具有2×和4×的提升系数的SR面。我们比较了csrnet的中间SR面和表中的SR面的质量。  3 .结果表明,csrnet在中间结果方面也优于lpsrn和ccrp。有意思的是,我们观察到在2×的情况下,csrnet的性能改进比4×的情况下更有意义.由于CSRIP没有使用形状前置,这一现象表明形状前置在第一级联(从24x24到48x48)中非常重要。

TABLE 3. csrnet方法与其他渐进方法的定量比较。 红色的 / 蓝色的 表示最佳/次性能。我们的csrnet模型在两个数据集上都获得了高度竞争性的性能。
海伦    西里巴
高级方法    比例尺    Psnr    斯卡姆    Psnr    斯卡姆
双的    × 2    28.46    0.8983    27.92    0.8891
拉普斯恩    × 2    30.23    0.9326    29.74    0.9262
Pcrcn    × 2    31.01    0.9481    30.59    0.9438
抽打    × 2    32.41    0.9663    31.44    0.9609
(我们的)    × 2    33.31    0.9654    32.73    0.9612
(我们的)    × 2    33.88    0.9693    33.31    0.9654
双的    × 4    26.32    0.7835    25.63    0.7539
拉普斯恩    × 4    28.30    0.8523    27.52    0.8258
Pcrcn    × 4    25.01    0.8630    24.80    0.8454
抽打    × 4    29.56    0.8952    28.66    0.8720
(我们的)    × 4    29.62    0.8816    28.84    0.8599
(我们的)    × 4    30.47    0.8983    29.71    0.8792
4.2.2定性比较
我们举例说明了用不同方法生成的SR图像,这些方法用于与图中的8×的提升因子进行定量比较。  9 和 10.结果表明,csrnet产生的面部图像更接近于地面真相,特别是在重要的面部区域,如眼睛和嘴。此外,虽然就PSRR和SSY而言,csrghan的质量表现与csrnet不相匹配,但我们观察到,csrgan通过提供更多的细节(例如,提供更多的细节),呈现出比csrnet更真实的面孔。皱纹和胡须。这是因为csrg被训练来欺骗鉴别者,而不是提供更高的pscr和sim。CSRGAN工作良好的面孔表明,使用形状和识别前科提供了足够的,但补充的信息生成现实的面孔。

详情在图片后面的标题中
图9
在图形查看器中打开
幻灯片
一些具有代表性的表面SR方法生成的表面图像,其放大因子为8×(即.从24x24到192x192).对于每一个样本,四个方法,包括VDSR、SRGAN、LPSRN和NLSA是只使用文本的方法,不使用面部前科,而SICNN和C-SLIP使用身份前科,以及超级风扇、RCNET、PCRC、DIC和迪根使用形状前科。相比之下,我们的方法同时使用形状和身份前科。csrnet在主要的面部区域提供更细粒度的细节(例如。产生最高的PSRR和SSY值。CSRGAN进一步呈现了光现实的SR脸。目标面来自塞勒巴数据集。
详情在图片后面的标题中
图10
在图形查看器中打开
幻灯片
一些具有代表性的表面SR方法生成的表面图像,其放大因子为8×(即.从24x24到192x192).对于每一个样本,四个方法,包括VDSR、SRGAN、LPSRN和NLSA是只使用文本的方法,不使用面部前科,而SICNN和C-SLIP使用身份前科,以及超级风扇、RCNET、PCRC、DIC和迪根使用形状前科。相比之下,我们的方法同时使用形状和身份前科。csrnet在主要的面部区域提供更细粒度的细节(例如。产生最高的PSRR和SSY值。CSRGAN进一步呈现了光现实的SR脸。目标面来自海伦数据集。
为了对中间SR结果进行SR比较,我们比较了采用级联结构的方法所产生的2×和4×的提升系数的中间结果。  11 和 12 分别。这些案例说明,csrnet产生了更稳定的中间结果,这与真正的hr面更加相似。

详情在图片后面的标题中
图11
在图形查看器中打开
幻灯片
用代表性级联法生成的表面SR,其比例系数为2x2,从24x24到48x48.
详情在图片后面的标题中
图12
在图形查看器中打开
幻灯片
用代表性级联法生成的表面SR,其比例系数为x4,从48x48到96x96.
4.2.3更多的定性比较
我们还培训了csrga(csrnet的一个GAN版本),并将其与其他有代表性的基于GAN的方法进行了比较,包括srgan和digan。为了评估它们的有效性,我们计算了海伦和塞勒巴数据集上的LPPS值,并在图中展示了不同基于GAN的SR方法生成的一些示例面。  13.我们还在两个数据集上报告每个方法的LIPPS值。具体而言,在海伦数据集上,我们分别获得了斯尔根、迪根和西根的LPPS值为0.2639、0.1581和0.1896。在塞莱巴数据集上,我们分别获得了斯尔根、迪根和西根的LPPS值0.2958、0.1674和0.2046。我们的结果表明,在LPPS方面,迪根和西根都优于斯尔根。此外,我们的提议的CSRGAN达到了类似的性能迪根。值得注意的是,改进ccrg的感性品质并不是本文的主要重点。取而代之的是,我们的目的是探索我们所提议的csrnet在结合形状和身份前科方面的有效性。

详情在图片后面的标题中
图13
在图形查看器中打开
幻灯片
用有代表性的甘基SR法生成的面,其放大系数为8×,从24×24~192×192。
4.3消融研究
我们进行了一个消融研究,并在表中报告结果。  4 . 基线 意味着只使用SR分支和"+"意味着允许对SR进行不同的面部前科,包括 B+Shape 和 B+Identity .我们根据表中的比较结果提出以下意见。  4.首先,使用形状前科或身份前科比基线方法(仅SR分支)产生更好的性能。其次,对于形状的原始,热图约束是提高SR面质量和生产更高的PSRR和SSY的关键。第三,对于身份前置,语义嵌入损失是必要的,这主要是为了提高语义信息的质量,从而产生更高的SSY。最重要的是,形状前科和身份前科是相辅相成的,而csrnet通过共同利用它们始终提供最佳性能。

TABLE 4. 24~192倍的尺度系数为8x,在24x24~192x192的条件下,对计算机网络的减振性能进行了研究. 基线 意味着只使用SR分支。 红色的 显示最佳性能。
海伦    西里巴
高级方法    Psnr    斯卡姆    Psnr    斯卡姆
基线    28.66    0.8141    27.82    0.7862
B+Shape    28.69 ↑    0.8142 ↑    27.84 ↑    0.7866 ↑
B+Identity    28.66 -    0.8143 ↑    27.82 -    0.7865 ↑
(我们的)    28.71 ↑    0.8143 -    27.86 ↑    0.7867 ↑
4.3.1模型尺寸的影响
为了确保我们提议的csrnet的性能改进不仅仅是由于额外的参数,我们在表格中比较了不同基线的模型大小。  5 . 基线 和 B+Shape 具有相同的网络结构,参数为1.62米,而 B+Identity 和 通信网络 共享相同的网络结构和2.07m参数.有相同数量的参数, B+Shape 表现优于 基线 ,说明利用形状前科的有效性。更重要的是, 通信网络 表现优于 B+Identity尽管参数数量相同,但确认身份识别和形状前置相结合对于实现改进面部SR结果至关重要。

TABLE 5. 模型尺寸与不同基线的比较。 基线 意味着只使用SR分支。
方法    基线    B+Shape    B+Identity    (我们的)
参数    1.62M    1.62M    2.07M    2.07M
4.3.2事先利用形状的效果
通过与现有方法的比较,说明了csrnet在利用形状前科方面的有效性。尤其是,我们与超级粉丝 基线 图中方法  14 .定性结果表明 B+Shape 方法(不使用身份证前科)比其他方法更能保持眼睛的形状和鼻子的轮廓。 基线 .与超级风扇相比, B+Shape 采用级联式结构,从残余面中提取出形状特征.高品质的 B+Shape 表明这两种设计有助于性能,并提供了更好的方式利用的形状前置。

详情在图片后面的标题中
图14
在图形查看器中打开
幻灯片
形状前置对SR面的影响。"基线"只使用SR分支,"B+形状"包含形状前置。与"基线"相比,"B+形状"会产生更细的面部成分,包括鼻尖的轮廓(第一和第三个例子脸)、牙齿的形状(第二个例子脸)等。与其他现有的基于形状前置的SR方法相比,"B+形状"提供了更好的利用形状前置的方法。
4.3.3利用先前身份的影响
我们通过与图中使用身份前科的现有方法进行比较,说明了使用身份前科的有效性。  15 .我们用三个例子来证明这些方法的区别.尤其是社会主义者 B+Identity 而其他的SR面则在每第二行的样面中绘制,而较暖的颜色则显示出较大的差异。与SISNN和CSRIP相比,在像素值有很大差异的面部区域,差异很大。这些快速变化的区域与图像中的面部区域相对应。这些差异的结果表明 B+Identity 更好地保留面部区域的细粒细节,特别是口腔的形状和眼球的位置。与…相比 基线 ,像素值的变化比其他现有方法小。然而,我们仍然可以观察到主要呈现身份和语义信息的关键面部区域如眼睛、口腔和面部轮廓的变化。简而言之,图中的结果  15 表明我们的设计在利用身份前科方面是有效的。

详情在图片后面的标题中
图15
在图形查看器中打开
幻灯片
身份前科对SR面部的影响。大型PSRR/SSY表明质量更好。"基线"只使用SR分支,"B+身份"包含身份前科。与"基线"相比,"b+身份"改变了主要面部区域的细节(例如:眼睛、嘴和脸的轮廓)。与SISNN和CSRIP相比,"B+身份"在利用身份前科方面更为有效。
5.结论
在这里,我们提出了第一个深面超分辨率(SR)模型,共同利用形状前科和身份前科。csrnet采用级联结构,逐步地将低分辨率的面部图像转换为高分辨率的,并迫使生成的模型SR面部的形状和身份特征,使其与从地面真相高分辨率面部提取的对应物相匹配。这样,中间的SR图像和最终的SR图像就配备了面部结构信息和身份识别知识。通过多个级联来使用形状和身份识别的互补信息是一个新的和必要的,以提高表面SR。在包括塞莱巴和海伦在内的广泛使用的基准上进行的广泛实验表明,我们提议的CSRNET技术优于最先进的面部SR方法,而CSRGAN技术产生的面部图像更真实,但却带有歧视性,并造成对抗性和认同性的损失。最后,一个详细的消融研究表明,形状和身份前科是互补的,因为它们从不同的方面约束了SR面部。

发布日期:2023-11-29