AI智能抠图的主流算法

375
发表时间:2022-04-13 14:43

AI智能抠图

对于一张图I, 我们感兴趣的人像部分称为前景F,其余部分为背景B,则图像I可以视为F与B的加权融合I = alpha * F + (1 - alpha) * BI=alphaF+(1−alpha)∗B,而抠图任务就是找到合适的权重alpha。值得一提的是,如图,查看抠图ground truth可以看到,alpha是[0, 1]之间的连续值,可以理解为像素属于前景的概率,这与人像分割是不同的。如图,在人像分割任务中,alpha只能取0或1,本质上是分类任务,而抠图是回归任务。

抠图ground truth:

分割ground truth:

相关工作

我们主要关注比较有代表性的基于深度学习的抠图算法。目前流行的抠图算法大致可以分为两类,一种是需要先验信息的Trimap-based的方法,宽泛的先验信息包括Trimap、粗糙mask、无人的背景图像、Pose信息等,网络使用先验信息与图片信息共同预测alpha;另一种则是Trimap-free的方法,仅根据图片信息预测alpha,对实际应用更友好,但效果普遍不如Trimap-based的方法。

Trimap-based

Trimap是最常用的先验知识,顾名思义Trimap是一个三元图,每个像素取值为{0,128,255}其中之一,分别代表前景、未知与背景,如图。

Deep Image Matting

多数抠图算法采用了Trimap作为先验知识。Adobe在17年提出了Deep Image Matting[^1],这是首个端到端预测alpha的算法,整个模型分Matting encoder-decoder stage与Matting refinement stage两个部分,Matting encoder-decoder stage是第一部分,根据输入图像与对应的Trimap,得到较为粗略的alpha matte。Matting refinement stage是一个小的卷积网络,用来提升alpha matte的精度与边缘表现。

本文在当时达到了state-of-the-art,后续很多文章都沿用了这种“粗略-精细”的抠图思路,此外,由于标注成本高,过去抠图任务的数据是非常有限的。本文还通过合成提出了一个大数据集Composition-1K,将精细标注的前景与不同背景融合,得到了45500训练图像和1000测试图像,大大丰富了抠图任务的数据。

Background Matting

Background Matting[^2]是华盛顿大学提出的抠图算法,后续发布了Backgroun MattingV2,方法比较有创新点,并且在实际工程应用中取得了不错的效果。

同时,由于Adobe的数据都是基于合成的,为了更好的适应真实输入,文中提出一个自监督网络训练G_{Real}GReal来对未标注的真实输入进行学习。G_{Real}GReal输入与G_{Adobe}GAdobe相同,用G_{Adobe}GAdobe输出的alpha matte与F来监督G_{Real}GReal的输出得到loss,此外,G_{Real}GReal的输出合成得到的RGB还将通过一个鉴别器来判断真伪得到第二个loss,共同训练G_{Real}GReal

文中列举了一些使用手机拍摄得到的测试结果,可以看到大部分情况结果还是很不错的。

Background Matting V2

Background Matting得到了不错的效果,但该项目无法实时运行,也无法很好的处理高分辨率输入。所以项目团队又推出了Background Matting V2[^3],该项目可以以30fps的速度在4k输入上得到不错的结果。

文章实现高效高分辨率抠图的一个重要想法是,alpha matte中大部分像素是0或1,只有少量的区域包含过渡像素。因此文章将网络分为base网络和refine网络,base网络对低分辨率图像进行处理,refine网络根据base网络的处理结果选择原始高分辨率图像上特定图像块进行处理。

base网络输入为c倍下采样的图像与背景,通过encoder-decoder输出粗略的alpha matte、F、error map与hidden features。将采样c倍得到的error map E_cEc上采样到原始分辨率的\frac{1}{4}41为E_4E4,则E_4E4每个像素对应原图4x4图像块,从E_4E4选择topk error像素,即为原始topk error 4x4图像块。在选择出的像素周围裁剪出多个8x8图像块送入refine网络。refine网络是一个two-stage网络,首先将输入通过部分CBR操作得到第一阶段输出,与原始输入中提取的8x8图像块cat后输入第二阶段,最后将refine后的图像块与base得到的结果交换得到最终的alpha matte和F。

此外文章还发布了两个数据集:视频抠图数据集VideoMatte240K与图像抠图数据集PhotoMatte13K/85。VideoMatte240K收集了484个高分辨率视频,使用Chroma-key软件生成了240000+前景和alpha matte对。PhotoMatte13K/85则是在良好光照下拍摄照片使用软件和手工调整的方法得到13000+前景与alpha matte数据对。大型数据集同样是本文的重要贡献之一。

此外还有一些文章如Inductive Guided Filter[^4]、MGMatting[^5]等,使用粗略的mask作为先验信息预测alpha matte,在应用时也比trimap友好很多。MGMatting同时也提出了一个有636张精确标注人像的抠图数据集RealWorldPortrait-636,可以通过合成等数据增广方法扩展使用。

Trimap-free

实际应用中先验信息获取起来是很不方便的,一些文章将先验信息获取的部分也放在网络中进行。

Semantic Human Matting

阿里巴巴提出的Semantic Human Matting[^6]同样分解了抠图任务,网络分为三个部分,T-Net对像素三分类得到Trimap,与图像concat得到六通道输入送入M-Net,M-Net通过encoder-decoder得到较为粗糙的alpha matte,最后将T-Net与M-Net的输出送入融合模块Fusion Module,最终得到更精确的alpha matte。

网络训练时的alpha loss分为alpha loss与compositional loss,与DIM类似,此外还加入了像素分类lossL_tLt,最终loss为:L = L_p + L_t=L_\alpha + L_c + L_tL=Lp+Lt=+Lc+Lt。文章实现了端到端Trimap-free的抠图算法,但较为臃肿。此外文章提出Fashion Model数据集,从电商网站收集整理了35000+标注的图片,但并没有开放。

Modnet

modnet[^7]认为神经网络更擅长学习单一任务,所以将抠图任务分为三个子任务,分别进行显式监督训练和同步优化,最终可以以63fps在512x512输入下达到soft结果,因此在后续的工程实现中我也选择了modnet作为Baseline。

网络的三个子任务分别是Semantic Estimation、Detail Prediction和Semantic-Detail Fusion,Semantic Estimation部分由backbone与decoder组成,输出相对于输入下采样16倍的semantics,用来提供语义信息,此任务的ground truth是标注的alpha经过下采样与高斯滤波得到的。 Detail Prediction任务输入有三个:原始图像、semantic分支的中间特征以及S分支的输出S_pSp,D分支同样是encoder-decoder结构,值得留意的该分支的loss,由于D分支只关注细节特征,所以通过ground truth alpha生成trimap,只在trimap的unknown区域计算d_pdp与\alpha_gαg的L_1L1损失。F分支对语义信息与细节预测进行融合,得到最终的alpha matte与ground truth计算L_1L1损失,网络训练的总损失为:L=\lambda_sL_s + \lambda_dL_d+\lambda_{\alpha}L_{\alpha}L=λsLs+λdLd+λα

最后,文章还提出了一种使视频结果在时间上更平滑的后处理方式OFD,在前后两帧较为相似而中间帧与前后两帧距离较大时,使用前后帧的平均值平滑中间帧,但该方法会导致实际结果比输入延迟一帧。

此外,U^2U2-Net、SIM等网络可以对图像进行显著性抠图。


微信公众号:
蓝松文档:
地址:浙江省杭州市余杭区仓前街道龙园路88号3号楼A1318室(创鑫时代广场)