(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111598280.7
(22)申请日 2021.12.24
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 付彦伟 曹辰捷 董巧乐
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
代理人 赵志远
(51)Int.Cl.
G06T 5/00(2006.01)
G06T 7/13(2017.01)
G06T 3/40(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于线框和边缘结构的增量式图像修
复方法
(57)摘要
本发明涉及一种基于线框和边缘结构的增
量式图像修复方法, 包括: 获取场景数据图片; 构
建适应于 下游任务的遮掩图层来进行模型训练;
构建结构 恢复模型并对其进行训练; 构建线框结
构上采样网络并对其进行训练; 若遮掩图像的分
辨率大于256 ×256, 利用结构上采样网络将256
×256的修复线框和边缘结构上采样到和遮掩图
像同分辨率; 将修复的线框和边缘信息输入结构
特征编码器获取结构特征; 根据遮掩图层获取遮
掩位置编码; 构建图像修复网络并对其进行训
练; 模型训练结束后, 进行图像修复。 与现有 技术
相比, 本发明具有 图像修复效果好、 适应性强等
优点。
权利要求书5页 说明书10页 附图1页
CN 114399436 A
2022.04.26
CN 114399436 A
1.一种基于线框和边缘结构的增量式图像修复方法, 其特征在于, 所述的图像修复方
法包括:
步骤1: 获取场景 数据图片;
步骤2: 构建适应于下游任务的遮 掩图层来进行模型训练;
步骤3: 构建结构恢复模型并对其进行训练;
步骤4: 构建线框结构上采样网络并对其进行训练;
步骤5: 若遮掩图像的分辨率大于256 ×256, 利用结构上采样网络将256 ×256的修复线
框和边缘结构上采样到和遮 掩图像同分辨 率;
步骤6: 将修复的线框和边 缘信息输入结构特 征编码器获取 结构特征;
步骤7: 根据遮 掩图层获取遮 掩位置编码;
步骤8: 构建图像修复 网络并对其进行训练;
步骤9: 模型训练结束后, 进行图像修复。
2.根据权利要求1所述的一种基于线框和边缘结构的增量式图像修复方法, 其特征在
于, 所述的步骤2具体为:
首先, 通过引入COCO数据集的语义分割标签图层, 构建遮 掩图层;
其次, 模拟人类涂鸦习惯以随机角度对笔刷进行迭代涂抹, 构建涂鸦图层;
最后, 使用随机组合语义分割遮 掩图层和涂鸦图层。
3.根据权利要求1所述的一种基于线框和边缘结构的增量式图像修复方法, 其特征在
于, 所述的结构恢复模型 具体为:
结构恢复模型TSR由三层卷积下采样层、 八个Transformer块和三层卷积上采样层组
成, Transformer块由轴向注意力模块结合普通注意力模块构成;
所述的轴向注意力模块具体为:
E=FFN(LN(I+R+C) )+I+R+C
其中, X为输入特征
经过层归一化的后的输出; xri,xrj,xci,xcj分别为X的第i
行、 第j行、 第i列和第j列的c维特征向量; Wrq,Wrk,Wcq,Wck均为可训练的参数;
是可
训练的相对位置编码;
分别是行和列的轴向注意力分数矩阵的第i行第j列的元
素; 对注意力分数做softmax归一化并乘以相应特征向量即可得到注意力模块输出, 轴向注
意力模块 最后的输出为E, 其中L N和FFN分别为层归一 化和前馈神经网络层;
将轴向注意力的输出输入到普通注意力模块即可得到一个Transformer块的输出F, 普
通注意力模块的计算过程 为:权 利 要 求 书 1/5 页
2
CN 114399436 A
2F=FFN(LN(SA))+SA
最后, 采用二 值交叉熵损失函数:
其中,
为canny边缘抽取器抽取无遮掩图像得到边缘图层;
为线框抽取模型抽取无
遮掩图像得到的线框图层;
恢复的结构信息为:
其中, Il为遮掩线框图层; Ie为遮掩边缘图层; M为遮 掩图; Im为遮掩图像。
4.根据权利要求1所述的一种基于线框和边缘结构的增量式图像修复方法, 其特征在
于, 所述的结构恢复模型的训练方法为:
通过预训练的线框抽取模型得到线框图层, 使用canny边缘抽取器抽取得到边缘图层,
并将遮掩线框图层Il、 遮掩边缘图层Ie、 遮掩图层M以及遮掩图像Im作为结构恢复模 型TSR的
输入, 对结构恢复模型进行训练。
5.根据权利要求1所述的一种基于线框和边缘结构的增量式图像修复方法, 其特征在
于, 所述的步骤4具体为:
利用分辨率为256 ×256以及分辨率为512 ×512的真实线框信息训练结构上采样网络,
该网络的前向过程 为:
其中,
为分辨率为256 ×256的真实线框信息; Resize为双线性插值; CNN由四层卷积
层组成,
为网络输出的分辨 率为512×512的线框信息;
损失函数为 二值交叉熵损失函数:
其中,
表示分辨 率为512×512的真实线框信息 。
6.根据权利要求1所述的一种基于线框和边缘结构的增量式图像修复方法, 其特征在
于, 所述的步骤6具体为:
将修复后的线框和边缘信息以及遮掩图层输入结构特征编码器SFE, 获得结构特征的
特征图:权 利 要 求 书 2/5 页
3
CN 114399436 A
3
专利 一种基于线框和边缘结构的增量式图像修复方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:57:43上传分享