放下你的PhotoShop!无限图像编辑已开源!

描述

0. 笔者个人体会

最近文本到图像的工作很火,生成的图像也非常真实。但还有个问题,现有工作效率比较低,往往只能接受一次text指令,再修改就要重新输入text重新生成,可能会影响原本的语义信息,这样导出的图像和最初图像可能差距甚远。

今天笔者将为大家分享一项最新开源的工作LEDITS++,可以一次输入无限多的编辑指令,一次性生成真实图像!而且LEDITS++是无参数方案,不需要微调和优化。不得不感慨AI发展之迅速,距离人们真实生活也越来越近了。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

先看一下具体效果,输入具体指令就可以直接产生对应效果。PS要想在几十秒内达到同等效果应该是有点困难。

AI

LEDITS++很强调编辑前后的图像一致性,也就是仅修改图像的相关区域,保持原始图像的语义信息。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

AI

代码已经开源了,官方主页也开放了交互式demo,感兴趣的读者可以上传自己的图像和文本指令尝鲜一下效果。

2. 具体原理是什么?

LEDITS++可以分为三个部分:(1)有效的图像反转;(3)多功能文本编辑;(3)图像变化的语义基础。

我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当将反向扩散过程公式化为SDE时,DDPM可以被视为一阶SDE解算器。使用高阶微分方程解算器可以更有效地解算,因此作者推导出一种新的更快技术------DPM-solver++反演。

AI

在创建重建序列之后,可以通过一组编辑指令操纵噪声来编辑图像。根据有条件和无条件估计,作者分别设计了一个专门的引导项,既反映了编辑的方向,又最大化了对所需编辑效果的细粒度控制。

AI

最后,LEDITS++还包括一个Mask项,由交叉注意层生成的Mask和噪声估计导出的Mask取交集计算得到。Mask可以捕捉与编辑概念相关的图像区域,对于多次编辑特别有效。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

AI

3. 和其他SOTA方法对比如何?

不同编辑方法的指令对齐和图像相似度权衡的比较,侧重CLIP得分(越高越好)与LPIPS相似度(越低越好),也就是图中越靠近左上角效果越好。

AI

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分