【前言】
· 随着 AIGC( AI-Generated Content )生成式算法的成熟,大模型加速了对生产方式与人机交互方式的重塑与革新,其中在图像素材领域的颠覆效应尤为明显。
· 羚珑设计平台,作为京东零售最完善的素材生产及管理平台,也在 AIGC 前沿算法应用上持续探索。本专题将以业务场景的视角,分享羚珑在 AIGC 算法及业务应用上的思考与沉淀。
工具体验:
AI 图片扩写
流量碎片化的时代下,流量坑位拆分得愈发分散。面对着海量多尺寸的坑位上场诉求,同一张图片素材往往需要经过人工的重复处理调整,从而完成多次提报上场。
图片扩写工具的推出便是为了通过自动化能力提升延展效率,使得素材多尺寸一键提报,流程不再琐碎~本篇文章将围绕「图片扩写」的算法原理及业务应用展开分享,现在就开始吧 ~
一、假如没有图片扩写
一项新技术新算法的出现,不可能凭空产生,必然是来源于真实场景与需求。图片扩写或尺寸延展也不例外,这一能力主要是用来解决同一张素材或模板自动适配不同尺寸坑位的问题。
在图片扩写或延展算法提出及应用之前,想要进行图片延展,只能依靠人工进行调整,要么向内裁剪,要么向外拉伸。向内裁剪的方式,无疑会导致内容超出区域从而丢失关键信息;而向外拉伸图片的方式,则会导致图片变形及内容不可见。根据我们调研得知,因为人工调整图片的效果误差而导致的返工及耗时占据商家及业务同学的大部分时间。
为了又好又快地得到目标尺寸的素材,图片扩写算法应运而生。经过我们内部测试,通过图片扩写自动调整尺寸,极大地释放了商家及业务人力资源,彻底地解决了图片改尺寸这一痛点和问题!
二、扩写如何无中生有
在思考如何实现图片扩写之前,我们首先需要做的不是研究数学公式和代码,而是定义清楚扩写的基本原理或思路是什么。定义问题,才能解决问题。
1、什么是扩写
在听到 “扩写” 这个专业词语的时候,可能你的脑海里第一个冒出来了 “扩句” 。扩句是把不同的词语添加到短句中组成语意连贯通顺的长句,那么扩写也是同理,即把不同图片像素添加到新的尺寸中形成画面和谐的新图片。
而从解决问题的角度来看,扩写更接近于输入法的原理。当输入第一个字之后,聪明的输入法会根据这个字以及前面的信息,联想生成下一个字;那么图片扩写可以等同于图像内容补全,根据输入图片的视觉语义及信息,一个一个像素地往外填充,从而实现图片的联想补全。
2、主流算法测试
图片扩写虽然解决的场景是像素外扩,但实际在实现方案上,基本采用与局部重绘(也就是上一篇图像擦除羚珑 AIGC 探索(一)素材擦除如何又准又快)一样的思路。
类似于图像擦除算法,行业主流方案也是基于 LaMa、ZITS、MAT、MADF、CoModGAN 等对抗式生成算法来实现。通过上一篇的分析,不同的模型在不同的场景上效果不一,其中在图片扩写领域依然是 LaMa 与 MAT 算法使用的最为高频,我们也选取了这两个模型进行相应的效果测试。
经过我们的效果测试,主要有以下两点结论:
1. LaMa 与 MAT 更适合背景单一且边界没有物体的场景,如简单类、风景类、线条类等素材。
2. LaMa 与 MAT 不擅长复杂背景或边界有物体的场景,且多次生成多样性较差。
3、羚珑是如何落地的
既然传统的机器学习算法均存在不同的局限性与问题,为了解决业务场景中的效果及多样性问题,我们尝试结合 AIGC 生成式算法进行尝试和落地。
- 复用了旧经验
与图像擦除的探索思路类似,我们采用多模型融合生成的思路,尝试使用 Stable Diffusion 算法来优化生成相关性及多样性。
现有的 SD 基底模型包括 SD V1.5 、SD V1.5 + ControlNet inpaint 以及 SD V1.5-inpaint 等,我们进一步结合羚珑平台沉淀的海量电商领域素材资产进行了微调训练,使得模型效果更贴近营销素材风格及场景。通过测试验证得出,相比 LaMa 或 MAT 的单次扩写,增加 SD 二次重绘之后的生成结果在画面一致性及延续性上有了肉眼可见的提升,无论是色差还是画面过渡等常见的生成问题都能很好改善。
以下是我们的一些测试样例及效果。
- 解决了新问题
通过多模型融合进行多次扩写的新解决方案也并非十全十美,带来效果显著优化的同时也产生了新的问题。我们在效果测试中发现,通过这种方案扩写生成的素材,在原始内容与生成内容的过渡处依然会有较为明显的边缘与色差,导致视觉观感不一致,显得很出戏。
我们相信,当一项技术逐渐 “看不见” 的时候,才是这项技术真正走向成熟的时候。
因此,为了进一步优化生成前后的差异,抹除掉 AI 的痕迹,我们进一步往前深挖问题背后的原理:图片不一致的本质原因,其实是扩写生成的两种图像信号的不同。厘清问题方向后,我们探索并尝试了多种图像融合算法,最终将两种不同的图像信号源进行融合及过渡处理,实现扩写前及扩写后的图像内容无感融合!
经过内部的多次测试及验证,按照横向扩写 50% 、100% 及 纵向扩写 50%、100% 的测试方式,整体可用率提升 21% 以上,用户满意度及使用效率得到了明显的提升!
三、居然还能批量扩写
“ 工欲善其事,必先利其器 ”。除了算法效果的持续打磨与提升,商家及内部用户的作图体验与效率也离不开自动化、批量化工具的迭代升级。
通过一系列的用户访谈与调研,我们发现无论是商家用户还是内部用户,经常需要重复多次地制作、编辑同一类素材或模板,大部分时间都浪费在重复操作以及机械搬运上!为了真正地发挥 AI 无人化的作用,我们推出了全新的图片扩写工具,并新增了批量编辑及批量扩写的功能,希望能真正地 “一键” 制作海量素材,让 AI 替我们打工!
进入到全新的图片扩写工具,上传素材后,只需打开批量编辑设置,便可对多张素材进行批量操作,拖拉拽画布位置,点击一键生成便可进行批量扩写生成,再也不用做无情的复制粘贴机器~
四、欢迎使用与反馈
“ 会取代你的不是 AI ,而是会使用 AI 的人 ”
1 马不停蹄,立即使用 ~
👉 AI 图片扩写
2 登录首页 https://ling.jd.com/ ,点击进入 ~
——
「 简洁,高效,为线上经营的每一步 」