生活工程体验信仰哲学精神
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆

2月18日 满月族投稿
  在图像生成领域,以StableDiffusion为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。
  在StableDiffusion之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展GAN需要仔细调整网络架构和训练因素。因此,GAN方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比GAN方法更易于控制,这是GAN式微的原因之一。
  当前,GAN主要是通过手动注释训练数据或先验3D模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重GAN在图像生成上的高效性,做出了许多改进GAN的尝试。
  最近,来自马克斯普朗克计算机科学研究所、MITCSAIL和谷歌的研究者们研究了一种控制GAN的新方法DragGAN,能够让用户以交互的方式拖动图像的任何点精确到达目标点。
  论文链接:https:arxiv。orgabs2305。10973
  项目主页:https:vcai。mpiinf。mpg。deprojectsDragGAN
  这种全新的控制方法非常灵活、强大且简单,有手就行,只需在图像上拖动想改变的位置点(操纵点),就能合成你想要的图像。
  例如,让狮子转头并开口:
  还能轻松让小猫wink:
  再比如,你可以通过拖动操纵点,让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:
  如果你也接到了把大象转个身的P图需求,不妨试试:
  整个图像变换的过程就主打一个简单灵活,图像想怎么变就怎么变,因此有网友预言:PS似乎要过时了。
  也有人觉得,这个方法也可能会成为未来PS的一部分。
  总之,观感就是一句话:看到这个,我脑袋都炸了。
  当大家都以为GAN这个方向从此消沉的时候,总会出现让我们眼前一亮的作品:
  这篇神奇的论文,已经入选了SIGGRAPH2023。研究者表示,代码将于六月开源。
  那么,DragGAN是如何做到强大又灵活的?我们来看一下该研究的技术方法。
  方法概述
  该研究提出的DragGAN主要由两个部分组成,包括:
  基于特征的运动监督,驱动图像中的操纵点向目标位置移动;
  一种借助判别型GAN特征的操纵点跟踪方法,以控制点的位置。
  DragGAN能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。
  GAN有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motionsupervision)和精确的点跟踪。具体来说,运动监督是通过优化潜在代码的移位特征patch损失来实现的。每个优化步骤都会导致操纵点更接近目标,然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程,直到操纵点达到目标。
  DragGAN还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于DragGAN不依赖任何额外的网络,因此它实现了高效的操作,大多数情况下在单个RTX3090GPU上只需要几秒钟就可以完成图像处理。这让DragGAN能够进行实时的交互式编辑,用户可以对图像进行多次变换更改,直到获得所需输出。
  如下图所示,DragGAN可以有效地将用户定义的操纵点移动到目标点,在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是,本文的变形是在GAN学习的图像流形上进行的,它倾向于遵从底层的目标结构,而不是简单地应用扭曲。例如,该方法可以生成原本看不见的内容,如狮子嘴里的牙齿,并且可以按照物体的刚性进行变形,如马腿的弯曲。
  研究者还开发了一个GUI,供用户通过简单地点击图像来交互地进行操作。
  此外,通过与GAN反转技术相结合,本文方法还可以作为一个用于真实图像编辑的工具。
  一个非常实用的用途是,即使合影中某些同学的表情管理不过关,你也可以为Ta换上自信的笑容:
  顺便提一句,这张照片正是本篇论文的一作潘新钢,2021年在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后,并将从2023年6月开始担任南洋理工大学计算机科学与工程学院MMLab的任助理教授。
  这项工作旨在为GAN开发一种交互式的图像操作方法,用户只需要点击图像来定义一些对(操纵点,目标点),并驱动操纵点到达其对应的目标点。
  这项研究基于StyleGAN2,基本架构如下:
  在StyleGAN2架构中,一个512维的潜在代码N(0,)通过一个映射网络被映射到一个中间潜在代码R512中。的空间通常被称为W。然后,被送到生成器,产生输出图像I()。在这个过程中,被复制了几次,并被送到发生器的不同层,以控制不同的属性水平。另外,也可以对不同层使用不同的,在这种情况下,输入将是
  ,其中是层数。这种不太受约束的W空间被证明是更有表现力的。由于生成器学习了从低维潜在空间到高维图像空间的映射,它可以被看作是对图像流形的建模。
  实验
  为了展示DragGAN在图像处理方面的强大能力,该研究展开了定性实验、定量实验和消融实验。实验结果表明DragGAN在图像处理和点跟踪任务中均优于已有方法。
  定性评估
  图4是本文方法和UserControllableLT之间的定性比较,展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点,实现了多样化和自然的操纵效果,如改变动物的姿势、汽车形状和景观布局。相比之下,UserControllableLT不能忠实地将操纵点移动到目标点上,往往会导致图像中出现不想要的变化。
  如图10所示,它也不能像本文方法那样保持未遮盖区域固定不变。
  图6提供了与PIPs和RAFT之间的比较,本文方法准确地跟踪了狮子鼻子上方的操纵点,从而成功地将它拖到了目标位置。
  真实图像编辑。使用GANinversion技术,将真实图像嵌入StyleGAN的潜空间,本文方法也可以用来操作真实图像。
  图5显示了一个例子,将PTIinversion应用于真实图像,然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情:
  图13展示了更多的真实图像编辑案例:
  定量评估
  研究者在两种设置中下对该方法进行了定量评估,包括人脸标记点操作和成对图像重建。
  人脸标记点操作。如表1所示,在不同的点数下,本文方法明显优于UserControllableLT。特别是,本文方法保留了更好的图像质量,正如表中的FID得分所示。
  这种对比在图7中可以明显看出来,本文方法打开了嘴巴并调整下巴的形状以匹配目标脸,而UserControllableLT未能做到这一点。
  成对图像重建。如表2所示,本文方法在不同的目标类别中优于所有基线。
  消融实验
  研究者研究了在运动监督和点跟踪中使用某种特征的效果,并报告了使用不同特征的人脸标记点操作的性能(MD)。如表3所示,在运动监督和点跟踪中,StyleGAN的第6个block之后的特征图表现最好,显示了分辨率和辨别力之间的最佳平衡。
  表4中提供了1的效果。可以看出,性能对1的选择不是很敏感,而13的性能略好。
  讨论
  掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码,图8展示了它的效果:
  Outofdistribution操作。从图9可以看出,本文的方法具有一定的outofdistribution能力,可以创造出训练图像分布之外的图像,例如一个极度张开的嘴和一个大的车轮。
  研究者同样指出了本文方法现存的局限性:尽管有一些推断能力,其编辑质量仍然受到训练数据多样性的影响。如图14(a)所示,创建一个偏离训练分布的人体姿势会导致伪影。此外,如图14(b)和(c)所示,无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此,研究者建议尽可能挑选纹理丰富的操纵点。
  【END】
  免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。
  文章来源:机器之心
投诉 评论 转载

苹果或已布局折叠屏,但最先可能在iPad上亮相热传聚热点网 日前有消息称,苹果方面或正在考虑推出一款折叠屏iPad设备。事实上这一传言与此前的相关预测相符,早前就曾有消息源透露,苹果或将会在2024年推出旗下首款折叠式机型,但其将是iP……【歌词】2012的传说歌手:陈明真热博聚热点网 爱在2012演唱:徐一鸣作词:刘原启作曲:徐一鸣LRC制作:歌谱收藏站李金龙826695889不知你过得快不快乐我始终还是爱你的都怪我……日本1小哥4步建光伏农场葡萄1斤卖500元,2年实现挂果,掀 全球气候变暖给人们带来了高温热浪、强降雨、洪水,气温上升还会导致冰川融化、陆地干旱、荒漠化,加快水分蒸发与水土流失,最终形成更多的极端天气,碳排放是全球变暖的一大主因,如何减少……索达吉堪布:当死亡突然到来时,临终“这一念”非常关键!热博聚 许多大德认为,即使不会参禅,只要有净土,也完全能解脱。永明延寿大师云:“无禅有净土,万修万人去,但得见弥陀,何愁不开悟。”意思是,虽然没有禅宗的境界,但只要能如理修持净土……新概念:网吧计费系统第四代热传聚热点网 网吧计费对网吧来说,它是帮助网吧经营管理的金钥匙,是打理财务的保险柜。网吧计费从最初的雏形到现在全新的第四代,其无可比拟的安全性是建立在一步步改良和创新的基础上的。嘟嘟牛对硬件……BDLive蓝光乍现碟友洗牌忙热议聚热点网 Gizmodo的编辑称早就警告过诸位,尽管蓝光赢了格式大战,但现在还不是入手蓝光影碟的良机。支持BDLive(蓝光互动内容)的蓝光影碟上市后,碟友将面临蓝光洗蓝光的尴尬局面。……从经贸盛会引力看中国市场魅力热评聚热点网 新华社北京5月8日电《经济参考报》5月8日刊发文章《从经贸盛会引力看中国市场魅力》。文章称,现场出口成交216。9亿美元5月5日,第133届广交会落下帷幕,各项指标表明全球工商……最美乡村教师观后感热闻聚热点网 最美乡村教师观后感当看完一部作品后,相信大家的收获肯定不少吧,不能光会看哦,写一篇观后感吧。千万不能认为观后感随便应付就可以,以下是小编为大家收集的最美乡村教师观后感,希……劳动合同一般要具备哪些条款热文聚热点网 问:劳动合同一般要具备哪些条款律师解答:劳动合同应当具备以下条款:1、用人单位名称、住所、法定代表人或主要负责人;2、工人的姓名、地址、居民身份证或其他有效身份证号……有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆 在图像生成领域,以StableDiffusion为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定……苹果勿扰模式(iPhone开启勿扰模式后仍会有声音和弹窗)热 在我们不想被打扰时,可以开启iPhone勿扰模式来将通知和来电静音,但是有用户发现,在开启该模式之后,仍然会出现声音和弹窗,应该如何设置呢?设置始终静音:如果您仍然……沁人心脾!喜马拉雅山上的绝美蓝冰热议聚热点网 近日,西藏日喀则。郭强措是一处隐匿在喜马拉雅山脉深处的绝美冰碛湖,还没解冻的湖面在蓝天的映衬下,呈现出不可思议的蓝色。摄影师董书畅在海拔5350米的山里,拍到了这梦幻一般的蓝冰……
“云跑中国”西安古城墙云端万人马拉松热议聚热点网 秋季,少吃大鱼大肉多吃它,常吃平肝降压补钙质,中老年人要多吃 电影《海上钢琴师》,1900为什么要与邮轮共存亡?热闻聚热点 【歌词】打灰机歌手:孙佳梵(抱猫。。热传聚热点网 累计建成120多万亩良田!英德变“沉睡地”为“致富田”热传聚 同样是演姐弟恋,王安宇和王子异,金晨和谁更有CP感?热评聚热 汽车被追尾怎么处理热闻聚热点网 俄外长称俄方仍愿就乌克兰问题进行谈判热传聚热点网 这个职业月入可达8万,周星驰也在抢人。。热文聚热点网 无可挑剔的NANK南卡小音舱Lite2半入耳无线蓝牙耳机热博 央媒看海南丨文昌:现代化渔业产业园助农增收热议聚热点网 海口城市印记(三)文化遗存琼台福地热博聚热点网
minratio和maxratio宽高比自适应布局儿童乘车发生车祸的原因有哪些没有必要一直改变你的企业秋季养发护肤的方法内外搭配有效预防脱发登峰造极造句用登峰造极造句大全华为荣耀手机无法开机是什么原因只求今生不修来世没想到你是这样的摄影师!爸爸,我想对您说小学作文茶树精油祛痘怎么用四个方法无瑕肌肤轻松拥有数码知识抖音小店地址怎么修改设置店铺地址教程超过自己

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西