生活工程体验信仰哲学精神
快软网
精神世界
探索历史
哲学文学
艺术价值
信仰创造
境界审美
体验技术
技能工具
工程信息
医学生产
生活运用
操作能力

哥伦比亚大学提出BPE造词法,可绕过审核机制,DALLE2已

12月24日 长歌行投稿
  编辑:LRS
  【新智元导读】最近哥伦比亚大学的研究人员发现用多语言的subword组合出的新词,在DALLE2系统中仍然能生成预期图像,或可绕过审查系统!
  2022年什么最值钱?prompt!
  基于文本的图像生成(textguidedimagegeneration)模型,如DALLE2大火后,网友们也是乐此不疲地生成各种搞怪图像。
  但想要让模型生成清晰、可用的目标图像,必须得掌握正确的咒语才行,也就是prompt须得精心设计之后才能用,甚至还有人架设网站卖起了prompt
  要是prompt是邪恶咒语,那生成的图片可能会涉嫌违规。
  虽然DALLE2发布之初就设立了各种机制来避免模型被滥用,比如从训练数据中删除暴力、仇恨或少儿不宜的图像;使用技术手段防止生成人脸的超写实照片,尤其是一些公众人物。
  在生成阶段,DALLE2还设置了一个prompt过滤器,不允许用户输入的提示词中包含暴力、成人或政治内容。
  但最近哥伦比亚大学的研究人员发现,可以在prompt添加一些看似胡言乱语的单词,使得过滤器无法识别出词义,但AI系统最终还是能返回有意义的生成图像。
  论文链接:https:arxiv。orgpdf2208。04135。pdf
  作者提出两种构造prompt的方法,第一种称之为macaronicprompting,其中macaronic一词的原意指多种语言的单词进行混合后生成新的词汇,比如说在巴基斯坦,乌尔都语和英语的混合词就很常见。
  而DALLE2的训练语料通常是从互联网上收集的数据,文本和图像之间建立概念联系的过程中多多少少都会涉及到多语言学习,使得训练后的模型具有同时识别多语言概念的能力。
  所以可以利用多语言组合成新词,绕过人类设计的prompt过滤器,达到对抗攻击的目的。
  比如鸟(birds)这个词在德语里是Vgel,用意大利语是uccelli,用法语是oiseaux,西班牙语是pjaros,在CLIP模型使用bytepairencoding(BPE)算法对输入提示句进行分词后,可以拆分成多个subword。
  把subword重新排列组合成新词后,比如输入uccoisegeljaros,DALLE2仍然能够生成鸟类的图像,但人类却完全无法读懂这个词的含义。
  甚至不严格遵守subword的边界,比如再换成voiscellpajaraux和oisvogajaro,模型仍能生成鸟类图。
  除了鸟类,研究人员发现组合多语言这个方法在不同的图像域都能取得不错的效果,图像生成结果展现出相当高的一致性。
  从动物界到风景、交通工具、场景、情绪的相关图像的生成都不在话下。
  虽然不同的文本指导的图像生成模型有不同的架构、训练数据和分词方法,但原则上,macaronic提示可以应用于任何在多语言数据上训练的模型,比如在DALLEmini模型中也能发现相同的效果。
  值得注意的是,尽管名字相似,但DALLE2和DALLEmini是相当不同的。它们有不同的架构(DALLEmini没有使用扩散模型),在不同的数据集上训练,并使用不同的分词程序(DALLEmini使用BART分词器,可能会以不同于CLIP分词器的方式分割单词)。
  尽管有这些差异,macaronic提示仍然能够在两种模型上都能发挥作用,背后的原理还需要再深入研究。
  但并非所有的macaronic提示都能在不同的模型间适当地转移,比如虽然farpapmaripterling按照预期产生了DALLE2的蝴蝶图像,但在DALLEmini中生成的却是蘑菇图像。
  研究人员推测,可能在更大的数据集上训练出来的更大的模型更容易受到macaronic提示的影响,因为它们在不同语言的子词单元和视觉概念之间学习到了更强的关联关系。
  这可能可以解释为什么一些在DALLE2中产生预期结果的macaronic提示在DALLEmini中不起作用,却几乎找不到相反的例子。
  这种趋势可能不是什么好消息,因为大规模模型可能更容易受到使用macaronic提示的对抗性攻击。
  除了将单个合成词作为prompt以外,合成词也可以嵌入到英语句法中组成句子,生成图像的效果和原始词汇相似。
  并且合成词还有一个优势,就是组合起来可以产生更具体和复杂的场景。虽然复杂的macaronic提示需要符合英语的句法结构,从而使生成结果比使用合成字符串的提示更容易解释,但传达给模型的信息仍然相对模糊。
  对于大多数人来说,如果没有事先接触过macaronic提示和用于杂交的语言知识,要猜出用提示语Aneidelucertlagarzardeatingamaripofarterling会产生什么样的场景可能是很困难的。
  此外,这种成分复杂的提示不会触发基于黑名单的内容过滤器,尽管它们使用的是普通英语单词,只要使用macaronic方法对受审查的概念进行充分加密即可。
  macaronic提示也不一定非在多语言中组合subword,在单一语言内进行合成也能产生有效的视觉概念,不过熟悉英语的人可能会猜测到该字符串的预期效果,比如happeerful这个词很容易猜到是happy和cheerful的合成词。
  第二种方法称为EvocativePrompting,和macaronic不同的是,evocative不需要从现有的词中组合触发视觉联想,而是由特定领域中某些字母组合的统计学意义进行唤起,创造出一个新词。
  参照生物学分类里的二名法(BinomialNomenclature),可以根据属名和种加词来创造一个新的伪拉丁词,DALLE就能够根据相应的主题生成对应的物种。
  根据药物的命名规律也可以生成新的药物图片。
  evocative提示也可以应用于语言的特定特征和与相应语言的地点和文化有关的视觉特征之间的关联。比如根据建筑名称,模型就可以推断是哪个国家的风格,如Woldenbchel生成的场景看起来像德国或奥地利村庄;Valtorigiano看起来像意大利古镇;Beaussoncour则像法国的历史城镇。
  不过也不一定都是建筑物,比如最后一个用DALLEmini生成的图像则是17世纪的法国肖像,而非法国的地点,但与法国文化的联系还是被保留了下来。
  evocative提示也可以与词汇杂交结合起来,以获得对输出的具体特征的更多控制。
  在伪拉丁命名法中引入英语词块会使DALLE2生成具有特定属性的动物图像,比如提示词scariosusferocianensis将可怕(scary)和凶猛(ferocious)与伪拉丁词条结合起来,可以生成传统上可怕的爬行动物的图像,如蝎子。
  cutiosusadorablensis将可爱(cute)和adorable与伪拉丁词条结合起来,能够生成传统意义上可爱的哺乳动物的图像;watosusswimensis将水(water)和游泳(swimming)与伪拉丁词缀结合起来,能够生成水生动物的图像;flyosuswingensis将飞行(fly)和有翼(winged)与伪拉丁词缀结合起来能够生成飞行昆虫的图像。
  从原理上来看,macaronic方法生成的词汇可以提供一种简单的、看似可靠的方法来绕过prompt过滤器,别有用心者可以用来生成有害的、攻击性的、非法的或其他敏感的内容,包括暴力、仇恨、种族主义、性别歧视或色情图片,以及可能侵犯知识产权或描述真实个人的图片。
  虽然提供图像生成服务的公司已经根据其内容政策,在防止生成这类输出方面做出了大量的努力,但macaronic提示仍然能够对商业图像生成系统的安全协议的造成巨大威胁。
  而evocative提示带来的威胁不那么明显,因为它没有提供一种十分有效且可靠的方法来触发特定视觉联想的字符串,它大多局限于与单词或语言的广泛形态特征有关的概念的模糊联想。
  总的来说,macaronic的提示比evocative提示的可操作性更强,基于关键词的黑名单在此类模型中的内容过滤不足以抵御攻击。
  难道DALLE2要开始黑化了?
  参考资料:
  https:www。unite。aithenonsenselanguagethatcouldsubvertimagesynthesismoderationsystems
投诉 评论 转载

发现男友加了一个“躺乐群”,鼓吹不买房,不结婚,我该分手吗? 前几天粉丝给我发了一个截图让我看看,说是相当的触目惊心。从这个截图上的文字内容,结合上下文来看的话,这个貌似是一个大多数群员是男生的群。1、有个男生说:给女友买五千……恭喜!上海男篮19岁小将获李春江提拔,下赛季升入一队,让人期 上海男篮休赛期大量清理老将,为的就是在下赛季重点提拔和培养更多的年轻球员。据上海媒体记者报道,03级后卫程望樊会在新赛季升入上海男篮一队,李春江对他的评价非常高。目前程望樊已经……从三年万店到关店裁员,这家便利店该何去何从?热文聚热点网 大家好,我是小肥良。从今年四月开始,媒体就陆续报道了便利蜂出现闭店潮的消息。天津多家便利蜂,多门店均出现了大门紧锁的情况:一夜之间人去店空,仿佛没有来过这里一……提问式销售法:做生意会不会赚钱,关键要看你会不会问热议聚热点 做生意会不会赚钱,关键要看你会不会问。你看那个会卖煎饼的,永远都在问你,要加鸡腿肉,还是加火腿肉,通常顾客顺口都是二选一,要么选鸡腿,要么选火腿。但假如这个煎饼摊老板换个问法,……长推:复制UST稳定币算法模型,USDD、USDN、CUSD 免责声明:本文旨在传递更多市场信息,不构成任何投资建议。文章仅代表作者观点,不代表MarsBit官方立场。小编:记得关注哦来源:Twitter原文标题:长推:……黄宏29岁女儿素颜照曝光,皮肤白皙五官精致,现为国家话剧院演 黄宏女儿黄兆函从小喜欢表演,9岁时参演爸爸执导的电影《二十五个孩子一个爹》进入演艺圈,11岁获得北京大学生电影节儿童演员特别奖,成为当红的童星。另外她还曾能演过《阳光天井》《网……1封感谢信69个红手印旅客赠言海口服务专员诉情深热博聚热点网 海口网消息“疫情无情人有情,在这段与大家相处的日子里,有一位驿站负责人吴淑敏每天总在忙忙碌碌,起早贪黑地为滞留人员安排指引,给予我们无微不至的关怀和爱护。时间虽短,情意永恒,我……哥伦比亚大学提出BPE造词法,可绕过审核机制,DALLE2已 编辑:LRS【新智元导读】最近哥伦比亚大学的研究人员发现用多语言的subword组合出的新词,在DALLE2系统中仍然能生成预期图像,或可绕过审查系统!2022年什……网传赵丽颖与和颂到期不续,粉丝态度令人意外,背后原因太真实热 【今日吃瓜】定期分享明星资讯,理性吃瓜。喜欢请关注娱乐bang!明星在刚出道时会选择签约经纪公司,让专业的人给自己进行规划,而且也可以获得更多的资源,而发展稳定,有了一定……读书与不读书,差的是整个人生热文聚热点网 每一本书都是一扇门,通向我们未曾涉足过的世界。如今,许多人最亲密的伙伴就是手机。所以,有不少人觉得沉下心去读一本书是件浪费时间的事情。殊不知,通往成功的条条大……幸运彩球首次返场忍者更新混乱,恶灵飞段自带头像框,战力专属? 原本幸运夺宝和许愿宝库是给玩家抽早期高招忍者的两个活动,但自从幸运彩球的出现,幸运夺宝似乎也就消失了。本来第一次上架幸运彩球的时候,只是感觉活动机制很像是幸运夺宝,并且也是产出……拉萨28日新增本土感染者264例,划定封控区热博聚热点网 一、感染者分布8月28日024时,拉萨市新增本土新冠病毒感染者264例,其中新增确诊病例12例、无症状感染者252例,新增确诊病例和无症状感染者均在隔离管控中发现。其中:……
关于文艺复兴的总结(文艺复兴总结)热议聚热点网 坚持信念初中议论文热传聚热点网 明明是同一人,演完《亲爱的热爱的》又演《追光者》,差点认不出 合同诈骗罪成立后再还钱用坐牢吗热文聚热点网 武汉中原医院王彬:对于广泛性焦虑症的症状你知道有哪些?热闻聚 自由的鸟在云中掠过热传聚热点网 【歌词】爱如此徘徊歌手:于台烟热文聚热点网 我在知乎搞创作,8年赚了800块热议聚热点网 高仿手表怎么样?OR厂欧米茄海马300M东京款细节做工怎么样 【歌词】兄弟歌手:黑豹乐队热博聚热点网 中国最北端的城市,一到冬天就成了童话世界热传聚热点网 亲爱的生命:老婆、小三在医院产检相遇,结为盟友,联手治渣男热
银行柜员工作总结精品看鲜卑民族的千古罪人是如何毀掉自己民族的?爱融汇最新清退消息2022官方开始清退全新的兑付方案已经公布销售部门工作计划GK太强了!送给TTG四连败,确认掉入卡位赛,Hero虎视眈 家乡的名片健康管理师未来的黄金职业太阳一直都在它是脑瘫专用测试仪,6大特点对于患者和家属,都很友好最佩服谁对月在找到生命的另一半之前,先找到自己这一半!

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找新乡渭南铜川松江山南雅安松原荃湾淮北昭通平凉鞍山赤峰苗栗保亭池州渝北株洲陇南濮阳三沙秀山密云鸡西