使用AI防止AI图像操纵

导读 当我们进入一个新时代时,人工智能驱动的技术可以精确地制作和操纵图像,从而模糊了现实与虚构之间的界限,滥用的幽灵变得越来越大。最近,

当我们进入一个新时代时,人工智能驱动的技术可以精确地制作和操纵图像,从而模糊了现实与虚构之间的界限,滥用的幽灵变得越来越大。

最近,DALL-E和Midjourney等先进的生成模型以其令人印象深刻的精度和用户友好的界面而闻名,使超现实图像的制作变得相对轻松。随着进入门槛的降低,即使是没有经验的用户也可以从简单的文本描述生成和操作高质量的图像——从无害的图像更改到恶意的更改。

像水印这样的技术是一个很有前途的解决方案,但滥用需要采取先发制人的(而不是事后的)措施。

为了创建这样一种新的测量方法,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员开发了“PhotoGuard”,这是一种利用扰动(人眼看不见但可以通过计算机模型检测到的像素值的微小变化)的技术,有效地破坏模型操纵图像的能力。

PhotoGuard使用两种不同的“攻击”方法来生成这些扰动。更直接的“编码器”攻击针对人工智能模型中图像的潜在表示,导致模型将图像感知为随机实体。更复杂的“扩散”定义目标图像并优化扰动,以使最终图像尽可能接近目标。

“考虑一下以欺诈方式传播虚假灾难事件的可能性,例如重要地标发生爆炸。这种欺骗可以操纵市场趋势和公众情绪,但风险不仅限于公共领域。个人图像可能会被不当更改并用于勒索,大规模执行时会造成重大财务影响,”麻省理工学院电气工程和计算机科学(EECS)研究生、麻省理工学院CSAIL附属机构、一篇有关PhotoGuard的新论文的主要作者HadiSalman说道。arXiv预印本服务器。

“在更极端的情况下,这些模型可以模拟声音和图像来实施虚假犯罪,造成心理困扰和经济损失。这些行为的迅速性使问题变得更加复杂。即使欺骗行为最终被揭露,损害——无论是声誉上的、情感上的——,或经济上的损失——通常已经发生了。这对于各个层面的受害者来说都是现实,从在学校被欺负的个人到全社会的操纵。”

PhotoGuard的实践

人工智能模型看待图像的方式与人类不同。它将图像视为一组复杂的数学数据点,描述每个像素的颜色和位置——这是图像的潜在表示。编码器攻击会对这种数学表示形式进行细微调整,导致AI模型将图像感知为随机实体。

因此,任何使用模型来操纵图像的尝试都几乎不可能。引入的变化非常微小,以至于人眼看不见,从而在确保其受到保护的同时保留了图像的视觉完整性。

第二个显然更复杂的“扩散”攻击从战略上以端到端的整个扩散模型为目标。这涉及确定所需的目标图像,然后启动优化过程,旨在将生成的图像与该预选目标紧密对齐。

在实施过程中,团队在原始图像的输入空间内创建了扰动。然后在推理阶段使用这些扰动,并将其应用于图像,从而提供针对未经授权的操纵的强大防御。

麻省理工学院EECS教授和CSAIL首席研究员AleksanderMadry表示:“我们所目睹的人工智能进步确实令人惊叹,但它同时也使得人工智能的有益和恶意用途都成为可能。”他也是该论文的作者。“因此,我们迫切需要努力识别和减轻后者。我认为PhotoGuard是我们对这一重要努力的小小的贡献。”

图片来源:麻省理工学院

扩散攻击比其简单的同类攻击计算量更大,并且需要大量的GPU内存。该团队表示,用更少的步骤来近似扩散过程可以缓解这个问题,从而使该技术更加实用。

为了更好地说明攻击,请考虑一个艺术项目。原始图像是一幅图画,而目标图像是另一幅完全不同的图画。扩散攻击就像对第一张图进行微小的、看不见的改变,这样,对于人工智能模型来说,它开始类似于第二张图。然而,对于人眼来说,原始图纸保持不变。

通过这样做,任何试图修改原始图像的人工智能模型现在都会像处理目标图像一样无意中进行更改,从而保护原始图像免受有意的操纵。其结果是一幅对于人类观察者来说在视觉上保持不变的图片,但可以防止人工智能模型进行未经授权的编辑。

至于PhotoGuard的真实示例,请考虑具有多个面孔的图像。您可以遮盖任何不想修改的面孔,然后提示“两个男人参加婚礼”。提交后,系统将相应地调整图像,创建两个参加婚礼的男子的合理描述。

现在,考虑保护图像不被编辑;在上传之前向图像添加扰动可以使其免受修改。在这种情况下,与原始的未免疫图像相比,最终输出将缺乏真实感。

所有的手放在桌上

该团队表示,反对图像操纵的主要盟友是图像编辑模型的创建者。为了使PhotoGuard发挥作用,所有利益相关者必须做出综合反应。“政策制定者应该考虑实施法规,要求公司保护用户数据免遭此类操纵。这些人工智能模型的开发人员可以设计API,自动向用户图像添加扰动,从而提供额外的保护层,防止未经授权的编辑,”Salman说。

尽管PhotoGuard做出了承诺,但它并不是万能药。一旦图像上线,怀有恶意的个人可能会尝试通过应用噪声、裁剪或旋转图像来对保护措施进行逆向工程。然而,对抗性示例文献中有大量先前的工作,可以在这里用来实现抵抗常见图像操作的鲁棒扰动。

“模型开发人员、社交媒体平台和政策制定者之间的协作方法可以为未经授权的图像操纵提供强有力的防御。解决这一紧迫问题在今天至关重要,”萨尔曼说。

“虽然我很高兴为这个解决方案做出贡献,但要使这种保护切实可行,还需要做很多工作。开发这些模型的公司需要投资设计强大的免疫系统,以应对这些人工智能工具可能带来的威胁。当我们踏入这一新领域时,在生成模型时代,让我们以平等的方式争取潜力和保护。”

苏黎世联邦理工学院助理教授FlorianTramèr表示:“利用对机器学习的攻击来保护我们免遭滥用这项技术的前景非常引人注目。”“这篇论文有一个很好的见解,即生成式人工智能模型的开发人员有强烈的动机为其用户提供此类免疫保护,这甚至可能成为未来的法律要求。

“然而,设计有效抵御规避企图的图像保护是一个具有挑战性的问题:一旦生成式人工智能公司致力于免疫机制并且人们开始将其应用到他们的在线图像上,我们需要确保这种保护能够对抗那些可能有动机的对手。甚至使用在不久的将来开发的更好的生成式人工智能模型。设计如此强大的保护措施是一个难题,本文提出了一个令人信服的案例,表明生成式人工智能公司应该致力于解决这个问题。