cover of episode Why AI Keeps Getting Better at Making Fake Images

Why AI Keeps Getting Better at Making Fake Images

2024/1/19
logo of podcast WSJ’s The Future of Everything

WSJ’s The Future of Everything

AI Chapters Transcript

Shownotes Transcript

亚马逊Q业务是AWS的生成式AI助手,因为业务可能会很慢,就像在泥地里跋涉一样,但亚马逊Q有助于简化工作,因此像某些玛丽·津每月业绩这样的任务可以立即完成。访问aw.com/ash了解亚马逊Q业务能为您做什么,了解更多信息。

我们许多人都记得去年风靡网络的教皇穿着羽绒服的图片。那张教皇方济各穿着白色羽绒服在街上散步的照片并非真实存在。它是人工智能生成的,但却极其逼真。你可能会认为这样的图片没什么害处,但如果网上流传的是危害性更大的假图片、视频或音频,会发生什么呢?人工智能生成的内容可能会对个人、政府甚至金融市场构成严重风险。在2023年10月,拜登总统动用了联邦紧急权力,以应对一系列强大的新型人工智能——一项旨在控制人工智能风险的新行政命令的一部分。

网络安全中的所有缓解措施。如果你想提出一些极其复杂的时间旅行、外星人、阴谋论,是的,我可以帮你,但我也可以帮助很多理性的人,他们只是被灌输了很多谎言,我们可以帮助他们摆脱这种信息茧房。

那是哈尼·法里德,加州大学伯克利分校信息学院的计算机科学教授。他思考假图像的问题已有二十多年,并对数字取证、虚假信息、图像分析和人类感知进行了研究。他说,管理人工智能风险的部分内容意味着要让人们掌握工具,以判断哪些图像是真实的,哪些是伪造的——来自《华尔街日报》。

这是关于一切未来的节目。我是查拉·加登·伯克。今天,我们带来了亚历克斯·奥索拉与哈尼·法里德的对话,内容是关于生成令人信服的人工智能内容有多容易,以及为什么这是一个问题;此外,亚历克斯还谈到了内容真实性倡议,这是一个由来自科技、政策和媒体领域的2000多名成员组成的全球联盟(包括《华尔街日报》),该倡议探讨了公司如何合作将技术与媒体素养结合起来,帮助我们发现虚假信息。

亚马逊Q业务是AWS的新型生成式AI助手,因为许多任务都可能使业务变慢,就像在泥地中等待一样,需要帮助。

幸运的是。

有更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务。现在,您可以立即总结季度业绩或进行复杂的分析。

Q搞定了。访问aws.com/flash,了解亚马逊Q业务能为您做什么,了解更多信息。

在亚历克斯和哈尼…

探讨识别深度伪造的风险之前,她询问了他早期使用人工智能生成图像的经历以及他对深度伪造的兴趣是如何开始的。

我从1997年就开始思考被操纵的媒体了。在97年,电影仍然主导着媒体格局。数字技术只是初露端倪。

人工智能和互联网正处于起步阶段。在早期,我们实验室的研究重点是如何检测被操纵的图像。

然后,大约在2015年或2016年,发生了非常戏剧性的事情,那就是我们现在所说的生成式AI或深度伪造。所以大约七年前,我第一次听说这个词。

你知道,你看到生成的图像和视频。它们很糟糕。它们是灰度、微小且非常嘈杂的。

但是,如果你观察下一代和再下一代,这几乎是每月都在发生,你会很快意识到这项技术正在变得更好。现在,这些变化可以用几周来衡量,对吧?每隔几周,你就会看到一些戏剧性的进步。

我们从五、六、七年前那些有故障的深度伪造,发展到全天候、实时、几乎达到帧率的运行在我的笔记本电脑上,将一个人的脸叠加到我的脸上,而且分辨率很高。这太不可思议了。你认为一个普通的…

用户能够分辨出图像是否为伪造的吗?不,我认为…

普通用户无法分辨出区别,尤其是在他们快速浏览屏幕、查看图像的速度下。这很难。听着,我以此为生,但这很难。

所以我们处于那种临界点了吗?

是的,我认为我们正在穿过“恐怖谷”。它并不完美,但关于欺诈和虚假信息,我们必须了解的是,它不必完美无缺,只需要足够好,而它正朝着卓越的方向发展。

对于所有形式的人工智能生成内容,语音、静态图像、视频,它们是否处于不同的发展轨迹?

是也不是。让我告诉你我们现在所处的位置。Stable Diffusion生成的图像非常出色,现在的瑕疵非常非常小。

我认为图像几乎已经达到顶峰。如果我们在三个月前进行这次谈话,我会说音频技术还有几年的时间。而我将大错特错。

音频技术发展得非常快。对于音频,有两点需要考虑。一个是自然度。

这听起来像人声吗?另一个是身份保持。所以,如果我给你两分钟你的音频,亚历克斯,它能否重现你的声音?我认为现在已经有许多服务基本上破解了这个难题,它已经解决了这个问题,而且效果非常好。视频可能是发展滞后的那个。如果你看看用于文本的ChatGPT、用于图像的Stable Diffusion、用于音频的ElevenLabs、Uberduck等等,这些都是你只需要访问网站并使用它们的东西,对吧?进入门槛为零。但是对于视频,你仍然需要一些规模,比如你必须去GitHub下载这个代码库,编译它并在上面运行它,这需要做一些设置,但这只是几个月的问题,不到一年,就会有人创建一个网站,说,好吧,上传视频,上传图像,我会把它们放在一起。

告诉我,这个时刻的独特之处在于这些算法改进的速度之快…

或者说易于获取…两者都是。事实上,我想说还有第三个因素,那就是我也可以立即将其发布到全世界。我们可以将生成式AI与商品、时尚、社交媒体区分开来,对吧?如果我有能力创作总统的有害或仇恨性音频,或者非自愿的性图像,我所能做的就是发送给我的五个朋友。

这并不好,但我可以忍受。但事实是,我可以通过将其发布到Twitter、Facebook、Instagram、YouTube和TikTok上,向互联网投放大量信息。这些东西在这些平台上确实获得了关注。因此,我认为这是这三件事的结合:底层技术、普遍性和易于获取,以及广泛传播的能力…

以及毫不费力地。这里有什么风险?

欺诈、非法活动、虚假信息宣传活动。我现在可以创作总统或总统候选人的音频和视频,让他们说出任何我想让他们说的话。所以现在你面临着对个人、社会、经济和民主的威胁。

而这仅仅是使用当今的技术。关于技术,你应该知道的是…

它会变得更好、更快、更便宜,而且会更加普及。这就是技术所做的事情,而且它们会继续这样做。所以这种趋势将会持续下去。

人工智能生成的图像不会消失,但技术可以帮助我们区分什么是真实的,什么是深度伪造的。休息过后,我们将详细介绍。

亚马逊Q业务是AWS的新型生成式AI助手,因为许多任务都可能使业务变慢,就像在泥地中等待一样,需要帮助。

幸运的是。

有更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务?现在,您可以立即总结季度业绩或进行复杂的分析。

Q搞定了。访问aws.com了解更多信息。

这些图像实际上是如何生成的,后台发生了什么?

首先,你应该了解的是,这场人工智能革命在我看来并不是人工智能革命。我认为这是一场数据革命。我认为之所以会出现生成的图像和视频,是因为在过去的二十年中,我们已经积累了海量数据,每个人都上传了数十亿计的内容,机器正从中学习。

我之所以提到这一点,是因为教皇和羽绒服的图片就是这样生成的:Stable Diffusion。他们所做的是,他们去抓取数十亿张带有文本标题的图像。最后一点非常重要。所以现在,它有大约50亿张图像。它所做的是,它会取一张带有标题的图像,“五个人坐在纳帕谷的一家酒吧里,享受着美酒佳肴”,这就是标题。

并且它有一张与之相关的图像。然后它会取这张图像,并向其中添加一些噪点,降低图像质量,然后学习如何反向操作,如何去除噪点。然后它会这样做,直到它…正确无误。

然后它会添加更多噪点,然后再次反向操作。它不断降低图像质量,直到最终将其降质,直到它完全无法识别。它学习了如何从纯噪点图像中生成五个人坐在纳帕谷的一家酒吧里,享受着美酒佳肴的图像。

它基本上迫使它不断降质,然后清理图像。降质,清理。降质,清理。它做了50亿次,然后它就知道如何从纯噪点图像和标题转换到清晰地描绘标题内容的图像。还有其他技术可以生成其他类型的合成图像,但这是一种目前特别流行的技术。

我很好奇这些东西是否会留下痕迹。当我们谈论能够检测图像是否由人工智能生成或只是被操纵的软件时,我们怎么知道呢?

简而言之,当我拿起手机拍照时,有一个复杂的三维场景,有光线,它穿过镜头,经过后期处理,最终被处理并传递给我,这与我之前描述的扩散过程之间存在很大的区别,后者是完全合成的图像。

所以我们也可以进行所谓的对抗性分析,也就是确定是什么架构生成了这个。请记住,这是一个对抗性系统。这意味着我构建一个更好的探测器,你构建一个更好的攻击者,我构建一个更好的探测器,你构建一个更好的攻击者,所以这将是一场军备竞赛。但是这些技术的工作方式是学习特征,无论是低级统计特征,还是例如,我们知道许多基于扩散的图像在场景照明方面做了一些非常奇怪的事情。灯光并不…

特别自然。好的。所以现在的情况是,这些工具的工作方式是…它们会变得更好吗?

好的。这里有好消息和坏消息。好消息是我们绝对应该继续开发这些技术,它们会变得更好,但合成也会变得更好,我们会像我们一直在网络安全领域所做的那样,垃圾邮件与反垃圾邮件,病毒与反病毒。

每个人都在不断改进。最终你会达到一个稳定状态,但这适用于我们所说的被动技术。这种事后分析很棒。

这是我的强项,请记住。但这并不能真正解决现在已经充斥互联网的非自愿性图像问题。它无法解决市场操纵问题。

它无法解决欺诈问题。我接到一个电话,我已经通过Venmo转账了500美元。

你发现音频是伪造的。为时已晚。在互联网规模上,数十亿计的上传,我们需要不同的解决方案。这就是内容真实性倡议发挥作用的地方。因为在这里,与其采用这种模式,让任何人都可以随心所欲地做任何事情,上传任何东西到网上,然后开始努力弄清楚,

不同的模式是,如果你从事内容创作业务,无论是合成内容还是真实内容,你最能告诉我这是否是真实的。因此,内容真实性倡议所做的是,如果你从事合成图像的业务,你应该为每一件内容添加水印和指纹。设备本身也应该为其记录的每一件内容添加水印和指纹。

合成引擎最能告诉我什么是真实的,什么不是。如果他们为每一件内容添加水印和指纹(顺便说一句,这是一个很大的“如果”),那么我的浏览器就会立即知道,因为我的浏览器会说,好的,我知道要寻找什么,它嵌入在图像中,会立即告诉我。所以我认为需要结合这些技术。

所以,告诉我,对于普通互联网用户来说,理想状态下会是什么样子?

如果我的理想情况是将其嵌入到浏览器中,因为如果我的浏览器符合内容真实性倡议的要求,它知道这些签名,那么加载到我的浏览器中的任何图像都会有一个小徽标,上面写着“此图像已被认证为人类拍摄的图像”,或者“此图像已被认证为计算机生成的图像”,它只是嵌入到浏览器中。

它实际上会提供一些信息,说明发生了什么。哈尼上传了这张图片。他修改了图像的这一部分……然后他做了这个、那个和那个。你必须让人们了解信息,但我们还需要做其他事情,以确保他们能够将其融入他们看待世界的方式。

假图像已经在网上引起了关注,加州大学伯克利分校的计算机科学教授哈尼·法里德表示,我们只会看到更多这样的情况。法里德专注于图像分析和数字取证。他告诉《华尔街日报》的亚历克斯·奥索拉,为什么使用生成性人工智能创建令人信服的假图像如此简单,以及这可能在未来造成的问题。此外,他还讨论了潜在的技术解决方案,这些解决方案将帮助我们辨别我们在网上看到的图像或视频是否过于完美而不真实。

真实还是人工智能?科技巨头竞相阻止假图像的传播 现实已经破碎。我们要怪人工智能照片。 一种新的方法来区分深度伪造和真实照片:它能奏效吗? 人工智能创作的图像如此出色,连人工智能也难以识别一些 分享假裸体图像可能在提议的法律下成为联邦犯罪 了解更多关于您的广告选择。访问megaphone.fm/adchoices</context> <raw_text>0 一些谈论这个问题的人说,媒体素养是解决这个问题的办法。你对此怎么看?

我认为我们需要这一点。我认为我们需要对我们的技术领导者承担更多责任。我认为我们需要像我们一直在谈论的那样好的技术。

我认为我们需要监管压力,我认为我们需要媒体素养,我们需要这一点。这里没有,没有魔法解决方案。没有什么本身就能解决我们几十年来一直在处理的错误信息问题。

我认为我们需要很多很多解决方案来应对这个问题,所有这些加在一起开始真正削弱这个问题。承诺并没有消失。顺便说一下,你必须理解网络安全缓解中的一切。如果你想提出一些极其复杂的时间旅行、外星人阴谋。是的,我可以帮助你,但我可以帮助很多合理的人,他们只是被喂了很多谎言,我们可以把他们拉出那个回声室。

这个问题将会是什么样子?

这个问题不会停止,对吧?这个关于操纵媒体的问题只会继续下去。我认为有两种情景。这甚至不是十年,而是三年。嗯,五年,要么我们继续走这条路,要么走向一个每个人都生活在自己回声室的互联网的无视地狱。我认为这并不是不可能的。

我认为如果我们不从技术角度和行业领导力角度进行互动,并且在监管方面不采取行动,我们将继续犯下过去二十年的同样错误。这将使事情变得更糟。嗯,我认为事情不必以这种方式结束。

我认为对我们来说有一个更好的情景。而且我并不是一个技术乌托邦者。我不相信技术本质上是好的,并且总是导致好的事情,但我确实相信技术的力量。

我认为我们没有以对大众有利的方式利用这项技术。因此,我认为在适当的监管压力、适当的领导力和适当的技术下,我们可以开始扭转局面。嗯,我认为如果事情走向歧途,我们将继续沿着当前社交媒体环境的这条道路前进,而我老实说现在可能是抛硬币的时刻。

哪个方向会走?

哈尼的红色。教授,加州大学伯克利分校信息学院的计算机科学。想了解更多,请查看我们的节目《真实还是人工智能》,科技巨头竞相阻止假图像的传播,这在你的脚下,未来的一切是《华尔街日报》的制作。此集由亚历克斯·奥索拉和比特·查尔斯·加登制作。谢谢。

收听。

亚马逊Q业务是来自AWS的新一代生成性人工智能助手。因为许多任务可能会使业务变慢,就像在泥中行走一样。

幸运的是。