cover of episode Real or AI? The Tech Giants Racing to Stop the Spread of Fake Images

Real or AI? The Tech Giants Racing to Stop the Spread of Fake Images

2023/9/15
logo of podcast WSJ’s The Future of Everything

WSJ’s The Future of Everything

AI Chapters Transcript

Shownotes Transcript

亚马逊Q业务是AWS的生成式AI助手,因为业务可能会很慢,就像在泥地里行走一样,但亚马逊Q有助于简化工作,因此像一些玛丽·津每月业绩这样的任务可以立即完成。访问aw点com闪购,了解亚马逊Q业务能为您做什么,了解更多信息。

嗨,查理。嗨,亚历克斯。我想让你看看我笔记本电脑屏幕上显示的内容。描述一下你看到的东西。

那是穿着蓬松外套的教皇,对吧?教皇穿着一件华丽的白色、非常时尚的蓬松外套。

他似乎正在研究梵蒂冈城的街道,脖子上戴着长链坠着的十字架。他看起来真酷。他看起来不错,对吧?他看起来真不错。

你还记得你第一次看到这张照片是什么时候吗?

哦,是的,我记得。我记得整件事。

围绕这件事有很多争议。是的,很多人被这张照片愚弄了,如果我们说实话,我就是其中之一。

教皇方济各的一张新照片正在社交媒体上疯传,让一些人感到困惑?

这张照片似乎是教皇方济各穿着白色羽绒服,戴着镶钻十字架,上周在推特上分享,标题是“好吧,人们的时尚感”,迅速走红。加州大学伯克利分校计算机科学教授费里德说,这是一个完美的例子,说明一张经过篡改的图像如何席卷全球。

我的意思是,穿着蓬松外套的教皇,对吧?我认为我们将回顾这张照片,将其视为一个非常独特的时刻,当时记者意识到他们再也无法相信他们所看到的东西。在采访后的几周里,我与许多记者交谈,他们说:“我不知道,因为它太逼真了,以至于我以为是真的。”

AI已经能够生成文本和视频一段时间了,但费里德说,正在发生变化的是,这些AI生成的内容正变得越来越逼真。

稳定扩散和Midjourney生成的图像非常好,现在的瑕疵非常非常小。

有一些方法可以判断穿着蓬松外套的教皇的图片是假的。费里德所说的瑕疵,一些细心的网民发现图像中存在一些不一致之处。

这张穿着普拉达外套的教皇的病毒式照片,也是使用AI工具Midjourney创建的。这张照片包含一个很大的线索表明它是假的,他手指的变形。

但费里德说,很快这些图像将无法与真实图像区分开来。这很重要,因为有些图像会影响市场并改变人们的想法。

视觉图像具有令人难以置信的力量,当你可以改变照片时,你就在改变历史。我认为当我们看照片时,它真的很有影响力。

来自华尔街日报,这是未来的全部内容。

我是亚历克斯·奥索拉,我是夏洛特·加滕伯格。今天我们讨论的是AI生成的图像,以及我们将如何判断它们是否真实。

如果我们无法判断,风险是什么?以及将帮助我们分辨差异的技术解决方案。

继续听。

亚马逊Q业务是AWS的新型生成式AI助手,因为许多任务会使业务变慢,就像在泥地里等待一样。幸运的是,有一个更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务?现在,您可以立即总结季度业绩或进行复杂的分析。

Q,搞定。访问AWS点com闪购,了解亚马逊Q业务能为您做什么,了解更多信息。

操纵图像并非新鲜事。它几乎与摄影本身一样古老。甚至像Photoshop这样的数字工具也已经存在了三十多年。Adobe的总法律顾问兼首席信任官丹·罗萨斯说,他一直在思考我们对所见之物的强烈反应。

一旦你进入一个你看到深度伪造的世界,下次你看到一些东西时,你就会变得麻木,我们将会对我们看到的信息变得麻木,因为我们无法知道我们看到的是真是假。眼见为实。

罗萨斯说,AI图像生成器正在改变游戏规则。为了更好地理解它们如何提高赌注,我们需要更多地了解AI生成的图像是如何制作的。因此,如果我们想制作一张像穿着蓬松外套的教皇这样的图像,我们可以使用Midjourney之类的工具。

DALL-E和Stable Diffusion没有回复本报道的置评请求。创建DALL-E的OpenAI和创建Stable Diffusion的Stability AI拒绝置评。但大多数这些AI图像生成器的工作方式大致相同。

它们基于一种称为扩散的技术。制作AI图像生成器需要几个步骤。第一步,创建AI模型,工程师可以创建一个或选择一个已经存在的模型。但仅仅拥有模型本身并没有什么用。他们需要训练它,这将带我们进入第二步:收集训练图像。

我认为你看到生成图像的原因是,在过去的二十年里,你和其他人上传了数十亿计的内容,机器正在从中学习。

这是加州大学伯克利分校的计算机科学教授托尼·费里德再次说的。他说,算法在互联网上搜索并抓取了数十亿张图像,每张图像都有文字说明。

最后一点非常重要。所以现在它拥有大约50亿张图像,它所做的是获取带有标题的图像,例如“五个人坐在酒吧里,享受美味的啤酒”。我不知道这个标题是从哪里来的。

我只是喜欢它。对吧?工程师现在已经获得了他们的训练数据。现在是第三步:训练他们设计的算法。这究竟是如何发生的可能略有不同。

但通常情况下,使用这些训练数据,AI系统学习将某些视觉特征与某些单词关联起来。假设工程师向该系统提供一张人们在酒吧喝啤酒的图片。它将学习诸如啤酒是红色的,酒吧是平的之类的信息。AI系统通过改变每个像素的颜色来为该图像添加噪声,这使得图像中的形状难以辨认。这种噪声使得很难理解我所说的单词。

也就是说,它获取图像,并为其添加少量噪声,降低图像质量,然后学习如何反向操作,如何去除噪声。然后它会一直这样做,直到它……正确?降质-净化。

降质-净化。它做了50亿次。然后它就知道了如何从带有标题的纯噪声图像到描绘标题内容的清晰图像。

数十亿张图像乘以数百万次噪声。结果是,我们可以输入提示,例如“两个人在月球上喝啤酒”,在短短几秒钟内,AI就能生成我们想要的任何东西,即使它以前从未存在过。好吧,也许不是任何东西。有时系统根本不理解提示。许多流行的图像生成器都有规则,禁止它们生成某些类型的图像,尽管人们可以绕过这些规则。

所以你可以把加布里埃尔·加西亚·马尔克斯放在提示中。你可以把守护者放在提示中。你不允许要求裸体或暴力或血腥。

即使有防护措施,也很容易在几秒钟内输入提示并获得逼真的图像。克莱尔·利伯蒂是人工智能伙伴关系的AI和媒体完整性项目负责人。这是一个专注于负责任地使用人工智能的非营利组织。它的资金来自慈善组织和企业利益相关者,包括大型科技公司。

人们能够轻松创建非常容易、复杂且逼真的内容,这些内容可能会令人困惑或具有欺骗性,或者对整个叙事或历史产生怀疑,这使得我们必须了解内容的来源以及它是如何被操纵的。

不仅仅是我们能快速制作它们。我们也能快速分享它们。一张图片被两个人看到,然后在几分钟内被数百万人看到。

利伯蒂说,这会带来后果。这在几个月前就真实地发生了。

几个月前,五角大楼着火的照片在网上流传。它看起来好像着火了。

一张病毒式假照片,随后市场出现真正的暴跌。周一,社交媒体上发布的照片似乎显示五角大楼附近发生火灾爆炸。

人工智能专家表示,这张照片可能是由AI生成的,但这并没有阻止市场做出反应。5月22日开盘后不久,道琼斯指数下跌219点,但在当天上午晚些时候反弹。但一些观察者表示,这张照片并非没有缺陷。

看看草地是如何与这里的混凝土混合在一起的,部分黑色杆子消失在这道屏障后面,围栏本身看起来也不对劲。

但利伯蒂说,这是一件大事。

它产生了深远的影响,它影响了市场,并且非常具有误导性和迷惑性。

计算机科学教授费里德说,由于图像在社交媒体上的分享方式,人们不够怀疑。

它们获得了转发和再分享的价值。然后,当然,它反弹了。视觉图像的力量是不可思议的。

AI生成的图像数量只会从2022年开始增加。欧盟执法机构欧洲刑警组织发布了一份报告。它预测,到2026年,90%的在线内容可能是合成生成的。好的,所以AI生成的图像可能会造成真正的伤害,特别是如果人们认为它们是真实的话。但是我们如何区分真实和AI生成的内容呢?休息后,夏洛特将介绍解决AI图像问题的技术解决方案。

亚马逊Q业务是AWS的新型生成式AI助手,因为许多任务会使业务变慢,就像在……

泥地里等待一样。幸运的是。

有一个更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务?现在,您可以立即总结季度业绩或进行复杂的分析。Q,搞定。访问AWS点com闪购,了解亚马逊Q业务能为您做什么。

了解更多信息。我们一直在处理这个问题。AI生成的图像被冒充为真实图像。尽管我们被告知不要相信我们在网上看到的一切,有些人称之为媒体素养。我们大多数人都应该更加怀疑,但显然,人工智能伙伴关系的博茨说,如今这还不够。

我认为这个概念被吹捧为我们所有挑战的灵丹妙药,如果我只是教育外行人了解伪造内容的能力,他们将完全有能力判断某事是真是假,成为媒体识字在今天非常复杂。

他说我们需要新的解决方案。这里有几个不同的选择。一个是事后进行眼睛检测或分析。

另一种方法是不可见的数字水印或指纹。最后,有一种叫做内容凭证的东西。让我们从最明显的方法开始。在图像发布后对其进行测试,当我们在网上找到它时,这就是解决方案一。一些公司正在努力开发它。

嗨,我叫安德烈·多恩,我是Optic公司首席执行官。

许多公司制作的工具可以告诉我们一张图像是否由AI生成,Optic就有一个叫做“AI还是不是AI”的工具。

这是一个非常简单的服务,它的名字就叫AIorNot.com。它所做的是告诉你你上传的图像是AI生成的还是人类生成的。就这么简单?你只需要拖放,上传你的文件,然后你就会得到结果。

Optic公司自2022年3月成立以来,达纳·奇夫说,它的技术可以发现人眼无法发现的图像中的东西。在像素级别嵌入到代码中的某些模式。这些不一致之处或瑕疵表明图像是由AI神经网络生成的,AI生成器基于这些算法。

新或旧。每次他们生成图像时,他们可能会尽最大努力不留下任何瑕疵。但是,如果你查看由特定神经网络生成的大量图像,作为人类,你会注意到这些模式。但是,如果你用另一个非常擅长模式识别的AI来做这件事,它就会开始注意到那些神经网络留下的微小的像素级瑕疵。

在AIorNot的免费版本中,用户可以上传他们在互联网上找到的图像并获得二进制结果——AI生成或不是AI生成,但这并不总是那么简单。Optic工具的付费版本提供了更多信息,德隆·奇夫说,一些公司需要更高级别的细节。他说他听说过一些公司,包括保险公司,需要确定房屋着火的照片是否真的是房屋着火。

另一个有趣的垂直领域是所有类型的个人,例如银行和了解你的客户流程,你上传你的驾驶执照。所以当你上传你的照片时,我们看到很多约会网站对此很感兴趣,他们想确保他们看到的人是真实的人。

像AIorNot这样的服务的问题在于它们并不完美。截至8月24日,该公司表示,其工具在检测最流行的神经网络生成的AI图像方面的准确率在97.8%到99.9%之间。

有很多这样的服务,每个人都可以声称,你知道,他们很好。魔鬼藏在细节里。所以有一些类型的图像,一些检测器运行良好,而另一些则失败了,包括我们自己。

达纳·奇夫说,出错只是意味着该工具可以变得更好。工程师必须不断地重新训练检测系统。无论如何,由于AI图像生成总是越来越好,

没有办法领先。只能尽量少落后。

AI生成的或经过篡改的图像正变得越来越逼真。很快,人们可能就无法分辨真假了。这可能会让人们有机会传播虚假信息,并让人难以分辨什么是真实的。Adobe、微软和谷歌等科技公司、学术界和政府机构正在开发用于验证图像的框架,并在某些情况下展示图像是如何被篡改的。但是,这些技术本身也可能带来安全风险。华尔街日报的Alex Ossola和Charlotte Gartenberg探讨了将识别网络上虚假图像的新技术解决方案,以及让这些解决方案为用户所用的潜在问题。

AI生成的图像如此逼真,甚至AI也难以识别 向AI艺术生成器索取任何图像。结果令人惊叹——也令人恐惧 偷拍照片曾是名人的祸害。现在,轮到AI了 AI、艺术与绘画未来的观看方式 关于AI的一些最棘手的问题将在法庭上得到解答 了解更多关于您的广告选择的信息。访问megaphone.fm/adchoices</context> <raw_text>0 我们如何才能尽量少落后?一只多比恐龙说,保持领先的唯一方法是从头开始。

因此,当您贴上标签来依赖时,数百万人已经看过它并相信它,并且错误地相信它。然后你回来告诉他们这是深度伪造。为时已晚。你无法收回说过的话。

如果,与其试图弄清楚图像是否是伪造的,不如让图像告诉用户它是伪造的,这必须从图像制作的那一刻起就融入其中,这就是解决方案二背后的理念,不可见的数字水印,来自人工智能合作组织的克莱尔·莱博维茨说,数字水印基本上是在图像中添加一小段代码,允许检测器验证它。

非常简单的数字水印,你可以把它想象成在一段内容中插入一些标记来说明它是这样的,这样生成器就可以故意地改变嵌入像素中的一些信息,这种方式对人眼是不可见的,但对AI检测器是可见的。这些像素就像一个印章或水印。微软必应和谷歌DeepMind已经将其添加到他们的生成器中。上个月,谷歌DeepMind推出了一种名为SynthID的新型水印,谷歌DeepMind的研究副总裁说。

辛迪是一种新的水印方法。它有两个特性。一个是人眼看不见,所以它不会影响图像质量,另一个是持久性的,即使水印图像后来被转换,比如它被裁剪了一点,或者旋转或以其他方式转换,你仍然能够检测到它是水印的。它的议程内容。

科尔说,对于DeepMind来说,水印是正确的方法,因为它很难去除,尽管目前并非不可能。SynthID目前正在进行beta测试,并且可以集成到其他谷歌产品中。

谷歌和谷歌的需求,我们相信人工智能是一项变革性技术。它将对许多不同的领域产生影响,但与此同时,当我们考虑这项强大的技术时,你必须以一种非常谨慎和负责任的态度来对待它。

7月份,包括谷歌、Meta、微软和亚马逊在内的科技公司会见了拜登总统。他们同意自愿采取围绕人工智能使用的安全措施,包括为人工智能生成的图像添加水印。

这些公司有责任赢得公众的信任,并赋予用户做出明智决定的能力,对经过修改或人工智能生成的內容进行标记。本周,包括Adobe和IBM在内的另外八家大型科技公司也做出了同样的承诺。但一些学者和计算机科学家对此表示怀疑,他们认为这些标记无法抵御不良行为者的篡改。克莱尔显然说,指纹类似于水印。

指纹有点像我的指纹,它不是添加的。它可以帮助人们识别我。将有一些数据库来识别。那是批处理的指纹吗?

好的,假设我去警察局采集指纹。如果我再次出现在系统中,警方可以在数据库中找到我。这正是人工智能生成的图像可能存在的数据库类型。

将水印嵌入代码中或将指纹连接到数据库实际上只是成功的一半。另一半是确保用户在查看图像时拥有这些信息。进入解决方案三,内容凭证。

这让我们回到了Adobe的人。Adobe是名为内容真实性倡议(CAI)的组织的创始成员之一,这是一个由科技、媒体和政策领域的成员组成的全球联盟,它致力于创建在线图像的行业标准。迪纳罗说,他们的解决方案被称为内容凭证。

那么内容凭证是什么呢?它就像图像、视频或音频的营养标签。它会告诉你的是谁制作了图像,何时制作的,在哪里制作的,以及在此过程中对它进行了哪些编辑。

营养标签是一个很好的比喻。内容凭证列出了构成我们所看到的图像的所有内容,谁拍摄了最初的照片以及在哪里拍摄,是否对其进行了任何调整,这些调整是使用AI进行的还是进行了一些简单的裁剪,最后,它在哪里以及由谁发布。总的来说,其目的是记录从图像制作到用户在线看到图像的过程中发生的所有事情。

它是一个信任指标。这就是我们如何看待它的。它是一个信任链,从图像首次被捕捉到内容被发布,都建立在信任之上。

内容真实性倡议由一千五百多名成员组成。《华尔街日报》就是其中之一。我们应该注意到,我们一直在听取的计算机科学教授霍尼·法雷德,他作为付费顾问与该倡议合作。他还与领英合作,领英由该倡议的另一个成员微软拥有。微软媒体体验总监安德鲁·詹克说,现在人工智能生成器会在元数据中包含信息,以指示图像是否为。

由AI生成。这实际上意味着我们正在添加图像是由AI系统生成的这一信息。我们认为,当发生这种情况时,我们告诉您它来自必应服务以及一些识别信息,让您知道使用了哪个模型,这一点很重要。

但是看到这个指示并不容易。现在需要几个步骤。用户必须访问一个完全独立的网站。内容真实性倡议创建了一个名为verify的网站。但最终目标是在图像本身显示此信息。

我希望,能够分辨出哪些是创作的,哪些是捕捉的,这样你就能继续与现实保持联系。

内容凭证还有另一个好处。还记得我们说过什么关于光学的东西吗?AI还是非AI。我们在线看到的图像大多既不是AI生成的,也不是非AI生成的。

假设你在尼亚加拉瀑布拍了一张全家福,你用手机的物体移除功能去除了背景中的游客。你和你的家人确实去了尼亚加拉瀑布,这部分是真的,但是AI填补了移除其他游客的空白。内容凭证会记录所有这些信息。

我们有一系列工具可以使用AI类型功能来更改真实图像的某些部分。这东西完全真实吗?不。

它是纯粹创造的吗?不。所以我喜欢这样想,继续吧?你如何表达沿着这条连续统一体的不同点。

对于Adobe来说,迪纳罗认为内容凭证为用户提供了做出所需的所有信息。

他们自己的评估。这种方法的论点始终是,我们赋予公众权力来决定信任什么。

有一个主要的障碍。为了使内容凭证有效,它们必须在所有方面保持一致的标准。弄清楚如何做到这一点是克莱尔·莱博维茨的工作。她在人工智能合作组织的工作她说,为了让它发挥作用,每个人或几乎每个人都必须参与其中。

我们喜欢区分三个类别。有一些人正在构建技术、代码和模型,这些模型最终将允许创作者使用它进行创作,然后是创作者本身,然后是分销商。

这是一个巨大的干预领域,即TikTok、Facebook或Twitter(对不起,前Twitter)应该如何最终传播这些内容?他们如何传达它可能被操纵并对其进行标记?所以每个人都参与其中。

我们联系了TikTok、Meta和X(前身为Twitter)。TikTok拒绝置评,并将其参与人工智能合作组织的合成媒体负责任实践框架及其合成媒体政策作为参考。Meta和X没有回应置评请求。

让每个人都参与进来是内容真实性倡议的主要目标之一。假设它成功了,我们在线查看图像的体验将会改变。我们将拥有关于每张图像的更多信息,从它被相机捕捉或由AI生成的那一刻起,到它被发布的那一刻。我们将拥有随时可用的工具来判断我们应该信任什么。但从技术的角度来看,微软的安德鲁·詹克说,没有一种解决方案就足够了。

这里真的没有灵丹妙药。内容凭证不是灵丹妙药。检测不是灵丹妙药,水印也不是灵丹妙药。但是,当您将这些东西结合起来时,您就开始构建非常强大、非常易于理解的系统,这些系统可以为人们提供更好的缓解措施。

对于伯克利的霍尼·法雷德来说,这种技术的结合以及用户的怀疑态度是可行的方法,我们最好继续这样做,因为他表示互联网的未来岌岌可危。

我认为有两种情况,要么我们继续走这条路,要么继续走这条路,这是一个不健康的互联网景象,每个人都生活在自己的回音室里。我不认为最终会这样。我认为我们可以开始扭转局面。

《一切的未来》是《华尔街日报》制作的节目。斯蒂芬妮·伊根·菲茨是《一切的未来》的编辑总监。本集由我制作。

亚历克斯·奥索拉和我,夏洛特·加滕伯格,我们的事实核查员是内森·迈克尔·莱维尔和贾斯汀·法尔顿,他们是我们的声音设计师,并撰写了。

艾莉音乐凯特·尼尔森是我们的主管制作人。伊娃·穆斯林是我们的开发制作人。

斯科特·萨利西是副编辑,菲洛帕特是《华尔街日报》新闻音频主管。喜欢这个节目,告诉你的朋友,并在你喜欢的平台上给我们留下五星评价。

感谢收听。

亚马逊Q业务是AWS的新一代AI助手,因为许多任务会使业务变慢,就像在泥泞中等待帮助一样。幸运的是,有一个更快、更容易、更简洁的选择。亚马逊Q可以安全地理解您的业务数据,并利用这些知识来简化任务?现在,您可以立即总结季度业绩或进行复杂的分析。