cover of episode Meet the Latest AI Darling: Reddit

Meet the Latest AI Darling: Reddit

2024/12/12
logo of podcast WSJ Tech News Briefing

WSJ Tech News Briefing

People
L
Liz Young
担任 SoFi 投资策略负责人,拥有丰富的金融和投资行业经验。
S
Sarah Needleman
Topics
Liz Young: 亚马逊最新的高度自动化仓库虽然在分拣和运输等环节引入了大量机器人,以提高效率和降低成本,但仍然需要大量人工参与。这是因为目前的机器人技术还无法完全胜任一些需要精细操作、判断和适应性的任务,例如识别和处理形状、大小和易碎程度各异的商品,以及装卸卡车等。亚马逊的仓库自动化更多的是在辅助人工,而不是完全取代人工。虽然自动化可以降低成本,提高效率,并提升安全性,但它无法完全取代人类在处理复杂和不可预测情况中的作用。亚马逊路易斯安那州的新仓库就是一个例子,它占地超过300万平方英尺,最终将雇佣2500人,目前已雇佣1400人。自动化主要体现在机器人搬运货物到人体工程学高度,减少工人弯腰等重复性动作。 Sarah Needleman: Reddit的数据对于AI公司来说非常宝贵,因为它拥有海量、多样化且高质量的用户生成内容。这些内容经过用户投票(点赞和点踩)筛选,保证了一定的质量,并且涵盖了几乎所有你能想到的主题。Reddit的匿名性也使得用户在发帖时更加坦诚,这对于训练能够以自然语言进行对话的AI模型至关重要。Reddit通过向AI公司许可数据获得了可观的收入,这部分收入虽然目前仍小于其广告收入,但在快速增长,对投资者来说极具吸引力。然而,Reddit的数据并非完全可靠,因为其内容来自普通用户,而非专家,因此可能存在偏差和错误信息。AI公司需要对数据进行筛选和处理,并对AI模型的输出结果进行必要的提示和说明,以避免误导用户。

Deep Dive

Key Insights

Why does Amazon's new automated warehouse still rely heavily on human workers?

Robots cannot yet perform tasks requiring fine motor skills like identifying and picking items from bins, loading and unloading trucks, or handling a wide variety of products with different sizes, weights, and fragility. These tasks remain challenging for automation.

What are some tasks robots can perform in Amazon's automated warehouse?

Robots can carry totes to workers at ergonomic heights, reducing physical strain. They are also used for repetitive tasks like lifting heavy objects, which helps improve safety and efficiency.

How much has Amazon's new warehouse reduced fulfillment costs and sped up operations?

The warehouse has cut fulfillment costs by 25% and increased order fulfillment speed by 25% compared to less automated sites.

Why is Reddit's data valuable for AI companies like OpenAI and Google?

Reddit's extensive, text-heavy content, spanning over 19 years and 100,000 subreddits, provides a wide variety of high-quality, conversational data. Its upvote and downvote system also helps AI companies identify quality content.

How much revenue has Reddit generated from data licensing deals with AI companies?

Reddit's revenue from data licensing grew to $81.6 million in the first nine months of this year, up from $12.3 million a year earlier. While still small compared to advertising revenue, this category has seen significant growth.

How much content is posted on Reddit annually?

In the first half of this year, users posted over 5.3 billion pieces of content, a 20.5% increase from the second half of 2023.

What are the potential downsides of using Reddit's data for AI training?

Reddit's data is user-generated and not always high quality or free from bias. AI companies must filter and correct flawed or biased content, and users should not take AI outputs as definitive truths.

Shownotes Transcript

<context>认识最新的人工智能宠儿:Reddit 社交媒体公司Reddit通过满足人工智能公司对对话文本的无尽需求而获利。华尔街日报记者Sarah Needleman加入主持人Belle Lin,讨论为什么Reddit的帖子对人工智能公司如此有价值和有趣。此外,为什么亚马逊的新机器人仓库仍然在很大程度上依赖人类。

了解更多关于您的广告选择。访问megaphone.fm/adchoices</context> <raw_text>0 您想要一条通往目标的简单路径,但在美林,我们知道事情可能会妨碍您。

或者新的机会可能让您面临十字路口。在牛市的支持下,您将获得个性化的计划和明确的前进道路。请访问ml.com/bullish了解更多信息。美林, 美国银行公司。您希望拥有什么样的能力?投资涉及风险。美林林奇皮尔斯芬纳与史密斯公司。注册经纪商。注册投资顾问。SIPC会员。美国银行公司的全资子公司。

欢迎来到科技新闻简报。今天是12月12日,星期四。我是华尔街日报的Belle Lin。亚马逊刚刚开设了其最自动化的仓库。但在所有的机器人和人工智能之下,该设施仍然需要数千人来维持运转。我们将了解为什么这家电子商务巨头尚不能没有人类。

去年,人工智能公司是Reddit最大的挫折之一。现在,它们成为了这个社交媒体平台的一个关键增长来源。我们的记者Sarah Needleman告诉我们,为什么OpenAI和谷歌渴望获取Reddit的数据。

但首先,亚马逊表示其位于路易斯安那州什里夫波特的新仓库是其首个在每个履行过程中都使用自动化和人工智能的仓库。然而,它仍然需要数千人来保持其顺利运行,尤其是在推动数百万额外货物通过履行网络的疯狂假日零售季节中。那么,亚马逊的机器人无法完成哪些任务呢?

华尔街日报记者Liz Young一直在跟踪这个故事,她现在加入我们,提供更多信息。

Liz,为什么亚马逊在一个充满机器人的自动化工厂中仍然需要人类?基本上,亚马逊能够在其仓库中整合更多的自动化。因此,他们能够做到这一点,以帮助加快履行速度,更快地将包裹送到您家中。但在这个过程中,仍然有很多事情是机器人无法完成的。例如,机器人很难做到人手所能做的事情,去一个装满物品的箱子里

既能识别出它所寻找的物品,又能正确地拿起该物品。装卸卡车也是如此。这些任务尚未能够完全自动化。当您考虑到亚马逊销售的产品超过4亿件时。

这些产品的大小、重量和脆弱性各不相同。所以,您知道,从一个软狗玩具到一个非常大、重但又容易破碎的烤面包机都有。因此,教会机器人如何拿起狗玩具和如何拿起烤面包机是非常具有挑战性的。而且所需的时间和训练数据也很庞大。

4亿件商品。这一定是巨大的。是的,绝对如此。他们正在努力训练人工智能,以便人工智能能够识别损坏,例如,这是他们想要能够查看并说,好的,这个东西是否以一种人类可以快速查看的方式破损,比如说,哦,这个狗玩具快要坏了。机器人仍在学习如何每次都可靠地做到这一点,以便说,我们不能将其发送给客户。

好的,Liz,给我们介绍一下路易斯安那州的新亚马逊仓库。这座设施有多大?是的,绝对如此。它的面积超过300万平方英尺。该建筑最终将雇佣2500人来拣货、装卸卡车、管理机器人等。到目前为止,他们已经开放了两个月多一点,已经雇佣了大约1400人。因此,他们仍在逐步扩大运营。

这里的想法是,他们希望整合更多的自动化,以帮助节省劳动力成本,加快运营,并使仓库更安全。

那么,像重复搬运重物这样的工作,现在是机器人在做吗?是的。因此,在每个不同的环节都有一些自动化,服务于不同的功能。但他们有一些机器人,能够像Roomba一样在地面上滚动。它们携带的是一堆托盘。

直接送到工人那里。亚马逊表示,机器人能够以符合人体工程学的高度向工人提供托盘,以便人们不必弯腰,例如。Liz,我们是否知道这些机器人对底线的影响有多大?尤其是在即将到来的假日季节,它们能否简单地打包更多的这些箱子?亚马逊并未披露

这带来了多大的差异,但他们确实表示这有助于加快速度。亚马逊表示,这座建筑将履行成本降低了25%,并且比一些自动化程度较低的地点的订单履行速度快25%。那是我们的记者Liz Young。接下来,事实证明,多年来的Reddit帖子是训练人工智能模型的绝佳素材。我们将了解原因以及这对Reddit的收入意味着什么,稍后再见。

您想要一条通往目标的简单路径,但在美林,我们知道事情可能会妨碍您。

或者新的机会可能让您面临十字路口。在牛市的支持下,您将获得个性化的计划和明确的前进道路。请访问ml.com/bullish了解更多信息。美林, 美国银行公司。您希望拥有什么样的能力?投资涉及风险。美林林奇皮尔斯芬纳与史密斯公司。注册经纪商。注册投资顾问。SIPC会员。美国银行公司的全资子公司。

人工智能公司需要数据,以便他们的应用程序能够以准确的结果和对话的语气回应用户的问题和提示。于是,Reddit应运而生,其文本密集的平台和不断增长的在线人际互动集合正好符合这一要求。

此外,Reddit愿意将其数据出售给人工智能公司使其脱颖而出,因为可供免费获取或购买的数据有限。Reddit最近报告了作为一家上市公司的首次季度盈利,这在一定程度上得益于过去一年与OpenAI和谷歌达成的数据许可交易。

关于Reddit新发现的财富和其数据的局限性,我们邀请了华尔街日报记者Sarah Needleman。Sarah,我们知道Reddit上有很多文本,但为什么这些数据对人工智能公司如此有趣和有价值?嗯,有很多原因。该平台已经存在了大约19年。在这段时间里,人们发布了大量内容。

评论。而Reddit的有趣之处,或者说使其与一些同行略有不同的是,用户可以通过点赞或点踩来回应这些评论。他们还可以积累所谓的“业力”,这基本上就像是显示您是平台良好贡献者的积分。

而且,您知道,随着点赞和点踩,这与您在其他平台上看到的内容不同,后者的内容是由算法组织的。但是,当Reddit上的帖子获得大量点赞时,那些帖子更有可能被看到,而不是被点踩的帖子,因为它们被认为质量更高。这正是人工智能公司所寻找的。他们希望获得高质量的信息和内容。

他们还在寻找各种各样的信息。因此,Reddit被划分为超过100,000个所谓的子版块。这些子版块专注于各种主题,几乎涵盖您能想到的一切。它们可以非常具体,也可以非常一般。这对人工智能非常有帮助,因为它覆盖了很多领域,而其他社交平台可能只迎合特定人群。例如,Discord因在视频游戏爱好者中受欢迎而闻名。

Strava在健身爱好者中受欢迎。但Reddit几乎适合地球上的每一个人,其用户群体非常广泛。还有一件事使Reddit对人工智能公司具有吸引力。那就是因为

用户大多是化名的。他们只是用一个假用户名。他们在发布内容时往往更加坦率。这再次对希望能够处理用户查询并以对话语气回应的人工智能工具非常有帮助,正如我们交谈的方式,而不是像机器人那样。

对于Reddit的业务来说,这似乎是非常好的。Reddit从这些交易中赚了多少钱?Reddit从这些交易中赚了不少钱。尽管来自数据许可的收入仍然远小于他们的主要收入来源,即广告销售,但值得一提的是,在今年的前九个月,Reddit的收入类别,包括我们所谈论的许可交易

增长至8160万美元,而去年同期为1230万美元。因此,这是一个迅速增长的类别。尽管总体上仍然相对较小,但与Reddit收入的整体情况相比,这一快速增长非常有趣。对于投资者来说,这真的很令人兴奋,因为这可能是一个长期机会。我们不知道这些交易的确切持续时间。但这些公司不仅仅在寻找过去19年中人们所写的内容。他们还希望获取当前每天涌入的数据。他们的渴望永无止境。他们不断从这个Reddit的源泉中汲取水分。我们谈论的是一个相对高利润的业务。因此,他们不需要投入大量成本来实现这一目标。是的。

是的,绝对如此。我们能量化Reddit到底有多少数据吗?Reddit确实表示,在今年上半年,人们在Reddit上发布了超过53亿条内容。这比2023年下半年增长了20.5%。这似乎是一个相当庞大的数量。然而,我要说的是,私人消息聊天的内容并未与人工智能公司共享。因此,我们不会计算这些内容。而且它确实占据了

我刚提到的53亿条内容的很大一部分。此外,请记住,Reddit并不像其他一些社交媒体同行那样庞大。因此,虽然这个数字看起来很大,而且确实很大,但请记住,Reddit大约有9700万日活跃用户。例如,Snapchat的日活跃用户为4.43亿。就两者而言,我们谈论的是截至9月底的情况。

对于OpenAI或任何人工智能公司来说,训练Reddit的数据是否存在任何缺点?

Reddit的数据基于普通人日复一日发布的内容。这些人不一定是专家。他们的观点范围广泛。仅仅因为某些内容被投票为非常受欢迎,并不一定意味着它的质量很高。通常情况下确实如此。这是一个合乎逻辑的结论,但这并不总是保证。因此,某些被训练的数据可能存在缺陷或偏见。

这在互联网上的许多内容中都是如此。因此,他们可能需要在这个过程中做出一些判断或编辑来纠正这一点。但再次强调,我们有信号,点赞和点踩,业力。这些都是帮助人工智能公司了解什么是高质量的信号。而许多人工智能公司在输出结果时,都会有某种语言警告读者不要完全照搬。但任何有常识的人都不应该从互联网上完全照搬任何内容并假设其为真。这是我们的记者Sarah Needleman的报道。今天的科技新闻简报到此结束。今天的节目由Julie Chang制作,监督制作人是Catherine Milsop。登出,我是华尔街日报的Belle Lin。我们将在今天下午的TNB科技分钟中再次上线。感谢您的收听。您想要一条通往目标的简单路径,但在美林,我们知道事情可能会妨碍您。

或者新的机会可能让您面临十字路口。在牛市的支持下,您将获得个性化的计划和明确的前进道路。请访问ml.com/bullish了解更多信息。美林, 美国银行公司。您希望拥有什么样的能力?投资涉及风险。美林林奇皮尔斯芬纳与史密斯公司。注册经纪商。注册投资顾问。SIPC会员。美国银行公司的全资子公司。</raw_text>