cover of episode #267 No More NoSQL? How AI is Changing the Database with Sahir Azam, Chief Product Officer at MongoDB

#267 No More NoSQL? How AI is Changing the Database with Sahir Azam, Chief Product Officer at MongoDB

2024/12/5
logo of podcast DataFramed

DataFramed

People
R
Richie
S
Sahir Azam
Topics
Richie: 本期节目探讨了数据库技术的变化,特别是AI对数据库的影响,以及如何选择合适的数据库。 Sahir Azam: MongoDB已经从一个NoSQL数据库发展成为一个通用的开发者数据库,旨在提高开发效率。传统的关系型数据库在设计之初,硬件成本高昂,开发者效率并非首要考虑因素。而MongoDB等现代数据库,在廉价硬件和分布式计算的背景下,更注重开发者效率。MongoDB的文档模型更符合现代开发者的思维方式,提高了开发效率。此外,MongoDB还集成了搜索、向量和时间序列等功能,简化了数据库架构,降低了运营成本。 Sahir Azam: 云数据平台的普及使得企业更倾向于使用托管服务,将资源集中于应用程序开发而非数据基础设施管理。数据库的简化也使得企业更容易采用和管理数据库,并更容易培训员工。 Sahir Azam: 生成式AI将促进更复杂的软件开发,增加对数据库的需求,并能够处理非结构化数据,解锁更多数据价值。生成式AI在汽车诊断和药物审批流程优化等领域已有应用。 Sahir Azam: 企业需要整理和组织数据,并从旧系统迁移到现代系统,才能充分利用生成式AI。生成式AI可以降低旧系统迁移的成本和风险。 Sahir Azam: 现代技术正在改变软件开发人员所需的技能,例如机器学习和AI技能。数据工程师的需求也将增加,以满足对数据处理和组织的需求。数据团队和开发团队之间的合作越来越紧密。 Sahir Azam: 产品设计和用户体验仍然是软件开发的关键。生成式AI只是工具,并不能完全取代产品设计和用户体验。 Sahir Azam: 对数据和AI领域的未来充满乐观,认为AI将提高整体生产力,并创造新的就业机会。 Richie: 本期节目主要围绕着数据库技术,特别是AI对数据库的影响展开讨论。我们探讨了数据库技术的发展历程,从早期的关系型数据库到如今多样化的数据库类型,以及AI技术如何改变数据库和软件开发的方式。 Sahir Azam: MongoDB作为现代数据库的代表,其核心优势在于提高开发者效率。它采用文档模型,更符合现代软件开发的模式,并通过整合多种数据库功能,简化了开发流程,降低了运营成本。 Sahir Azam: 云数据平台的兴起改变了数据库的使用方式,企业更倾向于使用托管服务,这使得开发者可以专注于应用开发,而无需过多关注数据库基础设施的管理。 Sahir Azam: 生成式AI的出现为数据库带来了新的机遇和挑战。一方面,它将推动软件开发的复杂性,增加对数据库的需求;另一方面,它也能够处理非结构化数据,解锁更多数据价值。 Sahir Azam: 生成式AI的应用案例包括汽车诊断和药物审批流程优化等,这些案例展示了生成式AI在提高效率和降低成本方面的巨大潜力。 Sahir Azam: 企业需要做好数据准备工作,将数据从旧系统迁移到现代系统,才能充分利用生成式AI。 Sahir Azam: 现代数据库技术和生成式AI正在改变软件开发人员和数据团队所需的技能,开发者需要掌握更多AI和机器学习技能,而数据团队则需要更专注于数据处理和组织。 Sahir Azam: 数据团队和开发团队之间的合作越来越紧密,这需要组织内部加强沟通和协作。 Sahir Azam: 尽管生成式AI技术发展迅速,但产品设计和用户体验仍然是软件开发的关键,需要专业的技能和经验。 Sahir Azam: 对数据和AI领域的未来充满信心,相信AI技术将提高整体生产力,并创造新的就业机会。

Deep Dive

Key Insights

Why is NoSQL no longer a dominant term in database discussions?

MongoDB now positions itself as a modern general-purpose database capable of handling a broader range of use cases than traditional NoSQL databases, which are often seen as limited to specific functionalities.

What are the main types of databases developers need to know about today?

The main types include relational databases, document databases, search databases, time series databases, and vector databases, each tailored to specific application needs like IoT, AI, and operational data.

Why has developer productivity become a key focus in database design?

With cheap hardware and distributed computing no longer being the primary constraints, the focus has shifted to making developers more efficient, allowing them to build high-quality software faster and create better user experiences.

How does MongoDB enhance developer productivity?

MongoDB uses a document model that aligns with object-oriented programming, making it easier for developers to reason about data. It also integrates features like search and vector capabilities natively, reducing the need for multiple databases and simplifying development.

What challenges do developers face when integrating multiple databases?

Developers often need to manage complex sprawl with separate databases for search, time series, and AI, leading to data duplication and operational overhead. MongoDB aims to simplify this by integrating these functionalities into a single platform.

How is generative AI impacting the database landscape?

Generative AI is driving the need for more sophisticated software and data infrastructure. It also enables the use of unstructured data like audio and video in real-time applications, which traditional databases couldn't handle effectively.

What are some practical use cases of generative AI in enterprises?

One example is a European automaker using AI to diagnose car issues based on audio patterns, reducing diagnostic time from hours to minutes. Another is a pharmaceutical company using AI to auto-generate clinical study reports in minutes instead of weeks.

Why is modernizing legacy systems important for leveraging generative AI?

Legacy systems are often too rigid and outdated to integrate with modern AI applications. Modernizing these systems allows organizations to unlock the value of their data for AI-driven insights and applications.

How is MongoDB using AI to assist in modernizing legacy systems?

MongoDB is leveraging AI tools to make the process of migrating and modernizing legacy applications less risky and more cost-effective, helping organizations transition to modern data platforms.

How is the role of developers changing with the rise of AI and modern databases?

Developers are increasingly expected to have AI and machine learning skills, as these technologies become integral to software development. This shift is moving AI capabilities from centralized teams to being embedded in every development team.

Chapters
This chapter explores the evolution of databases, focusing on the shift from hardware constraints to developer productivity as a primary concern. It discusses the changing landscape of databases beyond NoSQL and introduces the concept of a modern, general-purpose database.
  • Hardware constraints are no longer the primary concern in database design.
  • The focus has shifted to developer productivity and efficiency.
  • Modern databases need to support a variety of use cases and integrate seamlessly into development workflows.

Shownotes Transcript

硬件不再是昂贵的组件这一约束条件已经不存在了。真正重要的是,如何正确地设计系统,以及如何使开发人员能够高效和高产,以便您可以以高质量交付软件并构建引人入胜的体验。欢迎来到Data Framed。我是Richie。长期以来,当您想要选择一个数据库时,这很简单,因为您只有几种关系数据库可供选择。

然后出现了NoSQL,事情变得复杂了一些。现在,几乎每个用例都有一个数据库。今天,我将继续我的探索,试图弄清楚一个合理的文本标签是什么样的,并获得另一个关于如何决定使用哪个数据库的意见。

不可避免地,数据库技术变化的一个主要驱动力是人工智能。因此,我想探讨正在发生的变化以及对数据专业人员和开发人员的影响。我们的嘉宾是Sahir Azam,MongoDB的首席产品官。在Sahir的领导下,他一直在帮助MongoDB从一个NoSQL数据库转变为一个更通用的开发人员数据库。因此,他花了很多时间思考开发人员的需求。

他还担任Temporal和Observe(一家云数据可观察性初创公司)的董事会成员。Sahir从Sumo Logic加入MongoDB,在那里他负责平台定价、打包和技术合作伙伴关系。在Sumo Logic之前,他推出了VMware第一个自主开发的SaaS管理产品,并将他们的管理工具业务增长到10亿美元以上的收入。

在他职业生涯的早期,Sahir还在Dynamic Ops、BMC Software和BladeLogic担任技术和销售职位。好了,让我们来了解一下数据库。嗨,Sahir。欢迎来到节目。嘿,Richie。感谢你的邀请。

酷。对于MongoDB,我相当强烈地将其与NoSQL运动联系起来,但我注意到这已经从品牌中消失了。那么,这是否意味着NoSQL不再是一回事了?你知道,我认为我们行业、我们的生态系统中的许多人仍然认为我们属于NoSQL或非关系型数据库类别。我认为从我们的角度来看,

我们认为自己与该领域的一些其他技术大不相同。因此,当我们描述我们的技术时,我们倾向于使用更广泛的框架,即更现代的通用数据库,因为我们认为它适用于并且确实适用于客户环境中比我认为典型的开发人员或技术人员可能认为NoSQL数据库能够处理的更广泛的用例。

好的,也许我们一会儿可以更深入地了解MongoDB是什么。但似乎长期以来,您拥有SQL数据库和NoSQL数据库,现在有许多不同类型的数据库,几乎可以满足所有用例。您能否快速概述一下人们需要了解的主要数据库类型?

是的,我会退一步,我认为您看到各种不同数据库类型的原因从根本上来说是由于软件和开发人员代表客户创建的体验(无论是内部软件还是为我们所有其他业务或个人生活提供动力的软件)越来越先进,并且在人们构建的体验类型方面变得越来越复杂、越来越复杂。

传统的关联SQL数据库模型是40年前发明的,当时大多数软件都是后台软件,也许是为一些会计或组织中的一些后台簿记而设计的。它不仅针对这些类型的应用程序进行了优化(这些应用程序与今天的普通应用程序非常不同),而且还在一个当时优化的世界中,硬件和存储非常昂贵。开发人员的时间和生产力被认为是事后考虑的事情。

但是MongoDB和许多其他新兴的现代技术是在一个我们拥有廉价硬件优势并且价格不断下降、分布式水平计算等等的世界中启动的。因此,这不再是约束条件了。然而,每个人都在思考如何提高开发人员的生产力,以便他们可以将更多的时间花在构建我提到的那些令人愉悦的体验上。

在过去的几十年里,整个技术领域和软件领域发生了巨大的变化。我认为各种数据库技术已经发展到以更有效的方式为这些技术服务。有趣的是,基础设施问题,我想你是在说,基本上已经解决了。因此,无论您有多少数据,都有一个数据库可以处理它。因此,您必须经常关注开发人员的生产力。那么,您能否向我介绍一下,在使用数据库时,您如何提高开发人员的生产力?

我并不是说成本对客户来说不是一个问题,或者可扩展性不是许多技术仍然必须构建并继续提高的东西。但我认为总的来说,硬件是昂贵组件的约束条件已经不再是这种情况了。真正重要的是,如何正确地设计系统,以及如何使开发人员能够高效和高产,以便您可以以高质量交付软件并构建引人入胜的体验?

我认为你问的很多问题都回到了MamboDB的创立。我们的创始人,他们是DoubleClick的开发人员和CTO和开发人员。当时,它是世界上最大的高性能软件之一。它运行着双面广告网络,最终被谷歌收购,我认为至今仍在为谷歌的大部分收入提供动力。他们确实面临两种类型的问题,这两种问题我都认为从根本上来说是关于规模的问题。

一个,你知道,随着他们的应用程序和平台越来越大,以越来越快的性能要求提供更多广告,向传统的具有某些典型技术的单片架构中投入硬件变得非常昂贵。所以这是一个成本扩展和性能扩展的问题。

但还有一个更微妙的规模问题,那就是围绕生产力的问题。您有一个小型开发团队,您可以在任何统计数据上构建,利用任何数据库,并且仍然相对快速。但他们观察到,当他们从几十名开发人员发展到数百名开发人员再到数千名开发人员时,他们并没有从这些团队那里获得类似的生产力回报。他们觉得他们的团队在规模扩大时速度变慢了。

原因之一(当然不是唯一的原因),但对他们来说很重要的一点是当时传统数据库模型的僵化性。重量级的关系模式,降低这些模式的变更管理。每一次变化本身就是一个大型程序。这是导致他们认为,好的,开发人员的生产力将非常重要。

因此,当他们发布MongoDB时,他们通过利用分布式系统架构来解决规模和成本问题。MongoDB是一个分布式数据库。您可以获得诸如高可用性、故障转移、能够有效地无限水平扩展等功能,这使得成本效率更高。

但随后他们选择了一种不同的数据模型而不是关系模型来构建数据库本身。这就是我们所说的文档模型,在他们看来,当然在我们公司成立以来的15年中,我们也看到了这一点,这是一种更自然的方式,特别是对于构建面向对象编程的开发人员来说,思考推理,因此随着时间的推移,他们构建越来越多的功能时,效率更高,可扩展性更强。

这让我想起了关于神话般的人月经典商业理念,你试图扩大人员数量,然后你的生产力并没有线性地随着人员数量的增加而增加。因此,有趣的是,您必须考虑架构您的流程和人才,以及技术本身。

绝对的。我认为从开发人员的角度出发,并首先考虑现代开发人员的心态和需求来构建数据库是一个新事物。这当然导致了MongoDB的极度流行。

一旦它是开源的,但不仅仅是MongoDB,你提到还有其他类型的NoSQL或非关系型数据库,它们都有不同的风格和注意事项。但是,我认为这表明开发人员生态系统对不同的操作数据工作方式有需求。你提到了文档模型的概念。所以是一个文档数据库而不是关系数据库。有什么区别,为什么你想要一个文档模型?

当然,是的。在关系数据库中,如果您要建模客户或产品,则通常情况下,它不是用单行和表格表示的,而是用少数几行和表格表示的,您必须管理它们之间的关系。

并围绕它有一个严格的模式,这使得随着时间的推移难以快速进行更改。它还会造成认知负担,因为当应用程序开发人员在代码中推理业务对象时,无论是客户、产品还是其他任何东西,

他们不想将其分割成一堆行和表,然后每次想要访问该数据模式时都必须重新构建它。更优雅的方法是一次性持久化应用程序检索和持久化的对象。因为硬件更便宜,所以将所有这些信息一起存储更具成本效益。我们可以在2000年代和2010年代而不是40年前创办一家数据库公司。这个约束条件被去除了。所以这就是我之前提到的观点之间的联系。

早些时候。这使得开发人员更容易从认知上推理他们正在构建的内容,因为数据库感觉就像集成到他们的核心开发工作流程和他们正在编码的业务对象中一样,而不是必须考虑业务对象和应用程序代码,然后记住如何在模式中建模,编写不同的语言(即SQL)来与该数据交互,然后必须将这两者融合在一起。

好的,这当然似乎很有道理。因此,如果您正在编写面向对象的代码,就像大多数应用程序开发人员所做的那样,您希望数据库中的某些内容看起来与面向对象的代码非常相似,而不是拥有……是的,访问模式以及您在代码中管理的业务对象。并且

当然,这种根本性的见解以及以这种心态构建数据库是真正区分MongoDB的关键。处理所有这些对象的能力以及我们拥有的丰富性是区分MongoDB与

SQL或非关系型参与者,但也显然是关系数据库的语料库,无论是更新的产品还是我们听说过的更传统的产品。好的。因此,拥有这个文档模型似乎是帮助开发人员提高生产力的一种方式。还有其他方法可以考虑提高开发人员的生产力并为开发人员提供数据库吗?

是的,绝对的。我认为除了核心数据模型本身之外,我还想补充两点宏观观点。一个与它密切相关的是,如果您在2024年构建应用程序,它将具有各种不同的需求。您只使用SQL关系数据库为该应用程序提供动力的情况非常罕见。

我们通常会发现,您还需要一个单独的搜索数据库。如果您正在进行物联网系统,则需要一个单独的时间序列数据库来执行此类信息。或者,如今在人工智能驱动的应用程序中,您会看到为某些用例引入了向量数据库

因此,我们发现,结合云提供商使任何开发人员都能轻松启动新数据库的简单性,实际上导致了普通应用程序数据库架构中大量复杂的扩展。因为所有这些不同的东西都在创建重复并满足这些狭窄的需求,而不是过去,很大程度上一个数据库可以满足整个应用程序的需求。

我们在MongoDB上花费了大量时间来说,好的,我们有这个非常丰富的数据模型,文档模型,

但我们仍然看到所有这些其他方面的功能必须围绕传统的关联数据库进行组合。我们如何简化它?因此,它以两种方式呈现。首先,我们如何确保我们的数据库可以成为关系数据库的有效且优越的替代方案,特别是关系数据库适合的记录系统?因此,我们不仅仅是另一个附加组件,我们实际上是它的根本替代品。因此,这导致了多年的研发工作,增加了

模式治理、企业安全、事务保证,所有这些都是人们通常与关系阵营联系在一起的东西,但与NoSQL阵营无关。我们将此引入MongoDB,以便我们可以满足关系数据库几十年来习惯使用的各种用例。

然后我们说:“好的,我们最常见地看到开发人员必须附加一些更利基的解决方案的其他领域是什么?”我们认为搜索是一个非常关键的领域。四五年以前,我们将搜索集成到文档模型中,集成到数据库中,因此它感觉就像原生的一样,而不是一个单独的系统。我们管理所有这些同步,因此您不必担心它的操作性。对于人工智能,我们以非常优雅的方式将向量功能本地添加到文档模型中。

时间序列数据来自我们的客户,他们说,嘿,我不希望不得不建立一个单独的时间序列数据库。我使用MongoDB作为我的核心事务数据。你能让它对时间序列的性能更好吗,这样我就不用引入另一个工具了?因此,我们简化了这一点。

我们将这种理念称为开发人员数据平台,但这实际上只是从现代应用程序的需求向后看,并说,我们如何以一种对开发人员来说优雅且无缝的方式来交付它?因此,他们花费更少的时间来组合四五个不同的技术,然后显然是管理这些技术随时间的操作成本和负担。

这是一个非常普遍的问题。我们在节目中经常讨论这个概念,即数据孤岛的概念,即您的数据只是停留在不同的位置。当然,如果您有四五个不同的数据库,那么您就定义了数据孤岛。不过,我很好奇,许多这样的数据库,如时间序列数据库,往往非常专业化。您如何管理性能

比如果您尝试在同一个数据库中完成所有操作的性能要好。是的,我想明确一点,我认为一个组织将一个数据库作为所有事物的标准的日子永远不会看到自己。开发人员在为工作选择合适的技术方面表达了很多偏好,并且

我们的目标不是成为统治所有数据库的唯一数据库,而是要足够通用,对于70%、80%的常见操作用例,尤其是在大型组织中,他们不应该不得不寻求高度专业化的解决方案。

现在,某些边缘情况或用例在时间序列或图遍历和图功能方面非常深入,通用平台(如MongoDB)可能不是正确的选择。但我们认为他们被使用的平均值实际上并不那么复杂。

因此,这归结于我们优化核心数据库引擎、存储、针对这些不同用例的索引。我们选择那些我们认为最适合文档模型、我们认为足够普遍以至于值得我们投资去解决这个问题的模型。这就是我们做出这些决定的方式。

但无论如何,这都是一项性能调整、优化、索引的工作,以确保我们可以以高效的方式捕获至少50%、60%、70%以上需要这些功能的工作负载,并且比总是求助于专业解决方案更简单、更集成的方式。

好的,一次性涵盖所有主要用例。这似乎是合理的。因此,我很好奇数据库平台或更通用的数据平台的变化是否改变了软件开发的方式以及数据团队的工作方式。对正在工作的其他团队有什么影响?当然,过去十年中一个大的转变仅仅是开发人员,尤其是在大型企业中,现在对云数据平台的舒适程度。

即使在十年前,快速发展的、风险规避较低的组织也认为,好吧,我没有时间管理我的数据库基础设施。我将只使用AWS或其他任何人的服务。现在,这几乎成为许多组织的默认设置。是的,有一些本地工作负载,其中一些将永远保留在那里。但是当工作负载迁移到云端或在云端构建时,我认为

整个行业几乎都倾向于这样一个事实,即,好的,托管服务、云服务是消费这种服务的方式,因为这是一种更有效的体验,您的资金最好花在构建应用程序上,而不是管理数据基础设施上。因此,我认为这一重大转变最初是由超大规模企业启动的,但现在看看MongoDB、Snowflake或Databricks以及数据库市场的其他部分。现在有少数几个

人们信任的关键任务规模云数据平台。我认为十年前并非如此。因此,我认为这一步骤改变了很多。

然后是这种简化的概念,即不需要拥有五个必须组合在一起并连接点并进行数据重复的利基数据库,而是简单地简化,坦率地说,这使得组织更容易采用。我们许多大型客户,大型企业都在说,你知道,我想要两三个标准的数据库产品。我不想有25个利基技术。那么我们如何管理呢?我们如何获得技能强化?

很多时候,问题不在于技术能否做到,而在于他们能否培训所有开发人员掌握一组技能,然后这些技能可以在组织中重复使用和跨许多工作使用。这些是客户每天在现实世界中面临的真正担忧。并且拥有

一个他们可以信任的供应商,可以解决很多问题,并且可以在他们的组织中发展这种技能惯性,这绝对是将这些东西以统一和优雅的方式构建的简化的好处。

好的,我绝对喜欢简单技术堆栈的概念。因此,它使采购更容易,使治理更容易,也使技能提升更容易。好的。确切地。因此,我认为在不谈论生成式人工智能的情况下,我们不会离开。因为它正在进入一切,我相信它一定以某种方式改变了数据库。您能否向我介绍这些变化是什么?在宏观层面上,生成式人工智能令人兴奋的事情是,我认为任何地方都将创建更

复杂的软件,对吧?因为生成式人工智能最强大的用例之一是代码辅助,或者现在我们谈论的是可以执行更复杂的软件开发任务的代理。而且,你知道,我认为随着工具的改进,随着模型的每一次迭代而改进,这只会增加。我认为创建软件将变得越来越容易。

无论是10倍的开发人员现在成为100倍的开发人员,还是对于更简单的应用程序,您都有一个技术水平较低的人能够自己生成一些软件。这两种趋势都已经在发生。尽管我认为这仍然是早期阶段,但很明显可以看到,这只会越来越好。因此,更多的应用程序意味着需要更多的数据来为这些应用程序提供服务。因此,我们绝对对此感到兴奋,因为它代表着下一阶段的应用程序。

围绕应用程序开发的软件行业变化。这是一种宏观框架。我认为就数据基础设施本身或数据本身而言,有趣的一点是,我们在移动电话应用程序或我们在个人生活中或商业生活中使用的网络应用程序中交互的大多数信息是为这些应用程序提供动力的结构化或半结构化数据。

然而,我认为我从一位分析师那里读到,世界上70%以上的资料确实是无结构化的资料:音频、自由格式文本、视频内容等等。除了可能最基本的使用之外,这种类型的信息从未真正以生成式人工智能和这些模型允许我们的方式为应用程序提供动力。

因为现在您可以开始使用GenAA模型来运行相似性搜索,从所有这些非结构化数据中推断含义,并以过去不可能的方式将其用于实时应用程序。这释放了人类信息的一整套价值和知识

该软件现在可以利用并在此基础上构建,这实际上是不可能的,除非显示图像或流式传输视频,就像这些类型的用例一样。我认为这是一个宏观层面的非常强大的概念。我正在查看来自

实际上,我认为是我们的一位投资者。而且我认为这仍然是早期阶段。就像第一代iPhone问世,应用程序非常简单一样,你知道,手电筒应用程序等等。使用生成式人工智能可以实现的功能的概念,我认为仍然处于起步阶段。我认为随着模型变得更快、更准确,随着成本下降,我们将看到新的商业模式和体验被创造出来。

我们今天甚至无法想象。就像我们无法相信一样,我们无法预见优步或爱彼迎或在移动时代出现的其他商业模式一样。我认为

更强大的生成式人工智能将创造我们甚至尚未想到的新型软件和应用程序界面。因此,我认为这还处于早期阶段,但我真的很兴奋,因为我认为这是一种原始技术,从长远来看,任何类型的应用程序都可以从中受益。我认为它将创造我们从未见过的体验。

是的,绝对是令人兴奋的时代。因此,似乎两者兼而有之。因此,其中一些是关于帮助开发人员提高生产力。您提到了人工智能代码辅助的概念,还有一些将直接影响最终用户。例如,您提到,好吧,我想所有这些将要创建的新应用程序。

您提到了所有这些非结构化数据类型,例如文本、图像和音频等。这些现在都是一种数据,您可以使用人工智能对它们进行很酷的操作。您能否更具体一些,并向我介绍一下这些用例中的一些?我将举两个例子。这些恰好都是大型成熟企业。当然,人工智能生态系统中有很多初创公司,其中许多

在MongoDB上构建,正在做很棒的事情,在应用程序的核心构建全新的业务,使用生成式人工智能。我们实际上看到许多实验,现在甚至在传统企业中也发生了生产性的事情。其中两个最突出的例子是,我们与

一家非常大的欧洲汽车制造商合作。他们使用音频模型解决的一个问题是汽车诊断。因此,他们所做的是创建汽车模型在出现某些问题时发出的常见声音的向量表示。

而且,你知道,任何开过车的人都明白,有时你只是知道有什么不对劲。你听到某种程度的嘎嘎声。好吧,他们能够基本上对这些声音进行分类,并将它们转换成BNAI模型,将BNAI模型转换成向量表示。因此,现在当一辆汽车出现在他们的一个车间时,他们可以记录这辆特定汽车出现的问题。

并使用它来快速诊断已知的一组问题。这是一个相似性。因此,它使用一个人工智能模型,该模型基本上是从这些音频文件中生成的。这实际上大大缩短了诊断特定问题所需的小时数和时间,尤其是在将其推算到他们在全球拥有的数千个不同的经销商或第三方站点时。

如果您能将需要熟练技术人员花费数小时才能完成的事情缩短为现在只需几分钟就能完成的事情,只需进行相似性搜索,Matt,这对该组织来说将节省数十亿美元。这是诊断部分。下一部分是,好的,您如何实际解决问题?好吧,现在,对于这些问题,大多数步骤是找到您的诊断代码,然后您会参考一个手册,其中包含解决问题的步骤和所需零件。好吧,他们也……

在所有维修手册的顶部添加了一个聊天机器人。因此,现在技术人员可以说,好的,这个音频诊断了这个问题,三个步骤是什么?它只是给出了一个很好的总结,而不必浏览PDF和物理手册来获得答案,从而关闭了这个循环。就像一个非常务实、适用的用例一样。我认为我们都可以直观地理解。另一个是我们与之合作的,实际上我刚刚在一个小组中与构建此功能的团队一起讨论了诺和诺德(一家制药公司)。

他们像任何制药公司一样,都有一个相当繁重的纸质流程,他们必须遵循该流程才能提交新药以获得批准。这被称为临床研究报告。这通常需要……

很多人,很多时间来手动编写和审查。他们最终在一个模型上训练了他们所有的提交,包括草稿提交和他们提交给各个监管机构的提交。现在,他们有一个模型,可以根据临床研究的原始输入数据自动生成CSR的第一个草稿,这过去需要几周时间。现在只需15分钟即可生成质量合理的初稿。

现在,这并不是说他们直接提交了。他们仍然需要审查并传递。显然,这些事情的风险很高。他们显然希望,他们仍然在流程中进行大量手动审查,但这将几周的工作缩短到几分钟,以获得更高质量的初始草稿,并手动完成这项工作,并培训人员完成这项工作,并让他们掌握特定领域的知识。

因此,这些是两个相对较新的用例,我们非常幸运地参与了这些概念的构思、构建和验证。但我相信在未来一两年内,我们将看到越来越多的例子。一些非常酷的例子。我想说第一个关于汽车发出噪音的例子。我开着一辆20年的旧车,所以它有很多吱吱声和奇怪的声音。所以,是的,这听起来非常有用。但还有其他业务用例。是的,就像从简单的文档处理到……

更多复杂的例子。感觉有很多机会可以利用这项新技术。关于生成式AI有趣的是,它是不可预测的,就像它的名字一样。它以一种以前用经典软件无法实现的方式帮助你生成知识和信息。因此,我认为这类应用程序将真正瞄准那些劳动密集型、软件从未真正适合的服务行业。所以,我认为这与其说是

扰乱现有软件(我认为其中一些会发生),不如说是将软件带入以前从未真正适合的行业。所以我认为很多企业现在都在考虑,我们如何利用我们现有的所有其他数据类型和文件类型?

这是否需要改变你的基本数据基础设施才能利用它?你需要做什么?是的,业界正在进行大量的项目工作,当然咨询行业也从中受益匪浅,目前正致力于整理数据。

那么,你如何对数据进行编目、标记和标签,以便对其进行组织和利用呢?我认为这是一个工作领域。我认为大多数组织,尤其是大型组织,数据实际上是孤立的,正如你前面提到的那样。很难组织或理解。所以我认为大多数组织正在努力掌握这一点,因为他们认识到,如果他们想从未来的AI中获益,这将是有价值的。另一个是许多记录这些的系统

对企业来说至关重要的信息被锁在20、30年前的遗留系统中。过去,情况有点像,好吧,我们可以处理它的维护,因为迁移这些旧的数据库系统等等实在太昂贵了。但是现在,我认为这已经……

没有人会向30年前的应用程序和30年前的数据库添加生成式AI功能。如果这些数据是通过支持AI模型、集成到基础模型来区分你的业务的信息,那么现在就需要从应用程序的架构上,或者显然是从数据库的角度来看,将其转变为更现代的技术标准。显然,MongoDB是

这方面的受益者,但我们也利用AI作为一种工具,使迁移这些旧应用程序并将其现代化到新事物

比以往任何时候都更低风险、更具成本效益。这是一种循环的事情。很有趣。是的,我当然可以想象,如果你在某个遗留系统上拥有30年前的数据,那么将其连接到某种生成式AI应用程序将非常困难。但有趣的是,这是一个数据框架嘉宾似乎的问题

完全分歧。有些人非常像你必须永久存储所有数据,无论是什么,所有内容都需要存档等等,好吧,只保留你关心的数据。那么,这30年前的数据真的会对你的生成式AI应用程序产生影响吗?你,在哪里

它甚至可能与数据的年龄无关。当我提到这一点时,并不一定是指数据本身是30年前的。现在,也许这些数据中有一些价值。模型,它们擅长的是发现人类不一定能够理解的信息之间的关系,无论是经典机器学习还是AI模型中使用的训练。所以我怀疑我们甚至还没有理解的某些数据集中存在一些价值,但模型将能够推断出来。

但这甚至不是我所指的。许多这些应用程序正在为当今的企业和客户服务。它们碰巧是30年前的软件系统。那么,这个30年前的软件系统、这个旧的应用程序、这个旧的数据库,如何突然成为一个足够灵活、足够高效且足够可扩展的东西,以处理构建在这个记录系统上的生成式AI应用程序,这组旧的数据?

即使信息只有一周的历史,你知道,因为它是由应用程序在上周生成的。我认为我们现在更常见的是驱动因素。它只是一个旧的堆栈。人们认识到,你不会使用旧技术来解决新问题,即生成式AI应用程序。因此,他们需要获取这些应用程序中的所有信息,将其现代化到新的堆栈,然后才能继续应用和添加AI功能。是的,这当然很有道理。我试图想出一些30年前的软件示例,只是为了……

复合哦,呃,Windows 95明年就要30岁了,那是桌面软件,但想想像服务器端一样,一家银行必须在15年前构建一个定制的欺诈检测系统,或者保险公司有一个报价系统,我们正在对其进行现代化改造,我认为这是一个20年前的报价系统,用于大型保险公司的保险报价,现在你知道

它是由不再在组织工作的开发人员构建的。没有人理解代码库。不一定有测试。但现在,这个系统突然存储了关键数据,他们知道这些数据对于生成式AI来说将非常强大。他们用它来微调或增强基础模型。他们不会用他们25年前的堆栈来做这件事。所以现在他们正在对整个应用程序进行现代化改造,将其数据向前推进,以便他们能够将其置于可以移动的状态。

在接下来的十年里,依靠它前进。好的,是的,我当然可以理解,一旦你进入嵌入机器的软件或类似于大型组织中某些大型机的软件,它确实必须持续更长时间。我想这可能是一个万亿美元的问题,但是你如何确保你不会最终得到那个

过时的技术堆栈已经30岁了,然后你就被那些不起作用的东西困住了。是的,我认为每个组织都希望,如果他们能动动手指,如果它没有成本和风险,他们当然会使事情现代化。但现实是,对于许多应用程序来说,这太昂贵了,而且不值得他们可以进行的其他投资。这就是这些应用程序老化的方式。有时也有一点,如果它没有坏,就不要修它。

但是现在,由于生成式AI,由于越来越多的压力转向云计算,在某些情况下,成本压力或监管压力现在需要摆脱这些旧技术,有足够的理由来强制解决这个问题。具有讽刺意味的是,生成式AI本身就是一个工具,可以以更低的成本和更低的风险来实现这些现代化。

所以这有点像一个时刻,我认为组织更愿意或被迫使他们可能原本会保留的系统现代化。所以我认为AI是我们客户群中看到的关键驱动因素。

那么,对于我们自己作为技术提供商来说,我认为这实际上是确保我们继续保持创新文化。我们在向我们的平台、我们的开发人员工具、我们的向量功能等添加AI功能方面非常迅速地进入市场,但也进行了大量的集成。人们正在使用一个新兴的整个技术生态系统,模型提供商本身、推理平台、一组新的开发人员库、评估工具

我们必须与之集成,以确保MongoDB像对云原生或移动原生Web开发一样,对最现代的生成式AI开发也能很好地工作,这正是我们扎根的地方。我认为这是关于执行的。如果我们无法快速行动,无法紧跟那些新兴的生态系统并很好地集成,并且真正了解客户如何使用它们以及

并支持他们在旅途中,那么当然,我认为任何无法跨越鸿沟或实现飞跃的企业(无论你使用什么比喻)都有可能陷入数据困境。我喜欢它在两个方向上都有效。生成式AI正在增加对更现代数据堆栈的需求。它也为你提供了过渡到该现代数据堆栈的工具。是的,绝对的。我还想谈谈角色。那么,如何……

这种现代数据库技术,现代数据开发人员平台,如何改变数据角色和软件开发角色?是的,绝对的。我认为总的来说,在过去的20年左右的时间里,数据库决策变得更加民主化。这意味着过去是由首席信息官与你最喜欢的几家大型企业软件公司签订大型合同,我相信你可以说出名字,他们会强制规定这必须是标准

许多应用程序都获得了所有应用程序,除非例外。这将是90年代早期2000年代购买软件的传统方式。但我认为,因为开发人员如此……

就软件需求大于供应而言。我们将看看生成式AI如何改变这一点。但这使得开发人员对他们喜欢的、使他们高效且易于实验的工具的偏好变得更加强大。事实上,MongoDB和许多组织的开始是因为一些开发人员

开发人员下载了我们的开源版本或注册了我们的云服务,因为他们喜欢MongoDB而不是可用的更传统的选择,他们成功地使用了它。它开始在这些组织中有机地增长。最终,我们与这些客户建立了更具战略意义的关系。我们获得了高管层的支持和自下而上的开发人员采用。但这只是总体上发生的一个重大转变,就

至少对于操作数据库而言,技术堆栈的偏好更多地转向用户的偏好,而不是购买者的偏好。所以我认为这非常强大。我们一直是它的受益者。我们喜欢这样。我们在社区和DevRel方面做了很多工作,甚至在我们与开源的战略中也努力推动这一点,并在自下而上的采用方面非常强大。我认为另一件正在发生的事情,与AI和机器学习更相关的是

长期以来,在许多组织中,数据科学和机器学习是一个小型团队,以集中方式进行,有点像服务中心,当你需要一个模型来解决某个业务用户的某个问题时,或者可能有一些软件用例。他们构建机器学习模型,然后将其扔过墙,并可能由核心软件开发团队集成或实施。

我认为生成式AI正在改变的一件事是,通常没有集中的生成式AI开发团队。可能有一些标准团队或一个拥有最佳实践的团队,但我们看到这种转变实际上已经向左转移,成为几乎每个软件开发团队的标准组成部分。即使是今天,我们看到的从大学毕业的开发人员,他们也在学习AI和ML技能,作为他们核心CS课程的一部分。

所以我认为这种观念正在从一种高度专业化、集中的技能集和角色组织转变为一种更实际的情况,你将在每个开发团队中拥有某种程度的基本AI技能,或者每个开发团队都将拥有一个AI开发人员或ML开发人员作为该核心团队的一部分,遍布企业的各个部分,这绝对是我们看到的趋势。

这很酷,你采用了这种自下而上的方法,人们只是因为喜欢而采用工具,然后它就会增长,而不是仅仅强加于整个组织。所以我们已经提到了数据团队,我们已经提到了开发团队很多次。我想知道这些是否正在融合在一起。当然,当你拥有涉及数据的应用程序时,这两个角色似乎比以前更加重叠。

是的,这种重叠是否意味着这些数据团队有组织的方式可以与他们的开发人员同行进行更密切的日常合作,这当然正在一些组织中发生。或者利用数据来为具有AI的新的现代应用程序体验提供动力,这只是未来核心开发人员技能集的核心部分。我认为随着时间的推移,我们将看到更多后者,但我认为在组织上,这些事情正在更多地融合在一起。

每天,因为你需要准备你的数据来微调AI模型,或者创建一个RAG工作流程来将其集成到公共基础模型中。你需要数据团队、治理团队能够参与其中。但是你需要开发人员来编写代码,将其集成进去,产品经理、设计师来考虑最终用户对应用程序的实际体验。因此,这迫使这种集成或类型的协作。

好的,是的,所以那里提到了很多团队,似乎创建涉及数据或AI的应用程序。这真的是一项团队运动,涉及组织的许多方面。是的,我怀疑这种想法,你只需要模型,突然之间,你知道,你不需要伟大的产品工艺,用一个宽松的术语来说,这意味着理解最终用户的核心痛点和需求,设计令人愉悦的软件

无论是音频界面还是我们今天想到的经典视觉界面。这其中有很多工艺。然后是生成式AI和这些模型是解决这些问题的工具。但我认为这不会消失。比率可能不同。这个工具非常强大。因此,它可能会从根本上改变用户体验。

但我认为人们低估了仍然存在的真正产品工艺的程度。这需要不同的技能。即使是我们都能读到的最成功、最炫目的生成式AI初创公司,或者我们在MongoDB中与许多人共度时光,在创建伟大的产品方面所付出的努力,即使它是基于生成式AI基础的,也是非常高的。这仍然是他们成功的驱动力。

绝对的。是的,似乎在仅仅可以接受和仓促拼凑的东西与经过精心设计的东西之间存在很大的区别。如果我看到另一个原始聊天机器人,我的意思是,拜托,有多少,就像我并不是说这没有价值,但是,这还不够。你需要一个真正精心设计的体验,你需要学习如何将模型结合起来,以获得你试图构建的用例的最佳结果。这个问题中有很多复杂性。

你认为技术的变化,基本上是更现代的数据库、生成式AI等等,你认为它们是否正在改变数据人员所需的技能?我认为它正在改变普通开发人员所需的技能。我不确定它是否正在改变数据团队的核心需求,因为我认为仍然有很多数据工程需要发生,才能准备所有这些信息,并以对这些生成式AI工作流程有用的方式对其进行组织,我认为。

Python变得越来越重要,而不是越来越不重要。这在很多方面一直是高级数据团队的通用语的核心。总是有大量的新工具和技术出现。今天早上我刚和一家为数据工程师和ML工程师服务的初创公司谈过,例如。所以我并不是说技术不会改变,但我感觉核心开发中需要更多技能来开发这一点,而不是另一面。

你认为它对开发人员的影响大于对数据团队的影响,这很有趣。我认为普通应用程序开发人员需要在利用非结构化数据、AI模型、机器学习方面变得更加复杂。

是的,他们显然会依赖这些集中的数据团队来提供帮助。但我认为,为了让组织快速发展,他们需要在组织中更普遍地发展这种技能。好的,所以开发人员需要机器学习技能,一些AI技能。然后,我想,在数据方面,就像,是的,数据工程似乎越来越

我认为他们将面临更大的压力来满足这些需求,并成为管理所有这些数据并使其对这些团队有用的专家的专业化。那么,你是否看到过任何成功的案例,组织只是依赖这些新技术来构建一些很酷的东西,并且他们取得了成功?

是的,我的意思是,有很多例子。我给你举了几个大公司的例子,但每周我们都会非常狂热地查看我们AI产品的所有新用户注册。坦率地说,在几乎每个地理位置的每个行业垂直领域,都有初创公司,无论是东南亚、非洲、海湾地区、伦敦还是欧洲所有地区。所以我认为

正在发生很多创新。现在,我们正处于这种炒作周期中的某个时刻,出现了一波新的平台技术。我相信其中许多想法都会失败。但就像所有事物一样,从这些事物中,我们将发展出令人惊叹的新公司,我认为如果我们现在坐在这里5年或10年后,它们将是我们想到的下一个科技大品牌。我们在转向云计算和移动的过程中看到了这一点。我认为这将是类似的,如果不是更大规模的转变,就新类型的……

创建的组织。我认为我们很幸运能够在MongoDB中看到全球范围内的这种景象,因为我们每周都会看到5万名开发人员尝试我们的产品,玩弄各种东西,我们尽最大努力确保我们正在努力理解正在发生的创新,不仅是在大型组织中,而且在全球范围内,在正在兴起的新生态系统中。

我喜欢它确实是全球性的,不仅仅是这些大型组织参与其中,而是每个人。好的,最后,你对数据和AI领域最兴奋的是什么?你知道,当然,人们非常担心AI将如何改变我们行业中各种工作角色,或者更广泛地说,在世界经济中。我当然认为这存在破坏性和真正危险的风险。

将从根本上改变事物。但我同时相信,从总体上来说,作为物种,我们将变得更有生产力,可以这么说,它最终将提升人们,因为这种生产力和智力变得越来越聪明、越来越有能力。我认为人类总是在迁移到我们可以独特解决的更高层次的问题。所以我更倾向于乐观主义者阵营,而不是悲观主义者阵营,但要睁大眼睛,因为在此过程中会有一些

混乱和破坏。但我认为,你知道,这是一个激动人心的时代的早期阶段。我认为对于这个面向技术人员的播客来说,这是一个激动人心的时刻,我们所有人可以学习一些新东西,无论经验水平如何,都可以真正倾听所有这些变化,并将其作为一种推动个人成长的方式。

绝对的。我希望在未来几年里,会有很多很酷的事情出现。是的。激动人心的时刻。我同意。如果我能准确预测下一个新奇事物是什么,那么,你知道,我可能会在某个地方投资它。但我认为未知数多于已知数。但我确实知道,从长远来看,未知数可能会非常惊人。很好。非常感谢你的时间,Zaheer。谢谢你,Richie。我真的很感激。