cover of episode #269 Governing Data Models with Sarah Levy, CEO and Co-Founder at Euno

#269 Governing Data Models with Sarah Levy, CEO and Co-Founder at Euno

2024/12/12
logo of podcast DataFramed

DataFramed

People
R
Richie
S
Sarah Levy
Topics
Richie: 讨论了数据治理的挑战,特别是不同团队对关键指标定义不一致的问题,以及语义层在解决这些问题中的作用。他强调了数据信任对于AI分析工具的重要性,并希望了解如何创建语义层以及其在更大治理战略中的地位。 Sarah Levy: 指出许多企业领导者不信任数据产品报告的数字,这是数据治理面临的最大挑战。她解释了语义层的作用,它是一个存储所有经过认证或治理的计算定义的存储库,可以解决由于不同系统计算方法不同而导致的关键指标数值差异过大的问题。她还强调了语义层对于构建可信赖的AI分析工具至关重要,因为它为模型训练提供了可靠的数据定义。她详细阐述了构建和管理语义层的挑战,包括指标的整理、代码编写和工作流程的建立,以及如何处理指标的多个版本。她还讨论了分析工程师在构建和维护语义层中的作用,以及如何平衡数据治理和创新。 Sarah Levy: 深入探讨了语义层的概念、优势和实施挑战。她解释了语义层如何作为单一事实来源,解决数据定义不一致的问题,并提高数据驱动决策的可靠性。她还强调了语义层在AI分析工具中的重要性,以及如何利用语义层来构建可信赖的AI分析工具。她详细阐述了构建和管理语义层的流程,包括指标的整理、代码编写和工作流程的建立,以及如何处理指标的多个版本。她还讨论了分析工程师在构建和维护语义层中的作用,以及如何平衡数据治理和创新,并提供了具体的案例研究和成功指标。

Deep Dive

Key Insights

What is the primary challenge in data governance according to Sarah Levy?

The biggest challenge is that business leaders often cannot trust the numbers reported by their data products, despite significant investments in data tools and teams.

What is a semantic layer in the context of data governance?

A semantic layer is a centralized store for certified definitions of calculations and metrics, providing a single source of truth for data context and ensuring consistency across an organization.

Why is a semantic layer important for organizations?

It ensures consistency and alignment across an organization by providing a central source of truth for metrics, which is crucial for trust in data-driven decisions and for training AI tools.

What are the main steps in implementing a semantic layer?

The steps include curating and mapping metrics, resolving inconsistencies, coding them, and building a workflow to maintain the layer over time.

Who needs to be involved in creating and maintaining a semantic layer?

Business analysts, data engineers, and analytics engineers are all involved. Business analysts define the logic, analytics engineers implement it, and engineers ensure it is coded and governed properly.

What is the role of analytics engineers in data governance?

Analytics engineers bridge the gap between business and data teams, owning the semantic layer and ensuring it is well-architected, coded, and maintained.

How does AI impact the role of analytics engineers?

AI tools require a governed semantic layer to function effectively, making analytics engineers critical for implementing and maintaining the layer that AI models rely on.

What is a governance score and why is it important?

A governance score measures how much of an organization's data assets rely on governed metrics and tables. It helps organizations understand how much they can trust their data and where improvements are needed.

How should organizations prioritize which metrics to govern first?

Organizations should prioritize metrics and dashboards that are highly utilized or where significant resources are invested, as these are indicators of high business value.

What is the relationship between a semantic layer and AI-driven analytics?

A semantic layer is essential for enabling AI-driven analytics by providing a certified set of definitions that AI tools can use to generate trustworthy insights.

How can data governance encourage innovation while maintaining control?

Governance should allow analysts to create and experiment freely in their preferred tools, while observability tools identify which creations gain traction and should be added to the semantic layer.

What is Sarah Levy's mission with her company, Euno?

Her mission is to help large-scale data teams easily understand and derive value from their data by facilitating the creation of a central governed semantic layer and enabling AI adoption.

Shownotes Transcript

如果您想采用 AI 工具,如果您想拥有一个类似于用于分析的 ChatGPT 并询问,您知道,每日活跃用户数是多少,过去一个月的兴趣是多少?并且您想相信此工具提供的数字,您必须依赖某种真理,某种经过认证的定义集来训练这些模型。欢迎来到 Data Framed。我是 Richie。

作为一名数据科学家,我最不满意的就是当您完成一个项目,正在展示您的结果时,有人会插话道:“我认为您不应该那样计算。我们团队使用不同的公式。”在计算许多业务指标时,可能会出现令人惊讶的大量创造性,这自然意味着拥有 11 个客户获取成本定义的情况太常见了。

充其量,这只会导致生产力下降,因为您不断地重复发明数据轮子,最糟糕的是,由于您不信任您的分析,因此无法进行数据驱动的决策。解决方案是改进数据治理,并通过使用语义层使您的指标定义保持一致。我想知道您是如何创建这些语义层之一的,或者至少您会纠缠哪些同事来创建它,以及它们如何融入更大的治理战略。

我们的嘉宾是 Sarah Levy,她是 Yuno.ai(一家数据治理平台公司)的首席执行官兼联合创始人。Sarah 在担任 Pagaya 的数据科学和分析副总裁以及 Site Diagnostics 的首席技术官之后创立了 Yuno。她在运营数据团队时遇到的挑战促使她尝试为其他人解决这些挑战。由于她花了近二十年的时间与数据治理问题作斗争,因此我很想知道她解决这些问题的技巧。

你好,Sarah。欢迎来到节目。你好,Richie。很高兴来到这里。酷。首先,请您谈谈当前数据治理面临的重大挑战是什么?哇。我认为最大的挑战是,许多业务领导者无法相信其数据产品报告的数字,对吧?

我认为这是最大的挑战。您在数据堆栈、构建数据管道、数据工程团队、仓库、BI 工具等方面投入了巨额资金,只是为了做出数据驱动的决策。最终,您不相信这些数字。如果您问我,我认为这是目前最大的问题。当然,是的。所以我可以说,如果您在数据解决方案上花费了所有这些钱,那么就会出现一个大问题。然后你会说,好吧,实际上,我根本不相信答案。那么这完全是浪费时间。

我知道您感兴趣的解决方案之一是为了提高对数据的信任而使用语义层。您能向我解释一下什么是语义层吗?是的。实际上,您可以将其视为一个市场或商店。

您可以在其中存放所有经过认证或治理或官方定义的计算。例如,如果我在一家大型金融科技公司领导房地产部门,并且主要 KPI 之一是我们拥有的资产数量。

因此,资产数量可以通过各种不同的方式从不同的系统中计算出来。我们实际上已经体验过,我自己也体验过。我们管理着大约 300 项资产,我们从不同系统获得的总资产数量范围在 270 到 320 项资产之间。

这是一个巨大的错误。因此,语义层是一种标记,您将在其中拥有总资产数量的官方定义。如果我想知道它,我将使用语义层从数据中获取正确的上下文。因此,表中有大量数据。如果您想获取此数据的正确上下文,请使用语义层。它为您提供该数据的上下文,以便您可以知道需要查询哪个表才能获得所需的答案。

好的,所以我们的想法是,您拥有需要计算的重要指标的官方定义。好的,我喜欢这个。我想,如果您不在乎 10% 的差异,那么您拥有的资产数量可能就无关紧要了。您说的是 270 到 320。如果这很好,大约 300 就足够好了,那么您可能不太在乎。但是,如果您想要确切的答案,那么您需要一个官方定义。

那么,除了拥有单一事实来源之外,还有其他好处吗?为什么您需要这个语义层?

实际上,现在几乎每个 BI 工具都具有语义层。这不是一个新概念。如果您使用 Tableau,您会在 Tableau 中构建指标。您在工作簿中构建它们。您可以在数据源中构建它们。如果您使用 Looker,则在 LookML 中具有语义。您几乎拥有每个 BI 工具的等效项。因此,对于分析师来说,创建计算、创建定义、根据需要定义新术语就像家常便饭一样。因此,每个数据系统都已经拥有许多语义定义。

这就是捕获业务逻辑的地方。

您需要语义层的原因是,通常存在许多重复和不一致的定义。许多定义都存储在某个分析师的工作簿或电子表格中。因此,如果您想在整个组织中实现一致性和协调,希望每个人都使用相同的语言,那么您需要构建这个中心事实来源,这个语义层,其中包含每个人都可以信任的官方定义。这是经过认证的。

这是总收入、每日活跃用户的正确定义。对于实验、临时分析、已构建和放弃的事物,可能还有许多其他副本。但这就是您找到真相的地方。这就是为什么它如此重要的原因。它之所以重要,有两个原因,因为您想知道您获得的数字是否正确。

当我们面对未来时,我想我们会更多地谈到这一点,如果您想采用 AI 工具,如果您想拥有一个类似于用于分析的 ChatGPT 并询问,每日活跃用户数是多少?过去一个月的兴趣是多少?并且您想相信此工具提供的数字,您必须依赖某种真理,某种经过认证的定义集来训练这些模型。

是的,我当然可以理解,如果有很多不同的分析师在处理类似的问题,他们都会以类似但并不完全相同的方式计算事物。事实上,我认为我自己也做过。我不得不回去计算我去年知道计算过的事情,然后我可能做了同样的事情,但也许没有。因此,拥有这个单一的标准定义将产生这种工作簿重复。

实际上,这导致了一个问题,即如何确保您只有一个版本?实施似乎很难阻止分析师做所有这些重复的工作。我的意思是,您提到了最重要的一部分。我认为今天几乎每个组织都明白他们需要一个语义层。但与此同时,

您很少看到构建良好的、受管理的语义层。原因是它实际上是一个艰难的实施过程。让我尝试总结一下它包含的内容。首先,您需要整理正确的指标。您有……

多年来,大型企业中构建了数千个指标。它们都埋藏在 BI 工具、数据应用程序和数据科学笔记本中。因此,您需要找到它们、映射它们、了解哪些指标很重要,哪些指标是最重要的 KPI。您需要解决所有不一致和重复的问题。如果您有三个版本的某个内容,请了解您想要哪个版本。

补充一点。在进行此整理、映射、了解哪些度量捕获业务价值、哪些可以删除以保持环境清洁和清晰之后,您需要对其进行编码。

好的。这是一个大型迁移过程。但是一旦它们被编码,工作流程是什么样的呢?您不能只是告诉组织,听着,现在我们有一个语义层。这些是您的定义。从现在开始,您将使用这些定义。停止在笔记本中创建新内容。现在这是您的字典。您可以使用它,因为事情一直在变化。

因此,一天后,已经有 20 个新的指标埋藏在所有这些 BI 工具中。因此,如果您真的想构建和管理语义层,您还需要开发一个工作流程。

它考虑到了事情会一直变化。我认为这些是主要的挑战。因此,整理、创建它,然后构建一个工作流程,使其在您前进的过程中保持最新和一致。是的,我当然可以理解其中有很多微妙的流程和组织挑战。也许我们会退一步说,谁需要参与创建所有这些定义?

听起来您需要一个技术人员来创建它,但也需要一个具有业务知识的人。这意味着不同的团队一起工作。所以是的,与需要参与此过程的每个人交谈,以及他们的不同角色是什么。

我的意思是每个人,我的意思是,业务逻辑是由业务创建的,而不是一些后勤工程师来决定哪个指标很重要。因此,业务逻辑是创建的,它在不断发展,它在不断变化,这发生在业务方面。而且,您知道,与业务密切合作的业务分析师通常会嵌入到业务领域中。

这就是新语义、新逻辑产生的地方。与此同时,尽管有人试图教分析师如何编码或试图将他们变成工程师,但仍然需要付出工程方面的努力。今天,当您说治理时,您的意思是编码、版本控制、记录和测试。

这不仅仅是,您知道,我不只是在编写定义。有一种方法可以像代码一样管理它,以便它实际上得到了治理。因此,要拥有版本控制的编码指标,您需要工程师参与。

他们需要了解分析师希望他们在那里编码什么。现在,有一些方法可以更好地弥合差距。现在,特别是借助 AI,您拥有副驾驶和自动代码生成器。我的意思是,这些差距,只是编码事物,这些差距将越来越小。但仍然需要设计,正确地构建它。您需要确保这些指标所依赖的数据

转换、表,它们也构建和设计得很好。因此,这里需要付出巨大的努力,将业务作为创建者、分析师作为使用数据语言实现或编写它们的人,然后工程师对其进行编码。

所以每个人都参与其中。好的,所以有很多不同的团队。这是否意味着您需要一些嵌入在这些业务团队中的分析师,以便能够以来自业务逻辑的技术方式编写定义?听起来您需要一个既具备数据技能又具备业务技能的人。

因此,您需要业务理解,也需要技术理解。现在,数据领域出现了一个新角色,我认为是由 DBT 发明的,称为分析工程师。

而且,我的意思是,我们越能看到这个角色是如何发展起来的,以及负责的人,它让我想起了软件开发领域的项目经理。他们是业务和数据团队之间的桥梁。他们了解数据的技术细节。他们可以像工程师一样编写和编码事物,但他们也更接近业务。他们与业务艺术家密切合作。

因此,我认为分析工程师正式成为语义层的拥有者。他们是构建它、维护它的人,他们应该能够管理这场对话。好的,这非常酷。而且分析工程师似乎是这些热门的新数据角色之一。是的。那么,您能否更深入地了解一下,一个人如何成为一名分析工程师?您需要具备哪些技能才能胜任这个角色?

我在过去一年中采访了 300 多名分析工程师。我的意思是,我确实与很多人交谈过。而且故事各不相同。有时是工程师真正表达了对业务的兴趣,他们渴望看到自己工作的成果。所以,你会在产品经理身上看到同样的事情。这就是我喜欢这种比较的原因。因此,有时是工程师对业务有非常

强烈的理解和兴趣,他们可以与业务人员交谈,然后他们成为分析工程师。但我认为更常见的情况是分析师想要提升技能并成为工程师。这就像从分析领域到数据工程领域的自然路径一样。就像它通过分析工程一样。

所以我见过这两种情况。有趣。因此,您会得到一些非常关注业务的人,但也有一些人处于数据工程师和数据分析师之间的中间位置。好的。是的。那么这项工作的角色是什么,它基本上只是不断地磨练大量的指标吗?这是否意味着要为业务的运行方式创建大量定义,或者还有更多内容?事实上,他们确实了解业务逻辑治理的重要性。

在某种程度上,您可以说他们拥有业务逻辑治理。它始于 DBT 中的建模,因此编写 DBT 转换而不是在 Tableau 中构建连接和计算列。他们在 DBT 中执行此操作,并且他们是 DBT 中编码这些内容的人。然后,您知道,下一步自然就是,我的意思是,转换雕塑逻辑、语义、指标雕塑逻辑。所以他们正在编码这些东西。

但是,就像每个工程角色一样,它不仅仅是编码。它实际上是正确地构建它。它实际上是了解如何构建流程和工作流程,如何确定某事物是重复的。您如何知道哪些是经过认证的事物,哪些不是?您如何设计系统?他们中的许多人在技能方面、影响方面都非常资深。我的意思是,他们产生的影响程度,他们

他们有时可以与数据平台上的 20 名工程师、业务方面的数百名工程师一起工作,并且只有四五名分析工程师真正设计了整个界面。

所以您提到了像 dbt 这样的工具,我想在后台有很多 SQL 和像 Tableau 这样的 BI 工具,等等。那么除此之外,我的意思是,因为生成式 AI 正在进入一切事物。这里是否有 AI 角度?这是否改变了分析工程师的角色?

任何会影响语义层和治理的事物都会改变分析工程师的工作方式或其角色。我认为,我的意思是,AI,也许五年前,我的意思是,引入语义层的公司和现在的数据远见者,每个人都说语义层很重要。如果您想相信您的数据,如果您想拥有这个事实来源,您需要构建一个语义层。我认为有了 AI,这一点就变得很清楚了。如果没有语义层,它将无法工作。

如果您构建了一个中心化的受治理的语义层,它可能会起作用。

而且您需要以正确的方式执行此操作。所以我认为这就是分析工程师将成为,您知道,分析工程师,以及数据领导层以及它如何拥有它并为此构建路线图的地方。但他们将是实施此操作的人。我认为表现良好或表现良好的数据团队将使 AI 发挥作用,而其他团队则会失败。问题是他们是否能够管理一个中心化的受治理的语义层,对吧?

好的,所以我想既然有些人会成功,有些人会失败,我们需要弄清楚如何进入成功组。也许只是为了激励一下,您是否有任何公司已经构建了语义层,并且看到了良好的结果的例子?请向我介绍一些案例研究。

我认为这仍然处于早期阶段。我正在与一位大型客户合作,他们很早就开始在 DBT 中使用语义层。他们在那里构建了所有指标。他们确实拥有指标的事实来源。他们让分析师创建事物

因此,他们有自己的游乐场,他们有做事情的地方,但是随着事情变得成熟,我认为这是一家非常大的公司,大约有 5000 名员工,数百名分析师。大约有十几名分析工程师真正设法集中了每个业务领域的指标。他们的数据确实为他们的决策、业务决策带来了很多价值。他们的所有业务都严重依赖数据。

这是一家大型欧洲独角兽公司,一家微型移动公司。所以我只是看到了这一点。他们是第一个采用 DVD 语义层的人,我的意思是。我想棘手的问题将是如何衡量成功。成功是什么?听起来,从不重复工作中可以获得一些生产力优势。还有一些更模糊的事情,因为数字是错误的,所以会做出更愚蠢的决定。您能向我介绍一下,您将如何去做?我们已经实施了一个语义层。这就是我们知道它成功的方式。

如果您投资于治理您的数据模型或业务逻辑和语义,并且我想说还包括转换,例如表、事实表,所有这些都包含您的受治理的业务逻辑。因此,我们实际上引入了我们称之为治理核心的东西。如果您能为一个组织说,例如,他们有多少百分比的仪表板

依赖于受治理的指标,这意味着位于官方语义层或受治理的表中的指标,在 dbt 中编码的表。有多少百分比的查询来自受治理的资源?

这已经为您提供了关于您如何相信那里的结果的第一个指示,因为它们不仅仅依赖于某人在外部表中使用行表和 CSV 进行的任何连接,而是依赖于实际上是版本控制的、编码的、受治理的数据。这就是一种方法。我们将这个治理分数的概念,即最简单的方法,扩展到更复杂的治理见解。那么重复呢

您的官方语义层中有多少重复项?这是否像零重复,或者接近 20% 的重复,30% 的重复?它记录得有多好?您有多少百分比的指标记录得很差或记录得很好?您可以考虑我们可以将其带到哪里。因此,如果您使用这些治理分数,您实际上可以看到您与实际……

使用受治理的、受控制的逻辑,而不仅仅是任何人创建的任何内容。所以我认为这将变得越来越有用。

好的,所以我喜欢跟踪有多少百分比的指标实际上是受治理的,有多少百分比只是临时分析的想法。我想这有一个连锁反应,即您希望逐渐开始将事物转移到受治理的方法。那么您从哪里开始呢?是否有特定的顺序?您应该从业务的一个领域开始吗?您应该从每个业务领域中选择一些指标吗?实际治理所有数据的计划是什么?

如果我需要用简单的词来说,我会说业务价值所在的地方。我想从为业务带来最高价值的事情开始。

这就是您想要开始的地方。许多实践都是这样的,让我们从主要的 KPI 开始,选择所有这些重点所在的最重要的业务领域。但是您实际上可以使用,这也是我们引入的内容,您可以使用利用率作为价值的非常强的指标。

目前正在使用的度量、目前正在使用的仪表板,人们实际上会观看、使用和刷新它们。这就是目前您构建的所有数据资产的业务价值所在。让我们从那里开始。让我们确保高度使用的数据资产、数据产品得到了治理。然后,您知道,您可以根据此进行优先排序。这是价值的非常强的指标。然后您有花费的成本。

如果您在这方面花费了很多钱,那么您可能想在那里进行,因为您想确保您将钱花在了正确的事情上。我喜欢使用利用率来查看数据集中价值所在的想法。因为显然,就像,很多仪表板都只是,“我创建了它”,然后也许有人会查看它,也许他们不会。但是有些,就像,“好吧,是的,高管每天都在查看它,只是为了跟踪一些重要的事情。”这显然将具有更高的价值。

我可以与您分享一个统计数据。我合作的几乎每个客户,超过 50% 的仪表板在过去两三个月内利用率为零。超过 50%。这太疯狂了。您拥有所有这些通常位于提取表上的仪表板,您会在上面浪费金钱,每个人都会在那里迷路,甚至没有人使用它。所以是的,这非常重要。

绝对的,是的。因此,跟踪该利用率似乎是治理的一个重要方面。好的,所以我想知道,由于语义层的主要目的是减少混乱的数量,因此您不必跟踪单个数据集,而只需跟踪指标。

随着规模的扩大,您是否会遇到这样的问题:您必须跟踪您刚刚创建的所有指标?我的个人看法是,每个数据应用程序和每个商业智能工具都将拥有自己的本地语义层。您将拥有 Looker 语义层、Tableau 语义层、Hex 语义层、Shing 语义层,我们可以继续说下去。

它将成为快速创建事物、分析和本地存储事物的地方,如果您想尝试某些内容或尝试某些内容。然后将从本地语义层转移到通用语义层。这是一致的,并且与每个数据应用程序和所有数据用户保持一致。为此,您必须拥有非常强大的可观察性和映射工具。

您必须查看到处创建的内容。您不能只是期望分析师说,好吧,您知道,这是一个重要的度量。让我们为维护宇宙语义层的分析工程师打开一张工单来添加它。他们将在他们的工具中创建它,将其添加到仪表板中。此仪表板将获得关注,没有人会打扰,因为没有人有时间,对吧?每个人都非常努力地按时交付他们的产品。

因此,您必须拥有并获得强大的可观察性工具,这些工具可以映射存在的所有内容,识别重复项,并指示这一点、这一点和这一点。这应该进入通用语义层,时机已到。转移它们。它们已经被高度使用。它们仍然被困住了。您想添加它们。您想将它们与每个人协调一致。所以

在此强大的可观察性功能之上,您可以构建工作流程。好的。好的。因此,我想从所有内容都存储在这个通用的指标存储区中,您处理像一次一个部门这样的本地存储区,然后您可以逐渐将它们转移到这个中心位置的中间阶段。好的。接下来是维护。一旦您创建了这些指标,

我知道,尤其是在 Datacamp,业务总是这样的,好吧,您知道,我们是否以正确的方式计算了这个?您将希望更新指标。然后您有了,我想,关于如何计算,我不知道,例如您的客户生命周期价值或您的客户获取成本的多个版本。我想您想要新版本,但您也想要旧版本,只是为了保持先前报告的一致性。您如何处理指标的多个版本?

所以感谢上帝我们有了 Git,对吧?最终引入数据。所以我认为,我的意思是,今天,每次您在仓库、dbt、Git 存储库中管理 dbt 转换时,您都会对指标执行相同的操作。它像代码一样使用版本控制进行管理。您可以回滚。您始终测试新版本,并运行回归以及您对代码所做的所有操作

现在您可以对指标执行此操作。而且您知道,每个报告使用哪个版本的指标,它都是系统的一部分。它必须是。否则,正如您提到的那样,每当您想要更改和重复的仪表板时,您都会创建一个重复项。同样,这种混乱就形成了,您知道,就是这样。

好的,这似乎很有道理,只要您将所有业务逻辑都捕获到代码中,那么您就可以访问 Git 和其他版本控制工具。这样,您可以管理事物,维护只是使用自然软件驱动的生命周期进行的。

好的。所以我想另一件事就是关于领导层中谁需要参与其中?因为您有数据团队,您有业务团队。应该管理所有这些,这是首席数据官的责任吗?是您的首席营收官吗?是 IT 部门的人吗?谁需要负责这件事?

所以这显然取决于规模,取决于组织的规模,对吧?大多数组织,较小的组织通常甚至没有 CDO 角色。他们将拥有像数据分析副总裁这样的角色。在理想情况下,通常是主管级别,数据平台主管,数据分析主管。因此,他们通常拥有实施工作,但我认为它是分开的,因为这些数据人员和数据的领导层,我认为他们非常了解

为什么您想构建语义层,为什么您需要进行治理。他们有一个非常艰巨的教育角色,需要教育业务领导层,语义层是什么,它们与 AI 和他们获得报告的速度有什么关系,以及为什么他们不能相信这些数字。教育每个人了解这一点是一个非常困难的角色。因此,他们通常是倡导者。我的意思是,他们购买工具,他们实施它们,他们拥有它们。

但是他们需要获得业务方面的支持。这取决于他们来教他们,我们帮助他们,但要教他们为什么这些事情首先是相关的。是的,我当然可以理解,将会有这个大型教育组件,以确保您让数据人员和业务人员有效地相互交谈。好的,您提到对于小型企业来说,您将不会拥有这个首席数据官的角色。所以我现在想知道,是

如果您是小型企业与大型企业,实施方法会有所不同吗?我一直在与大约 200 人、1000 人和 10000 人的组织交流和合作。我认为,完全改变的是混乱程度。

如果有 100 人,5、6 个数据人员,他们就能记住所有事情。他们可以互相交流。他们知道在哪里可以找到东西。他们知道哪些指标存在,以及它们是如何定义的、何时定义的以及由谁定义的。这很容易。在没有所有这些工具的情况下,它仍然是可以解决的。他们甚至可能会说,我们不需要语义层。我们只是没有冲突。我们没有重复。我们没有所有这些。我们控制它。我们管理得很好。

然后就有一个相变。当数据从业人员的数量超过 25 人时,就会失去控制。

而且,如果您一开始没有正确构建它,那么您就会开始重新构建平台、迁移、更改所有内容。几乎每个数据团队都在进行某种平台重建项目。现在我听到最流行的是重新构建平台以实现治理。一切都与民主化、访问、访问、民主化有关。现在我们重新构建平台以拥抱治理。因此,如果您在规模较小时不这样做,您就会重新构建平台。我认为随着您的规模扩大,

只是新事物的创建速度以及您在整个业务领域中已经拥有的逻辑数量。仅仅通过协调每个人并与每个人交谈是无法控制的。这就是它变得至关重要的原因。

好的,是的。因此,听起来其主要好处之一是它允许您扩展数据团队。它允许您扩展数据的用途,因为混乱较少,您无需花费更多时间担心一致性,因为事情可以保证以这种方式工作。也许最大的好处,我认为业务领导者会发现这非常相关和有趣,那就是人工智能。

因为今天他们依赖于数十个数据人员为他们创建报告,告诉他们,例如,根据地区、活动、业务产品等,过去一个季度获得了多少新收入。这种只需提问就能得到可以信任的答案的现实,我认为每个业务领导者都梦寐以求。它似乎仍然遥不可及。但这确实是构建

集中治理的语义层所实现的。这个梦想将不再是梦想。

啊,好的。因此,如果您想实现自助分析,并拥有能够回答您所有数据问题的 AI 聊天机器人,那么您需要首先构建此语义层。这很酷。那么,您能否向我介绍一下这一切是如何结合在一起的呢?因此,您有一个生成式 AI 层,您有一个语义层。为了实现这个自助服务梦想,还需要做些什么呢?我喜欢这样画图。这

通往 AI 的旅程,好的,对于这个聊天机器人 AI 分析工具。我认为第一步是开始构建这个语义层,并获得对所有正在创建的指标的跨生态系统可观察性,无论是在这个语义层中,还是在本地语义层中,或者在笔记本中,或者在任何地方。因此,您首先获得可观察性和映射利用率。

然后,如果您考虑如何训练这些 AI 工具,您需要真正告诉它们,您知道,此指标已通过认证可用于您的训练模型。这不是。这只是一个实验。这只是一个重复。因此,您可以将其视为帮助您标记已认证、未认证的治理见解层。已认证,未认证。

一旦您到达那里,一旦您绘制了所有内容,您就拥有了一个语义层,您拥有这种经过认证的智能标记机制。它不仅仅是一个愚蠢的手动机制。它依赖于治理见解。从那时起,我们已经对此进行了一些概念验证,

我们现有的 AI 工具将使其适用于数据模型级别。您将能够使用自然语言提出问题,例如,向我展示报告过去两个月中产品部门和政府使用的每日活跃用户和数量的仪表板。您可以获得确切的数据。一旦您拥有了这些数据,您就可以对数据提出任何您想提出的问题,因为它知道在哪里查询并生成正确的查询。

因此,构建模块是创建语义层,获得可观察性和利用率,以便您实际上可以构建一个工作流程来管理事物,决定哪些内容放在那里,哪些内容需要删除,哪些内容是重复的并且需要解决,以及构建执行此操作的工具。然后是一些治理见解,允许您标记,这将进入训练模型,这不会进入那里。从那时起,这几乎是一个即插即用的东西。

好的,即插即用听起来很棒。但是在这个阶段的最后有很多工作要做,对吧?还有很多事情要做,是的。每当您提到数据治理时,一个很大的阻力就是它会扼杀创新。那么,您能否介绍一下如何以合理的方式进行数据治理,同时仍然鼓励创新?

因此,您可以将其称为创新、创造力、自由。这是一个内置的挑战,因为治理通常与减慢速度、创建诸如票务工作流程之类的活动相关联,例如打开票证、等待优先级、等待为您构建内容,然后才能开始使用它。因此,问题很清楚。当您偏向治理时,每个人都会遇到摩擦和瓶颈,并且一切都会

减慢速度,因为问题在于分析、创造力和创新的自由至关重要。

因为这就是您真正解决业务问题的方式。您不能仅仅依赖于现有内容。您必须获得构建新术语、在进行过程中创建新分析的自由。即使 90% 将是垃圾,这就是分析的工作方式。这就是我如此强调这个可观察性部分的原因。

您必须让分析师在他们的原生环境、首选工具、首选语言中,按照他们喜欢的方式,以他们自己的节奏独立地、创造性地创建事物。这就是魔法发生的地方。但正如我所说,90% 是垃圾。您将通过使用看到这一点。它不会被使用。他们只会创建它。没有人会使用它。创建它,尝试它。它将是本地的,他们的笔记本。但是,然后他们创建了一个报告或数据产品,并且它获得了关注。

那时您就会明白,需要将它的创建添加到语义层中。但是您必须保持这种创造力水平。否则,您将再次停滞不前,没有人想要那样。

好的,因此听起来您需要区分这是一种对新事物的临时分析,而这是一种我们需要重复使用的事物。我想分析师不应该被允许重新定义公司如何产生总收入。您需要对此有一个正式的定义。但是,如果他们只是在玩弄一些新事物,那么就需要减少对其进行管理。让我给你一个真实的例子。我曾与一位客户合作。他们对参与用户的定义。

以及每周登录一次应用程序的用户,由营销、销售等部门定义为参与用户。他们总是跟踪参与用户的数量,因为,你知道,流失通常在参与用户数量减少时,最终会导致流失,没有人希望体验流失,对吧?

但是他们弄清楚了定义。因此,产品人员,他们进行了一项分析,他们发现每周一次的定义不是一个好的指标。实际上是每三周两次。这是一个更好的指标。他们进行了实验并意识到了这一点。现在想想所有依赖于每周一次定义的仪表板。

现在他们需要弄清楚谁在使用它。现在我们想更改术语。我想使用每三周两次。这是新的参与用户定义。这变成了噩梦。因此,他们将其保留在产品中。我们知道这是怎么回事。因此,在语义层的世界中,他们实际上能够在此经过认证的地方创建新版本。他们将能够引入一个新的概念,一个新的公司范围的概念。

它不会仅仅埋在他们的笔记本中,而只有当他们获得信心时才会出现。

因此,您必须同时获得两者。您不能仅仅限制这一点。但是,一旦正式定义发生更改,您就必须允许和启用更新、版本控制等等。我真的很喜欢这个故事。它只是表明,只要您管理正确的事物,并且可能允许分析师在其他地方做他们想做的事情,就可以获得很多价值。好的。为了总结一下,您对数据治理领域最兴奋的是什么?

所以,好吧,我是名为 Yuno 的数据治理公司联合创始人兼首席执行官。我认为在与各个领域的数据团队合作近 20 年后,我在网络安全、医疗保健、金融科技等领域,都在试图从数据中获得意义,我发现那里存在许多挑战。所以,是的。

我的使命是真正帮助大型数据团队轻松理解数据并从数据中获得价值。这就是我选择这样做并创建这家公司并试图解决我们刚刚谈到的问题的原因。

是的,帮助人们从数据中获得价值是一项非常有价值的事业。让我们更精确一些。帮助人们或促进创建这个集中治理的语义层,并将组织带到 AI。这将是定义此任务更精确的方式。是的。

好的,很好。是的,语义层听起来确实非常令人兴奋,我喜欢它也支持所有这些有趣的生成式 AI 用例。太棒了。好的。非常感谢您的时间,莎拉。谢谢。很高兴来到这里。感谢您的邀请。再见。