这是八百三十三期节目,与进化AI的首席执行官马丁·古德森博士一起。今天的节目由Epic LinkedIn Learning讲师基思·麦科马克赞助。
欢迎收听超级数据科学播客,数据科学行业收听最多的播客。每周,我们都会邀请有趣且富有启发性的人物和想法,探索机器学习、人工智能及相关技术的尖端,这些技术正在改善我们的世界。
我是你们的节目主持人,约翰·科恩。感谢大家今天加入我们。现在让我们把复杂的事情变得简单。
欢迎回到超级数据科学播客。我认为你们今天真的会喜欢与我的嘉宾马丁·古德森博士的对话。马丁·古德森博士是进化AI的首席执行官兼首席科学家,一家利用生成式AI每天为客户从数百万份文档中提取信息的公司。
他还创立并组织了伦敦机器学习聚会,拥有超过15000名成员,是欧洲最大的AI/ML专家社区。他曾领导过一家数据科学初创公司,每天处理数十亿数据点。他还曾在牛津大学担任统计遗传学研究员,我们曾经共用一个小办公室。
今天的节目对任何对数据科学、机器学习或人工智能感兴趣的人来说都很有意义。在今天的节目中,我们将更详细地了解导致数据科学项目失败的十个原因以及如何避免这些常见问题。他将分享他对为大型企业提供AI服务的初创公司建设以及开源AI开发重要性的见解。准备好迎接这场精彩的节目了吗?让我们开始吧。
马丁·古德森博士,欢迎来到超级数据科学播客。
(电话接通)
来自一个非常棒的地方。那是我们认识彼此的地方。我们曾经共用一个位于牛津大学的小办公室。它很小,但很不错。如果我记得没错,我们大部分时间都在那里,有四个办公桌,但只有我们三个。
所以感觉很奢侈。
你应该拥有第三个。
那个办公室的奥秘。
也许这会花点时间。他可能——他可能——嗯,当然。
所有遗传学家。
那些无法抗拒收听超级数据科学播客的人。我的意思是,他确实处于数据分析的交叉点。嗯,很高兴你能来节目。
我实际上——只有马丁才知道这一点。但几年前,当我第一次接手这个播客的主持人时,我邀请马丁来节目。你说你记得那次谈话。
我记得我——不,但我记得很清楚,我说,我没有要说的。
就是这样,是的。
就是这样。现在我们的。
听众们将有机会体验一个小时的节目。这是节目计划。我很高兴能与你联系。
在我们开始录制之前,我们进行了很多讨论,这真的很棒。嗯,你就是这样一个人,嗯,你知道,我真的很想一直待在你身边。你很聪明。你总是有很多有价值的东西要说。我也真的很想念你开会时的样子。
你经常坐在办公桌前,交叉双腿,然后带着一张非常有条理的海报,看起来就像角落里无所不知的先知。你——你有一种吸引力。这可能。
像这样的事情。
导致你成为进化AI的首席执行官兼首席数据科学家,据研究,这是一家专注于金融文档的通用AI数据提取平台。当我查看你的LinkedIn资料时,这对我来说并不是显而易见的事情。但根据我们的研究,我们发现你特别擅长金融文档,并且超越了传统的OCR(光学字符识别)功能。你想告诉我们,你和你的团队在计算机视觉和自然语言处理方面取得了哪些进展,从而使你的AI模型能够实现类似人类的数据提取准确性吗?
是的,是的。当然。所以,你知道我们做数据提取的工作,客户有一些文档。通常,这可能是商业贷款人,比如银行,向企业提供贷款的人。通常。
他们有大量的文档需要阅读,将数据转移到所有地方,然后将数据输入他们的风险模型、信用风险模型、信用决策引擎。无论如何,决定是否向某个组织提供贷款。通常是另一家企业。
因此,这些文档可能包括财务报表、银行对账单、发票。也许他们正在进行某种资产融资,需要查看发票。
传统上,所有这些工作都是手动完成的。人们实际上是从文档中复制粘贴信息,或者只是将信息输入Excel,这显然是巨大的时间浪费。所以,我们从大约2015年开始为许多银行和其他金融机构自动化这个过程。
所以,在传统OCR方面,OCR从某种意义上说已经存在了70多年。光学字符识别只是提取字符,光学字符识别。
它确实非常擅长提取字符,如果你有某种东西,比如支票,你知道支票号码在每张支票上的确切位置,支票看起来也一样。它有效。
它不需要处理其他任何事情。但是大多数文档,没有人喜欢支票。如果你查看发票,它们会有变化,发票号码可能位于任何位置。你需要像人类一样查看它,阅读文档,找出发票号码的位置,然后使用该信息。所以,设计能够完成这种过程的机器学习算法很困难。
类似的过程。我知道我们从其他研究中了解到,许多科技从业者不喜欢使用广告,因为这会泄露他们如何开展工作的秘密,因为很难知道有人是否阅读了他们的专利并秘密实施了他们的技术。所以,我完全理解这一点。
鉴于你可能不想在节目中透露太多细节,但如果你已经从事这项工作近十年了,我忍不住想知道进化AI在幕后使用的技术和方法,以及这些技术和方法是如何随着时间的推移而变化的。是的,是的,是的。我可以谈谈实际情况。我认为这大致有三个阶段,就像传统OCR、传统机器学习方法,人们使用诸如标记模型来理解文本,以及可能的神经网络,比如人工神经网络。
然后是深度学习时代,我们进入这个领域。我参加了2011年在NIPS(现在称为欧洲会议)的会议。嗯,也许我们当时还在一起工作。
我参加了一个深度学习研讨会。这次研讨会只有30个人,但我不知道具体内容是什么,但我了解了如何发表在网络上等等。当然,欧洲现在比当时大得多,大十倍。我当时在欧洲发表过论文吗?
我不记得了,如果你记得的话,这与爱丁堡大学的某个人有关,这个人很厉害。他是?他确实。他是第一作者。他确实。是的。
他去了2010年的欧洲会议,我最终成为论文中排名前10%的论文,并被选中发表在会议论文集上。我们设法达到了门槛。我仍然没有。
实际上,但我今天终于买到了今年的票,这是我第一次,这让我感到很奇怪。我一直在想什么。这正是我想说的。
就像你在2011年,有人谈论卷积神经网络,而你以前从未听说过,这种信息,为什么我没有去了解它?我在想什么?嗯,相反,我去了芝加哥的复杂交易联盟。
所以很有用。是的,很有用的知识。但现在你可以有很好的类型。我相信你可以玩得很好。
现在与我当时的情况大不相同。现在比以前更令人惊叹。我认为是这样,但我这么说。
所以我做了这件事,回来后,这些想法开始产生共鸣。我曾经在不同的初创公司工作过,试图从税务文档中提取信息,我们正在做类似的事情。但它完全失败了,因为我们无法准确地提取数据。
以及传统的OCR。然后我意识到,神经网络组合将是这项工作的良好技术。这就是我们成立公司的原因。我与一位朋友一起创办了它。
是的,所以最初你关于我们技术如何变化的问题,最初是关于卷积神经网络、深度学习框架等等。然后,一切都逐渐转向基于转换的方法。我认为基本上一切都是基于转换模型。
是的,这完全合情合理。然后,听起来似乎比仅仅从字符开始要复杂得多,也许是因为我们从一开始就关注文档的结构,以及文档中哪些部分更重要。听起来你正在做比今天典型的转换方法更多的事情。
你可能会使用类似于Unix中的PDF到文本实用程序来将PDF转换为文本文件。然后,你可以将该文本文件传递给转换架构,你可以使用现成的OpenAI API或其他类似工具来处理文档。听起来你正在做一些更复杂的事情,也许输入点是像素而不是字符。
是的,我认为,你刚才说的确实非常有效。它会给你一些非常好的结果,但可能不足以用于某些自动化流程,你试图向数百万美元或英镑的公司提供贷款。你需要更准确的东西。
你不想让页面右下角的页码插入到。
零中。是的,我认为是这样。你需要更准确的东西。嗯,这实际上与特定推理有关。
你知道,当我们阅读文档时,我们不仅仅是转录所有字符,然后弄清楚它的含义。你正在使用字符的上下文,并使用特定关系来尝试理解文档。
很好,非常酷。所以,从某种意义上说,这是关于一次阅读文档。但是你们每天处理数百万页文档。这感觉如何?你能告诉我们一些关于扩展到这种高容量并保持准确性的挑战和基础设施的信息吗?嗯,也许你能告诉我们一些你们用来做到这一点的具体技术。
是的,我认为我们没有做任何特别聪明的事情,除了工程方面。但是,在扩展方面,我认为最重要的是。
通常情况下,在这个行业中,如果你想要非常准确的数据,你将使用某种自动化方法,然后让一些人检查这些数据。这仍然是你尝试提取高质量数据时的标准操作程序。问题在于,有些项目非常大,就像你说的那样,每天可能会有20万页。
嗯,对于一个项目来说,嗯,你无法雇佣人们来检查这些数据,这是不可能的。所以,要么完全不使用人类,在这种情况下,你需要一个非常准确的模型,或者你有一些非常好的、经过良好校准的置信度分数,你可以使用它。唯一的问题是,你必须为那些你认为需要由人类检查的机构分配大量人力资源,你显然需要让绝大多数文档或页面自动完成。
好的。是的,这些都是明确的选择。所以,你能告诉我们你做了哪一个,或者。
我们两者都做。我的意思是,我们有很多不同的项目。所以,在一些项目中,我们有非常准确的模型。我们只是投入了大量精力来训练数据和算法开发。我们基本上没有使用任何人类参与。但在其他项目中,我们没有这样的算法。坦率地说,有时我们发现项目规模太大。所以,我们现在确实会让一些人来检查数据。
你了解转换世界。使用通用AI模型,人们经常谈论幻觉,尽管现在比一两年前少得多。根据我们的研究,我们发现进化AI实施了特定策略来减轻和管理AI输出中的幻觉风险。
是的,我认为这是一个很大的问题。我们看到的一件事是,当你尝试从财务报表(例如损益表)中提取信息时,问题在于你提取了一些信息,而模型可能会凭空编造一个项目。
你知道,如果你查看资产负债表,它可能会说流动资产为X百万美元,而这个数字完全是凭空捏造的。问题在于,这个数字在上下文中似乎有意义。通常情况下,其他数字会一起出现,所以它似乎有意义,但重要的是,这些数字没有被正式报告过,你不能真正说你期望获得这些信息。
所以,嗯,这是一个真正的问题,我们可以谈谈,你知道,我们可以深入探讨我们模型的局限性,以及为什么它们在这个领域如此强大。但我认为最重要的是,你确实需要一些特定知识来解决这个问题。当然,没有人真正解决了幻觉问题,我们也没有。但我认为我们有一些特定于财务报表的东西,一些测试,以及我们建立在模型之上的其他技术,例如,让你对结果的准确性有很好的信心,或者它只是随机生成的。
数据科学家、LinkedIn学习作者,以及本播客的常客,最近在第828期节目中。基思将分享他关于人机交互机器学习和数据注释的执行指南课程。在这门课程中,基思将以高层次的方式介绍人机交互机器学习是什么,这甚至对人工智能产品的消费者来说都很有趣。
他还解释了为什么数据专业人员需要了解这个主题,即使他们将数据注释外包给外部公司。你可以通过关注#SDS来访问新课程。
基思在LinkedIn上。基思今天会在节目发布时分享课程链接,让你免费观看完整的课程。谢谢,基思。听起来这似乎是你们专有技术的关键部分。这些模型是否正在分配置信度,并允许你根据项目需要,像你说的那样,引入一些人力资源来进行双重检查?
因此,很好地校准这一点至关重要,因为很明显,你不能说,“好的,我们向客户保证,我们将处理20万份文档,我们的模型发现只有2000份文档存在可疑之处。”你知道,这只有百分之一,但这显然是一个大问题。是的,我认为。
这很有趣。想想初创公司的作用。你知道,当谈到聊天机器人时,人们经常谈论初创公司在AI领域的作用。你只需要使用它并学习如何做所有事情。
我认为我们开始看到,实际上,许多领域知识非常有价值,这就是初创公司可以利用的地方。我非常支持这一点。
机会和初创公司都在应用层,就像你说的,拥有某些特定领域的专业知识,建立垂直解决方案,最大的参与者将一段时间内专注于构建核心能力,其底层元素可以被利用。对于初创公司来说,像 Meta 这样的公司开源如此强大的模型,我们能够以非常经济高效的方式进行微调,使用像 Laura 这样的方法,这使我们能够进行低秩自适应。对于不熟悉该术语的听众,这使我们能够将非常小的数字(例如个位百分比)模型集成到大型语言模型中,并针对我们的特定用例进行微调,以满足您的特定应用和客户特定需求。
是的,在应用层构建应用是一个令人兴奋的时代。初创公司,你的公司 Evolution AI 被各个行业的知名公司使用,例如纽约时报公司。你是否能告诉我们,你如何调整解决方案以满足不同行业的各种需求?
我认为,这份名单,也许你的研究发现,这基本上是使用我构建的不同技术的不同公司的列表。还有其他公司,不仅仅是那家公司,我们主要关注的是……
金融服务。
你的业务也涉及规模较小的银行吗?许多公司……那么问题是,我们如何才能……我的意思是,我们真的……
……在如此多的行业中开展工作。更好的问题是,你如何调整……即使你与网银或你的银行交谈,他们也有不同的需求,这取决于不同的项目和他们正在开展的工作。我不知道,是否有……
……任何有趣的事情可以与那些大型银行合作,但与规模较小的银行和初创公司合作,因为这是一个非常痛苦的过程,你绝对是对的。你如何与规模较小的公司和大型公司合作?我认为你不能同时兼顾两者,因为它们在不同的时间尺度上运作,一切都在不同的规模上。因此,我们逐渐从大型银行转向我们真正喜欢的规模较小的银行。
我非常感谢你所说的,我认为这可能是一个非常诚实的见解,对我们的许多听众来说非常有价值。我确定我们会将其制作成 YouTube 短视频。
希望你只是……
……因为有人离开了,所以我的网站失去了客户。谈到人们离开,你之前曾提到过领导力中独裁者和民主者的平衡。
你之前在高压环境中说过,比如初创公司,一个大型银行客户走出大门,所有员工都投入到工作中,试图弄清楚如何让收入汇聚在一起,你知道,避免即将到来的财政悬崖。IT 工作可能非常紧张。那么,你如何培养鼓励创新和创造力的文化,同时保持果断的领导力以满足市场需求?
是的,这是一个很好的问题,我确实说过,事实上,当我任命安德鲁时,我问了他这个问题。我相信你的听众都知道,他给我的答案非常棒,出乎意料,那就是这个问题没有真正的答案,即你应该采取独裁还是民主的方式。你真的需要深入思考你的经验让你对什么有信心。
例如,如果你花了许多年思考某件事,那么你真的应该充满信心,你真的需要说,我认为我们应该走这条路,请跟我来。我认为他说的……他说的类似于,你只是给我一个机会,我想他……你知道,我自己也这么想,有很多自我……我只需要做任何事情,这真的很重要。所以,要非常、非常、非常了解自己,因为有很多事情在快速发展中失败了,你基本上对任何事情都不太了解。有一些事情你确实了解,比如我认为我在某些事情上很强,我认为我在核心科学方法、数据分析、实验设计等方面很强,这些都是非常经典的东西。
我记得我们还在同一办公室工作时,你是研究人员。所以你过去是研究人员,你审核了 IT,或者也许你甚至没有被审核过。我的意思是,你必须记住,但你在全职从事研究工作的同时,在牛津大学修读了研究生数学课程。如果我记得没错的话……
你得了最高分。
第二高。你知道,实际上我有一些神经元在运作,它们就像第二高。但他们想……是的,那可能错了。是的。
宁愿犯错,是的,是的,是的。所以,我做了这个统计课程,就像应用统计。
但我没有做 IT。我只是参加了考试,这些考试不是钓鱼。是的,这很有趣。
所以,通过这样做,我学到了很多东西。我真的很喜欢接触。所以我觉得我在这类基本的东西上很强。
我不太擅长其他任何事情,但我觉得很多机器学习和研究都归结于理解数据,理解统计。我只是理解数据如何让你陷入困境并让你困惑。我被数据弄得如此困惑,可能比你见过的人多得多。他只是真的和我联系上了。
我记得你是第一个告诉我应该学习 Python 的人,那是一个很好的……
我当时在做……
……当时所有的事情都在进行中,你知道你在做什么吗?所有的事情都会传递下去,是的,你是第一个让我喜欢 Python 的人。
在统计方面,你认为许多机器学习从业者没有学习统计学,这存在很大的差距吗?我认为这很有价值。我的意思是,我对此有点确认偏见,因为我以前是统计学家,后来才进入机器学习。所以我总是认为这很有价值。但我认为,在理解你的数据,特别是清理你的数据方面,它通常很有价值。
我的意思是,统计学中有很多东西,你在统计学中学到的东西现在可能没用了,而且是浪费时间。就像有一个相当传统的构建,它没有快速发展,人们仍然被告知一些实际上并没有那么有用的东西,我认为应该更多地强调计算方法。我没有这么说。我的意思是,统计学中有很多东西你可以安全地忽略。
比如……p 值……
……像 delta 数学,像很多数学密集型的东西,你应该在需要的时候说,如果那样的话。但是你需要一种方法,一种态度,以及对数据持怀疑态度,真正理解核心偏差,理解事情。所以,在偏差选择、购买者和所有自我方面,统计学有非常、非常、非常重要的教训要学习。
……这非常、非常关键。你真的需要任何技术,比如技术,比如你需要知道任何回归……
你可以用回归做很多事情。我认为你不需要更多。这就是你的声明。
也许我认为对我来说,在评估非统计偏差,而是像评估模型行为的方式方面,实际上很有用……例如,在我们的公司 Nebula,我们在人力资源方面做了很多事情。
例如,我们会根据特定职位描述对人员进行排名。你知道,我们有 1.8 亿美国人的数据库。
有人输入了职位描述。我们会对每个人进行排名。
我们想确保它不会对男性和女性进行不同的排名,例如。因此,我们有一个测试数据集,我们可以用来测试我们的算法。显然,会有所不同。
男性平均得分将以某种方式与女性不同。你永远不可能得到完全相同的数字。因此,统计学对我来说很有用,可以用来判断,好吧,这两个群体之间没有统计学上的显著差异。是的,是的。
绝对。我认为统计噪声的概念是一个非常深刻的概念,它需要真正理解。我认为,你不需要真正了解统计学中的一些基本概念,这些概念对那些来自计算机背景的人来说并不那么普遍。
还有数据可视化方面的工作。比如,今天我们正在向某人展示如何制作正规直方图,这是一种非常典型的做法,我正在教某人如何使用 Scott 核密度估计。那些真正优秀的人,他们有很好的背景,他们并不真正知道如何做……数据中的基本事情,我当时只是想,制作一个好的散点图或制作一个好的直方图,这有点无聊,但也很重要。
是的,这还是你让你的大型语言模型,比如谷歌、GPT,融入你的工作流程中可以做到的。没有书能做到这一点。我可以制作散点图吗?但是,你必须能够,尤其是在重要的决策中,比如,你知道,你正在谈论涉及数百万美元或数亿美元的交易的情况。你不想只是按下 GPT 的魔法按钮,看到一些结果并相信它,你想要能够深入研究它并了解它。
有人签署了它,一个朋友。他说他从事咨询工作,比如顶级战略咨询公司之一。他们,我说谁,但他们……
……他们正在使用其他工具来分析财务报表,但他们基本上正在做你刚才说的。他们只是按下按钮,分析报表结果,总结所有这些财务决策,就像那样。这是一个魔法按钮。它只做一件事。我认为你需要将这些事情分解成不同的步骤,并查看每个步骤的结果。
我敢打赌,这些顾问的收费要比你高得多。除了在 Evolution AI 工作之外,你还是伦敦机器学习小组的创始人兼组织者,这个小组已经成立了将近 13 年。我不知道如何证明这样的事情。
就像我猜我可以用类似的方式说,SuperDataScience 涵盖了大部分科学,因为我了解其他科学播客,我知道他们有多少听众。所以,以同样的方式,我想你很了解欧洲的所有 AI/ML 社区。因此,你可以自信地说,伦敦机器学习小组有 15000 名成员。这是欧洲最大的 AI/ML 专家社区。
所以,你可以自信地说,没有人……
……举手说……
……你是……
……这个群体中……
……我应该说,我没有创办这个小组,这是其他人创办的。他把这个小组交给了我。有人能做到吗?我可以。他把这个小组交给了我。但我认为我应该正确地做,可能需要 10 年或类似的时间。
好吧,这已经足够了。我会继续沿着同样的思路进行询问。是的,你……你知道,你在数据科学领域的工作时间比数据科学这个词被使用的时间还要长。你见证了 AI 从业余实验者到战略性持续集成工作流程的演变,从利基到主流,从令人兴奋的新奇事物到有时被夸大的技术。
我非常兴奋能邀请你参加这个节目,即使是在四年前,你认为你没有什么可说的,你写了一篇在 Hacker News 上排名第一的文章,名为“数据项目失败的十个原因”。我们显然会在节目笔记中提供链接。我最喜欢的一点是,它很有趣,很简短。
它只需要几分钟就能读完,很有趣,也很到位。如果你正在考虑启动一个新的数据项目,我经常会想起它,我可能不记得所有十个,但从你八年前写这篇文章时读到的内容中,当我考虑启动一个机器学习项目时,这些内容会再次出现在我的脑海中。如果事情很简单,比如数据现在是如何组织的?有人用它做过任何建模吗?如果他们没有,你需要将项目时间表延长几个月,以便能够自信地告诉客户,你能够做到……
……是的,这篇文章中有一些深刻的教训,主要是我在过去很多次尝试和学习中积累的经验。
所以很有用。第一个是数据还没有准备好。所以,我说的第一个,嗯,你知道,如果你在开始项目之前检查数据,我认为八年后,随着 AI 通过变压器架构变得如此强大,人们期望有更多的魔法。因此,公司的管理人员会想,哦,你知道,我的竞争对手正在做这件事,但也许竞争对手一直在跟踪对这项任务有用的数据,记录数据。而你正在考虑为之提供咨询服务的公司还没有记录这些数据。所以,你如何才能在没有某种基础数据的情况下神奇地创造 AI 能力?嗯,第二个是有人听到数据是新的石油,这在今天的人们看来更像是数据是新的电力或类似的东西。这对我来说很奇怪,因为这些资源,比如石油、电力,是有限的,而数据,我的意思是数据是有限的,但你可以轻松复制数据。所以,这有点像石油资产的反义词,因为数据可复制性的一部分原因是它可以复制。
我认为,如果你有很多石油,你可以出售它。它现在有价格,你可以定义价格,你可以出售它,但你尝试出售数据,它不是这样的。总有一些人,总有一些人,他们的工作是整理数据,也许他们的生活会很痛苦,因为数据是混乱的,因为有很多问题,它实际上没有价值,对任何人来说都不起作用。但是,在顶层,在团队中,很容易认为我们拥有所有数据,这个想法在当时我读这篇文章时尤其普遍,也许现在不是这样。
第三个是你的数据科学家即将辞职,这可能是由于访问问题,这让我感到很奇怪。有多少大型组织不允许他们的数据科学家,软件开发人员访问机器,以便安装库、pip 库?这很奇怪。我认为这基本上是……
……主要观点,我当时可以去……
……我遗憾地报告,我最近亲眼目睹了……是的,这绝对会发生。实际上,与我们刚才关于统计的讨论略有不同的是,你的第四点是,你的项目中没有数据科学家领导者。你知道,你提到了一些具体的,比如选择偏差、测量偏差、辛普森悖论、统计显著性,在当时你认为很重要。八年后,如果有人要使用“数据科学家”这个词来描述各种各样的角色,你真的需要深入研究职位描述或项目描述,以了解角色中真正需要什么。但对我来说,用来判断这是否真的是一个设计项目的方法是,他们是否会构建预测模型。不仅仅是分析事物,而是构建一个可以投入生产的模型,该模型可以对模型以前从未见过的数据进行预测。
……对我来说,这绝对是一个数据科学家。嗯,它不需要是一个机器学习模型。它可以是一个回归模型,嗯,你知道,一个统计回归模型,但是,如果你正在创建数据科学项目,你可能会很容易……
……你想要构建一个预测模型,你知道,你有一些没有经验构建预测模型并将其投入生产的人。你可能会得到另一个非常流行的博客中提到的东西,它可能同时运行,称为软件债务的无限制信用卡。
是的,我记得这篇文章。我不记得具体内容,但是当你写下你正在谈论的那一点时,我当时真正谈论的是领导力。我觉得这仍然是一个巨大的问题。你会有这样的团队,数据团队的领导者从未见过任何数据,然后他们有非常特殊的时间来处理数据,他们有其他背景,比如其他伟大的背景。但他们只是不真正理解它,他们只是不真正……
从三个战略咨询室里得到这些,这种情况经常发生。是的,你知道,他们薪水很高,受过很好的教育,但他们却压制了神奇之处。
是的,是的,完全正确,是的。而且你会浪费很多钱,你知道,项目都会失败。没有人愿意承认他们失败了,因为这很尴尬,而且浪费了时间。
你的第五点是第四点的反面,也就是说,你根本不应该雇用数据科学家。嗯,所以这又是对项目的误解,你雇用了数据科学家,但实际上,你需要数据工程师或BI分析师。是的,我想这很容易。
当你作为高管的时间很短时,这很容易。你知道,你有一个令人兴奋的项目,你认为有机会,然后你就会想,哦,这是人工智能,我们需要一个人工智能科学家,但很多时候你不需要。我认为我之前在节目中谈到过这一点,那就是,是的,数据科学家在求职方面需求很大,人们渴望拥有这份工作。
我相信很多收听超级数据科学播客的听众都希望找到数据科学家的工作,是的,在这个领域确实有你的未来,但像数据工程师、软件开发人员这样的职业,在这些领域,每个感兴趣的申请人都有更多的职位空缺。嗯,当我们节目中有嘉宾时,我们问他们是否在招聘,不可避免的是,人们正在招聘软件工程师、数据工程师。他们并不总是招聘数据科学家。
是的,我认为这是真的。我认为,我认为,我认为这是这个行业早期的情况。每个人都认为我需要数据科学家,然后才开始意识到他们不需要那么多。
第六点实际上基本上就是我刚才说的,你的老板读了一篇关于机器学习的博客文章。
文章,我以前从未说过,但实际上,我部分受启发写这篇文章,是因为作为一名报复者,因为我当时的老板……
……完全是。
他需要来这里工作,然后随便说说关于简单模型之类的东西。我想,你知道GTA如何报复吗?中国,我会写一些关于如何利用特定方法来解决这种不健康的行为。所以,他当时在公司里很尴尬。我想,哇。
很好。
不。
我的意思是,这对我来说发生过很多次,人们……在商业中有一种个性,他们认为他们可以获得其他人的想法。
我最喜欢的一个是监督学习和无监督学习,有人……你知道,这听起来像是一个直观的概念,监督学习模型需要有人,需要一个人的参与,然后无监督学习不需要。这就是它的意思。所以我已经和很多人谈过这个问题,是的,高管就像他们读过一些博客文章,他们偶然看到过“无监督学习”这个词。
然后他们说,我们需要它,我们需要……我们不需要更多的人参与,即使希望,我的意思是,要明确这一点,无监督学习实际上是指你有一个算法,你训练机器学习模型,你没有标签。
所以监督学习是一种机器学习范式,你可能有许多图像。经典的例子是说其中一半是狗,一半是猫,并被标记为这样的。然后你创建……在这个范式中,监督学习模型学习如何区分狗和猫。在无监督学习中……
你没有这些标签。你不知道这些图像是不是狗和猫的图像,但是仍然有一些机器学习算法可以识别数据中的模式,可以将事物分类到不同的类别中……嗯,所以你最终可能不会得到狗和猫。你可能最终能够区分深色图像和浅色图像。嗯,我有点在举一个非常极端的例子。
但是,我认为关键点是,这篇文章以及许多其他文章试图说明的第一点是,这是一个非常专业的学科,它是一个学科,你需要专家才能真正表现出色。
仅仅因为你以前听说过这个词,读了一篇博客文章,然后随便说说监督学习或其他什么,就无法让你在任何其他技术领域取得任何进展。为什么这不同?这是一个新兴的学科,当我们把它当作一个真正的学科,一个真正的科学学科时,情况会如何?
我记得另一个例子,当强化学习在阿尔法围棋出现时开始成为一个热门话题时,我与一位我非常尊敬的创业创始人共进午餐,他是一位非常成功的人。但他做了完全相同的事情,就像我们刚才描述的无监督学习一样。他听说过强化学习,我想他读过一篇博客文章,或者看过阿尔法围棋的电影或类似的东西。所以他谈到,在他的平台中,他希望强化学习能够参与进来,这样当人类使用平台并添加数据时,它就能强化机器学习算法,并让它学习。
是的,你知道,一些人认为他的工作就是执行他的愿景。这并不是……
……一个有趣的时间,完全正确。嗯,第七点,我找不到与第六点相关的主题。实际上我们可以。所以第七点是你的模型过于复杂,这有点像一个经典的例子。所以如果第六点是你的老板读了一篇关于机器学习的博客文章,第七点是你的模型过于复杂,在这种情况下可能会发生这种情况,就像你的老板说我们要做强化学习,我们要使用大型语言模型……而你根本不需要这些,你只需要一个简单的统计模型,逻辑回归,这就能让你走完所有步骤,是的。
我只是一个非常简单的人。如果可以的话,我喜欢以一种非常简单的方式做事。我确实喜欢从非常简单的、每个人都能很好理解的方法开始项目,只是为了弄清楚数据发生了什么。
我只是,只是,只是,只是想弄清楚正在发生的事情,这样你就能更深入地理解。我听说过许多项目,有人进来只是想使用一些他们听说过的非常先进的技术,或者只是……很自然地会有一些兴奋,但是使用你并不真正理解的复杂事物,很难隔离结果。我知道我听说过很多这样的故事,六个月后,哦,我们在输入数据集中使用了错误的列,因为我们不了解数据,这真的很难帮助。
结果是,因为人们使用了他们无法真正理解的复杂方法,所以六个月的工作完全浪费了。我只是非常喜欢简单。是的,这是可能的。
而且这也会让你更快地进行原型设计,可能节省很多资源,有很多理由从简单开始,当然。嗯,你的博客文章中关于数据项目失败的第八点是你的结果不可重复。所以你特别提到了像代码审查、自动化测试、数据管道编排这样的工具,是的,我的意思是,今天我们有更多工具可以轻松做到这一点。是的,是的,是的,我知道,盒子很棒,但是……
……是的,内疚的压力。
是的,完全正确。渴望了解大型语言模型和生成式人工智能,但不知道从哪里开始。请查看我的两小时综合培训课程,该课程完整版可在YouTube上观看。
这意味着它不仅完全免费,而且也没有广告。这是一个同行教育资源。在培训中,我们将介绍深度学习转换器架构。
以及这些架构如何实现最先进的LLM的非凡能力。这不仅仅是理论。
我的动手演示,其中使用了Hugging Face和PyTorch Lightning Python库,将带你完成整个LLM开发生命周期,从训练到实际部署。
查看我的大型语言模型生成式人工智能动手训练课程。今天在YouTube上,我们会在视频中提供链接。我经历过疫情。
我到了一个地步,我的整个数据科学团队都无法工作,而我作为首席数据科学家是唯一一个可以工作的。你认为这对组织中的其他人来说也是一种痛苦吗?嗯,我是一个老板。是的,你知道,这仍然是一个问题。
我认为这个行业,这个领域还没有真正解决这个问题。我当然没有完美的解决方案。但是,我每天都在鼓励我的团队,你知道,我们对这些结果感到困惑。
我们无法真正查看代码。我们无法真正重现这些结果。你知道,我们还没有对这项研究进行足够的回归。
我们需要将事情分开,将所有内容整理好,以便我们可以重新开始,准备好。所以这仍然是一个持续的问题。我认为我们还没有找到解决方案。
是的,没有完美的答案。其中一个方面是,至少有一个工程领导者是有帮助的,可以弄清楚这些事情。我认为在很多事情上都有一个黄金点,如果你走得太远,你会有太多的流程。
嗯,你知道,你可以用开销杀死项目……所以,找到这个黄金点取决于专业知识。第九点是研发实验室与我们公司的文化格格不入。这非常重要。
我记得在读完这篇文章后,我实施了一些措施,例如内部演讲俱乐部。嗯,研发是一个高风险活动。如果你没有像我们所说的实验室会议、演讲、发表论文这样的东西,就很难培养研发文化。你知道,如果你的业务希望每天都能从数据科学项目中获得可衡量的、几乎确定的投资回报,那么你很难做任何有趣的事情。
是的,我认为公司应该认真审视自己。我确实认为他们应该认真考虑他们是否想要进行研究,因为在他们说他们想要进行研究,但当出现一些问题时,他们意识到我们可能并不真正想做这件事。我们当然不想有人对我说,我不知道要花多长时间才能做到这一点,我甚至不知道这是否会成功。
多年来,我一直在做的事情,我认为对管理层有所帮助的是,我通常会将我的团队在不同风险级别项目上的时间分解开来,并说,你知道,我们将把30%的时间花在这些高风险项目上,如果这些项目成功,将会对我们和竞争对手的定位产生重大影响。然后,再花三分之一的时间在中等风险项目上,再花三分之一的时间在那些我可以在季度末向管理层展示结果的项目上。
即使你……
……最后一点是,人们在没有查看实时数据的情况下设计数据产品。你将这种情况描述为在没有观察活体动物的情况下进行动物标本制作。这非常重要。
我认为数据科学家自己,在今天,很多数据科学家都犯了这种错误。他们收集了数据,或者他们抓取了数据,并预测用户或生产用例会是什么样子,但他们不确定。这最终导致……你知道,由于漂移,或者由于实际用例与你预测的用例大相径庭,你的模型在生产中会产生截然不同的结果。
是的,我的意思是,我个人犯过这个错误,而且犯得非常严重。我做了一个项目,大约持续了六个月,我完全搞砸了。我设想这些数据产品会是什么样子。我花了很多时间与客户沟通,试图了解他们的用例,试图了解流程。
但是,我并没有真正使用足够多的实际数据来构建我的框架。当我使用实际数据时,我意识到我以为项目中很多事情都是仓促的,而实际上并非如此。整个项目最终失败了。所以,这确实是我过去犯过的错误。
是的,我也犯过这样的错误。你想要……我在线询问,知道你将要参加这个节目,我在LinkedIn和Twitter上发布了这篇文章的链接,我问我的听众他们是否对他们自己的AI项目失败的原因有任何想法,我们必须听听丹麦的彼得·安德森的意见,所以彼得,他在第781集中与太阳工作室谈话,太阳工作室谈到了AI项目失败的原因。
她写了一整本书,她的主要观点,以及彼得·安德森的观点,是项目失败的原因通常是共同的,那就是缺乏适当的商业理由。所以,这有点像你拿着锤子到处找钉子,而不是解决你真正知道是商业问题的问题,你知道,如果你成功了,那将会有所帮助,但你最终却……我认为我们近年来在生成式人工智能领域看到了很多这种情况,每个应用程序都试图构建生成式人工智能。我敢打赌,这些项目中的大多数都是时间和资源的巨大浪费。
我,我必须小心我说的,我会说我知道很多项目,真实的项目,人们做出了决定。首先,他们做出了使用人工智能的决定,其次,他们开始研究这种方法,第三,有人问,我们真的需要这个吗?
是的。
非常,非常常见。这是一个问题,一直是一个问题。我并不是说要改变它,至少在过去十年里一直是一个问题。
是的,这绝对是一个重要的问题。嗯,你还有什么要补充的吗?你知道,自从你最初发表这篇文章以来,已经快十年了,你还有什么要补充的,或者过去十年有什么变化吗?
我认为问题变得更糟,因为炒作越来越大。所以问题变得更糟了。人们想用人工智能做所有事情……他们对真正可能实现的事情抱有过于乐观的期望。
我实际上经常说,这些模型非常擅长创建看似合理的输出,对吧?这就是他们的真正优势。这就是他们的设计目的。所以他们非常擅长欺骗人们。
所以,我们看到很多人尝试了一些东西,商业演示看起来很棒,一切看起来都很好,但他们并没有进行任何评估,他们也没有认为自己需要这样做,因为一切看起来都很好。你知道,我感觉人类会相信你。
你问他们一些会计问题,他们会给你一个答案,这就像一个五分钟的关于这个会计概念的完美英语陈述。这看起来非常聪明,他们显然是会计专家,但这个领域已经发生了变化。
一些东西可能会告诉你一些非常灵活、非常冗长……嗯,但这是错误的,你需要做所有那些无聊的……为了进行概念分析和评估,以确定它是否真的适合这项工作。我认为这些问题现在比以前更普遍。所以,我认为我没有看到任何新事物。但是,毫无疑问,这些仍然是真正的问题。
很好,他说。是的,再次感谢你的博客文章,是的,正如我所说,在我的脑海中,我经常参考它,在考虑开始一个项目时……我们现在换个话题,谈谈你最近做的事情,去年你向欧盟委员会发表了演讲,你倡导公共资金支持开源人工智能,你从人类基因组计划中吸取了教训……你希望确保人工智能的好处能够广泛地惠及全球人口,而不仅仅是集中在大科技公司手中。谈谈那次演讲。
我的意思是,这究竟是怎么发生的?欧洲人,他们是怎么寄信的?你是怎么做的?怎么做的?欧洲人是由你委派的?
我只是觉得,欧洲,一个委派的,自然出版集团,组织这项服务,并让一些人进行一些谈话。所以,就像我们三个人组成了一个小组,他们选中了我。我不知道为什么他们选中了我,这是一个好问题,但我心想,好吧,我会为这件事辩护,因为我认为这很重要。
我真的认为我们需要,因为当时,IT 确实也清楚发生了什么。就像我们似乎要有一小部分商业参与者,带着他们的 AI,要接管一切,而没有任何东西能与他们竞争。但这并没有真正发生。
我认为他们已经取得了巨大的成功,取得了真正成功的项目,正在追赶,如果不是超过了一些商业产品,这真是太棒了。但在当时,我非常担心,这会对劳动力产生什么影响,失业、就业问题。所有这些力量都集中在科技公司身上,以至于公共部门的资金投入需要介入。
我之所以谈到人类基因组计划,是因为很多人说,公共资金实际上能做什么,你知道,在实践中。你知道,公共部门永远无法与商业世界竞争。这只是历史上的一个例子,因为人类基因组计划确实与商业世界竞争,并击败了商业世界。
你知道,这是有据可查的。一些风险投资公司试图复制人类基因组的模式,以及科学家们对公共精神的丧失,基本上说,不,我们不会让这种情况发生。他们一起开展了这个庞大的项目。因此,他们获得了公共资金来支持公共资金。
这不是公共资金,他们想,他们设法发布了人类基因组,并将它公开发布,因为他们将其置于公共领域,风险投资公司无法对这些基因申请专利,他们击败了他们,阻止了这种情况的发生,谁知道如果他们设法对这些基因申请专利,我们现在会生活在一个什么样的世界里。所以,我真的想激励人们说,公共部门应该存档科学家的研究成果,将它们作为经济资产,将它们结合起来,停止认为一切都是为了赚钱,就像他们放弃我们的研究一样。一切都会被 OpenAI 和谷歌拥有,我不相信,我知道,我认为这已经得到了证实,因为你有很多非常棒的开源项目已经建立起来了。
使用 8 位、100 位,无论如何,一些学术俱乐部已经做到了,比如,我认为爱恋是在 8、800 和一些模型上训练的,这真的很有趣。我认为这种沮丧完全没有必要。但我对欧洲商业的影响,我认为我没有任何影响。但是。你可能帮过我。
帮我争取到一些资金。
也许有可能,也许。是的。但我认为,你知道,如果我们,你知道,他们会花很多钱。
好的,所以,DUA 做到了。他们发布了他们资助的 Falcon。美国出现了。
他们确实提供了帮助。所以,你知道,这些事情发生了。
只是 E、A 的投标和 E K。投标。嗯,除了我们,我敢肯定,U。
K。投标。这不仅仅是建立一个对抗模型。
这关于建立能力和技能。我真的很认为,特别是英国,如果我们这样做,我们会培养真正优秀的技能,而不是那样。
我们花了一些钱在一些我认为不太有用的东西上,你知道,这本身就是一个话题,那就是英国。
政府。而且,我真的没有从正确的人那里获得建议。我认为你应该从技术人员那里获得建议,结果浪费了。我认为如果我们投资于开源,那笔钱会更好用。开源或其他事情对于建立网络技能来说会很棒。
这就是那件事。你提到了英国。所以,在之前的播客和文章中,你曾抱怨过,英国。
曾经在科学和技术方面处于领先地位?现在,至少在 AI 方面,他们落后了。所以,似乎你知道,美国、中国、阿联酋等国家。
这些国家有很多公司正在推动 AI 的发展。我们通常看不到英国大学或英国大学在 AI 领导力排行榜上名列前茅。你认为英国应该采取哪些战略举措才能重新在 AI 领域取得领先地位,这在历史上对这个国家来说一直很奇怪?
我们做的一件大事,我们应该做的,就是完全忽略语言模型和新网络。我们完全忽略了这一点,在英国。
我们有一个大型旗舰研究机构,叫做警报,他们完全忽略了这项研究或所有这些。我只是没有做任何关于语言模型的事情,甚至黑鸟也是语言模型。我只是没有做任何关于这些事情。我记得在他们开始发布关于可替代代币或什么的博客文章之前,我曾谈论过这个问题,这些只是与主流 AI 完全无关的东西。
达到加密货币。
是的,但不是像预测关于关键货币或什么的 AI,我认为 2020 年最大的博客文章是他们用所有这些东西做的事情。我有一个名为 AI 委员会的组织,政府召集了它。我做了所有这些事情。英国擅长让许多有头衔的人聚集在一起,撰写这些冗长的报告。但是,你知道,他们只是邀请了错误的人。
他们没有邀请任何初创公司、数据科学家或实际从事这项工作的人。你理解这一点,他们没有做任何这些事情。他们没有邀请这些人参加这些机构,嗯,正如我所说,他们邀请了那些头衔较少的人,就像他们举办了一个非常棒的,你知道,非常棒的花园派对。
但他们没有像核心工程或专家小组这样的成分。这就是英国需要解决的问题。所以,影响是负面的。
但我认为积极的一面,真的只是倾听并与实践者交谈。我应该不需要说这个。
与实际从事 AI 工作的人交谈,了解该领域。英国有很多人才。英国有大量令人惊叹的人才,以及一个很棒的社区和一个很棒的临时社区。政府只需要与他们交谈,他们就能告诉他们该怎么做。当我读到您提到的那篇文章时,我认为真正应该做的事情是专注于开源项目,我不确定。现在,这是否正确,因为其他一些团体出现了,我做过,时间可能不是很好,但我说了,我不认为我有一个好的答案。
与英国领导力有关的是,你当选了主席,我认为你不再担任这个角色。
但多年来,直到最近,你一直是皇家统计学会数据科学和 AI 领域的当选主席。听起来很高端。你知道,你谈论过花园派对。皇家统计学会。那就像,你知道,你是否与女王一起吃三明治,并与他们讨论统计数据?
不,但你很棒。我说,这真的很老。我认为弗洛伦斯 90 年前是皇家统计学会的第一任主席。
对。我只是编造了一些事实。你知道,如果他们真的想,他们真的想让我帮助他们在 AI 世界中发挥作用,在数据科学世界中发挥作用。
他们完全正确地认为统计学是次要的。在这个世界里,他们想让你参加他们认为重要的部分。是的,我担任过该组织的主席。我不是,我目前不是主席,只是现在有一个很棒的主席。她做得很好。
所以,我谈论的是,你知道,我从那件事中抽身,但我们想要成为实践者的声音,因为没有人是实践者的声音,而且情况仍然如此,没有人真正表达数据科学家的观点,实际从事这项工作的人,在任何其他行业。你会有一个行业组织来代表,你知道,渔民。如果政府想对渔业社区做出一些政策决定,他们会去与代表渔民的组织交谈,尽管他们不会去与社区交谈,但在数据科学家和数据城市中,这种情况从未发生过,他们只是没有去与相关社区交谈。所以,我们想成为代表调查成员的声音,确保我们代表准确,并让他们知道发生了什么,我仍然没有做,但我仍然很高兴。
很好。马丁在这里做了事实核查,你知道,我相信这个播客实际上将在美国总统选举当天发布。其中一位候选人拒绝接受事实核查采访,嗯,所以幸运的是,你同意参加其中一个事实核查采访,嗯,看起来弗洛伦斯 19 岁不是。
第一任主席。
世界统计学会。我认为它看起来不像。他做了一些事情,嗯,但皇家统计学会的第一任主席是亨利·佩蒂·菲茨莫里斯三世,市场土地。
不是要回到过去。
我可以。她会发现一些事情。
我们将在节目中休息一下,然后继续。
我们有,是的,只有。
我们的听众只需要听到你少量地打字和说话,嗯,很好,很酷,嗯,很高兴能获得这种历史背景,是的,我一定是,我的意思是,我想那真是一个很棒的经历,担任 YSL 的角色?这很棒。
不,太棒了。我的意思是,有很多有趣的人。你知道,我需要让我的声音被听到。我没有说我,你真的想知道为什么我接受欧洲委员会的建议,这可能是因为我参与了那个学会,因为你认为这令人难以置信。所以,这是一个很棒的计划。
所以,在你的最后回答中,你谈到了很多关于人们,你知道,实际从业者在 AI 方面提供指导的问题。我最后一个问题与公众对 AI 的看法有关,这似乎很大程度上受到高知名度科技人士的影响。
例如,在录制时,我一直在观看比尔·盖茨的奈飞特别节目,名为“未来是什么”,至少第一集都是关于 AI 的,这让我自己笑了,嗯,当然,对比尔·盖茨表示歉意,他是一个非常有影响力的人物,而且相当有学识,但至少在拍摄该节目时,这变得非常明显,看起来大约是一年前,看起来是 2023 年,基于他们谈论的关于 ChatGPT 的事情。很明显,比尔·盖茨对 AI 的理解,我期望绝大多数听取播客的人都有。所以,这对我来说是一个非常有趣的经历,因为我认为他是一个应该很好地理解这些事情的人。
但在第一部分,有趣的是,比尔·盖茨就像一个黄色笔记本。他写着像“在盒子里训练”,然后像“在盒子里强化学习”这样的词。当他解释一些与我们讨论的内容类似的东西时,拍摄这些内容的人做出了一个导演决定,将他的笔记本放大,就像它很重要一样,哦,比尔,笔记本很棒。
我不喜欢“在盒子里训练”,嗯,所以,至少在 2023 年,我对比尔·盖茨对 AI 的理解,嗯,比我预期的要低得多,所以,你有一个引语,来自你做的另一个播客,你说过,说实话,我真的不认识任何 AI 领域的人,认为埃隆·马斯克是 AI 专家,你知道,他应该比比尔·盖茨更了解 AI,我想,嗯,我们有这个问题,公众的看法正受到这些高知名度科技人士的影响。看起来像父亲或杰夫·辛顿这样的人,他们真正了解发生了什么,并没有像这些人那样获得同样的影响力,公众似乎认为,哦,埃隆·马斯克、比尔·盖茨。
这些 AI 专家,是的,嗯,问题是什么?
我没有真正问过这个问题。嗯,我想我只是想表达你的观点。
你 这个时期 又是一个十岁。
嗯,我不知道。
我认为我正在考虑这个问题。
是的,是的,是的,是的。
所以,在获得这个光环之前,我学习了,你知道,组织能力的一部分。我们有许多学者来参加并发表演讲,他们中的一些人发表了非常棒的演讲,你知道,这真是太棒了,实际上,你知道,我真的很喜欢你认为的,所以绝对太棒了,嗯,但我必须说,我们经常,有时他们说,有时我们让学者来发表演讲,他们真的,他们真的像过度宣传一样。
如果你不在该领域,如果你想成为人们谈论的对象,通过阅读一些论文,你很容易成为专家,就像自己一样,通过阅读存档的东西,你知道,你可以阅读报纸等内容,并很容易声称自己是专家。问题是,问题之一是,经济学界发表了一些东西,他们过度宣传了,论文的标题只是疯狂的。
他们只是,他们没有证据来声称他们正在声称的事情。我曾向这种类型的会议提到过这一点,但我们确实有学者来参加会议并发表演讲,他们只是编造了一些非常过热的声明,一旦你将他们置于审查之下,它们就会崩溃,但他们没有证据。我们都在世界一流的遗传学研究机构见过。
它世界一流。所以,我们亲身体验了什么是真正的严谨,什么是方法论。你知道,在最高层,我没有说我处于最高层。我处于较高层,但我们确实接触过在最高层工作的人,嗯,我们从中学到了很多经验教训,然后我感觉,我实际上有时会对我们的一些演讲者感到很恼火。
我必须说,最近我们有一个人,他来了,对我们所有人说,你知道,我不会谈论任何技术细节,因为我认为你不会感兴趣。你知道,我们没有时间谈论技术细节。芬,你知道,你参加的是技术会议。
你应该受到审查,我认为我们都需要在提高机器学习的科学文化方面做得更好。我认为如果我们这样做,我们会做得更好,这将有助于解决你正在谈论的问题。
你在我们基因组学研究中使用过,人们使用正确的论文,然后你大学里会有一个 PR 部门,他们会写出这些过度宣传的标题,这些标题会出现在报纸上。但现在人们跳过了 PR,他们自己直接做了。
他们直接跳过了那些人,我认为这不是积极的。嗯,我想我们应该,嗯,我们应该对这个问题做些什么?我们应该停止这样做。
很好地说。你是在谈论科学的严谨性吗?嗯,这让我想到一些事情。
你可能不知道,这可能实际上发生了。我可能还在读博士学位,你已经继续了。我不记得确切的时间表,但约翰·范·林,他领导了我们两人都在的实验室,他在节目中是第 5、4、7 集。人们想了解更多关于遗传学与机器学习交叉的内容,这很棒。他在该领域是一位杰出的领导者。
他可能是世界上最杰出的精神病遗传学家,嗯,他非常相信遵循数据,遵循科学方法,以至于他让我做了一件事,这让我非常尴尬,我……他一定知道会发生这样的事,但他还是让我经历了这一切,嗯,你知道,我现在记得,那是在我甚至开始攻读博士学位之前。我当时和他一起做了一个硕士项目,而这是我的硕士项目的结果。
嗯,我……我研究过……在我进行硕士研究的时候,有一篇论文引起了很多头条新闻,它表明,在卫星影像中观察田野里的动物,比如牛,似乎在磁场中以某种方式排列。也就是说,它们更有可能朝向北方或其他磁北方向。我不记得细节了,但是乔纳森让我研究一下与月球波动相关的行为。
那是一些非常奇怪的事情,我……而且有一些统计显著的影响,比如,一些生物化学……一些生物化学的东西在老鼠身上,结果与月球周期有关。你知道,这不可能与光线有关,因为实验室里没有阳光,它们在黑暗中,就像一些室内房间一样。
房间里没有窗户。所以这可能与管理和类似的东西有关。所以我记不清确切的化学物质是什么,就说钙吧。钙结果与月球波动,月球周期有统计学上的显著关系。
所以乔纳森让我去雷丁医院,那是一家大型医院,和一些研究人员一起,他们对人类也有类似的生物化学数据,然后对他们说,我发现了钙和月球之间的这种关系。我想获得一些人类数据,请。嗯,他让我做了这件事,他们和我开了一次会,然后拒绝回复我后续的邮件。
但这,但这确实是一次很棒的经历,是的。
所以,我不知道他在那里教我什么。一些……我想,你知道,这关于遵循数据,如果你知道,这似乎可能只是分散的相关性。但是,如果你能在完全不相关的数据库中展示它,我不知道。这很有趣,出版商的公关团队会喜欢的。
是的,我想,是的,我想你说的对。你必须依赖数据。你必须对……甚至是你认为完全疯狂的东西持怀疑态度。如果数据表明值得再次调查,我的意思是,你不需要等待它,但它可能值得调查,是的。
我想,恐惧在于,你知道,这个人,这位医生,他并不真正了解我,所以,这个人一定是……但实际上,他们就像,我不相信,我不想相信,嗯,请给我更多数据来证明这不是真的。嗯,马丁,很高兴和你一起参加节目。我很享受在节目中再次与你联系。在让你离开之前,我总是问我的来宾一个书籍推荐。你有什么推荐吗?
我实际上有两个推荐。这些是我真正喜欢的书,虽然它们可能与人工智能有点关系。一个是《大脑中的视觉》。
每当我被问到这个问题时,我总是提到这本书,我非常喜欢,它叫做《大脑中的视觉》,作者是詹姆斯·斯通。它关于人类视觉系统,它深入探讨了……这是一本很棒的书,关于我们的大脑如何处理视觉信息。它提供了技术细节,但以一种你不必是专家就能理解的方式解释了它。
对我来说,它真的让我对很多事情都开阔了眼界。我已经读过那本书了。第二本书是……
《认知的进化》,作者是戴维·鲍尔斯,它也让我对很多事情都开阔了眼界。它真的……关于人类……是关于人类的……不,关于动物实际上……
它讨论了认知的进化,但它从单细胞动物开始。所以每个人都在谈论生物认知。所以我很感兴趣,我……但我对动物认知非常感兴趣,所以它真的很棒。但我真的……
人们对此感到非常酷。我也因此受到启发。我的意思是,从技术上讲,我的博士学位是神经科学。
这种……我们的大脑如何让我们感知世界,思考我们所思考的一切,以及做出我们所做的一切,这真是太神奇了。啊,是的,这是一个很棒的推荐。我可能得自己看看,因为我以前没听说过。嗯,马丁,人们在节目结束后如何才能关注你……如果我的记忆没有出错,你……
你这些天不是一个活跃的社交媒体用户。这让我……
思考。
我查了一下,也许在我四年前邀请你做客人的时候。
是的,我以前不太用,但现在我用了。我认为链接变得更好,你实际上可以在人工智能方面进行很多有趣的对话。以前不是这样的……
是的,真的,是的,在……做得很好,让它成为一个有用的平台,是的,是的。
这就是我的情况。是的,就是这样。
谢谢,马丁,抽出时间,真的非常感谢,而且,你正在进化人工智能方面进行的所有事情都令人兴奋……嗯,甚至只是在背景中看到,对于那些观看视频的人来说,他们可以看到马丁在他的家中美丽的……所谓的花园房间里,所以你可以看到房间两侧的花园,这真是太美了,这让我……哦,这很阳光,这很罕见,但你正在经历……
现在看来,这似乎是世界上最美好的地方,所以,非常有趣。
在今天的节目中回顾一下,博士马丁·古德森,他详细介绍了十个数据科学项目失败的原因,包括由于数据准备不足、过于复杂的模型以及可重复性差等问题。
他谈到了对人工智能的公共资金支持和开源开发的需求,以确保利益得到广泛分配,技术专家和从业者需要在人工智能政策讨论中拥有更多发言权,严格的科学方法和健康的怀疑态度至关重要,因为人工智能的能力正在迅速发展。他还分享了他对跨学科知识,如统计学、计算机科学和生物学,在人工智能发展中的宝贵性的看法。
和往常一样,你可以在节目说明中找到所有节目资料,包括节目的文字记录、视频录制、节目中提到的任何资料、马丁的联系方式、社交媒体资料,以及我的个人资料,网址是superdatascience.com/833。下周,如果你想在现实生活中联系我,我会在11月12日在新泽西州参加规模化人工智能会议,该会议由知名的风险投资公司Inside Partners主办。这是一个精心组织的会议,适合任何想学习或与他人建立联系的人,主题是规模化人工智能初创企业。
我将采访的人之一将是……不是别人,正是安德鲁,他是最著名的数据科学领导者之一,我非常期待这次会面。马丁以前也采访过安德鲁。我在节目说明中放了那次采访的链接。会议结束后,我将飞往葡萄牙,在网络峰会上发表主题演讲并主持半天研讨会。
嗯,它从11月11日至14日在里斯本,葡萄牙举行,有超过7万人参加,是世界上最大的科技会议之一,很高兴在那里见到你。好的,谢谢。当然,感谢所有参与超级数据科学播客团队的人,我们的播客经理奥利维亚·贝特,我们的媒体编辑玛丽亚·翁博,运营经理纳塔莉·吉,我们的研究员萨拉·麦西,我们的读者莎拉·卡特和索菲亚·奥格。
当然,和往常一样,最后,感谢我们的创始人库尔·埃罗曼戈,感谢他们今天为我们制作了另一个有趣的节目,感谢这个超级团队创造了这个超级播客,我们非常感谢我们的超级赞助商。你可以在节目说明中找到赞助商的链接,如果你想赞助一期节目,你可以访问jonkrohn.com/podcast了解详情。
否则,你可以通过分享这个节目给那些想听的人,在你的最喜欢的播客应用或YouTube上评论它来帮助我们。当然,如果你还不是订阅者,那就订阅吧,这不用多说,来吧,但最重要的是,我真的很想告诉你,继续收听。我很高兴你们在收听,我希望未来几年能继续制作你们喜欢的节目。下次见,保持乐观,在外面。我期待着很快再次与你一起享受超级数据科学播客。