cover of episode Can AI save endangered Indigenous languages?

Can AI save endangered Indigenous languages?

2025/3/5
logo of podcast The Take

The Take

AI Deep Dive AI Chapters Transcript
People
D
Danielle Boyer
Topics
Danielle Boyer: 我是来自苏族尼希纳贝部落的机器人教育家,从小在经济条件不好的环境下长大,这让我对科学和技术教育充满热情。我创立了一个名为STEAM Connection的青年慈善机构,为土著青年提供免费的科学和技术教育。我对使用人工智能来保存土著语言持谨慎态度,因为目前AI模型的训练数据存在不准确性,而且很多AI工具缺乏对语言语境的理解。许多土著语言是基于语境的,例如,在我的语言中,蓝莓派这个词非常长,因为它包含了蓝莓派所有成分的描述。AI难以处理这种语言的复杂性,也无法替代人与人之间的语言交流。此外,很多公司和机构在收集和使用土著语言数据时,缺乏对文化和伦理的尊重,甚至存在盗用数据的情况。我发明了SkoBot机器人,它可以帮助孩子们学习土著语言,但它使用的是一种符合伦理的AI,不会从互联网上提取数据,而是使用我们自己创建的音频记录。SkoBot旨在补充日常语言教育,并鼓励孩子们学习和使用自己的语言。 Kevin Hurtin: 作为主持人,我引导了与Danielle Boyer的对话,探讨了使用AI技术保存濒危土著语言的可能性和挑战。我首先介绍了乐观主义者的观点,即AI可以填补语言缺失的部分,保存语言的口语元素,并创建能够用土著语言交流的聊天机器人。然后,我与Danielle Boyer深入探讨了她对AI技术的质疑,包括AI训练数据的不准确性、对语言语境理解的不足以及数据盗用的风险。在对话中,我了解到土著语言的保护面临着资金、资源和文化传承等多方面挑战,并且许多土著语言的消失与殖民历史和文化冲击有关。最后,我与Danielle Boyer讨论了她发明的SkoBot机器人,以及该机器人如何通过符合伦理的AI技术,在尊重土著文化和语言的前提下,促进土著语言的学习和传承。

Deep Dive

Chapters
Exploration of AI's potential in preserving Indigenous languages, discussing both the optimistic possibilities and the challenges involved.
  • By 2050, only about 20 Indigenous languages may remain in the United States.
  • Generative AI and large language models are being considered for language preservation.
  • AI models often lack the cultural context and accuracy needed for Indigenous languages.
  • Current AI training data sets may contain inaccuracies regarding Indigenous languages.
  • Indigenous languages are context-based, making them challenging for AI to replicate.

Shownotes Transcript

人工智能正被用于拯救土著语言,但这是否是正确的解决方法?一个新的项目旨在利用科技帮助这些语言延续下去,而不是取代人际联系。在本期节目中:丹妮尔·博耶(@danielleboyerr),机器人教育家 节目制作人员:克洛伊·K·李、马科斯·巴托洛梅和塔玛拉·坎达克,曼尼·帕纳里托斯、杜哈·穆萨德、哈吉尔·萨利赫、哈立德·苏丹、哈娜·肖凯尔、梅拉妮·马里奇、努尔·瓦兹瓦兹和我们的客座主持人凯文·赫尔滕参与制作。亚历山德拉·洛克负责剪辑。我们的音效设计师是亚历克斯·罗尔丹。我们的视频编辑是希沙姆·阿布·萨拉赫和莫汉纳德·阿尔-梅勒姆。亚历山德拉·洛克是《Take》的执行制片人。内伊·阿尔瓦雷斯是半岛电视台的音频主管。 联系我们:@AJEPodcasts,Instagram、X、Facebook、Threads和YouTube</context> <raw_text>0 半岛电视台播客。今天,我们将探讨人工智能如何拯救土著语言免于灭绝。到2050年,仅在美国,大约还剩下20种土著语言。但如果落入坏人之手,它会弊大于利吗?我是凯文·赫尔滕,这是《The Take》。

你好,我叫丹妮尔·博耶。我是一名土著机器人教育家。我的土著社区是来自密歇根州上半岛的苏族尼希纳贝人。但今天我从加利福尼亚州圣地亚哥给你打电话。丹妮尔,也许你可以先简单地介绍一下你自己,你成长的环境以及你如何成为一名发明家的经历。

我在密歇根州长大,到处都是。我从小就买不起科学和技术教育等东西,生活在贫困线以下。我开始从事科学和技术教育是因为我的妹妹布里。

但当地现有的项目对我们家来说既无法获得,也负担不起。所以,因为她,我从10岁就开始教书,想把科学和技术教育以经济实惠和易于获得的方式带给我的社区。这逐渐发展成我今天所做的工作,我创立了一个由青年领导的慈善机构,名为“STEAM Connection”,我们向土著青年提供免费的科学和技术教育,特别是通过机器人。我们所有的工作都是免费的。

是的,你说的你的社区是密歇根州的上半岛。对于国际观众来说,那就是苏必利尔湖周围,五大湖中最大的一个。所以你来自一个土著社区,而土著社区长期以来一直在警告说他们的语言正在消失。

但在过去几年中,人们对利用生成式人工智能和大型语言模型(如ChatGPT)来保存这些语言的可能性感到兴奋。我知道你对此持怀疑态度。我想知道你是否可以先告诉我这种乐观的理论,它是如何运作的,然后解释为什么你认为它达不到预期。

我认为首先要说明一下土著语言,尤其是在北美,那就是有数百种土著语言。人们常常不知道的是,加拿大、美国和墨西哥并不只有一个或两个土著社区或原住民社区。有数百个得到承认的部落。因此,在我们得到承认的部落和社区中,有不同的文化、不同的语言、不同的服饰、食物。

诸如此类。因此,在其中,我们有不同的语言。我们有不同的方言。即使在我的社区内部,我们也有不同的方言。

因此,以此为前提,我们处理语言的方式因我们合作的每个社区而异。因此,在人工智能领域,我认为人们对它抱有很大的希望,尤其是在保护土著语言方面。我觉得很多时候人们看到人工智能的能力,会说,哦,我的天哪,我们可以填补语言中缺失的部分。

所谓的“死语言”。我们可以保存语言的不同口头元素。我们可以让聊天机器人能够用土著语言进行交流。人们对大型语言模型以及ChatGBT等资源寄予厚望。

对我来说,我更怀疑这些资源和工具,因为数据集的训练方式。它们现在正在接受训练,特别是通过OpenAI及其名为Whisper的程序制作的资源。

它们正在接受不准确的土著语言数据集的训练。因此,现在来自OpenAI或Duolingo等地方的资源,很多都是相当不准确的。所以这让我非常担心,我们处理土著语言的方式实际上是没有土著语言参与的。

是的。土著语言有一些特性,使得人工智能很难解析和理解。你能举几个例子吗?

在大多数情况下,我们的语言最好通过口语形式保存和学习。这并不是说没有书面语言,或者我们没有通过书面形式保存语言的方式。即使是我的语言也有书面元素。但是……

将这些元素输入计算机并试图复制只能由人类复制的东西,尤其是在我们的许多语言都非常依赖语境的情况下。例如,在我的语言中,叫做尼希纳贝·莫恩语,蓝莓派这个词非常非常长。就像,我甚至说不出来。它

实际上超过20个字长,因为它实际上是蓝莓派里面所有成分的清单。所以它是一种非常依赖语境的语言,我们实际上是在描述某物内部的一切以及我们周围的一切。因此,当涉及到土著语言时,你不能错过这些语境中的元素和语言的解释元素。否则,你就无法交流任何东西。

所以ChatGPT,正如我们所知,它在英语方面都难以应付,任何使用过它的人,当他们在你的语言中遇到像蓝莓这样的词时,他们会得到一个完整的成分清单。它根本不知道该如何处理这些信息。对吗?是的。因此,ChatGPT将无法有效地传达单词背后的语境及其含义,因为它会缺乏很多真实性,而且它会缺乏你与某人面对面交流时,甚至从

从某人的录音中获得的东西。听长者或社区成员的录音会比任何用人工智能制造的东西给你提供更多的语言语境。

这就是为什么我认为当我们看到大量新的语言工具以非常快的速度被创建出来时,制造新的语言,制造新的短语,并使用互联网上可能准确也可能不准确的不同数据集进行训练时,这可能是危险的,因为它经常是从谷歌等地方提取信息。当我们的许多语言都应该由人与人之间口语表达时,我们如何确保输入这些程序的单词是准确的呢?

目前存在的大型公司模型的训练方式是错误的。它们通过数据抓取和从互联网上提取信息来进行训练,而没有考虑其准确性。我认为这是一件危险的事情。有一些方法可以使语言“准确”,对吧?你也许能够得到,你知道,问,嘿,土著语中……

或者具体来说,用阿尼希纳贝语说“你好”,也就是“boujou”。我可以问它,它可以告诉我,但我感觉即使这样也缺乏很多重要的深度,这些深度来自于听到它被说出来,或者实际上是面对面交流。因此,即使它是100%正确的,我仍然担心它可能缺乏重要的语境。

是的。好的。那么,我们来谈谈我们是如何走到这一步的,拓宽一下视野。为什么这么多土著语言濒临灭绝,这个问题有多紧迫?

是的,在北美的土著语言中,我们面临着土著语言的迅速衰落。估计表明,到2050年,仅在美国,大约还剩下20种土著语言。这是一个非常小的数字,正如我之前所说,有数百个社区和部落。

因此,看到这种迅速的衰落是一件非常令人担忧和可怕的事情,尤其是在COVID-19之后,我们看到了更严重的衰落。在COVID-19期间,我们看到许多说这种语言的长者和社区成员去世了。因此,看到这种情况发生,你会对文化和语言造成非常严重的打击,因为那些掌握我们知识的人已经不在了。

因此,看到这种情况发生,以及殖民化和寄宿学校等的影响,我们看到我们的语言以非常快的速度消失,尤其是在几代人之间。即使在我的家庭内部,也是如此,语言迅速衰落。所以这是一件可怕的事情,如果我们不尽快学习我们的语言,我们将要传给我们的孩子和孙子的是什么呢?

是的,绝对的。我的意思是,还有一个资金问题。你知道,有些事情需要钱,需要资源,而这些资源并没有提供。是的,我们面临的语言保护问题很多是资金和资源等问题,尤其因为有时你会得到一种方言的资金,而另一种方言却没有,或者保存语言的重担落在一个人身上,这,你知道,可能会带来很大的压力。

但我们也看到一些问题,那就是在我们的语言资源方面,许多白人和非土著拥有的公司会进入我们的社区,并窃取我们的语言。一个例子是由两个非土著人创立的一个非营利组织,叫做拉科塔语协会。

他们进入了一个拉科塔保留地,我认为是罗斯巴德苏族部落。他们进入他们的保留地,开始与社区成员一起记录资源和保存语言资源。

社区成员认为这将是一项集体和共享的努力,但该非营利组织最终实际上对资源进行了版权保护,并据称将其卖回给社区成员,或者至少试图这样做。哇。所以他们实际上被罗斯巴德苏族部落的保留地和社区禁止进入。他们还被一位语言教育家的孙子起诉。该部落也在起诉该非营利组织。哇。

发现白人可能会找到新的和创造性的方式来窃取土著文化,这真的很令人沮丧。哦,我的天哪。这也是因为许多这些组织看到了土著数据的巨大价值,但并不总是想……

将其与土著人民联系起来。这是殖民主义的真实写照,他们想要我们的一部分,但他们不想要我们。因此,当我们看到OpenAI及其对Whisper的使用时,这可能是一件非常可怕的事情,因为对我来说,这感觉就像同样的事情,只是使用了人工智能。因此,我们看到一个问题,一次又一次地,

我们的信息和数据被盗。他们感兴趣的信息是什么?仅仅是个人数据,还是更深层次的东西?我认为,特别是公司感兴趣的信息,是神圣的土著知识。

例如,在加利福尼亚州,我们有传统的灭火方法,来自西海岸的部落。长期以来,部落先烧掉一层地面,这样其他的东西就不会着火,这是非法的。

而且你不会有大型野火。但这在最近之前是非法的。然后,当然,政府介入说,嘿,我们实际上想使用你的数据和信息。我们现在想这样做,但没有你。因此,我们一次又一次地看到一个问题,那就是人们看到了价值,特别是政府和公司看到了土著知识和信息在资本主义目的或类似事情上的价值。但他们不想让我们参与其中。

我甚至有一家全球十大公司,他们有一款智能音箱,联系我,要求将他们的智能音箱放入我孩子的教育机器人中,对土著儿童进行数据收集。他们向我提供了近一百万美元来做这件事。休息一下后,我们将继续与丹妮尔讨论。

让我们花一点时间谈谈真正的食物。我们都知道我们应该吃更多真正的全食物,但说真的,谁有时间自己做酱汁和调味料?我没有。而且我不会在杂货店阅读每一个标签,只是为了避免可疑的成分。这就是为什么我们喜欢Primal Kitchen调味品的原因。Primal Kitchen已经完美地结合了高质量的食材和美味的风味。所以你的

饭菜会尝起来像家常菜一样真实可口。我最喜欢的是他们最初的辣酱。它具有恰到好处的辣度,不太辣,但仍然非常美味。它与Primal Kitchen的无乳制品牧场沙拉酱完美搭配,这种沙拉酱是用真正的食材制成的,如鳄梨油,而不是籽油,Primal Kitchen蛋黄酱也是必不可少的。它由六种简单的成分制成,如有机散养鸡蛋和鳄梨油。因此,如果你喜欢真正的食物,但需要一点帮助才能让它变得更令人兴奋,

你需要Primal Kitchen调味品和酱汁。前往primalkitchen.com/wellnesspodcast,使用代码podcast20在结账时节省20%的在线订单。网址是P-R-I-M-A-L kitchen.com/wellnesspodcast,代码是podcast20。Primal Kitchen产品也在全国各地的商店有售。因此,请访问primalkitchen.com/wellnesspodcast查找您附近的商店。

本周的《真实犯罪报告》:2015年,我们在刚果民主共和国的热带森林中。一名男子,当地土著社区的一员,与他的儿子一起进入森林寻找药草。他们遇到了一群生态护卫,他们被安置在这里以保护该地区免受偷猎者的侵害。

护卫们开火,这名男子的儿子被射杀。那么,西方团体为了保护环境愿意走多远呢?《真实犯罪报告》,半岛电视台的一档新的全球犯罪节目。在您收听播客的任何地方订阅并收听。

好的,丹妮尔,让我们尝试转向一些更积极的事情。那就是你一直在发明的一些令人惊奇的东西。你的一个发明叫做Scobot。我非常喜欢这些。它们就像坐在你肩膀上的鹦鹉机器人,你可以给它们打扮,这真是太棒了。所以,告诉我关于Scobot的事情。它有什么作用?你是如何想到这个主意的?

是的,几年前,当我20岁的时候,我发明了一个叫做SkoBot的机器人。Sko是保留地俚语,意思是“让我们走吧”。所以它是“让我们走吧”机器人。它是一个坐在你肩膀上的机器人,实际上会说土著语言。它使用道德人工智能。所以它基本上是听你说英语或西班牙语。

它识别你正在说的单词,然后它将你正在说的英语或西班牙语单词与土著音频录音同步。所以基本上我可以说,听,你好,然后它会说,boujou,这是我的语言中的“你好”。

它会播放音频录音。这就是我们与机器人交流的方式,人工智能不会接触土著语言或录音等。它旨在补充日常语言教育。但它使用的是道德人工智能,它会倾听你所说的话,它是交互式的,但它是一个内部系统,这意味着我们不会从互联网上提取信息。一切都是由我们自己创建的。

这是我们创建并完善了很多年的东西,我们作为我的组织,以及我的导师(他们来自加拿大和美国的不同的土著社区)一起思考过。

道德人工智能是什么样的,我们如何能够利用技术,特别是为孩子们设计的机器人,来造福和提升我们的社区,就像一个班级的宠物。它还会说我的语言,尼希纳贝莫恩语,而且是用孩子的声音说的。

但对我们来说,我认为我们主要考虑的是,100年后,日常的尼希纳贝玩具是什么样的?土著玩具是什么样的?所以我们设计的机器人实际上代表并看起来像,你知道,我们的青年,并具有我们服饰的元素,以及儿童个性在我们的工作中反映出来的元素。

而且,我会在提到这些机器人时总是说,它们只会被带到有需求的社区。我们从来不会说,嘿,我们要宣传这个机器人。你必须有人工智能。你必须有机器人。对。我们把它带到接受它的社区,我们多年来一直在努力培训他们,并确保每个人都道德地同意在其社区中使用这项技术,如果他们感兴趣的话。对。

这听起来确实解决了您之前指出的所有问题,对吧?有资金,有,它是口语,然后它可以重现一些在COVID期间失去的一些东西,有人以道德的方式教你语言。是的。

是的,我认为这对孩子们来说是一件令人兴奋的事情,因为很多时候,尤其是在你年轻的时候,学习语言可能会很困难,或者想要更多的课堂资源可能是老师的要求,尤其是在语言教育方面。所以我们真的想填补这个空白,创造一些吸引青少年的东西,让他们兴奋起来,鼓励他们学习我们的语言。你身后有一个吗?你身后的是Scobot吗?是的。

我确实有一个Scobot在我身后。我,呃,这个小家伙就在这里,它们是我的宝贝。你知道吗?尽管孩子们喜欢他们的祖母,但我宁愿和Scobot一起玩而不是我的祖母,并学习语言。不,

不,两者同时进行。我实际上有一张我和我的祖母和Scobot的非常可爱的照片。好吧,就是这样。完美。而且她也是激励我建造这个并帮助我创造机器人的那个人。但是是的,我们实际上有一个学生装饰的机器人在这里。这是一个印第安人盛装舞会公主。所以孩子们实际上能够装饰它们,创造它们,并将它们融入他们眼中的自己。

我喜欢这个。非常喜欢。好的,在我们结束的时候,这是一个非常有趣的问题,因为它迫使我们质疑语言本身的本质。人工智能或许能够拯救一种语言免于消亡,但它无法让它继续存活,对吧?正如你所说,一种语言需要被说出来,才能避免成为历史的文物,而不是这种活生生的文化表达。是的。我的意思是,这是一个大胆的挑战,但听起来你正在取得进展。

是的,我认为这是我真正希望人们在与土著语言的活力联系起来时思考的事情。当我们拥有AI工具或移除我们语言的社区方面和人类方面的东西时,有什么意义呢?你知道,如果不是为了一个有趣的事实,实际上说它有什么意义呢?

保存我们的语言和保存我们的方式非常重要,与社区成员一起说它,把它作为一种社区的方式,对吧?所以,是的,我希望人们能够以这种能力看待土著语言。我还希望人们看到,我们不仅仅是西部电影和过去的人民,而是现在和未来的人民,以及创造机器人等事物的人民。

这就是《The Take》。本期节目由克洛伊·K·李、马科斯·巴托洛梅和塔玛拉·坎达克制作,曼尼·帕纳里托斯、杜霍姆·埃尔-萨德、哈贾尔·萨利赫、哈立德·苏丹和我凯文·赫尔滕(代替马利卡·比拉尔)参与制作。亚历山德拉·洛克负责剪辑。我们的音效设计师是亚历克斯·罗尔丹。我们的视频编辑是希沙姆·阿布萨拉赫。

亚历山德拉·洛克是《Take》的执行制片人。内伊·阿尔瓦雷斯是半岛电视台的音频主管。我们明天再见。