cover of episode Microsoft is exploring a way to credit contributors to AI training data

Microsoft is exploring a way to credit contributors to AI training data

2025/3/24
logo of podcast TechCrunch Industry News

TechCrunch Industry News

AI Deep Dive AI Chapters Transcript
Topics
@TechCrunch : 微软启动了一项研究项目,旨在评估特定训练样本对生成式AI模型输出(文本、图像等)的影响。这项研究试图证明,可以通过训练模型来有效地估计特定数据(例如照片和书籍)对其输出的影响。这项工作旨在解决AI模型缺乏透明度的问题,并为那些为未来模型贡献有价值数据的个人提供激励、认可和潜在的报酬。当前的神经网络架构在提供其生成的来源方面不透明,这引发了关于知识产权和合理使用的争议。许多AI公司使用大量公共网站数据训练其模型,其中一些数据受版权保护。许多公司辩称合理使用原则保护了他们的数据抓取和训练实践,但创意人士大多不同意。微软本身就面临着至少两起版权持有人的法律挑战。这项研究,被称为“训练时间来源”,据报道有Jaron Lanier参与,他倡导数据尊严的概念,即连接数字内容及其创造者。数据尊严方法会在大型模型提供有价值输出时追踪最独特和最有影响力的贡献者,并给予他们认可和激励,甚至可能支付报酬。已经有几家公司尝试根据贡献者的整体影响力进行补偿,例如Bria、Adobe和Shutterstock。然而,大型实验室很少建立个人贡献者支付计划,而是提供让版权持有人选择退出训练的途径,但这些选择退出流程可能很繁琐,并且只适用于未来的模型,而不适用于之前训练的模型。微软的项目可能只是一个概念验证,OpenAI之前也有类似的项目,但尚未推出。微软的研究可能意在改善道德形象,或避免对其AI业务造成破坏的监管或法院裁决。包括谷歌和OpenAI在内的几家顶级实验室都发表了政策文件,建议削弱与AI发展相关的版权保护。

Deep Dive

Shownotes Transcript

Microsoft is launching a research project to estimate the influence of specific training examples on the text, images, and other types of media that generative AI models create. That’s per a job listing dating back to December that was recently recirculated on LinkedIn.

Learn more about your ad choices. Visit podcastchoices.com/adchoices