对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台

2024/6/10

AI Odyssey

Frequently requested episodes will be transcribed first

Chapters

端午快乐～很开心，这期又可以和大家聊聊硬核的 GenAI 技术内容。最近和 AI 创业者们交流最多的话题就是 AI 数据。因此，本期节目我们特别邀请了两位在 AI 数据领域颇有建树的嘉宾：杨子敖，Brandeis CS PhD Candidate；刘明皓，整数智能信息技术（杭州）有限责任公司的算法负责人。一起聊了一下他们多年来在这方面积累的经验和认知，深入讨论了如何为大模型训练和推理构建高质量的数据集，以及如何搭建智能数据工程平台。

如果你对数据处理感兴趣，或者是一位充满好奇心的 AI 从业人员，我们希望通过这期节目为你带来关于 AI 和数据的新看法和启发。欢迎收听～

嘉宾介绍：

杨子敖 Brandeis CS PhD Candidate，曾在奇绩创坛和IDEA研究院工作过。目前的研究兴趣是Data centric ML，特别是基于influence function和Shapley value的Data Valuation。

刘明皓，整数智能信息技术（杭州）有限责任公司算法负责人。中国人工智能产业发展联盟2022年突出贡献个人，《人工智能研发运营一体化（Model/MLOps）能力成熟度模型》核心参编专家，MAP-NEO Core Contributor。

主播介绍：

Leo Zhao: 硅谷大厂高级机器学习工程师，GenAI LLM发烧友

Shownotes

00:30 - 嘉宾自我介绍

02:27 - 讨论 OpenAI 发布的 Scaling Laws 对模型性能的影响

02:59 - 探讨评估模型性能的主要指标和方法

03:48 - 模型性能衡量标准，介绍学术界常用的 Benchmark 和其他评估方法

04:49 - 分享如何评估知识型模型的效果

05:35 - 不同的 Scaling Laws 数据量的建议

07:05 - 介绍高质量数据的定义及其处理方法

08:57 - 讨论数据清洗过程中质量与多样性的平衡

09:58 - 解释数据质量如何具体影响模型训练效果

12:00 - 讨论如何评价模型的响应质量。

13:48 - 探讨处理具体应用场景数据的方法和建议

16:09 - 解释行业特定数据和 Prompt Engineering 的重要性

18:20 - 讨论在敏感领域处理数据时的隐私问题

21:22 - 介绍合成数据在模型训练中的应用和效果

23:14 -讲述如何在不同产业中扩展数据处理管道

26:48 - 解释保持数据集新鲜和相关性的周期更新策略

29:16 - 探讨验证数据集在模型评估中的关键作用

32:28 - 分享长文本数据在训练和验证中的处理方法

36:46 - 介绍自动驾驶数据的收集和处理流程

42:08 - 讨论数据壁垒的未来和数据共享的可能性

参考文献：

https://github.com/multimodal-art-projection/MAP-NEO)

https://arxiv.org/pdf/2405.19327)

2077ai.com)

感谢收听，我们下期再见！

对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台

AI Odyssey

Chapters

嘉宾自我介绍

OpenAI 发布的 Scaling Laws 如何影响模型性能?

评估模型性能的主要指标和方法有哪些?

模型性能衡量标准：学术界常用的 Benchmark 和其他评估方法

如何评估知识型模型的效果?

不同的 Scaling Laws 数据量的建议

高质量数据的定义及其处理方法

数据清洗过程中如何平衡质量与多样性?

数据质量如何具体影响模型训练效果?

如何评价模型的响应质量?

处理具体应用场景数据的方法和建议

行业特定数据和 Prompt Engineering 的重要性

在敏感领域处理数据时的隐私问题

合成数据在模型训练中的应用和效果

如何在不同产业中扩展数据处理管道?

保持数据集新鲜和相关性的周期更新策略

验证数据集在模型评估中的关键作用

长文本数据在训练和验证中的处理方法

自动驾驶数据的收集和处理流程

数据壁垒的未来和数据共享的可能性

Shownotes Transcript

对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台 47:34 Share

AI Odyssey

Chapters

嘉宾自我介绍

OpenAI 发布的 Scaling Laws 如何影响模型性能?

评估模型性能的主要指标和方法有哪些?

模型性能衡量标准：学术界常用的 Benchmark 和其他评估方法

如何评估知识型模型的效果?

不同的 Scaling Laws 数据量的建议

高质量数据的定义及其处理方法

数据清洗过程中如何平衡质量与多样性?

数据质量如何具体影响模型训练效果?

如何评价模型的响应质量?

处理具体应用场景数据的方法和建议

行业特定数据和 Prompt Engineering 的重要性

在敏感领域处理数据时的隐私问题

合成数据在模型训练中的应用和效果

如何在不同产业中扩展数据处理管道?

保持数据集新鲜和相关性的周期更新策略

验证数据集在模型评估中的关键作用

长文本数据在训练和验证中的处理方法

自动驾驶数据的收集和处理流程

数据壁垒的未来和数据共享的可能性

Shownotes Transcript

对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台