Home
AI Odyssey
Home
对话整数智能联创和前IDEA研究员:构建高质量数据集与智能数据工程平台
47:34
Share
2024/6/10
AI Odyssey
Request Transcript
Frequently requested episodes will be transcribed first
Chapters
嘉宾自我介绍
OpenAI 发布的 Scaling Laws 如何影响模型性能?
评估模型性能的主要指标和方法有哪些?
模型性能衡量标准:学术界常用的 Benchmark 和其他评估方法
如何评估知识型模型的效果?
不同的 Scaling Laws 数据量的建议
高质量数据的定义及其处理方法
数据清洗过程中如何平衡质量与多样性?
数据质量如何具体影响模型训练效果?
如何评价模型的响应质量?
处理具体应用场景数据的方法和建议
行业特定数据和 Prompt Engineering 的重要性
在敏感领域处理数据时的隐私问题
合成数据在模型训练中的应用和效果
如何在不同产业中扩展数据处理管道?
保持数据集新鲜和相关性的周期更新策略
验证数据集在模型评估中的关键作用
长文本数据在训练和验证中的处理方法
自动驾驶数据的收集和处理流程
数据壁垒的未来和数据共享的可能性
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.