#04 对话陈烨｜全力以赴做最好的基础大模型

2023/8/27

科技慢半拍

Frequently requested episodes will be transcribed first

【嘉宾】

陈烨，虎博科技的创始人兼CEO，曾获美国威斯康星大学麦迪逊分校信息系统和计算机科学博士学位，美国伯克利大学客座教授。曾任美团点评集团高级副总裁，广告平台负责人。2017年，正式创立虎博科技。

【节目介绍】

本期节目陈烨博士将回顾虎博科技的创业历程，分享大模型的最新研发情况，并重点围绕大模型的能力要求、模型训练、行业应用等话题展开。此外，他还剖析了人工智能在企业应用落地的难点,也分享了他个人对科技创新的价值观。体会科技大咖的独家思考，听一场别开生面的行业对话，欢迎订阅并收听本期访谈节目。

【时间线】

01:42 创业公司是个生命体，首先是要活下来

07:32 AI1.0和AI2.0的特征和区别

18:03 如何做大模型的预训练？

37:19 什么样的大模型将会最终胜出？

42:49 如何选择适合的商业模型？

51:29 全力以赴做好基础大模型

【名词解释】

Llama2是Meta AI于2023年7月正式发布最新一代的包含了70亿、130亿和700亿参数的开源大模型。
DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。
Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化，也就是大矩阵乘法。
FlashAttention算法主要解决的是Transformer模型计算速度慢和存储占用高的问题。
Gradient Accumulation是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。
训练大模型的三个步骤，1）Pre-train（预训练），2）Supervise Fine-tuning（SFT，监督调优），3）RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）
PPO的全称是Proximal Policy Optimization，即近端策略优化算法，是一种强化学习中的策略梯度方法。
Reinforcement Learning指强化学习方法，是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。
Reject Sampling（拒绝采样）是对模型生成的结果进行采样，并对采样后的结果通过RM（奖励模型）选取回报值最大的结果作为最终结果的一种方法。

【片头和片尾音乐】

【感谢】

特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。