【嘉宾】
陈烨,虎博科技的创始人兼CEO,曾获美国威斯康星大学麦迪逊分校信息系统和计算机科学博士学位,美国伯克利大学客座教授。曾任美团点评集团高级副总裁,广告平台负责人。2017年,正式创立虎博科技。
【节目介绍】
本期节目陈烨博士将回顾虎博科技的创业历程,分享大模型的最新研发情况,并重点围绕大模型的能力要求、模型训练、行业应用等话题展开。此外,他还剖析了人工智能在企业应用落地的难点,也分享了他个人对科技创新的价值观。体会科技大咖的独家思考,听一场别开生面的行业对话,欢迎订阅并收听本期访谈节目。
【时间线】
01:42 创业公司是个生命体,首先是要活下来
07:32 AI1.0和AI2.0的特征和区别
18:03 如何做大模型的预训练?
37:19 什么样的大模型将会最终胜出?
42:49 如何选择适合的商业模型?
51:29 全力以赴做好基础大模型
【名词解释】
- Llama2是Meta AI于2023年7月正式发布最新一代的包含了70亿、130亿和700亿参数的开源大模型。
- DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。
- Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化,也就是大矩阵乘法。
- FlashAttention算法主要解决的是Transformer模型计算速度慢和存储占用高的问题。
- Gradient Accumulation是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。
- 训练大模型的三个步骤,1)Pre-train(预训练),2)Supervise Fine-tuning(SFT,监督调优),3)RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)
- PPO的全称是Proximal Policy Optimization,即近端策略优化算法,是一种强化学习中的策略梯度方法。
- Reinforcement Learning指强化学习方法,是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。
- Reject Sampling(拒绝采样)是对模型生成的结果进行采样,并对采样后的结果通过RM(奖励模型)选取回报值最大的结果作为最终结果的一种方法。
【片头和片尾音乐】
曲率飞行 - 昨夜派对(L.N Party))
焰火青年 - 刘森)
【感谢】
特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。