Home
cover of episode #04 对话陈烨|全力以赴做最好的基础大模型

#04 对话陈烨|全力以赴做最好的基础大模型

2023/8/27
logo of podcast 科技慢半拍

科技慢半拍

Frequently requested episodes will be transcribed first

Chapters

Shownotes Transcript

【嘉宾】

陈烨,虎博科技的创始人兼CEO,曾获美国威斯康星大学麦迪逊分校信息系统和计算机科学博士学位,美国伯克利大学客座教授。曾任美团点评集团高级副总裁,广告平台负责人。2017年,正式创立虎博科技。

【节目介绍】

本期节目陈烨博士将回顾虎博科技的创业历程,分享大模型的最新研发情况,并重点围绕大模型的能力要求、模型训练、行业应用等话题展开。此外,他还剖析了人工智能在企业应用落地的难点,也分享了他个人对科技创新的价值观。体会科技大咖的独家思考,听一场别开生面的行业对话,欢迎订阅并收听本期访谈节目。

【时间线】

01:42 创业公司是个生命体,首先是要活下来

07:32 AI1.0和AI2.0的特征和区别

18:03 如何做大模型的预训练?

37:19 什么样的大模型将会最终胜出?

42:49 如何选择适合的商业模型?

51:29 全力以赴做好基础大模型

【名词解释】

  • Llama2是Meta AI于2023年7月正式发布最新一代的包含了70亿、130亿和700亿参数的开源大模型。
  • DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。
  • Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化,也就是大矩阵乘法。
  • FlashAttention算法主要解决的是Transformer模型计算速度慢和存储占用高的问题。
  • Gradient Accumulation是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。
  • 训练大模型的三个步骤,1)Pre-train(预训练),2)Supervise Fine-tuning(SFT,监督调优),3)RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)
  • PPO的全称是Proximal Policy Optimization,即近端策略优化算法,是一种强化学习中的策略梯度方法。
  • Reinforcement Learning指强化学习方法,是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。
  • Reject Sampling(拒绝采样)是对模型生成的结果进行采样,并对采样后的结果通过RM(奖励模型)选取回报值最大的结果作为最终结果的一种方法。

【片头和片尾音乐】

曲率飞行 - 昨夜派对(L.N Party))

焰火青年 - 刘森)

【感谢】

特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持,请听友及时订阅微信公众号,查看本播客的文字版内容。