欢迎收听雪球出品的财经有深度,雪球,国内领先的集投资交流交易一体的综合财富管理平台,聪明的投资者都在这里。今天分享的内容叫一个AI从业者的十年。来自DrChuck。 2015年,我刚参加工作,第一个任务是识别图片里的物品。传统做法是,找到物品的特征,用机器学习设计特征工程,做成模版,拿着模版进行特征匹配。做了几个月,效果差强人意。 突然一则新闻吸引了我的注意力,谷歌旗下的DeepMind开发了一款围棋程序AlphaGo,要与世界冠军李世石对弈。赛前大家并不看好 A I ,甚至人工智能专家李开复也觉得 A I 赢不了。事实让众人大跌眼镜,AlphaGo以4:1大胜李世石。这个结果给了我极大震撼,因为中国人知道围棋的难度。19乘19的棋盘,状态空间复杂度高达10的171次方,远大于宇宙中原子的个数,单靠近似穷举不可能解出答案。 我疯了一般去寻找背后的故事。 原来,AlphaGo的核心是卷积神经网络。这是杨乐昆在1989年提出的一种图像识别算法。为什么这个技术在二十多年后才被人重视?因为数据和算力不足。 直到2012年,深度学习之父辛顿的两名学生在李飞飞主导的ImageNet超大规模视觉识别挑战赛上一鸣惊人,人们才终于见识到威力。他俩基于吴恩达的工作,创造性的将英伟达的 G P U 用于训练一个600万参数的深度神经网络AlexNet。 AlexNet在学习了1000万张李飞飞团队辛苦标注的图片后,将图像识别的准确率提高了10%以上,遥遥领先于亚军。在AlexNet的基础上,科学家们再接再厉,提出了一个又一个更深更大的网络,ZFNet,VGGNet,GoogleNet,每年都在进步。 到了2015年,华人学者何恺明,曾经的广东高考状元,提出了152层的极深网络ResNet,参数量过千万,至此,AI的图像识别准确率终于超过了人类。 了解到这些背景,我兴奋得浑身发抖。开发人员再也不需要手工设计图像特征,深度网络通过海量数据学到的特征,远胜资深专家的多年经验。 为了深入学习,我开始使用亚马逊云服务 A W S ,很快就被英伟达的 C U D A 惊艳到了。 C U D A 非常高效,吸引了众多研究员和工程师,英伟达的开发人员也热心解答各种漏洞问题。渐渐的,越来越多的算法首发在 C U D A 上,更多的改进算法为了超越前者也只能用 C U D A ,形成了网络效应,用的人越多越好用。 当年还没有现在这么完善的深度学习框架,我入门靠的是华人学者贾扬清在写毕业论文之余开发的Caffe。这位大神慷慨开源了他基于 C U D A 的研究框架,又在博士毕业后成为谷歌的TensorFlow和Meta的PyTorch两大当今最流行框架的主要贡献者。 有了这些武器,我总算可以把图像识别算法换成深度卷积网络,效果显著,准确率飞升。但我知道永远不能自满,这是个眨眼十年的领域。得益于科学家们的开源精神,网络的架构不断进化。 2017年,谷歌提出了Transformer自注意力架构。所谓自注意力,简单说就是只关心输入之间的关系,而不再关注输入和输出的关系,这是一个颠覆性的变化。这篇论文发布之前,虽然深度学习已经取得长足进展,但AI的各个分支,视觉,语音,语言理解等,还是相对割裂的,每个领域有自己的模型。 之后,则是Transformer一统天下,各领域专家的知识整合以及多模态融合变得愈加轻松。李飞飞的高徒安德烈,甚至惊叹,也许人类偶然窥见了和自然界类似的强大架构,造物主沿着这个路径复制,造就了今天的大千世界。 Transformers让 G P U 并行运算的效率进一步大幅提升。 2018年,OpenAI和谷歌相继发布了参数量过亿的GPT和BERT模型。2020年初,OpenAI发表了著名的Scaling laws规模法则,指出更大的模型,更多的数据,更长时间的训练是提升模型能力的可行路径。 2022年底,ChatGPT横空出世,参数量达到恐怖的1750亿,模型大到违背了许多科学家的直觉。通常来说,如果一个模型训练几个月烧掉百万美金,效果还没有很大提升,研究员就放弃了。但伊利亚不是一般人,作为当年AlexNet的作者之一,他坚信规模法则,在烧了千万美金之后,终于捅破天花板,看到了推理智能的大幅涌现。 曾经,为了实现一个简单的小功能,我就需要训练一个AI模型。要完成一个复杂的商业系统,需要多个AI模型的协作,以及大量的底层逻辑代码。但现在,借助GPT大模型,实现功能只需要写一句简单的提示语,生产效率大大提高了。 全世界都看到了大模型的威力,根据斯坦福大学 A I 研究院的最新报告,2023年生成式 A I 的投资激增了8倍。训练模型也越来越昂贵,谷歌为了追赶ChatGPT开发的Gemini模型,成本接近2亿美金。 大规模的金钱竞赛,成了巨头公司们的游戏。 在此背景下,依然坚持开源的英雄们,尤其值得尊敬。 著名开源社区HuggingFace的创始人分享了一个美妙故事,关于三大洲,即欧洲,美国,中国的人们如何合作共建并公开分享了一个紧凑高效,行业领先的 A I 模型。 一个小团队在法国巴黎发布了他们的第一个模型:Mistral 7B。该模型令人印象深刻,体积小,但在基准测试中表现出色,优于之前所有同尺寸的模型。而且是开源的,人们可以在其基础上继续开发。 瑞士伯尔尼的刘易斯和法国里昂的埃德都来自HuggingFace的模型微调团队,他俩在喝咖啡时聊到了这个模型:一个来自美国加州斯坦福大学的研究团队刚刚发布了一种新的方法,用这种方法微调Mistral怎么样?嘿,这是个好主意,另一个人答道。他们刚刚开源了一个很棒的代码库,让我们用起来吧! 第二天,他们开始深入研究HuggingFace上公开共享的数据集,偶然发现了两个有趣的大型高质量微调数据集,它们来自中国清华大学的团队OpenBMB,也开放了源码:UltraFeedback和UltraChat。几轮训练实验证实了这一直觉,由此产生的模型超级强大,是迄今为止他们在伯克利和斯坦福的基准测试中所见过的最强模型。 开源模型排行榜的大咖克雷门汀也被吸引了,她对模型能力的深入研究证实了这一模型拥有令人印象深刻的性能。团队还邀请了康奈尔大学教授萨沙加入对话,他提议快速起草一份研究论文,整理并与社区分享所有细节。 几天后,起名龙卷风Zephyr的模型、论文和所有细节便席卷世人。很快,世界各地的许多公司都开始使用它,有公司声称用它取代ChatGPT让其节省了一半的费用。众多研究人员在开源社区热烈讨论该模型和论文。所有这些都在短短几周内发生的,这得益于世界各地发布的知识,模型和数据集的开放访问,以及人们在AI领域相互借鉴工作,为现实世界带来价值的高效理念。 开源社区的成就令人惊叹,理念更令人神往。当OpenAI不再Open,是这些胸怀技术开放理想的研究者,将大模型的秘密,展现给全世界。 进入2024年,大模型的进展依旧如火如荼: