欢迎来到 Onboard 真实的一线经验走新的投资思考我是 Monica 我是高宁我们一起聊聊软件如何改变世界
大家好 欢迎来到 Onboard 我是 Monica 先跟大家汇报一下上周日我们在北京举办了 Onboard 第一次线下听友会我们真是被听友们的热情感动到了大周末的从上午 9 点到下午 3 点从机器人到 AI 创业投资到软件出海真的是干货满满
一百多个人的场地座无虚席直到最后一刻大家都还不忍离开真是太感谢了我们正在努力整理精华文字稿也敬请期待我们更多的活动
好回到这一期的播客也真的是非常应景因为就在今天凌晨阿里最新的同义千万模型昆 2 也发布开源了 72B 的开源模型表现也是相当的可圈可点大家赶紧去关注一波今天的话题就是大模型的开源生态
生成式 AI 的发展突飞猛进的这一年多的时间里开源真的是不可忽视的一个话题一方面开源模型能力发展迅猛从 Meta 的 Lima3 到 Mistro 的开源模型它们对于 GPT-4 这样的必源大模型能力的赶超实在让人惊艳也极大加速了很多 AI 产品的落地
除了开源模型本身围绕大模型的生态从推理加速开发工具到 agent 等等整个技术站的丰富虽然已经诞生了像 Luncheon 这样的现在阶段性的头部公司似乎一切都还只是开了个头这里边还有一股不可忽视的力量就是来自中国的开源模型
随着阿里的"同一千万"系列,还有换方的 Deep Seek,还有零一万物的 E 等中国团队主导的模型在国际舞台上展露光芒。Monica 觉得,在谈论中国大模型的发展的时候,我们不可以忽视这些国人的工作,不仅仅是魔改和追赶,也有很多值得我们骄傲的地方。
不管怎样对于关注生成式 AI 发展的每个人开源都是一个绝不能低估的话题今天莫妮卡请来的几位嘉宾都非常有代表性
首先是返场嘉宾来自 Hugging Face 的王铁正说他是连接中国和世界开源 AI 生态的关键人物真的是不过分从 Google TensorFlow 的时代到 Hugging Face 的早期员工铁正在国际视角中对整个 AI 开源生态以及中国力量的观察可以说是相当的深入
还有来自通亦千万团队的俊阳俊阳不仅是困在全球开源社区里的主要发生人见证了开源一路的摸爬滚打他也是现在最受关注的 Agent 开源项目之一 OpenDevon 的核心团队成员如果你听过上一期的 Onboard 对 AI 程序员和 Agent 的讨论那 OpenDevon 这个名字应该会很有印象了
最后一位更是学术界的大牛他所负责的项目绝对是大名鼎鼎这就是已经成为行业标准的大模型推理框架 BLM 的作者卓涵李卓涵是伯克利大学的 PhD 他所在的 Skylab 可以说是开源 Infra 的黄浦军校从百亿美金的 Databricks 到十亿美金的 Anyscale 也就是开源计算框架 Ray 的商业化公司
除了 VRM 李卓涵还参与了像 Chad ArenaVicuna 等一系列国际知名的开源项目他从大模型周边生态和 Infra 的国际视角更是有很多非常有技术理想的干货
我们的原起是要谈论开源大模型生态没想到嘉宾们都太宝藏了我们的话题延伸到了 agent 开发工具 infra 等等跟大模型有关的各个方面原始录制在近四个小时
前半部分我们通过聊 VLM 以及 OpenDevon 为代表的软件开发 agent 背后的技术和生态等话题下半部分我们回到大模型开源的主题畅谈了底层基础大模型开源必然生态未来可能的演进开源模型商业化跟我们过去在大数据时代看到的 DataBricks 之类的开源商业模式会有哪些异同
最后非常一线勿实的讨论如何做一个有国际影响力的开源项目当然还有关于数据评测等等真的是非常全面又不失一线从业者深度的探讨相信你听起来会非常的过瘾索尽这一次我们就不分成两部分了
大家可以对着 show notes 里面的时间戳直接跳转到你感兴趣的话题虽然 Monica 觉得每个话题都很好都很值得去倾听介绍了这么多我还要声明一下节目里面重点聊到的开源社区 Hug and Face 还有几个开源项目比如阿里千万 Open Devon01 万物的意义 VLM 等等我们都没有收取任何的广告费完全是嘉宾的走心分享真的是全程无广
当然如果你们或者其他 AI 公司考虑赞助一下我们用爱发电的 onboard 我们也是非常欢迎的好那三个多小时的硬核马拉松就开始了大家 enjoy 欢迎来到 onboard 也欢迎几位嘉宾来到 onboard 那按照惯例呢一开始还是让几位做一个自我介绍
介绍一下你自己的这个经历怎么开始进入到这个 AI 还有 Open Source 开源的这样一个工作的开源领域总是涌现出非常多有意思的这工作所以也让大家这个方法也分享一下你们最近看到的一个你们觉得很有意思的在 AI 领域的一个开源的一个项目或者说公司都可以那我们就从这个铁证开始吧铁证是我们的返场嘉宾
大家好,感谢 Monica 记得上次我们聊的非常开心可能都有一年多了然后其中感觉这个行业也发生了翻天覆地的变化自我介绍的话我叫王铁针是 Hine Face 的工程师然后我主要的工作也是希望跟国内的开源社区一起合作然后共同去推动开源行业的发展然后帮大家在国际上获得更多的影响力
我个人的经历之前我是在谷歌做这个探测 flow 就是当年 17 年 18 年的时候谷歌做了一个这个开源的框架大家可以把它想象
像成谷歌版本的拍套然后后面因为公司内部组织结构的一些影响然后就没有办法做开源但我实际上非常喜欢开源的所以就跳到了一个我自己比较欣赏的公司就是汉英菲斯那我们一直是希望通过这个开源的力量让 AI 的这个能力储备到每一个人我最近其实看到了很多非常有意思的项目我觉得我最近看那个安德鲁克帕西的推特的时候就是他有一条推特特别打动我就是说
我们现在在研究所有的这些 AI 当然可以给我们作为这个提供一些情绪化的价值然后做一些陪伴什么的但其实它有一个非常非常重要的目的就是说当我们仰望星空的时候我们要做这个星际的这个探索那其实光靠人的这个能力是非常受限制的那我们有这个这个
就是大部分人类的这个呃躯体呢都要冷冻冬眠但是呢我们可以让机器来控制我们在这个漫长的星际旅行中啊就是保持它的航向那么这时候其实我们是需要让大模型在一个呃
非常稳定的这个环境下能够持续运转并且不出问题现在我们的所有这个代码其实我感觉就是很难保证这个要求我们经常遇到就是说哎这个这个这个线程死掉了那我们的办法也很简单我们就 control c 把它关掉然后重新重新开一个就行那这个里面有很多原因比如说啊他可能是因为 python 啊或者说他的代码写的不是工业级质量那安卓克白他他做一个项目叫 lm 点 c 那他的
目标呢就是说他用啊这种写切入式系统的这种方法来去写这个大圆模型的啊这些能力甚至包括训练的一些一些能力那啊把所有的比如说动态内存的调度啊把所有的这个什么啊一些呃动态的逻辑控制啊都限定在某一个
范围内让这个模型能够持续的不停的运转下去那这个就是我们可以啊把它部署在很多很关键的比如说生命维持系统啊与啊宇航啊或者是啊我们的啊无人驾驶的车里面啊我觉得这种项目就就特别特别有意思因为传统上我们一般讲这大约模型是啊非常 research 就是研究像的一些一些想大家主要的目的是让他能跑出来对我们
对它的最好的场景就是非常感兴趣但是随着这个技术的发展实际上当我们真正把大圆满星应用到每个人的生活的时候我们要关注的是它最差的场景它不能崩它也能够提供一些非常重要的价值我就是对这个项目特别感兴趣我觉得这个其实是一个标志性的
这个项目其实就是说我们已经把大元模型从实验室完全走出来然后目标是让他走向星辰大海刚才非常感谢铁针的这个分享每次铁针分享的这个呃这个项目我觉得都非常让耳目一新的确这个安全可怕死这个离开了 opena 之后感觉他更忙了
就天天不停的这个干视频干代码所以他的这个推特和这个 youtube 都强烈大建议大家去这个去去关注啊这铁证刚才也说的非常的非常的这个谦虚啊作为应该算是哈温费斯在国内为数不多的这个呃员工之一对吧我整个开源社区里面真是做了非常非常多的贡献包括
后面我们也会提到,其实铁针也在这个国际社区里面分享了很多,我觉得大家可能在整个国际社区上大家没有注意到的一些中国的开源的发展,绝对于整个整个行业,我觉得数量非常大。铁针你是哪一年来来 Hagen-Fest 的?我想应该也还比较早期,Hagen-Fest 这家公司作为一家开源公司,你觉得当时为什么会吸引到你?哦,
我其实很早就开始关注 HineFace 从他们最早的几波融资的时候因为我们当时在谷歌内部做一个跟 HineFace 非常类似的这种项目但是做的思维可能是有点不一样谷歌是希望说尽量用一个平台来展示它自己的模型 HineFace 作为一个中立的第三方其实在希望所有人在 HineFace 来发模型他想做中立这一点
他支持所有的这个 framework 就是不管是 PyTorch 啊 TensorFlow 啊还有 Sykinware 啊等等这些框架的模型他都希望支持然后呢他还是就是为这些开发者提供了很多基础的这个服务比如说现在大家觉得说我跑这个大模型我其实就应该很简单我就应该告诉他我这个模型叫什么然后 impro 一下这个模型然后为给他一些输入他就有一个输出这应该就是一些标准
其实当年并不是这样当年其实你要找一篇 paper 你要找他对应的代码然后你要 clone 下来要装他的所有 dependency 可能你这一套都弄完然后啊哎已经已经两三天过去了然后你再把这个代码跑掉发现啊不是你想要的啊再去尝试实际上当年是比较痛苦的所以 Hanging face 当年做了 transformers 啊这这些库之后其实蛮受这个社区的欢迎那我我也是那个时候就啊开始关注 Hanging face 在做的一些工作然后我实际加入的时候是 22 年底然后也是感觉比较幸运就是
我一加入人就是 open 呀就发个差别所以啊就感受到整个一波生成事业的这个红流就就就跟着往前走就还蛮开心的可能大家都把这个哈根费斯提供的便利这个就当的理所当然了当年的确是我觉得我觉得是一个呃是一个开创者吧好谢谢铁正好那接下来我们就听听这样给大家介绍一下你自己
Hello,大家好,非常感谢 Monica 的邀请。我叫林俊阳,我是通义前问团队的一名算法工程师,主要做大圆模型和动物态大模型的一些研究,并且现在是负责开源相关的事情。然后现在大家都看到 Cran 这个系列,然后应该
听众应该有一些我们的群友所以应该在群里可能会认识我然后我个人的经历的话其实我比较幸运我是 20 年的时候其实开始做大模型相关的事情当时我们其实就开始做百亿网上参数的模型
一直做到现在现在基本上就 all in Qwain 这个系列 Qwain 其实包括大语言模型大家比较熟悉的另外还有 BL 的模型就是视觉语言的模型最近看的比较有趣的一些开源项目 OpenUI 我觉得其实还有点意思因为做 OpenDevon 的原因对一些 Open 开口的项目其实都有些兴趣
OpenUI 是 WMB 那邊做的一個項目你可以通過自然語言去幫你點一些 UI 相關的東西當然它這個東西其實還做得比較早期但是因為認識 WMB 的人之前他們做博客節目也有些
相关的一些介绍我觉得他们其实还是挺有想法的然后有时候比如说我自己想写个什么 UI 啥的但我自己不太会我觉得如果真的有这种东西做得比较好比较稳定的话我甚至可能会购买这样的产品
其实刚才俊阳也提到除了这个通一切万之外俊阳也是这个非常也是另外一个我觉得非常有意思的项目其实也是我们前两期里面有提到就是这个 AI 程序员所以 SBA 就有一个非常令人瞩目的一个项目叫 OpenDevon 的核心贡献者也可以跟大家简单介绍一下 OpenDevon
OK,OpenDevon 其实这个项目的发起还是有一些幸运的成分,突然间就火了。因为那一天 Devon 刚发布,其实他的 demo 确实非常的 impressive。那天刚好跟我的同事在聊天,
我们说我们要不先发起一个 OpenDevon 这个项目刚开始初衷的话其实是因为我做 Quant 的原因嘛我其实想的是说如果我们将来有 Devon 这样的东西的话我们其实希望背后的模型
不是地缘的模型比如说像 GPD4 而是能够用 local 的 large language model 去实现这一些功能这个是比较原始的出种但是在开源社区发起之后其实就有很多的人参与进来这个项目就发展壮大的速度就非常的快工程相关的东西的话就有很多非常热血的开源的同学就把它给建设起来
现在的话其实我们基本上像 UI 还有一些基本的功能的话都是比较齐全的现在的话我们也有相应的 agent 在 Suite Benchmark 上面的话最新的昨天晚上的话我们其实达到了 25%的通过率其实效果暂时来看的话还可以我们接下来下一步的话其实还是让它能够在真实的场景当中解决
我们日常真的会应用到一些问题而不是去只是呃去测一些 benchmark 呃所以接下来也敬请大家期待我们后面的发展就是现在这个项目还比较早期啊在 open source 里边在整个 stack 里边各个层级的其实都可以去开源应该算是呃代表应该算是应用层的一个也开源吗跟今天我们聊到的 lm 和这个 infra 的开源都会有些不一样好谢谢俊阳呃想问一下想问俊阳一个问题
就是千问的英文名字已经证实是困了是吗因为我一开始听到困的时候还以为大家在就是说那个那个困的那个词所以现在其实已经听起来不是去问了是不是就是就困了是吧那最后呃卓涵感谢 monica 邀请大家好我是李卓翰我目前是加州大学伯克利分校的学生我研究的领域是机器学习系统
在这个领域我们通过系统优化来提高机器学习算法和模型的执行速度以及我们会研究如何做更大规模更加高效的变形执行等等一系列的问题在过去一年半的时间里面呢我和我的实验室的小伙伴们一起创建了一个叫做 BLM 的开源项目
VRM 是一个大语言模型的推理和部署的引擎然后 VRM 包括了一系列的优化技术比如我们首先提出的 Page Attention 算法以及像是其他的比方说 Continuous Spatching, CUDA Graph, 模型量化,模型并行, Prefix Caching, Speculate Decoding 等等一系列的技术并且也包括很多我们为推理 Customize 的一些 CUDA Kernels
这些技术一起提高了大圆模型的推理速度和吞吐量使得我们和直接使用 Hugging Face 上的模型做推理相比能有大概一到两个数量级的吞吐量提升除此之外 VLM 和 Hugging Face 社区也是紧密集成的我们支持一键部署 Hugging Face 上的多数主流的模型就比方说像 Lama,Mistro 以及之前我们提到的 Qianwen 等等一系列的模型
然后在做这个 VLM 开源项目的过程中,最让我兴奋的事情是很多人以及很多公司都有使用我们的项目来部署自己的大模型。然后作为一个开源项目,其实想要具体知道谁用了我们的项目不是一件特别容易的事。但是也有很多公司来主动联系到我们来反映一些他们使用到的问题,或是给我们提交一些 pool request 来加入一些新的 feature。
然后我们所知的各种云厂商比如说 AWS SageMakerGoogle Cloud 的 Vertex AI Service 以及 Oracle Cloud 上的 LM Service 背后都是用了 VLM 以及我们在微软 Azure 云上也是默认的推理引擎然后我们在比方说像苹果 Databricks IBM LinkedIn Roblox Snowflakes 等等一系列公司都有部署
刚刚主持人也问到了最近关注的开源项目然后最近我特别关注的一个开源项目是 OpenDev 也正好今天俊阳在这里我关注 OpenDev 的主要原因是随着 VLM 在推理优化方面的持续进步我们认为这种 general 的针对所有 task 的推理优化会变得越来越少
所以我们觉得有必要进一步利用来自于这种应用层面的信息来提供特定于具体应用的一些优化 OpenDAV 是一个足够复杂但又是一个非常有用的一个 agent 框架它会非常多次复杂的调用大语言模型这为我们在推理引擎方面的优化提供了更多的可能性也有很多这种 research 的机会这个就非常有意思我追问几个问题你们当时怎么想到做 VLM 的
2022 年年底在 ChatGPT launch 之前我们在学校里面 setup 了一个大语言模型的 demo 当时 server 模型还是 Facebook 的 OPT175B 这是一个非常古早的一个模型然后我们一开始 setup 这个 demo 的目的其实是为了宣传我们之前的一个开源项目 Alpha ALPA 是一个自动做模型并行推理和训练的一个研究项目
但是在部署这个 demo 的时候我们发现我们的 demo 会特别特别慢并且 GPU 的利用率也非常低这时候我们就意识到大圆模型推理本身是一个值得关注的问题在当时市面上应该也完全没有任何专门做大模型优化的开源系统所以我们就打算自己做一个
然后我们在做到一半的时候发现大模型在做推理的时候,GPU 的 memory 是一个非常大的瓶颈因此我们在多次迭代之后提出了一个新的 attention 的计算方法,PagedAttention 来解决这个问题我们利用操作系统里面的 Paging 和 Virtual Memory 的技术来管理 Transformer 里的 Attention 操作里用到的 KVCache memory
我们发现这能够比之前的 State of the Art 提高大概 4 到 5 倍的内存利用率,以及最后我们能够有大概 4 倍的吞吐量提升。然后我们大概是在 2023 年的 2 月份左右开始把 Page Attention 作为一个 Research Idea 来实现,并且我们开始写 paper 并且 build 这个 Research Prototype。
这个 research prototype 也就是后来的 VRM 大概到了 4 月底的时候我们把论文投出来了然后我们大概又花了两个月的时间来 polish 我们的 open source code 让它能够比较方便的能够立刻使用起来能够 easy to set up 然后大概在 2023 年 6 月底的时候我们 release 了我们的 open source project 后来我们也非常幸运能够有很多人使用我们的 project 然后我们也一直很积极的维护到了今天
二本可以跟大家简单解释一下是不是一个这个推框架对于对这块不是那么了解的同学大家都知道训练一个大模型是一件非常困难非常昂贵的事情我们经常听到像万卡集群之类的词但是其实在一个机器学习模型的整个生命周期里面就在训练完成之后部署这个大模型的成本才是真正的大头
背后的道理其实也很直接因为训练模型的时候我们总共就只用训练一次训练完成就结束了这是一个单次的支出但是在部署的时候一个大模型需要一直接受外部的请求这个也让部署变成了一个长期的成本所以为了降低部署的成本在部署机器学习模型的时候我们一般会做一系列的优化来降低这个
推理的成本比方说像是做一些模型的量化比方用低精度来做一些计算以及像是需要准备一些专门为推理优化的一些 Kuda kernel 之类的然后因此我们会需要一个专门的推理系统或者说是推理框架来做这些推理时需要的优化
然后在这些优化当中一个非常重要的优化是 batching 也就是说我们把很多个请求合并成一个大的 batch 然后来一起为给 GPU 来执行这样子我们就能够有更多的请求被并行处理也就能够提高 GPU 的利用率
而对于一个比较传统的机器学习或者深度学习模型来说比方说一个图像分类的模型这个 batching 其实是比较简单的就先来的请求可以先等待一会儿然后等足够多的请求来了之后我们可以把这些请求都 batch 在一起然后再一起位给模型来跑
但是对于一个大语言模型 LAM 来说 batching 就变成了一件比较复杂的事情因为大家用过 chatgpt 或者任何其他大语言模型都知道他们的输出都是一个字输出的而这个特点会给 batching 带来两个问题
第一个问题是说对于同一个请求来说我们需要不停的调用 LM 来生成下一个词而这整个过程其实是一个会变得非常非常长然后如果一个新来的请求要等到上一个请求完全结束才开始就会等待太久的时间
解决这个问题的办法是 Continuous Batching 具体来说如果前一个请求在执行到一半的时候来了一个新的请求我们会在前一个请求执行的过程中直接加入新的请求来避免等待
第二点是说即使我们有了 continuous bashing 不同的请求仍然会有不同的输入和输出的长度因此他们在推理的过程中的内存占用也会经常的变化导致很多内存被浪费这个也是我们刚刚提到的 page attention 解决的问题我们用操作系统里面的 paging 的方式来消除这种内存的浪费
总的来说就是大模型的推理系统就需要做一系列的优化来提高推理的效率从而降低这个推理的成本 VRM 整合了我们刚刚提到的所有的这些优化的方法所以因此和直接用 Hugging Face Transformer 相比我们能把推理的成本降低一到两个数量级 VRM 已经是这个行业表面变成了一个 best practice 铁站有什么要补充的
啊对那个谢谢周涵介绍我觉得 vrm 是一个就是特别牛逼的这个项目然后我其实是是这样看的就是从去年初然后拆 gpt 出来然后当时大家都在说哇这个东西啊好是好就是太贵了但是我们看到现在这个 deep seek 已经把 100 万的这个 token 的价格降到 1 块钱价格的这个下降啊可能有百倍的这个提升然后啊
我其实一直很好奇说这个百倍的提升到底怎么拆解啊是就是呃他这个提升主要的这个原动力来自于呢然后我知道像 flash attention 啊这种呃技术肯定是对他有很大的帮助但是我好奇从比如说大家直接拿这个 pison 的 transformers 推力
升级到用 VLM 这种专用的推理引擎加上 KT Cache 然后这种去推理这个中间的一个性能的提升我不知道你们有没有做过测量就是有多少提升是就是大家从原始的 Python 推理切换到 VLM 带来的这是一个非常好的问题我们最一开始发布的时候我们和这个就是直接使用 Hugging Face 比较我们大概能有一个 24 倍的一个提速而这个里面大概有
有这么几个技术吧第一个是我们叫做 Continuous Batching 的技术这个 LM 大家使用的时候知道就是每个用户的输入的长度会不一样然后每个用户输出的长度也这个 LM 输出的长度也会不一样然后如果我们就是按照以前的方法把不同的这些 LM 的输入和不同的请求给 batch 在一起的话我们会得到很多的 padding
这些 padding 会非常影响我们这个执行的效率然后因为这些都是浪费的计算然后然后 continuousbashing 做的事情就是说如果我们能够把 bash 当中移出来然后每当有一个新的 request 进来的时候我们可以把它加到这个正在执行的这个 bash 当中去能够让这个
这个执行继续下去而不是说一个新来的一个 request 需要等之前的这些 request 呃全部结束才可以开始执行然后这一个技术本身能够可以带来大概 8 倍的一个效率的提升在有了 continuousbatching 之后我们会发现每次即即使做了 continuousbatching 每次能够 batch 多少 request 是被这个内存也就是我们所说的这个 kvcash 呃所高度的这个限制住的因然后我们会发现有很发现在之前的很多系统当中很多的
KVCache 的内存其实都是被浪费掉的因此我们也发明了一个新的 technique 叫做 Page Attention 然后 Page Attention 这个 technique 能够帮助我们更好的利用之前的这些 KVCache 的 memory 然后能够让我们在每一个推理的过程当中能够 batch 更多的 request
这使得我们能够再进一步的提高大概三倍所以我们当时的 24 倍大概是这么来的推理的过程当中还有很多更一般的针对于推理模型的优化就比方说我们可以换一些针对推理有些更快的一些 Kuda kernel 然后有一些其他的一些各种各样的系统上的优化比方说做一些 Fontization 这可以能够再提升比方说 4~5 倍然后这样子我们可以到了最后可以比
就是用现在的这些推理引擎和直接使用一个 PyTorch 模型做一个简单的推理可以达到一个 100 倍的加速了解了解多谢我觉得这是非常重要的工作这个 Portable price 降下来我们就是各种应用啊包括 OpenDevon 这种才能实际的就是被大家用上对非常感谢
谢谢铁针,后面本来我想提这个问题,正好你就帮我问了,所以这个找对嘉宾很重要。其实我是想代表 Q&A 的话,官方感谢一下 DLM,因为如果没有 DLM 的话,其实我们国内外影响力没有办法把它做大。DLM 其实尤其在我们 Q&A1.5 开源的时候,还真的帮了我们非常多。现在的话,基本上我们默认推荐给大家做推理部署的都是 DLM。
我去年到今年接触了比较多的客户他们基本上用开源模型的话尤其用我们的模型都是会选择用 BLM 来做部署就如果玩大语言模型的小伙伴没有用过 BLM 的话一定要来试一下
正好从这个镇阳你们算是这个使用者的角度可以聊一聊一个是说 VLM 解决了大家的什么问题那之前大家是怎么去处理这些问题那另外一个就是说那你觉得同样是用 VLM 来做这个来做这个推理那国内跟国外的做法有什么不一样吗因为我想你们的社区里面应该两边都可以看到
这是个很好的问题我用更直白的方式来表达尤其是我们 Cran 第一代的时候的话我们很多用户在跑我们的模型的时候经常会反馈说各种很慢很不方便这类的问题
但是一般他们用 VRM 之后最直观的体验就是它的速度非常快而且的话就是一般来说你要选择去部署你的模型的话一般确实是需要一个推理部署的框架 VRM 也好 Honeyface 的 TJI 也好都是非常不错的框架 VRM 的应用性的话对比较多用户来说
用起来比较方便因为它学习成本相对来说比较低所以我们很多用户其实都实际的就在用 BLM 部署然后做一些小的应用直到我去走访一些客户甚至是一些相对比较大的企业其实他们自己内部的话都会去使用 BLM 来作为他们的部署因为他们自己有比较多的机器去 serve 大圆模型这时候的话选用 BLM 的话是一个
非常不错的选择当然有一些大股市可能自己去开发可能能把性能做得更好
但是对于绝大部分公司来说,单元模型可能只是它业务当中的一个部分,它不是 all in 在这上面。那这时候选用 VLM,它的性能也相当不错。国内和国外的话,我觉得其实状况都差不多,因为在国内的话,用 VLM 的我见到的是比较多的。当然也有一些的话用英伟达的 Tensor RT LLM。
上海股江的话那边也有一个比较不错的但看起来的话还是比较让你的用户量会更大一些前面卓涵提到说像 OpenDevon 这样的这个应用你会期望它对于你们的帮助会比较大你可以进一步跟大家 elaborate 一下吧就是为什么会觉得像 OpenDevon 这样的这种应用它有什么特点对于你们来说怎么去选择一些这种优化的这个方向为什么它对你们会是比较有帮助的
我是一个 PhD student 所以我们可能更多想看接下来的这个研究的方向在推理这一步在我们比方说在 VM 完成了我们现在想要做的这些各种各样的优化之后那在接下来的未来我们怎么样能够进一步提升 LM 推理的这个 performance 我们觉得这个
比方说如果就是给我们一个一个 transformer model 然后在一个理解 GPU 上面跑然后如果是面对一个 general workload 如果我们对这个 workload 本身他没有没有什么这个 information 的话那我们能做的优化其实是非常非常的有限的然后这些优化我们可能我觉得我们整个学术界大家都已经 explore 差不多了我们需要做的事情是把这些优化更加有机的整合到一起然后但是如果想要在这些优化优化之外再进一步的话那我们需要做的事情是
你可看这个比方说我们一个 specific applicationspecific use case 它有哪些特点能够给我们所使用我觉得 open dev 本身是一个非常有意思的一个 use case 首先它是对一个 lm 的一个非常复杂的一个调用就是你不光是简单的比方说跟他
一问一答甚至甚至他超越了就是 multi-round conversation 你是比方说你会先进行几个和一个 agent 进行几个几轮对话然后你再会和一个环境交互然后你的环境会给再给你一个 feedback 然后你再通过这个环境的 feedback 你再喂给另外一个其他的 ll 然后我就觉得这个和这个 ll 和这个 ll 有这种非常复杂的对话可以我们可以把这些这个对话的这个
information 来告诉我们的这个后端的推理引擎就比方说 ok 我们接下来在这一轮对话之后我们会知道这一轮对话的结果会马上 feed 给另外的一个 software engine 然后这个 software engine 来执行完了之后会马上再去 query lm 那我们在推理引擎当中我们可以提前能把上一轮对话的结果给 cast 到推理引擎当中然后在下一轮对话下一轮结果来的时候我们就可以重新利用之前上一轮推理的这个结果来做下一轮的预测而不需要
整个重新开始这样子可以让我们的这个 LM 推理的效率进一步降低然后也是大家使用的这个成本进一步的降低那其实像去年也出现了像什么 AutoGBT 什么 BabyAGI 那些需要一系列推理的这种 agent 的框架就是我好奇这个像 OpenDevon 这样半年前我们遇到这些它的需求会有什么不一样
对我的感觉是 Open Devon 在我看来是一个更加成熟的一个 agent system 就好像我觉得当年的这个 auto GPT 可能只有一来一回然后但是这个 Open Devon 可能会有更多的一个这个不同的这个 environment 的交互可以有一个更加复杂的 use case 然后我觉得 Open
呃我其实个人还是非常喜欢 open devin 的这个背后的这个 open source community 然后我觉得他是一个非常 a serious group of people that is actually working to build a great product 所以我觉得在这个呃这个前提下我觉得 open devin 是一个非常吸引我的一个项目对俊阳可以参加不说呃可以啊
AutoGPT 其实我们去年有关注它像一个老板我发送一个需求然后它就把多部整个推出来他们的社区其实也很活跃但是 Agent 这种框架维护下去其实往往大家会发现说
这个 agent 好像没有达到真实可用的程度所以慢慢大家用的就越来越少整个热度它就下来但是会有层出不同的 agent 框架出现那今年的话其实 Devon 的出现就是一个很好的例子今天虽然大家都在谈 agent 但是说起 agent 的例子好像也就拿出 Devon 是比较 impressive 的一个 case 其实我觉得
这个 agent 他会更加明确一些我就是在解决 coding 相关的问题举一个例子比如说像这个 Sweep Edge 里边的话我是根据这个 issue 然后去写这个 call request 然后去解决这个仓库的这个问题
我觉得他更加聚焦之后,他把这个问题定义的相对来说会更加清楚因为刚才卓翰也提到了 Open Devon 的一个特点就是它其实是一个多轮交互的过程我们需要解决一个代码相关的问题的时候首先,这个 agent 的话先做 planning
Planning 的意思就是说,我先想我大概要做哪些步骤,我大概要干哪些事情。接下来的话我就一步一步去干。我通过这个 Large Language Model 把代码写出来,写出来之后到上海环境去进行运行。运行之后的话我就会有一个观察,然后根据它返回来的内容的话,
进一步的去做下一步的决定所以它其实是一个多轮交互的过程我觉得这个给 VLM 带来了一些新的挑战因为在 A 准这种场景多轮对话
的过程当中其实有很多东西是有办法给 cash 起来去降低我们的成本的我举一个例子我们现在在测这个 SuiteBench 其实是非常痛苦的一件事情因为它真的非常昂贵因为我们现在的 agent 的话它背后的 Logic Language Model 是用 GPD4 目前绝大部分的开源的模型的话还达不到相应的水平能够做好 agent 这个工作
那 GPT-4 它其实就很贵因为我们是多轮的对话比如说我第一轮我就把这个信息传进去然后第二轮的时候的话我又得把我这个历史给它传进去所以其实我们整体使用起来的话非常昂贵评测一次的话都得用上几百刀所以如果说必要能帮我们把成本给打下来
然后我作为开发 CREM 的成员当然也希望有更多的开源的大模型能把水平做到 GPT-4 level 那我觉得 OpenDev 应该能发展得更加迅速
我觉得就是像 OpenAdevin 这样子的 agent 的应用可以给我们主要带来就是两个优化的点第一个就是说 preface caching 就是像比方说它是一个跟一个 LM 进行多轮的对话所以我们可以知道比方说前面
这一轮结束之后我们下一轮就要使用然后我们可以立即我们可以告 OpenDVD 可以告诉 VM 我们前面这一段对话需要被 cache 下来我们可以直接呃在在像俊阳刚刚说的我们要进行下一轮调用的时候可以可以就是直接重新利用之前算过的这些结果不需要重新的计算可以节省这个成本第二个点就是说对就是俊阳在 OpenDVD 里面你的多轮对话其实是受控的这一点和比方说一个你 serve 一个普通 chatsable 都不一样就假设你好像要 serve 一个呃
一个普通面向人的 chatbot 你是不知道那个人在下一个是在什么时候多久之后才会给你一个回复但是在 open dev 里面这个你你下一轮对话的什么时候回复是一个非常可控的事情因为你是在做一个和一个 software 交互然后和这个 software 交互的时间你可以高概率你是能够提前预测这个时间的然后我们可以利用这个这个时间差然后再做一些这个我们在这个 scheduling 上的一些优化然后我们可以可以能够达到一个更更快乐的一个更更高的一个效率对
其实我还想问一下俊阳和卓环就是刚才我们聊到其中有一些技术可以支持这种 agent 但是现在 GPD4 它的这种 API 提供的方式是说你每次都要重新计算就算你这些 token 就是要被重用但是你下次把它扔过来的时候还是要重新按照同样的价格去算钱然后我看到推特上也有在说这个 Gemini 将要支持这个 Context Caching 这种技术我不知道说这种技术就是
你们有听过吗或者说有了解吗这个基础它跟 perfect sketching 就是会有一些相似点吗从我的角度来看的话我其实更关心 Gemini 的厂序列的能力
因为刚才提到 OpenDev,实际上它是在做多轮的交互它的 context 的话题其实会非常的长嘛所以当初用到 Gemini 的话其实是关心这个点我还没有具体去了解它的 context caching 它是怎么去做的但我知道他们确实对 agent 方面的话会去做相关的优化 Gemini 非常关心 agent 相关的内容最近不是也有像 Project Extra 它的 demo 的话其实也
我之前看开源社区的话可能会对 agent 相关的以及跟 deployment 的结合可能是 sglang 这个框架会在这个前端后端的话都会去做一些相关的工作让推理部署的话跟 agent 这种类型的东西更好地适配在一起
是的,其实这个 preface caching 也是一个我们在 VLM 里面现在非常关注的一个内容,其实我们最近也在写一个 blog post 来想要讲一讲我们关于这个做我们如何做 preface caching,在 VLM 如何做 preface caching 的事,对。给大家简单介绍一下这个什么是 preface caching,然后为什么接下来你觉得是一个比较重要的一个工作?
我以为 prefix caching 是避免那个重新 prefill 的那个时间然后因为你可以把之前啊那个已经输出的东西都都进入下来然后第二次就不用 prefill 之前特别长的一个一个 context 但是我感觉我可能我是不是理解错了
对我觉得其实可能不光是 preview 就是即使你是像多轮对话这么一个这么一个情况你还是可以就是比方说把第一轮对话的 prompt 以及第一轮对话 lm 输出的这些内容再加上第二轮再加上第二轮对话的当当你第二轮对话 user 输入一个新的时候你其实整你之前第一轮对话的全部的新 context 就包括之前第一轮对话的这个输入的 prompt 以及第一轮对话输出的这些呃
这些 tokens 他们所对应的整个的 kvcash 你都可以在这个你的你的 memory 当中开始起来然后在下一轮然后你在在接下来开始在第二轮对话的时候你可以直接从第二轮对话的 prong 开始计算而不需要把之前的所有的这个第一轮和第一轮的这个之前所有的这些 context 来做一个
对一个 caching 刚才聊到了几个话题我觉得都是跟这个呃都是跟这个 agent 相关而且我们的确也看到了我最近正好这个 gemini 还有这个 openai 的发布会上我想一些呃一些跟开发者的这种 apr 的一些更新其实我想也会越来越多的出现这个跟
呃 agent 相关的这个这个能力啊问一下俊阳在你看来现在的这个 lm 不论是他这个 foundation model 本身的能力还是说周边那个生态也好啊就是对于做啊 open diamond 这样的呃这样的 agent 项目你觉得你可能在过去半年你觉得已经呃这个这个帮大家解决的比较好你觉得还有哪一些接下来你是希望看到整个生态能够去补全的一些 gap 的
就站在 OpenDev 的角度来看,我觉得可能只是一些别的 agent 相关的一些东西,任务解决的还行。比如说一些简单的,他有一些做像 summarization,然后写个 report 之类的,他们自己做的这种 agent。就比如我之前关注的像 Crew AI 的这个项目,他最近也上了文达的课程。
他会教大家去做一些简单的 agent,然后应用到我的一些落地场景。但他其实本质上做的一些任务的话并不复杂,比如说就是做一些摘要、翻译,还有一些文字的一些创作和生成。在推特上的话其实也有一些人专门是帮别人做这种写作的 agent。
能让你写出比较生动的文章小说它其实背后的话其实就是 Prom Engineering 我觉得这种其实做的还好但是如果你看像 Coding 这种场景今年 Coding 真的是非常火 Coding 这种场景的话如果你只是简单的做 Prom Engineering 的话你是很难解决实际的问题的这也是为什么说 Devon 它虽然仅仅只是一个 Demo 但是大家会看到它真的是帮助大家真实的
在我的场景当中用起来了比如说机器学习的工程师他可以用它去比如说举个例子比如说就用 VLM 去部署模型比如说我现在是一个 VLM 的小白
然后我对 Large Length Model 的推理的话完全不了解我使用起来其实是有些问题那如果这个时候的话我能够通过 Open Devon 然后我去问他说我想吧
Hiding Face 上面的某一个模型,比如 Quad,部署在哪哪,这个时候的话,Open Daemon 能帮我解决,我觉得这会是一个很有意义的事情。所以,今年我觉得这件事情还是挺有可能发生的。就是因为我们现在用 GPT-4 的话,然后再配上 Open Daemon Agent 的框架的话,已经有
一些迹象说明做到这件事情可能并不是太远我觉得至少过两三个月的话应该就能够看到说以后比如说一个前端的工程师然后这时候我就问 Open Daemon 然后这个怎么做然后帮你做一个前端出来机器学习的工程师比如说今天我想 fine tune 一个模型这时候我就通过 Open Daemon 说 I would like to fine tune my modelI would like to fine tune when 这个时候的话
Open Devon 帮你把这些事情给做完然后最近我其实跟 AutoAWQ 的作者还比较熟然后他非常关注 Devon Open Devon 他自己也是 Devon 的内测的用户然后他其实就经常去问 Devon 说
我怎么把我一个 BF16 的模型就现在大部分开源的模型它其实都是我们谈 BF16 就是在谈这个模型的精度然后希望把它量化到更低的精度这样的话它的
部署成本会更小,AWQ 就在做这样的事情,然后他就会去说我怎么把我的模型给量化,然后他自己的代码库有不少的 issue,然后也希望说 Devin 你能不能帮我解决我这个 AWQ 这个代码库的问题。我觉得这些都是在真实的帮助大家,所以今年我觉得 coding 是一个非常火热的方向,也是非常值得大家口诺的方向。
我觉得如果说以后要有更多的公司我就要开始去打更复杂的像 OpenDevon 这样的这种 agent 产品的话你觉得现在你看到这些开发工具你觉得可能还有哪一些这个需要可能不足的这个地方你觉得还有哪一些可能是需要希望能够看到这个社区里边能够这种工具的层面能够弥补让大家能够更好的更容易的去做更复杂的 agent
这个问题我一时半会还没有一个很完整的答案因为做 Open Daven 这个事情很多人我们在这里面 rush 的非常快需要的东西真的非常多我举一个例子吧如果你想做出一个好的 agent 你肯定少不了
好的评测因为如果你都没有合适的评测的话我只是一些 demo 其实是没有意义的大家在真实场景当中的话不知道怎么利用它解决问题也不知道它的稳定性是怎么样的那么我们其实就找了不少的评测但是
目前看下来可能也就 SuiteBench 但是 SuiteBench 的话呢这个评测其实做起来其实是比较痛苦的一件事情就是你需要做比较多的工作让这个评测才能把它给跑起来所以我们其实是希望能有一些工具比如说它就是能做一些评测的服务这样的话
研究領域的人員比如說現在的 NLP 的博士或者是做 Agent 相關的博士他們能把更多的精力放到 Agent 方面的創新而不是在一些其他的問題上面
花了太多的时间其实不仅仅是工具了包括这个数据环境也好一个好的评测以及配上稳定的评测的服务所以我们现在其实也会跟比如说像 e2b 去进行一些合作他们会去支持我们未来的话会希望说这个评测服务的话在云上稳定的运行将来的话研究界的人员
创新了一个好的 agent 我在我自己本地稍微试一下我觉得他还不错那我就放到这上面提交上去就可以做这个测试另一方面的今天大家想打造好的 agent 的话大家其实不希望这个 agent 它其实是非常昂贵的因为大家做应用的话还是希望成本能够降下来所以像
推理策或者是其他的一些相应的一些框架刚才提到的如果能提供一些比较好的支持的话配合当前的 Large Language Model 就是开源的大模型的发展的话我觉得会做得比较好一些开源的大模型的话我觉得现在距离它完成好这些任务
还是有一些距离的那即便是闭源的模型的话像 GPT-4 像 Cloud3 Opus 它其实也有不小的距离所以我们可能最近在想说我们能不能自己去构造一些合适的数据因为这个 domain 的话相对来说还是比较小如果我们能构造一些
合适的数据去 fantune 这一个模型让它在某些场景做得比较好比较稳定那我觉得企业可能就可以用起来所以 fantune 方面的工具的话也会是我们比较
需要的支持主要还是数据因为今天反正其实是相对来说比较简单对因为我看到你在另外的一些这种分享中也提到了多模态 agent 的作为未来一个趋势越来越多大模型是什么越来越强多模态能力能跟他讲讲要做一个多模态的 agent 可能他又会面临哪些挑战吗那
那在 coding 这样的场景多摩泰的能力有可能给我们又带来哪些想象空间我觉得这个问题非常好因为我们团队非常非常关心多摩泰我这里指的是 Qwain 这个团队因为 Qwain 这一边的话其实做 Large-Length Model 其实只是第一步然后我们其实做 Qwain BL 尤其是 Qwain BL Max 的话效果还不错
我们现在其实看到的是一个 agent 的话如果你仅仅只能看到代码和文字相关的信息他所做出的决策他不一定是最优的他往往需要看到这个物理世界的这个信息然后才能做得更好我想到一个例子是跟手机比较相关的一个例子
就是今天如果我做一个多模态 Agent 的话其实我们希望这个 Agent 能帮我们干什么呢比如说它可以帮助我们去操作我们的手机屏幕那我就可以用自然语言的方式去进行交互其实这是一个很好的 idea 因为在 Google 的 demo 当中的话我们其实也看到它其实可以去帮助视障人士就是忙的人的话它其实可以通过自然语言交互的方式的话去使用手机这是一个非常好的事情
这里的话,这就需要他对多模态的理解,毕竟手机屏幕上的操作,他其实看到的东西才是最直观的。之前有一个客户跟我提到一个点,就是说,你如果输一段复杂的代码进去让模型理解的话,模型其实也会很难理解,就像人一样,比如说今天,
互联网的产品,这个移动端的这个产品,它其实经常做出很多功能上面的这个变化,然后界面也会发生很大的这个变化,但是人总是能够看得懂,它的代码的话可能已经变得非常多了,但是人不管变什么样的颜色,不管变什么样的 logo,人就知道该去干什么样的事情,我们希望,呃,
能够通过 VR 的能力的话让 agent 能够实现这一个点我就直接输入图片输入我的录品然后模型就可以根据我看到的东西去做出正确的决策我觉得这个才是最直观的方式不然的话如果你都是以输入代码的形式去做的话一方面你的
序列会非常长另一方面的话这个事情非常不直观也是给 Foundation Model 本身带来了过大的挑战接下来的话大语言模型肯定不仅仅只是大语言模型接下来的话整体的趋势就是一个大一统的这个趋势将各种模态各种任务都统一到同一个模型当中去我觉得今年的话如果能够把 VL 和 Agent 结合起来的话我觉得 Agent 的能力能够更上层楼
记得俊阳一开始也有提到有一个 UI 生成的工具其实我觉得把 OpenDevon 和视觉的 VL 的模型结合起来其实用来创作 UI 是非常爽的比如说就拿俊阳刚才说的手机的例子其实大语言模型是
不会理解到他写的代码的设计体验用户用起来的体验是什么样子如果能给他一个看到最后的图片然后他能够想象到和我们的需求有多远然后再去有一个 feedback 去不断的去调整他的代码以至于他最后生成的产品他的使用体验和用户要求的使用体验非常一致我觉得这种对于代码生成的质量
也会有蛮大的帮助的对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对 对 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既 既
模型来做一个评测肉眼看一下说你这个生成的这个代码的 UI 组件的样子和我的诉求是不是一样的
其实在去年初的时候这个 Transformer 作者之一出来做那个 Adapt 那家公司其实他展示的也是这种就是在这个 GUI 的界面上去做操作的这个这个能力那那我们其实现在看到那一类的这个这个工具好像呃这个落地的还不是那么多那是不是也许就是因为呃过去这一年这个多摩泰的这个能力还不足以支撑我们刚才所描述的那种场景
对,Azap 他们做的是忽有那个系列的模型他从学术上来说是蛮不错的一个设计但是去年多么太,其实直到今年吧
现在最好的当然是 GPT-4D 即便大家跟 GPT-4D 比较接近你会发现 4D 的效果还是距离实际应用还是会有些远因为多模态模型所带来的幻觉其实是远比大圆模型要大的它往往很多事情认不出来而且现在的
多模态模型的幻觉程度我可以用一个例子来说明吧尤其是跟实质性相关的一些信息比如说今天有一台汽车它是什么样的品牌这个时候的话如果你的多模态模型你把它给认错了其实是会给
客户带来非常大的损失所以今天要解决的这些问题其实都非常的难包括落到这个模型对图片信息上面的理解的话对于一些小物体及细节的一些信息因为图片的信息往往其实都比较复杂
这上面的话会有一些非常细小的一些文字还有一些检测当中的话比如昨天有一个客户跟我提到说检测落叶的一个问题然后我们的模型就没有办法把非常模糊的这个落叶给它检测出来这个时候其实对
你实际的应用的话都会造成比较大的影响从我的角度来看的话我觉得大家还是要更加关注 Domotek Foundation Model 本身的能力的提升我觉得现在还是比较远的今天大家都会提说 GPD4 已经非常不错了大家非常清楚的瞄准说如果我今天能做一个 Large-Length Model 达到 GPD4 Level 我就已经在很多场景当中能用上这是自然远的场景
但是在多姆泰的这个场景当中的话目前我的直观感受是大家觉得 GPT-4V 距离可用还是有非常大的距离讲到这个我就多补充一句其实
去年代我觉得还有很多讨论说啊这个做模型的公司这个要吞掉多少要吞掉多少应用对吧但其实我们看到即使啊即使在模型能力有了很大的一个呃提升了你会发现从一个很好的一个模型或者模型能力上的提升它转变到一个呃
一个应用场景一个更好就更好的一个实现其实中间有很多很多事情有产品相有这个模型相关的有工程相关的也有这个呃 UI UX 设计相关其实是很长的一条一条链路所以我觉得呃所以我觉得今年吧我们会看到很快看到很多这种多模态能力上的提升但我觉得其实应用测呃仍然有很多我觉得值得很多工作也有很多值得期待这个地方在
在这个 agent 这个这个话题我就多问我的多问你从啊去年我们就看到很多这种 agent framework 呃大家怎么看待这个事情为什么去年会有那么多 agent 的 framework 那都最后真正要呃真正要用起来到底我们需要的是一个怎么样的呃
agent framework 这个东西应该是由一个大模型公司来去做的吗还是说你们觉得做应用的公司或者甚至一个第三方来去完成这个事情社区的角度来说就是大模型公司现在大模型公司基本上要么是大厂或者是明星的创业公司我
我我觉得其实可以把这种机会留给更多的创业公司或者是开发者群体首先这个领域的想象力非常的大然后可以做的事情也非常的多另一方面的话呢它相对来说呃
不太好资源因为很多时候的话大家是使用 API 就能把这件事情给做起来所以我在国内也看到很多很不错的开发者他自己去做出一些 agent 的框架也还真的去帮助到不少的用户那包括这个 MetaGPT 以及是 Bizer LLM 其实他们的 agent 的话都是可以帮到不少的人
我觉得这件事情是一个数月有专攻的这个事情因为在大模型公司里边的话呃的算法人员主要是呃比如说是 nlp 的 phd 他专注于说我怎么把这个 lm 的效果提升呃
有一些可能会涉及今天还会有人在做模型结构的一些优化然后怎么训练怎么构造我们的 Post Training 的数据我觉得大模型的公司应该去关注这件事情把模型的效果给提上了然后大家基于你的模型上面去做应用和开发
然后应用和开发的话呢它其实是整个社区的事情因为其实会有很多你想象不到的天才就在民间他可能并不是博士他可能其实就是呃
普通的一个开发者但是他对这一方面很有想象力他 prompt engineering 的手感非常好然后他的开发能力也比较强那他就有可能做出比较有趣的一些成果出来所以我觉得这个机会的话其实是留在开源社区里边我比较期待开源社区以及是一些应用型的创业公司的话做出比较有趣的 agent 出来
我觉得我的理解的话 agent 其实分两部分一一部分是呃就是大元模型本身对吧你这个大元模型怎么样能够让他能够更好地 apply to agent workload 这个也是俊阳刚刚说的大模型公司需要做的事情我觉得另一方面本身就是要给 agent 提供一个环境我觉得这个事情本身是一个非常适合 open source community 做的一个事情就比方说我要去订一张机票那我怎么样能够把这个订一张机票这个 environment 提供给这个大元模型然后比方说像还有一个这个
比方说我想要再跑一些代码那些代码可能会代源模型可能会生成错误的代码它可能会比方生成 RM RF 然后把你整个系统给删掉你怎么样能够把做一个像一个 container environment 然后让这个代源模型能够安全的在这么一个环境里面跑我觉得这是
这个环境这部分本身肯定我觉得不是这些大元模型公司的一个特长我觉得是更多的是像开源社会有开源社区的一些有很多能够在这边做的事也是很多这个很多机会在这边对我觉得这个事情可能还要再往后退步就从更大的一个角度去看就是说未来到底是一个更开放的生态然后每个人每个企业做自己最擅长的事情各司其职比如说做模型公司像周涵说的就是他可能你的公司的文化
凝聚在一起就是非常研究向的这种风气然后所有公司的资源都是在为了这一块来服务那他可能能做出非常好的模型但他不一定有各行各业的 know-how 他不一定有开源社区这么多的巧思把这些 agent 的设计的天才呢就是放到
就是另外另外一层然后让他们来专门做设计各种 agent 甚至还有另外一层是说如何拿这些 agent 更快的去呃创造啊更多的这个这个内容甚至最下一层可能还有很多迈克啊做培训他们也做了非常重要的工作是这样一种呃大家呃合作的这种呃
形态就不管是开源还是闭源至少它是分层然后每一层可以拥有一个相对标准的这个接口然后和下一层进行紧密的这个联动还是说未来会出现一个从鱼头吃到鱼尾然后这么一个巨无霸形式的存在呢它又做模型又做应用甚至连下游的这个就是跟用户建立的连接所有的这个培训什么的全都全都做是到底是哪一样的形态我觉得就是我个人认为就是这种开放的形态可能
未来会发展的更好一点那我们如果去看过去人类的历史这个兼容机打败这种独用的这个独享的这个
这个机器然后因为就是每一个厂家他都可以把自己的这些能力贡献进来是一个非常开放的生态系统哪怕像苹果这种相对来说硬件上比较封闭的系统其实他也有很多很强大的这个供应量来帮他完成硬件的这个设计还有组装并不是苹果自己做比如说苹果这个公司的基因他绝对不会跟富士康去抢生意因为他俩就是完全不一样的这个经营的模式然后公司的这个治理的理念都是完全不一样
你想尝试创造一个巨大的公司把两个苹果富士康揉在一起我觉得非常非常的难然后即使苹果相对来说比较封闭的这个体系他在软件层面他也是比较开放他自己可能并不擅长做这个 AI 那么他也愿意比如说跟最近有一些的报道说他跟
会跟 OpenAI 去合作那我觉得就是这种合作的心态其实最后就导致说我们一定会像刚才说的这种这种就是分分层合作的这种模式那我也我甚至觉得就是说大模型公司可能在大模型的这个这个领域能做的非常好然后 agent 的这些公司
在 agent 领域能做得非常好他们并不是会一定是谁就被谁吃掉当然肯定是有一些公司想要往下从大模型往下做一步也在做应用但是还会有许许多多其他的模型供应用层的开发者去做选择当然这是一点然后另外一点其实双方都要从
就是啊彼此的这个 Know-how 里面去去学比如说啊像刚才我们提到 vrm 和这个 open diamond 实际上本身就是在生生派的不同的层面但其实双方都需要从啊另一方那里拿到需求和拿到一些啊这个目前的这个这个计划方案那么他也是一个非常非常紧密合作的这个这个关系然后如果说啊未来就就没有这个应用层公司的活动那我感觉这个这个行业就是他的创新能力也会也会就是
非常就是下降的很厉害然后可能也并不是就是我们的一个一个最优解最后还是希望就是他们各司其职吧
我感觉特别好奇就出现那么多做 agent framework 的这些公司为什么我们需要一个 agent framework 为什么我们看到了这么多比如说在推理这个领域对吧我一讲到推理我就想到 VR 但是想到这个大家用的最多的 agent framework 好像很难想到一两个那是过去是模型能力的问题呢还是说你觉得还有哪些还有哪些问题是这些 agent framework 还没有能够解决的
明白明白就是我我觉得这里面其实有很多 agent 的这个场景其实现在的模型还差不多可以可以接受比如说用 react 然后去做一些简单的这个搜索啊什么这些 agent 场景就是其实用现在模型已经已经可以完成那肯定不是说这个模型测的这个能力的限制我觉得更多的是现在还处在一个
大家去竞争这么一个氛围就是我们可以拿这个前端框架的这么一个竞争来看就是在就是说 5 年前 10 年前你可能看到每隔几天就有一个新的这个 JS 的 framework 出现了然后 JS 的社区大家也都很活跃然后各种去尝试然后即使到现在我们还有 view 然后 reactangular 可能影响力小一点但是我们还是有非常多的这个框架来
为什么呢是因为这些开发者他们的诉求是不一样的每个人的品位审美也是不一样的然后这些框架的设计者他可能自己去想象的这个场景也是稍有就是不一样的所以我觉得就是面向开发者的这种就是众口难调的场景其实你很难说在这么早的一个时间上就
把所有的东西统一甚至有些人他甚至到现在还不用各种 agent 的 framework 然后他就是自己去去手写一下这个模积他觉得比如说 Manchain 这种 API 的接口太
太过于难用了并不符合他的胃口我觉得这很正常我们现在有很多各种各样的 framework 因为这个 framework 它创造并没有特别复杂比如说你现在说 machine learning 的 framework 你现在再去创造一个 Python 其实这个就很难因为它已经积累了这么多年的工程量相当的大做了非常多的优化但是 agent framework 它原来没有到这个阶段这样有什么部署我是一个 build 模型的人
我们团队的话其实也有做 agent 相关的工作但我们更多的是关注怎么去提升这个模型本身 agent 的这个能力所以我之前其实不是很理解就是说既然都是 prom engineering 为什么我需要一个 agent 的 framework
那其实直到我们团队在开发 CoinAgent 这个系列然后到今天 Open Daemon 你会发现这个 Prom Engineering 如果你直接自己去手写去做的话确实是非常麻烦的一件事情所以的话其实大家会去想说我怎么用一个 Framework 把它封起来因为去年刚开始的时候我们就在关注像 Langchain 看着它一步步发展代码变得越来越复杂
我觉得 Agen Framework 这件事情为什么有这么多的公司或者是有这么多框架但是却没有一个很 dominate 的本质上这件事情
还是相对简单的一些因为它背后还是 Prom Engineering 只是大家以不同的开发方式将其封装起来它给不同的应用但是大家其实真正关心的是说有没有一个真正好用的 Agent 所以从这个角度上来讲的话我觉得 Agent Framework 很难出现一个很 dominating 的
的框架因为确实刚才铁证提到重口难调有人觉得你这个代码这样写不好我就写另外一种形式然后我就提出一个新的框架像刚才我提到那个 Crew AI 这个项目其实它现在非常火有很多企业在用最早的时候就是 Role 一个人在开发
这件事情其实很多时候可能一两个人就能够把它给做起来这就没有办法避免说今天如果大家都在做 prime engineering 这个世界可能就会出现非常非常多的框架如果沿着这个趋势去看的话我其实反而希望说每个框架可能更加 focus 一些就把几件事情给它做好然后大家用你这个框架的时候就能拿到非常稳定的结果我觉得这个是大家希望的一个事情我
我目前就是看到有一些做一些 writer 的 agent 他自己就去写了一个 agent 的一个 framework 他昨天还在跟我聊然后他在推特上说如果我把它开源出来的话大家不要嘲笑我的 prompt 但是它的效果真的非常好就它可能有一些看起来很粗糙的东西但是实际上它效果非常好我觉得大家其实最终关心的是效果方面的问题而不是说你这个 brainboard 怎么设计的问题
对你刚才提到了两次这个这个 crew ai 如果大家感兴趣的话这个 link 我也放在呃 show notes 里边我看到他很有挺有意思是一个呃是一个 multi agent 的一个 multi agent 的一个框架然后他自己的这个 tech line 是呃 ai agents for real use cases 啊所以对于还不是那么了解这个
项目同学给大家介绍一下到底这个什么是呃什么是这个呃 crew ai 他在做事情为什么得到了大的关注呃怎么看待这个 multi agent 的这种架构比如说那在 open devon 这样的以后要处理越来越复杂的这种开发的问题那如呃也会需要用到这个 multi agent 的架构吗嗯呃这个这个问题很好呃首先呃 crew ai 站在我的角度的话其实呃
本质上还是又一个 agent 的 brainwork 但我目前看就是后发者往往会更加被大家喜欢因为他把很多前人那些毛病给他解决他变得更加好用主要这个
这个人的话我其实关注了他比较久然后他是非常热情的去用很多 example 去告诉大家我这个东西怎么去用不断的去跟开发者去进行交互他刚开始就他一个人在做这件事情但是你可以看到他现在的 contributor 的话其实已经
达到了几十多个人他现在也开了一个公司然后也有 enterprise 的这个方案这也是一个比较常见的路径这是第一个问题给我相对比较
第二个的话其实是关于 Multi-agentMulti-agent 的话呢因为一般来说我们拿一个代言模型然后把它封起来你可以称之为用 Prime-engineering 把它封起来然后它可以称之为一个 Single-agent
但是其实因为这些 Logic and Grid Model 的能力本身或者是说它处理复杂 Context 的能力它还是会比较有限因为真实的场景它的 Context 会非常复杂那这个时候的话你就可以去做一些任务的分解让不同的人去干不同的事情就像一个公司一样有人负责做技术有人负责做运营有人负责做产品就类似于这样的那你就可以
这个 agent 你就让他扮演产品经理另一个 agent 的话你就让他去扮演运营还有一个 agent 的话你就让他扮演这个写线后端的比如说他就是一个 coding agent 然后更上一层呢你可以有一个老板然后你就可以做一个老板的 agent 一个老板的话就去做战略决策啊 planning 相关的这一些事情所以他其实可以让多个大元模型去进行
我个人觉得的话就是如果你的这种框架,如果你封装比较好的话其实你背后它本质上还是大圆模型吧它究竟是 single 还是 multi 其实是没有那么 fundamentally 的一些区别
但是从当前的技术水平来说的话,很多时候 multi agent 表现出来的效果其实就是要更好,因为分解好任务,大家去干这些事情的时候,这些模型实现的效果其实会更好一些。所以他主打 multi agent 这个特点,然后让大家接受,我觉得是合理的。
从今年来说的话,今年还是主要是 GPT-4 level 因为我不知道 GPT-5 会是什么样子因为距离他们推出估计也不会太远但从现在 4 欧的这个水平来看的话我觉得
解决真实任务的话可能还真的是需要这种冒天一整的框架我其实理解就是当你用冒天 Agent 其实相当于说我还是把人类的鲜艳知识放进去了你要做一个这样 Project 你需要有一个 Product Manager 的你需要有一个这个这个 Engineer 我人为的把它给这个这个这个分这个做了一个任务的这个拆解但如果说我们说要看更有 LM 他有自己更他自己可以拆解的比比我们能够拆解的更好那也是那个时候就不需要冒天 Agent 了
对,我觉得这个是合理的,因为本质上我们讲 Prompt 的话,其实就是把一些人类的鲜艳知识给它放进去嘛。去年我们就不断地在谈大家怎么做 Prompt Engineering,大家还有非常复杂的 Prompt Cookbook,说不同的场景我要用什么魔法 Prompt,然后 Change GPT 才能表现得比较好。但今天的话,你即便是用一些开源模型,你会发现你想怎么问就怎么问就好了,你只要把你想做的事情给讲清楚,其实就 OK。
那 Multi-agent 的话其实我们只是把一部分分解的一些任务提前给做好
但是很多一些难题的话也都是交给这个 Large Language Model 去做比如说 planning 这件事情的话其实难度其实还蛮大的但是其实看起来 Large Language Model 今天做的还挺好说不定他做的可能比人还要好那如果像更强的语言模型出来之后的话可能这个语言模型就能把这件事情给包办了所以像 Sam Altman 说如果 GPT-5 出来之后可能很多
创业公司又不复存在我觉得也不是不可能的一件事情那我们要赶紧在 GPT-5 之前把这个发了 GPT-5 之后可能就这个很多要再再有变化了其实刚刚铁证提到就是你我觉得你刚用这个比如前端框架做一个类比挺有意思就是算一开始我们有很多前端框架尤其是新的技术出来以后你会不停看到有新的前端框架出来那
那到最后我们看到这个整个的行业肯定是越来越去越来越去收敛的那如果说我们想要从别的这些框架的这个眼镜中学习到一些东西的话那最后能够占据比较主流位置的这些框架也好这种类似的这种 project 他们是他们是做对了什么呢这些对于我们现在这些想要做一个 framework 的这些开发者或者公司这个有什么有什么经验可以学习吗嗯简单有没有什么可以分享
嗯哦我觉得这个就是特别好的问题啊其实我也是想学习一下比如说啊签问的一些经验看签问做的这么成功然后啊这里面俊阳一定做对了非常多的这个事情我觉得就是呃这个这里面应该是有很多
很细节很小的东西不是说就是我们能够快速的建立一套大的方法论然后呃就到了这个复制一定一定就能就能成功那么就是根据我之前前端开发的这个这个经验我感觉就是这些前端框架呃到最后剩下的这几个其实他都有一些呃共性就是说他里面这些前端框架都有大量大量的这个成功案例然后
甚至是看一社区就有大量的代码比如说我现在说我想要用绿写一个博客我去 GitHub 搜我能找到很多现成的项目然后拿过来稍微改一改就 OK 了我可能试试整体上来讲我不需要学绿不需要学框架或者怎样我看它的代码我简单改一改配置改一改 logo 我就能做一个我自己的网页出来可能我花 10 分钟都不到
那我觉得这个对于新用户的这个 adoption 实际上是非常的重要你快速就能就就就能拉新那现在的这些 agent 的框架刚才俊阳也提到嘛就是说呃有一个这个做 writer 的这个呃
项目其实也要有自己的 agent 框架他自己就是自己的一个 showcase 他知道说怎么样他把这个 showcase 做出来其实他就能遇到很多现实中的问题然后把这个框架做得更加的完善我觉得这是非常重要的一点然后另外一点就是说当这些用户从 showcase 里面
快速搭建一个玩具的时候他其实希望不停的把自己想要的新功能加进来那这时候就要看到他这个框架他的设计是不是足够可扩展性那就是之前我们做那个那个框架的时候其实当时就是我们自己分析下来之所以做的不如拍到是好的一个原因也是就是我们的这个可扩展性不足那我们主要面对的是比如说 Google 的一些使用场景对于外面发生了什么就是对于社区里面发生的什么大家的这个呼声反响
不够热烈但是因为它的整个框架设计实际上是非常紧握合的所以如果非 Google 的社区的开发者想要进来贡献一个新功能的话他要改的地方非常的多而且也很难去推动这个事情
我觉得如果说大家想要做一个这种 agent 的框架那么如何能够设计一个比较好的架构让不仅自己的需求能满足并且能很容易的让社区的这些新的能力也加进来然后有一个很好的社区环境让大家在这一起能讨论然后能达成一定的共识然后一起往前推进这个是很重要的然后第三个我感觉非常重要的一点就是
需要有大量的人去创造大量的资料就是比如说大家去买东西也一样如果发现我搜到所有的这个品牌的商品全都是这个公司在讲那我可能天然的就对这个公司失去了信任因为我觉得所有我在网上能搜到的东西无非就是它的广告但是如果我去搜这个东西那我先搜到的可能甚至都不是这个人
这个公司的自己的一些材料是呃这个买家秀然后是是很多社区上很多人在说这个东西啊做的非常的非常的好那呃我觉得这种可信度就会就会高很多所以呃我我感觉就是放到这个框架上来讲那么是不是让这个框架能够被大家接受让大家喜欢然后大家就天然的产生一种信任感是说呃
有没有更多的人就除了你自己然后能够去谈问你的框架讲你的框架讲他的一些不足讲他的一些好处然后讲自己的一些一些经验我感觉不管是啊困还是啊 vrm 在这个方向其实做的也都是啊蛮好那可能也是今天他们就是这些框架非常成功的一个一个原因
铁针不愧是这个开源的这个 OG 我觉得讲得非常非常非常好铁针讲的讲得很清楚也就是在你自己设计这个的时候是一种不要居高临下我教你做事的这种心态还是说真正是把这些开发者把你的用户放在放在第一位去设计我觉得啊我觉得非常我相信所有对于不只是开这种框架吧我就相信对于所有啊要做这一些开发者工具的啊
呃的公司应该都会很有启发就是那我们就回到在这个开源设施里面非常非常核心的一个问题啊开源代孕模型就是这个铁证应该是呃几个月前对吧分享的一篇这个呃一篇这个报道就是说这啊 booming of chinese speaking lms 我觉得这个铁证可以跟大家啊简单的呃介绍一下现在你看到的在这个 hugging face 上这个开源打 lm 的这个整体的情况觉得过去这呃过去这一年呃
一年多吧我觉得你觉得看到的呃比较呃重要的一些变化和进展是怎样的嗯好像没问题呃我刚看了一下就是汉英费的上面就是开放的这些模型就是所有 public 的这些这些模型和数据集呃数据是这样就是现在我们大概是有 66 万个模型然后呃 14 万吧就是接近 15 万个数据集呃
如果算上 private 可能还没有 release 出来或者是一些币源的模型和数据的话这个数据可能还要再翻个倍然后这个数据相对于我加入公司的时候其实已经翻了不知道多少倍我记得我刚入职的时候我写过第一个 PPT
就是讲还可以上多少个模型当时好像是 15 万个现在 66 万个那大概翻了四倍啊然后数据级也是翻了非常非常多倍然后我感觉这个整个社区其实是发展的非常的好的就是拆 GPT 刚出来的时候我我身上还在想说哇这个大家都用拆 GPT 啊这个还会有人就是去去开源这种模型吗或者说未来可能只有几个巨头能开源呢就是这些中小开发者其实还有什么样的机会或者说
谁还会在 Hangifit 上传很多的模型其实现在我们看到这种微调技术的发展还有比如说 model merger 这些 quantization 甚至不同 format 之间的转化这其实都给开源的开发者非常多的机会比如说 nama 它其实不仅仅是 Meta 一个人发的 nama 模型其中大量的模型可能是各种语言微调的 nama 比如说最近的 Chinese nama 然后
还有就是各种 nama 的 qualization 甚至是 dguf 就是各种不同的这个格式 nlx 的这种这种格式所以其实这个这个开源社区呢是是非常非常的活跃的然后最近看到就是一个非常有有意思的趋势啊就是
就是去年初的时候就是那个时候可能中国的这个社区啊参与度其实就在大语言模型这个方面大家还都是比较懵逼的这个状态然后啊参与度比较少后面慢慢的就有很多这个呃国内的这个大语言模型开源的就就出来做的非常不错然后
但是那个时候大家遇到一个特别大的问题就是数据集不足有很多开源的中文模型但是并没有很多开源的数据集我感觉经过过去这一年多的发展其实开源数据集的领域我们也是做了非常多不错的工作的比如说你今天去看 HangFace 上面 Dataset 排名前两个的数据集
都是国人做的数据集一个是 TigerLive 他们做的 MMLU Pro 就是一个新的 MMLU 的这个 Frenchmark 的这个 DataSet 然后另外一个是 Map 做的这个 Metrics 它是从 CopenCore 和其他一些数据集里面就是筛出来的一个非常高质量的这个中文单数据集
所以我发现中国社区其实在这方面涨得非常快然后最新的就是今年的一个趋势就是说我看到有很多国人驱动的社区国人驱动的国际合作的一些组织或者项目出来了我觉得 Open Devon 和 VLM 都是一个非常好的例子
除此之外还有比如说 Open Video 或者是像刚才我们提到 MAP 它就是一个虚拟的这个 researcher 之间一起这个合作的这个组织都是有非常强的这个战斗力所以我就看到有这么多非常好的工作然后那个时候正好我们之前在韩国的这个同事他后来辞职创业了他在首尔办一个那个小的这个 conference
然后我就说好那我就问他说去讲点什么他给我的一个建议就是讲一点 anti-intuitive 的这个事情可能大家会比较感兴趣就是反常识的这个事情我就想其实就是当大家提到大语言模型的时候大家的第一个反应就是蓝马就是可能 Google 提供的这个 G 码
大家可能对中国的这些贡献并没有那么的了解那我就说 OK 那我就做一个这方面的演讲正好去宣传一下然后在做 PPT 的过程中我就发现其实整个中文的大元模型的社区
发展的是远远比我快的然后当时做了一个表格就是通过三个类别吧然后去把不同的中文的基座模型和他们的衍生模型就是都都练了一下然后就是在我做那个表之前我都没有想到说我们已经有这么多这个中文的大元模型还有这个各个领域微调的这个模型出来了然后那天去
呃这个这个就是现场去去讲的时候还问了他们一些就是 live question 比如说啊你们你们听过哪些这个呃这个中文的大语言模型因为韩国就在我们旁边嘛然后啊其实呃还是就是比我比我想象的要要好一点然后大家知道什么百川啊然后千文啊啊然后呃当时大家可能对 deep seek 的认知还还比较少然后啊
就是后面大家也问了很多非常有非常有意思的这个这个问题然后我就感觉啊其实我们应该多出去讲讲我觉得俊阳做了非常非常不错的这个这个工作然后但是啊作为整体我觉得其实我们在海外的这个发声还不是特别的多啊然后啊我感觉这里面其实很多人对中文啊就中国的这个模型行业的这个发展尤其是啊
中国的模型保持这种开源开放的心态然后去分享很多新的技术比如说 DeepSeek 最近在 paper 里面详细的讲了 NLA 的这种新的技术其实还是有很多自来粉我们也希望说能够在海外造成更多的影响甚至是一些破圈的影响对
非常感谢这个铁证的分享我觉得我们也很需要更多像你和像俊阳这样的同学在一个中国界社区上去跟大家分享中国的进展刚才提到有很多从数量上的增加刚才提到那个几十万的这个大模型里边大概有多少是开源有多少是闭源你怎么看开源里边几种开源的这个方式有没有什么是比如说 Hung Face 或者说你自己个人比较推崇的
没错刚才我们提到说在 Hungryfish 今天去看 Hungryfish 的网页你在上面点 models 它就会给你一个数字就是 66 万个模型这些模型都是开源的你点进去每一个模型然后你都能看到它的模型的权重然后模型的 model card
然后有一些是币源但是不是在这 6 万里面就是这个数据是我们内部才能看到的当然我我没有这个权限我不是 root 所以我也不太清楚但我知道说大概就是算上币源的话可能超过一个 million 的就 100 万个这个模型
然后在这些开源的模型里面其实它也是有不同层次的开源我感觉开源不是一个就是开源或闭源这是一个非常对立的决策其实开源到闭源之间有一个非常漫长的光谱我们从最边上闭源开始说其实闭源模型它自己也有一个开源的生态因为它把 API 放出来我们围绕刚才我们谈到的 agent 整个一系列的开源的框架最下面的七座全都是 check bt
那这个其实它也是有一定程度的这个开源的影响 OK 那我们从那边再往过来说那我可以就是说开源的话我只开一个这个模型的权重就是现在我们叫它 Open Access 就是开放权重的这个模型那这种模型呢你可以使用它
它就像一个.exe 文件你在网上下载之后你双击一下它就可以跑了但是你想对这个模型是怎么来的做一些了解其实你是不知道你不知道这个模型用了什么样的数据用了什么样的训练时候的技术有些模型会发一个 technical paper 会简单讲一下它的技术也有的模型可能就写得很含糊然后就一笔带过了
OK 那比这些模型再开源再进一步的呢它就可能会开放更多的信息包括它的数据集是怎么来的然后它可能给你一个脚本然后你可以把这个脚本一跑然后你能大概知道说它这个数据集是一个什么样子然后比这个再进一步的呢可能就是它不仅说我开出去就是让你知道我有这么一个开源它其实是希望让你手把手
然后把这个插件模型做出来的他就会就是不仅告诉你说他为什么他做了什么然后他还要告诉你他为什么这样做把它当成一个课程然后把这个东西手把手包交包回但这种模型其实一般性能上会比就是后面那几种要差一些因为如果这个真的是有一些非常非常独到的这个技术的话那大家可能不会说把这个东西就是直接告诉这个自己的竞争对手
然后就是比这个比刚才我们说的这种再开放一点它可能就是一个开放合作的组织像我们的这个被扣的其实或者说 bloom 最早的这个大语言模型就是它是
一个 Slack group 然后每个人都可以进去进去之后你可以看到说现在大家在做什么然后进去掺和一下比如说你可以做一点数据级的工作或者说你对模型的微调有一些想法你都可以贡献你的想法所以 paper 出来之后你会看到前三页全都是各种作者基本上参与的都写在作者栏里所以我感觉整个开源 vs 必然其实是一个非常长的光谱
然后每个公司根据自己的一些选择然后根据自己的实体情况然后去决定说他想要在光谱的哪一个位置我觉得我们不说不说币只要能开源的这些我觉得都是
非常非常优秀我们也都非常非常的欢迎然后我们也理解说啊很多企业其实呃出于各种原因比如说他没有公开数据集可能是版权上的保护的一些原因然后啊他没有就是说把自己的这个太坑会被完全写上来是出于就是防止这个竞争就比如说他也基本上也不写他的新的这个呃
就是技术它里面的一些东西它只是在 technical paper 里面简单说一下它的这个架构所以 Sora 说完之后它的架构是怎么样大家到现在还在猜那我们也都是就是非常非常理解然后我觉得这个真的是要根据各个公司的情况然后它的战略的重心然后来决定自己的定位然后当然你选择不同的开源的这个程度社区的反馈可能也会相应的不一样对
你提到中国的开源模型从数量上有很大的提升,我好奇你有没有带来这样的数字?从数量之外,你觉得中国的模型还带来哪些不同的贡献?
职位的这个数量我倒没有一个非常好的统计因为其实这也差不多有广告就是如果大家传模型到 Hangface 的时候它是有一个 tag 然后在那个 tag 上你可以写上你的模型是支持中文的这样方便我们去统计但现在其实很多模型并没有加上这个 tag 所以当你在 Hangface 里面搜文本生成类模型然后能说中文的文本生成类模型这个数量还是比较少我现在我严重怀疑这个数据是被打打低估了
然后哎我我查我查问你就是我看你那个 report 里边其实引用说那个好像是呃这个这个这个一个一个报道说哎中国出现了这个 200 好像 200 多个我看好像在百度好像也有一篇文章说啊去年中国就就 200 多个这个这个模型是不是那想跟这个几十万这个统一口径是是有差别我好奇这个怎么样算如果算严格定义的话到底怎么算着算算在这个这个这个数字里面
明白明白摩托社的那个报道实际上比较早那个是 23 年 5 月然后他说的也不是开源模型他说的是所有的大源模型然后说就是到 23 年 5 月中国已经发布了 19 个大源模型然后美国发布了 18 个几百个模型我觉得那个说法可能来自于百摩大战就是说这个有非常多的这个模型在竞争然后但这个数字其实都跟那个 66 万这个量级对不上了那
我是这样理解的就是当我们说一个模型的时候有可能我们说的是这个模型的系列也有可能说的是一个具体的模型就拿千万为例千万那就是在这个百磨大战里面千万只能算一个但是在 Hankfess 这边千万及其衍生品我觉得可能得有上百个模型这么多就包括千万自己发的从这个千万一然后到千万 1.5 每一个大的这个内下面都有很多很多这个模型比如说
这个 110 币 70 币然后什么不同的 quantization 那这就是分支分下去就是其实它是有非常非常多的模型然后除此之外还有社区去做的比如说 dolphin 他们做的这个签问的微条那这也算是签问基础模型就是一个衍生品还有很多比如说大家做这个 GGF 或者说做 AWQ quantization 那都会让这个签问这个家族发展壮大这其实也就是开源的一个精神
把我擅长做的事情做然后社区自然有别的人他可以从他们的角度去让这个社区不断的变得更加强大然后大家去更深度的去进行合作所以就是怎么理解说一边看到可能只有百这个量级另一边看到已经有几十万的这个量级那中间是就是要考虑说你这个模型的衍生品还有整个模型的这个 family 大概有多大
所以刚才铁正讲的很好,也解释了他开源模型的数量为什么这么大然后这里边数字方面的差异我解释一下千万这边的情况我其实自己都没有具体去算这个数,因为我在知乎上面有人说我们是那个老模因为我们开源的 size 非常非常多我们现在光 1.5 的系列的话其实算下来
就有 8 个 size 的 languagemodel 再加上一个 codecrane 就相当于 9 个 size 然后每个 size 的话我们基本上会发他的 base 模型然后以及是他的 chat 模型因为一般比较资深的人的话可能会去用 base 模型去做微调他不希望在 chat 模型上面去做微调
在这个基础上我们会去做量化一般会去做 GPTQ 和 AWQ 这里又多出两个模型这几个月的话 GGUF 的用户其实会非常多因为三套框架里面很多人喜欢本地跑模型的时候
最方便的方式就是一个 GGUF 拉下来用 Lama.cpp 去跑很多人会发现说 Lama.cpp 其实我是不是还得学 c++然后大家望而却步于是就有了像 LM Studio 这样的应用以及像 OLama 这样的应用能让大家非常方便的以一行命令行的方式或者是有一个图形化的界面可以去运行大模型所以我们又会去给大家去发 GGUF 的模型
然后这个 GGUF 的模型下面呢又有不同精度的量化一般我们会做 234568bit 的量化那这样的话整个模型数量就会非常多那算上很多因为现在有很多人在反 tune 我们的模型刚才铁圈其实提到 DolphinEric Hoffer 他们做得非常好然后跟那个 Lucas Atkins 他们一起去反 tune 我们的模型
然后其实还有很多的人在翻听我们各各式各样的模型有些人的话去做一些 merging 就有一些新的模型我估计现在应该是有几千个对这里想插一句啊就是啊其实就是有很多这个做开源模型的啊
这个公司或者说组织其实当他们想要去衡量自己的模型唱不唱销的时候其实很多人会去看这个访问量或者下载量其实 HineFace 的这个下载量没有防止大家作弊或者说过于关注下载量他看来是过去一个月的下载量所以之前的很多信息都都丢失了然后呢其实这种 like
就是 GitHub 上这个 Mac 的数量一定程度能反映模型的畅销程度但是其实也很容易被就是也很容易刷而且这上面有很多 bias 我觉得真正靠谱的能够衡量一个模型是不是在社区已经产生足够的社区影响力的就是去看它有这个模型的家族有多大它有多少个衍生品有多少人拿它去微调有多少人拿它去做各种各样的模拟那比如说
刚才郑阳说在汉语会上搜这个千万已经能看到几千个这个模型我觉得这是一个非常非常大的数量那我们可以去再去对比别的这个模型的家族然后用这个去去做一个另外一个角度的这个模型畅销程度的这个这个评测我觉得会非常有意思的一个事情对这个角度非常有意思我觉得我觉得很期待看到看到这个更真实的更真实的一个反馈谢谢铁针这个补充
看你的这个 report 里边其实你也会把这个呃模型分成不同的这个 arch 比如说你是呃基于某一个模型比方你这里举的例子是这个呃喇嘛你基于某个模型这个权重来做一个 fine tune 还是说你自己真正啊 pre-chain from scratch 还是有其他的这种啊完全不同的这种就你觉得这三类在整个这个大圆模型的这个社区中他的这个地位是什么那我们在强调说啊这个比方说中国的这个呃
混合公司模型能力的时候是不是还是 pre-chain 这个方式是最能够 show muscle 的这种方式对我当时大概分了三列第一类就是在 Meta 发布的这个漫画模型的基础上直接去做 fantium 去增强它某一个领域的能力
或者说他增强他中文的能力然后第二类呢就是说我还是用 Lama 的这个架构因为用 Lama 架构实际上是非常占便宜的 Lama 还是到目前为止最大的一个 Logic Language Model 的这个 family 就是这么所有的这个下游的 infra 包括 VLM 其实都为 Lama 的这个架构做了非常多的优化我觉得这个呃
就是举一个非常明显的例子就是现在 DeepSeek 的这个 MLA 出版了但是我相信出版他们可能还没有对这个 MLA 的架构做一个优化而且这个优化可能是比如说几个月之后我们才能看到一个非常成熟的优化出来所以有很多很好的模型因为他选择了一个独特的这个架构这个架构非常非常先进导致这个看社区用起来还是有
也有很多模型说其实喇嘛架构已经足够好我没必要去探索更好的一个架构我就直接用喇嘛的架构我觉得这是一个非常合理的选择他们会选择从头预训练然后去为一些自己的清洗过的预料然后这是第二类然后第三类就是说自己创新的一些新的架构当时大概分了这三类然后怎么去看待这三类其实是这样的这个表格之所以赢了
为中心分散来是因为 Lava 还是目前最大的模型的社区如果有一天是千万或者 DeepSeek 或者是 ChadGerm 变成最大的我觉得我这表格可以重新做我可以试一试是不是用千万模型结构来排这三类第一类是千万直接用千万来翻听第二类是 Pretrain 的从千万的架构 Pretrain
那是其他的架构然后把喇嘛就分到其他的架构大概是这样的一个分法然后我觉得对于大元模型来讲看这个公司的主要业务或者是诉求什么我觉得如果是一个业务导向的公司其实无所谓用什么样的架构只要能很快的满足自己的业务需求就可以了比如说现在我看有很多人拿喇嘛三去
简单调一下中文然后发现能力还不错然后就直接上然后再再就是用什么创丰妈妈或者是其他的什么药人这些这些技术扩展一下他的 contact lens 然后就可以直接上线那我觉得这也很好因为能很快的解决公司业务的一个一个痛点没必要在这个地方就是花费太多的这个
成本那也有一种情况就是这个可能是一个这个基础模型公司那他想的可能更远他不仅说我要支持中文我可能还有支持很多东南亚的语言我要支持这个这个非洲的很多这种小语种那这种情况下可能是需要拿更多的这个语料去进行或者是 continuous pre-training 或者是翻评然后就是让他学到更多这个更多的这种专门的这个知识效果会
会更好然后也有些公司可能就是从这个节约成本或者是就是探索新的领域的方向他可能会选择自己创创造一个这个新的这个架构然后去往前往前发展所以我个人是其实是不是特别支持提这个所谓的妈妈托克不管你选择哪
一条技术路线适合自己的就是最好的没必要是因为说这个公司用 Lama 去解决技术问题花了 10 块钱就解决了人家 10 万块钱的问题就去鄙视这个公司我觉得怎么样符合这个公司业务要求就最好当然就是说宣传的时候可能要提到说自己是基于 Lama 翻听因为你要注意 Meta 它的发布的时候其实它是有一些限制
然后包括现在比如说你去申请这个 MAMA3 的这个权限如果你说你的国家是就非美国的话可能也会遇到一些这个挑战所以这方面还是要注意一下
那我正好就想问一问这个俊阳就是我看到这个在铁针这个分类中其实你千万别分在这个用这个 other architecture 就是其他这种架构我好奇当时俊阳你们是怎么考虑这样的一个选择呢因为就像铁针说的你如果用这样的一种方式的话可能去顺便你需要一些社区的这个支持对吧在老板原来社区就是你就不能够直接去用了可以分享当时你们的一个考量
这个就讲到我们这个千万发展的故事其实是这样我们的模型架构的话跟 Lama 的差异其实是非常小比如说我们算上 tokenizer 的话我们的 tokenizer 不太一样我们自己做的是基于 gpt4 的 tokenizer 去做扩展做的 tokenizer 然后模型上面的话其实是在 transformer 上面的话有一个 2kb 的这个 bias
大致是这个样子但是我们其实是经历了一些痛苦这里我其实是想响应一下刚才铁正提到关于 Lama 以及是说这个自研架构的这类的问题我们最早做这个模型还没有开源的时候其实探索了很多种可能性因为今天其实基本上你要做一个大源模型无非你还是基于 Transformer 来做 Transformer 的话无非就几个板块
一个是 attention 一个是 MLP 然后内部的话基本上这个 MLP 的话就是看你的计划函数其实我们最早的方案其实跟今天 Gemma 的是
是更接近我们用的是 giggle 的这个计划凡数但是后来其实多做一些实验之后的话会发现说如果用 giggle 的话其实训练起来会更快效果的话还能稍微好那么一丢丢所以反而是做了一圈技术探索之后回来变成跟这个 Lama 非常接近的这个样子
然后今天大家在谈这个 Lama Architecture 其实也有人非常激烈的反对这个词语如果大家知道 Google 原来 Google 现在是这个 Rika 的创始人 Etae 他其实非常反对这一件事情因为这个 Architecture 的首创其实反而是 Palm 就是 Lama 它是主要 follow Google 的成功经验然后迅速非常好的模型但是 Lama 在今天的
open source community 非常火,所以今天大家叫它 Lama Architecture。从以太的说法来说,今天的这些 newbie 根本就不知道 model architecture is invented by Google,这个是相应的背景。那我们其实经历的痛苦是什么呢?是我们以自己的方式去
写我们的代码而没有 followHackingface 的 practice 写拉码的方式去写因为 Hackingface 提供了一种很好的模式叫做 Trust Remote Code 它的意思就是说你可以自己写代码但是你不需要 merge 进 Hackingface 的代码主库里面你只需要保证你这个东西能跑起来你解决好你的用户的问题就好了其他的问题与 Hackingface 无关 Hackingface 的官方维护不会来考虑你签问的模型
那这个的话其实对于很多三方框架的适配的话就还带来非常多的困难比如说像呃转这一边呃 vrm 我相信在做我们地板的这个适配的话 vrm 还是要做不少模型方面写代码去理解我们写了代码的相关的工作呃这里的话呢其实呃呃就可以看到说呃你的这这种
工作的话反而会给很多人带来一些 extra 的 effort 所以今年年初在复盘 2023 年的时候我的观点反而跟这个国内很多社区的人讲的很多不一样大家喜欢讲什么自研这一类东西我觉得既然 Lama 探索出一个非常好的 model architecture 而今天大家在选择使用 transformer
Lama Architecture 就是一个更好的选择情况下为什么不给予他去训一个更好的模型那基础模型的公司其实也是一样的 Think from scratch 也好还是你继续训也好大家其实最终关心的是你这个模型够不够强拿出来好不好用我觉得最终关心的是这个点所以如果让我再
再重新做一次的话我可能会更加积极的去拥抱开源社区和 Lama 的发展那这样的话我觉得对于快门的推广会能做得更容易一些其实快 1.5 其实就是做了对类的工作因为当时我在调研为什么快在海外火不起来
就是因为国内的用户我们其实是比较容易拿到的因为我们开源了比较多的模型我们的模型质量然后中文比较好很多人其实就会用但是在海外的话我当时是先去了香港去讲然后再到新加坡去讲然后就发现很多人就甚至没有听过 Fan 这一个名字然后当时跟 Eric Harper 聊他其实就提到说
我甚至都跑不起来你这个东西又不在 Honeyface 的主库里面看起来就像是一个非常善债的东西我就不想用所以铁证这边帮了我非常多的忙包括跟 Honeyface 这边协作做完我们的快能代码末尔进 Honeyface 的主库之后的话呢其实就到左汉这一边然后把我们的新的模型给适配上那这样的话呢基本上这个生态的局面的话就相对来打开
所以我得出的经验是说做这个大模型的公司的话我觉得最终还是更加关注你的模型质量的本身以及是你这个模型好不好用这个问题把这两个事情解决了我觉得其实就 OK 了其他的话我觉得倒没有那么值得关心嗯嗯那正好正好正好有问一问这个呃
铁镇啊就是你们首先非常感谢你为这个这个这个这个国人的这个大模型做了这个贡献就像也提到了就是你在中间的一些这个啊一些一些 learnings 那从铁镇角度你觉得对于这个有什么补充的吗就是那我顺便也可以说一说那那啊相比起我觉得像 mystery 啊国际上非常呃一线的这种啊也是有一个开源模型的一个家族我们还可以从他们身上啊学到什么我们现在可能看到一些差距还是
对我其实大体同意俊阳的说法其实我觉得 01 的战略就很聪明就是你走 Lama 的路让 Lama 无路可走因为 Lama 已经把整个生态建好但是我感觉现在局势其实又有一些变化我觉得跟我们当年聊的时候还不太一样就是说现在我感觉社区其实
更能够愿意支持一些非 Lama 架构的那这里面可能有有几个原因一个可能是说大家就是在继续用 Lama 架构的时候看到 Lama 架构的一些一些限制它的这个潜力可能不多嘛比如说最近 DeepSeek 它用 MLA 的技术能够把这个 Protoken 的 price 降得非常的低那这个里面就会给大模型公司一个新的玩法就是它的开源和它的
商业就就非常不冲突啊然后呃我感觉这里面就是我们未来去探索这个模型新的架构的时候其实可以有很多呃新的这个玩法出来就包括刚才我们提到这名的时候其实他他当年就用了这个 moe 的架构应该是第一个就是呃得到大规模使用的 moe 大圆模型呃这个其实就就
创造了一个新的新的热点然后啊大家就有必要去就是去关注去了解然后去去尝试去使用慢慢就会转化成一个用户比如说现在啊我们想要说啊训练一个这个喇嘛架构的模型其实你很难说我可以在各个方面全面超越那么三啊但是如果你换一个架构的话你可能从成本或者说从未来对 veo 的这个支持上可能会有一些就是不一样的点
然后像比如说现在下游的这些系统不管是 Lama.cp 还是 VLM 其实我觉得都很愿意去支持并且尝试一些新的架构所以我倒是觉得从今年下半年开始我们可能会看到很多非 Lama 架构的模型出现
说含你们从这个 infra 角度你有看到你有看到类似趋势吗我觉得非常同意刚刚两位的观点就是我觉得首先第一个我想说的是就是即使是沿用喇嘛本身的结构我觉得也没有什么不好的因为我觉得还是要从需求出发并且训练一个大模型大圆模型本身也不光是这个模型结构的事情很多是关于你的数据还有你的这个算力然后你训练多久你在训练过程中需要做什么事情
模型其实模型本身的架构只是大模型整个训练过程当中非常非常小的一部分所以我觉得如果你没有什么特殊的需求你即使沿用 Lama 的结构我觉得没有什么不好的这是第一点但是第二点我觉得大家现在对 Lama 有很多的改动我觉得是看到了很多 Lama 本身的限制然后比方说第一个大家最近比较关注的一个是 MOE 就好像刚刚铁证提到的对就是可能在训练一个 Dance 模型的时候在训练的效率上本身可能会有一些
会有一些会有一些低效然后如果用这个 mixture of experts 我能够用我能够在更快更短的时间内训练一个更大参数的模型这个可能会对于我这个在就在有限的计算
资源的情况下训练一个更好的模型能够得到一个呃对这一点会有相当大的帮助能够最终获得一个更好的模型然后第二个更多是可能比方说 dance attention 本身的限制就比方说我想要做一个非常非常长的 context 比方说 1 million 甚至 10 million 的一个 context 我怎么样我如果用 dance attention 本身它有一个
针对于它的计算量是随着这个你的输入长度的平方级别上升的然后那你如果有比方说 100 万的 context100 万的平方是一个相当相当大的数已经可能很有可能在现实 implement 的时候已经是没有办法了那你我们可能就需要改动对对这个 attention 机构结构本身做一些改动然后我我觉得
这样子的改动是这种必要的改动我们是非常欢迎的然后对于我们来说对于我们作为一个研究者来说是一个非常让我们非常 exciting 的事情我们能够怎么样能够 adapt 我们的 system 来更好支持这些更复杂的这种 attention 的这些结构对对
然后在于对于设计系统上来说对我们也是一个非常有意思的 challenge 我们怎么样能够保证我们这个 VLM 的 system general enough 来支持这样各种各样不同的 architecture 来让我们让大家更好的在同一个框架上能够使用各种各样不同的模型同时让不同各种的模型都能够享受到 VLM 的各种 feature 所带来的 performance 的 influence 的 performance 的提升
沿用之前的那个 model architecture 本身没有问题我觉得这个是一个非常好的事然后有一些改动的话我觉得如果是出于一个这种功能性本身触发的改动也是一个非常有意义的改动我觉得我们也会非常高兴来适配这样子的改动
我觉得两位其实讲得非常好从去年下半年开始到今年有很多新的架构在涌现或者是它在变得更加的流行像最近这个 GEM 之前还有像 RWKV 现在整体还有一个复古 RNN 的趋势在这里边所以我觉得其实还有挺多新的架构包括 MOE 也好其实像 Mistral 他们做的这个探索做得非常好
我本人早年是做 Moe 的但是当时我们没有定义好说这个 Moe 应该用多少个 Expert 然后你激活多少 Expert 达到什么样的效果这个事情没有定义好所以很
很长一段时间大家就觉得不去做这个事情但是像 Mistral 的话其实比较清晰的跟大家传递一个信息或者是说开源社区发现你比如说激活 14B 的参数你可能能大致达到训练一个 28B dense 模型的效果那这样的话其实是比较划算的一个事情所以我觉得很多新架构的探索其实是非常必要的
我觉得他们 serve 不同的目的,就是拥抱 Lama 的架构往生态方向去走,提供 Solid 的 Foundation Model,让大家能够用起来。这个其实对很多开发者,尤其是企业用户,它其实是非常的欢迎的。
那如果提出新的东西的话呢我觉得可能对这个新技术的开发者来说他主要的挑战是你怎么样让你的技术变得 popular 这个是我们此前没有解决好的一个问题但我看现在这个因为大家对新技术更加开放所以大家可以看到说今天有新的像 MLE 的东西出来像新的 MLE 的架构出来然后
然后这些开发者会在生态方面做很多工作不断地去做一些适配那我觉得如果新技术的开发者能够去帮助开源生态做好这一些适配的工作的话然后大家都发现你这个技术有用那我觉得这个领域能发展得更快铁针刚才你提到你说这些新的架构大家开始提出这些新的架构你说对于商业化也提供一些新的思路能够展开是不是为什么
这可能是我个人的一个揣测不一定准换一个角度说为什么我觉得蓝牙加构未来会有可能非蓝牙加构的模型出来是因为蓝牙加构在这大家知道我可以用蓝牙加构寻找好的模型但是大家什么时候会从一个好的模型换到另一个好的模型是因为新的模型能给我带来完全不一样的感觉不然的话我可能觉得旧有的模型还不错我知道怎么去用很好的 Program 去微调它
如果说所有的模型拿马架构的模型他们已经到每一个分水点就是我觉得这个模型基本可用那这时候出一个新的就是同样架构的这个模型可能不会让大家有非常强的迁移的欲望
一旦我们到了这么一个点现在竞争的就是所有模型都可用我们现在竞争的是什么就是模型的成本谁能跑得更快谁成本更低谁能够部署在更多的设备上这时候怎么样降成本码码架构的限制就在这你的成本就是这个样子你可能说我们有一个什么新的什么什么 fast decoding 或者是类似的技术能够让成本降低但这个
对于 Ama 也是一样对于你用 Ama 的这个架构也是一样对于其他的这个模型都是一样这是一个就是平均水位的一个变化并不是你自己模型的一个能力的变化你可以去更好调你的模型这是你自己模型的能力的变化然后那么如果说大家都可以用那
就是下一步竞争点在哪就是说你有什么差异化那你能差异化的点可能就是说你你你这个模型知道别人不知道的东西或者说你这个模型可能对 RAG 的支持特别强对这个指令追随的能力特别强那这些可能是一个可以竞争的点那我感觉 L370B 其实已经很不错那你想要在这个方面做出非常出众的这个成果是有点难的那另外一个可以卷的点就是说我在达到 L370B 的效果的同时我可以做的成本比它更低
并且 Lama 的成本的降低不会影响我的这一块那么你能做的点就是创造新的模型架构让新的模型架构它跑出来的对不管是 GPU 内存的需求还是说你推理的延迟都有 Lama3 追不上的地方比如说你实验 MUI 架构那你可能推理上就是比 Lama 要快你如果用了 MLA 那你可能就是比这个
其他的一些架构的推理成本要更低从这个角度来讲如果你想做开源的话探索新的模型结构是非常有必要的这个会让你的模型更加出众然后从另外一个角度就是回到刚才主持人提到的商业的竞争的点这是我个人的理解就是说我们过去看这些数据库公司比如说什么 SnowflakeDatabricks 像比如说 Spark 它其实是有开源版本的
但是开源的版本并不影响它币源的一些商业上的东西为什么因为它币源比开源跑得快
然后所有的这些优化只有它必然的这个版本才有那如果说我有一个新的模型结构那我自己可以让它跑得非常快我的 API 这个价格非常非常低并且我有一个开源的版本那大家可能说需要慢慢去去研究怎么样让这个开源版跑得更快但是大家可以通过我这个开源版本了解到我这个模型的一些实力那当大家部署的时候大家会想说我就想用这个模型这个模型太好但是呢我到底是用
我自己的部署还是买别人的 API 发现我用自己的部署所有开源的比如说 VRM 还没有支持这个东西还没有跟上的时候我买 API 更划算这个时候其实它开源的工作直接导致它的 API 的收入上涨所以我觉得这是一个非常好的技术演进的方向这跟过去开源项目怎么赚钱的模式其实也是结合的非常紧密的
这个 lm 的是商业化呃模型的商业化肯定跟以前我们看到这种什么 database 这数据库的方式商业化不一样然后你刚才提到就是说原来我们看到现在呃这一些做大模型的公司他们商业化都是说我开源几个小的让你秀秀马手都让你感受一下我的实力然后我再把最大的这个去去避远你的一做以后可能是说我最就是我避远的那个商业化的那个 model 可能他不只是一个 performance 更好
的模组其实它可以其实是在一个这个通过架构的变化其实是在效率啊等等方面都能够有一个更质的一个提升是吗对没错山羊化物件不仅是小的大的就是这这种物线也有可能是在 infra 层面的优化上然后决定它这个呃就是商业化就 infra 也可以就是帮助商业化郑阳你觉得你你怎么思考这个这个问题我觉得铁针刚才提了一个很好的问题从我总结的角度来看我觉得是一个关于
开源和研发之间关系的这个问题因为开闭源其实是一种选择但是你的研发水平的话是看各个公司的算法以及基础架构能做到什么样的水位开源的话毫无疑问它肯定是比这个内部是要跑的相对比较慢的因为我这么解释
我有一项好的技术,我肯定要把它经过非常充分的验证,并且社区可能会比较欢迎我的情况下,我觉得它有可能火的情况下才把它推出去。然后再不遗余力的,像我刚才说,像跟三方做适配啊等等,让生态的话去接受我这个新的东西,这是从推广技术的角度上来说。
但是我们的算法人员或者是我们的工程人员研发出一项新的技术落到我们的模型上的时候一般来说我们肯定是优先自用的那像刚才铁振讲到的比如说今天研发出一下比较能够降本增效的这个技术那我用到这里边那这里的话我就能拉开我的技术优势通过技术方案的优化来实现降本
那这个的话呢其实反而是说必然的某一种优势吧然后如果这个优势特别大的话那绝大部分公司的考虑反而是可能就不将这个技术开源到这个社区里面去当然他们也一定程度上有可能去开源但从常规的逻辑上来讲举个例子比如说 OpenAI 那 OpenAI 开源的可能性大家都都会觉得相对比较小我觉得它是一个
开源和研发之间的关系研发往往其实是要走得更快的因为你更 solid 更加考虑各方面的因素都觉得 ok 的情况下可能才会将它开源出去
这是我考虑的一个点所以我觉得说今天商业化可以通过技术来实现降本然后有一些公司甚至能获得盈利的话我觉得这个并不是不可能所以今天大家可能还会更加相信技术以前
刚才其实铁人提到了一个无话题就是说我们先通常大家看要去要去探索一个新的架构很可能是因为现有的架构我们可能多多少少看到了一个提升的这个这个天花板现在像拉玛这种架构碰到了瓶颈或者我们什么时候知道说这个碰到了瓶颈而新的架构不只是一种雕花而可能是一种真正的这个新的路径
我觉得这个是很好的问题,就是架构方面的探索的话呢,其实我们的经验应该是先追上,然后再看到有什么样的问题。那包括刚开始我们先追上之后的话呢,就会发现当时 Lama2 还没有出,我们其实就发现说你在推理部署的时候,其实这个 Multi-Head Attention 的话呢,其实是
会给你的推理部署的成本会带来很大的提升因为他这里的 kpcash 会非常大那这样的话你可能就会选择 switch 到比如说像 mqa gqa 这样的技术其实很多公司都会去想做这样的一些问题这就是发现原有的拉玛架构有这样的问题那拉玛自己自身他们的团队也会去研究看说这方面有没什么问题但有一些没有什么太大问题的地方你就可能就不太需要去动它了比如说像这个
计划函数的这个部分目前来看的话这个如果想做一个计划函数去 GPS Wiggle 的话是一个非常难的事情那随着这个技术的发展包括整个开源社区的发展大家会非常关心长序列这个事情就比如说我们做 OpenDev 我们遇到的序列其实就非常长那当然希望这个模型能支持更长的这个序列那这样的话我们就会发现说原有的这个方案呃
这么训这个 Lama 可能会有点问题你 follow Lama 比如说 Lama 最早是用 2K 长度的一个数据去训练然后你训出来的模型它的 cord 的长度就非常的有限大家会去想很多新的方法出来然后我们作为模型开发者的角度上来讲就会去
去改变说我要用更长的数据去训练当然这里不是模型架构的事情但你会发现就是 follow 别人的技术方案的话你会发现这样那样的问题然后你会去对它进行解决那进行解决之后包括像刚才铁证提到我们团队提了 TrunkLama 这样的技术其实我们现在是做了很多 TrunkLama 开发的东西包括跟
推理框架的接入等等然后让他真实的在场景当中能支持更长的这个序列我们现在其实也在突破这一类型的限制那包括呃你的呃
Attention 上面的话可能会一定程度的采用一些 Sparse Attention 你怎么样让这个 Sparse Attention 不掉点这些也是非常讲究的事情那有人可能就会像 Jamba 的话会把某一些层给换成类似于 RNN 这样的一些东西大家会去做这样或那样的一些探索都是去发现说 Lama 这个 Architecture 也好或者是 Lama 这个技术方案也好
没有办法满足我今天的这个需求所以我觉得大家都在做非常有意义的这一个事情那等到做出来比较 solid 的这个方案然后每个公司在自己的场景都验证好之后它就会飞动到开源社区这一边然后开源社区再对你做进一步的 evaluation 那这个方法如果都经过开源社区检验了那我觉得基本上就是一个
就是能流行开来甚至是名垂千古的东西 OK 我觉得这个是一个非常好的问题我也在想就是因为我每天看到这么多 paper 看到这么多的工作出来到底那些是值得花很多时间很多精力去做然后哪些可能就是就是简单了解一下就好了我觉得这个其实真的是需要在这个行业可能一线然后有很多这种
这个上手的这个经验然后才能找到更多的呃这个感觉对我来讲我我因为我并不是这个一线的这个 researcher 所以很多时候我其实也是需要啊听很多这个专家或者说同事然后他们的意见然后我自己呢也会啊跑一些这个测试但是呃我觉得就是这个实际上是一个相辅相成的就比如说创传吧呃
刚才这样也提到就是这可能是一个非常好的技术我看了那个配套我觉得他也非常但是呢他是不是能够得到社区的一个公认就是大家能不能用起来其实这个就要面临一个就是技术推广上的这个困境比如说如果这个技术大家都不用那他可能是一个很好的技术
或者不是一个很好的技术但是没有人用所以不知道或者说大家都用起来然后发现这个技术好像没有想象的那么好然后浪费了大家的时间所以我觉得每一个项目的开发中大家都会考虑说到底怎么做是不是支持新技术可能要花一个星期的开发时间然后效果怎么样需要有一个评估我觉得很多时候都是靠感觉或者说靠行业内 KOL 的口耳相传
呃就是而且而且很多时候他这种优化呢并不是就是一个系统去呃优化就可以了比如说我看那个俊阳之前提到说创纳马想要啊真正就是跑起来需要呃在 flash 的那个层面去去做一些支持呢呃这个
这种优化就不是一般人能做的因为你可能要就是写很多非常底层的 cr 加代码然后对复杂设探人的这个实现有一些了解然后并且你还就是非要非常小心各种数据精度啊这这种这种问题所以啊就我我感觉现在这个整体上来讲应该没有一个特别好的这个
方法我能想到的更多的是说尽量从各个角度展示说你这个工作做的非常的结实然后并且就是多跟这些领域的这个 KOL 去一起沟通然后如果是像阿里巴巴千万这样就是工作比较大的团队呢其实可以自己出一些人然后不仅仅是写一个 paper 并且实际把它贡献到这个就是
就是对应的这些库里面比如说 VLM 这些这些库里面那其实我挺好奇就是 VLM 是怎么去评估啊一个技术是不是啊应该被介入还是说啊就是就就就就可能是并并不是一个特别大的事情然后就啊就是就不管了对对我觉得这是一个非常好的问题其实我们每天都在
我摸这个问题就是到底要怎么样模型我们是要打算介入的怎么哪件模型我们打算不介入然后我觉得呃我觉得我们从推理测来说总的来看还是看这个模型到底是在
在这个训练的时候的表现思维啊但你最后训出来的模型的效果到底如何如果是一个效果非常非常好的模型那我们肯定会拼尽全力去支持但是如果你只是一个效果不太好的模型模型结构又做了非常非常大的变化那我从我们 VLM 角度如果支持一个这样子的模型我们要改非常非常多的代码来专门去
去 support 的一个这样子的一个如果效果不太好的模型那我们可能在 engineering 上做这个 trade off 之后我们会觉得可能这一个事情可能会不太值得哎那卓涵有没有关于接下来的这一你看到这一些啊这些模型到底哪一些呃怎么样的模型啊你觉得这个这种架构是啊是真正的带来这个质的提升你觉得现在我们那拉嘛我们算是看到了一个一个一个瓶颈吗你觉得现在还有哪一些啊值得关注的工作和方向
对我觉得第一个是首先这个喇嘛本身结构我们说是说喇嘛结构看起来好像就一年一个其实它就是一个一个 transformer 结构嘛对然后再加上一些小改然后 transformer 本身是一篇 2017 年的论文所以它也已经久经时间的考验从 2017 年开始大家想要做很多各种各样 transformer 的 modification 但是大家最后发现还是 transformer 本身的结构能够
it's good enough it's easy to scale 然后你可以在训练上获得非常好的效果你想要在这个 base line 上面再提高一步是一件比较难的事情然后我觉得我们最近看到的一些比较有意思的点第一个是像刚刚提到的 moe 很多的 model 像特别是从 mistro 开始很多的 model 都是使用了这个 moe 的这个架构我们在推理测也在想怎么样能够做更多关于 moe 相关的优化比方说引入一些 moe 本身 moe related kernel 然后第二个就是还是这个 long time test 的问题
对就是普通的 attention 在这个特别是在推理的时候我们会发现这个在你在 context 变长的时候你的这个模型会显著的变慢然后怎么样能够把这个在自动 context 情况这个 cost 降下来然后设计一些新的这种 attention 的方案对这些都是我们比较感兴趣的一些内容对就比如包括像 Mamba 这样的结构也是能够为了优化这个在 transformerattention 这个这个在句子长度的平方的这一个计算的复杂度
啊卓汉团队其实在之前你也参与了那个 Vicuna 的项目其实那就是啊这样想还真的这个大模型这个领域的变化真的是非常快我想 Vicuna 应该也是最早的一批啊 TragV 出来以后做的这个开源的 LM 的项目可以这个卓汉要不跟跟大家简单介绍一下这个是什么时候的事然后
当时作为空的包括我记得那个那一段时间出来了很多驼类项目的这个这个开源的这个 LM 对吧当时的一个背景是是怎么样的那个时候其实很多这些项目是这个学术界主导的嘛对吧像 Stanford 也出了 Alpaca 等等的那现在好像靠这些相对来说少了一些所以想听听你怎么看待以后学术界对于这种开源 LM 的一些贡献
好的对我先讲讲 Vicuna 的历史吧如果按照刚刚铁证的分类这个就是属于一个典型的魔改喇嘛陌路 23 年的 2 月份 3 月份左右然后我们当时看首先 chatGPD 刚出来大家都非常的 excited 然后看到这个这个大元模型能够做这么多这么厉害的事情然后当时正好赶上这个喇嘛呃
Meta Release 的 Lama,但是只是 Release 了一个 Base Model 当时大家 Meta 本身也没有 Figure out how to do like RLHF,怎么样做一个 Chat Model 然后但是我们可以看到它 Base Model 本身在各种 Benchmark 上的这个 Performance 显著高于它之前的这个 Model
之前的这个 opt 的 model 对然后我们在看这件事情的同时的时候我们在想怎么样能够把这个 nama 本身能够变成一个更一个更加大家 easy to use 更加像 chartgpt 的一个呃一个
一个模型对然后我们在这个同时我们看到了另外一个网站叫做 sharegpt 这个是当时大家也是 chatgpt 刚出来大家就感到非常 excited 所以有有有有 open source developer 开发了一个 chrome 插件可以看可以让这个不同的 user 能够这个 chatgpt 的 user 能够如果看到一个
他自己觉得非常的非常有意思的一个跟差 GPT 对话他可以一键点击分享然后可以分享到他的网站上对然后我们发现这个 shareGPT 当时因为 GPT 本身很 popularshareGPT 这个插件很 popular 有很多的这个对话大概是当时有 7 万到 8 万条对话被分享到这个 shareGPT 的这个这个网站上然后我们就通过这个 shareGPT 我们发现这个 shareGPT 其实他 capture 很多这种 GPT 这个模型在呃在这个
fine tune 上面做出的努力就比方说我怎么样让他表现跟他那个 chatbot 能够能够和这个人类进行这种交互的能力然后我们就想了能不能直接使用这个 sharegpt 的这个数据集来 fine tunefine tune 一些 Lama 的 model 看看会会是什么样的效果我们我们最后很 surprising 的发现就是如果非常简单就是使用这个 sharegpt 的数据集来 fine tuneLama 可以很可以迅速获得一个这个比较呃
就是一个 usable 一个 conversational fluent 的一个 chatbot 然后我们我们就非常 exciting 和大家然后和大家 share 这个这个发现然后发然后也对对然后我们也就非常 lucky to become thethe first model that can achieve theconversational fluencyas chatgpt 所以我们当时也收获了很多的这个 attention 对
对然后我觉得呃回到刚刚呃 monica 的问题就是在学术界 develop lm 首先我觉得现在学术界还是有很多的这个呃 lm 还还有很多在 lm 上各做的各种 fine tune 和各种呃各种各种 fine tune 的一些这个
一些 work 甚至还有在学术界做的一些 pretraining 就好像 OMO model 就是来自 AI2 或者说 University of Washington 还有些这个像阿联酋的这个 MBZU AI 他们也自己训练一些自己的 model 所以学术界的 model 还是在训但是我觉得可能大家现在觉得学术界的这个呃
学术界的声量比较小是两个原因我一第一个是我觉得这个大模型本身已经证明了自己有足够的商业价值所以有很多的商业公司参与进来然后商业公司的声量也是非常非常大的这个导致相比而言学术界声量就比较小第二个就是呃也是一个现实的问题就是学术界拥有的这个计算资源和一个大公司相比是远远远远有限的所以学术界其实是比较难做一些这种非常非常大规模的呃
预训链之类的事情所以学术界想做的事情是会更加的 limit 更加 focus on specific scope 比方说我做一个 agent 的测试或者做一个 specific task 上我怎么样 fine tune 一下 lm 来让他做的更好更好学术界的 focus 可能更多的转移到了那个部分对啊对我特别同意刚才那个啊周涵说的就是我感觉学术界啊其实
比较呃叫什么这个这个资源就缺的比较多然后你想这个呃大博新公司现在动辄呃估值是几个亿然后他们买卡然后处理数据然后去预训预训练的这些经费呃远远超过这个这个学校那我我还是觉得就是学校呃
在学校的这些老师和同学还是有蛮多机会去做很多事情的因为大家的出发点不一样比如说一个公司如果他想要做一个开源模型他实际上是希望这个开源模型能够获得一定的影响力在学校里面其实大家更关注的是在某一个小点上做一个突破然后获得很多 citation 比如说一个公司说我想获得很多 citation 我发了一个质量非常好的数据集
就没有对吧他没有办法把这个东西转换成一个商业的闭关所以这方面的工作他可能会做的比较少而且你作为公司去发一个数据集然后就也有可能会有很多这种 IP 的风险所以他可能就有很多事情他是选择不做他会把自己定位成说我一定要做一个能够产品化然后能够获得影响力然后方便我去后面产生现金流的生意然后方便我去做更高的估值的这些事情他可能
那么学校里面比如说大家愿意做一些这种模型架构上面的调研比如说去拆解一下说我现在这个有这么多技术到底哪一个才是实际有用的或者说去尝试一些这种现在不能马上转化的这种未来架构的这种巧思
我觉得这些都是可以理解的如果我没记错的话像比如说 Mamba 应该也是在学校的时候做出来的一些工作像 Flash Attention 也都是在学校里面做出来的一些工作因为这些工作开源出来之后其实是不能够直接转化成商业的所以我觉得我们是需要这些商业公司在这里面去做很多很重要的投入
去推动这个行业不停的往前发展但是同时我们也需要很多不是以这个有一个商业转化的这个闭环的这些比如说在学校里面的这些研究员去做一个非常这个好的工作其实这块我还是挺好奇就是不知道后面对这个 VOM 的这个项目的想法那么随着比如说项目里面大家这些博士生毕业后面这个项目的计划是什么样子大家会说想要把它做成一个呃
有商业化闭环的这种商业项目呢还有说这个实验室会有不同有新的同学进来然后维持就是 VM 作为一个纯社区向的然后就非公益的这种项目继续去运转下去
非常非常非常好的问题对然后也是一个我们呃被问的最多的问题我觉得 vm 本身它是一个呃我觉得我们是非常幸运然后我们收到很多很多特社区的支持然后我们现在一个比较大的亮点就是说其实你看如果 vm 现在贡献的 code 我们其实这两天正好做了一个统计大概只有百最近只有 25%的这个
commits 是来自于 UC Berkeley 而剩下 75%的 commits 都是来自于其他的 open source community 不同的公司然后我们现在已经有和很多的公司合作很多公司在有一个 dedicated engineering 的 team 来给 VLM 写 code 来给 VLM 加新的 feature 然后甚至有很多公司也有很多这个 VLM 的这个 committer 和 reviewer 能够来帮忙 reviewVLM 的这个
各种来新的贡献对然后我们目前的计划还是说希望 keep the open source momentum going 我们希望 VM 能够成为一个成功的 open source project 对我们我们在 Berkeley 这边我们更想做的事情是能够 guide 大家能够这个 coordinate 大家的 efforts 然后来做更多的这个呃
让保证这个项目能够在这个能够长期的发展下去因为我们有很多新的这个博士同学加入然后对我们也希望在这个项目能在 Berkey 也能够长久的发展下去 BLM 的话其实让我想到几个月前我其实发起了一个投票就是说你们会用 BLM 还是用 TGI 还是用 TESRTBLM 因为我我想找到一个更好的推广给我的用户的方案
但是大家其实会更多的把票投给 VLM 当然 NVIDIA 的人会跟我说 Tensor RTLM 的性能会更好各方面但其实 VLM 的话在应用性方面其实做的很好而且它是基于 Python 的这让大家用起来的话会非常的方便所以其实对于 VLM
这个框架的发展来说其实像刚才卓翰提到其实现在已经变成有很多人在给他提肯定的甚至是有小公司大公司的人就在不断的给他提肯定因为他们在帮助别人的同时其实就是在帮助他自己所以我其实相信说这样的一个框架能够获得流量能够获得流行度的情况下我觉得他可能真的会是成为大家的标配这让我想到 Honey Face 其实早年的时候大家会去诟病说
Hangin Face 自己本身的代码有这样那样的问题但其实整个社区的话它就这么自然的发展起来所以我也希望说 VLM 的话其实也能以这样的方式发展起来
关于学术界和工业界的问题因为刚才铁针谈了比较多这方面的问题其实我跟学术界的人接触其实还比较多我也在想怎么跟学术界合作会比较合适我先说一下比如说在大公司或者是说大模型开发的这个团队的现状就是我们一般做事的话在技术方案上反而是不那么赶
非常激进的去做一些事情因为你训练一个大模型真的不容易而且它是非常烧钱的一件事情毕竟这么多卡真的烧也是不能随意的去做实验的我们一般会选用更加稳健的方案的话保证这个模型迅出来的效果是足够好的但是这个世界是需要很多人去进行探索的有很多新的技术的话反而会对这个大模型
的技术带来质电其实有很大的帮助就像大家在提 OpenAI 的时候其实大家会发现说 OpenAI 在做的事情它的很多技术似乎其实都是来自于别人但是它把零门一角做得特别好把它做到特别上乘那我觉得像学术界的话其实可以做很多创新的工作我觉得有一个非常非常好的例子就是斯坦福的 DPO 我非常喜欢这一颗工作因为
在去年的時候其實大家在做大模型都經歷了非常艱苦的時期就是大家想做 RLHF 但是失敗的經驗積累的越來越多但是不知道怎麼走向成功因為 PPO 非常難訓而且往往是有做 RL 的人才清楚這個事情怎麼做但是 RL 又不太了解 NLP 這就導致這件事情很難做讓大家覺得說 OpenAI 好像有
神秘的魔法很難追上但是有了 DPO 之後這個技術很快就經過了社區的驗證我大致的感覺是去年十月份的時候這個技術就開始非常火起來了大家開源社區的人都會去用 DPO 去做 Learning from human preference 這一件事情就是學習人類的偏好用 DPO 的方式去做
那其實我們現在
实际在用的时候也是会用到 DPO 或者是 DPO 的变种这也为我们迭代更好的模型的话带来非常非常大的帮助那我觉得学术界如果能做出这种非常有益的工作非常创新的工作的话其实是对于整个行业的发展是非常重要的所以我觉得不一定是说学术界对于大模型就比较 negative 就是说我没有卡我就做不了一些事情其实现在
还是能做比较多一些创新工作尤其是今天开源社区像 Hugging Face,Lambda CPP 以及 MLX 不断的在推动大模型的普惠今天你甚至可以用 Lambda CPP 甚至用 MLX 就在你的苹果电脑上就在你的笔记本上面的话就能够 fine tune 一个模型所以我觉得能做的事情很非常多
嗯对的我觉得这个这个分享非常非常棒其实学术界现在做了很多工作很快也会反映到这个开源社区里面要么就是本身开源了要么就是很快有开源社区和实现我觉得整个这个进化的这个步伐我觉得还是让人觉得非常的期待然后另外一个关于开源我想不得不提的其实就是 data 对吧数据其实前面铁证也提到了说呃
看到了很多其实国人驱动的项目也是一些甚至是一些开源数据的项目当然我们又另外一方面数据其实又是这个呃这个做 ai 中很重要的一块啊很多大陆新公司我想肯定也都在花很多的钱在呃在去确认他们自己的呃
自己的这个啊 proprietary 的数据也好或者说新的种数据方法似乎数据也是大家最难以去啊最难以去这个名说的一个这个这个 secret sauce 啊所以我好奇说铁针你怎么看待就是说现在这些开源数据集在整个啊整个这个行业里边的一个一个作用呢谁有动力要去把自己辛苦苦
这个抓下来的是生产的这个数据把它开源出来往后随着随着这个高账数据可能越来越贵的产生会越贵我们会看到有一些怎样的这个挑战和还有一些你就看到一些可能解决这些挑战的一些机会吧
对 我觉得虽然数据上其实现在已经多很多数据但其实总体上我们还是非常缺高质量的中文语料的前几天我做了一个测试我让各种大模型来跑谷体试然后算它的频子因为我自己不会说方言所以我其实分不清哪个是入声然后我也不太会知道这个频子所以我希望大模型能够帮助我然后我发现就是
基本上就是全军覆没就是其实还有那个 01 的那个必然的那个模型其实都都做的还可以但是其实还有就是我觉得这个领域其实还是需要大量的这个数据才能让模型更好的去理解中文理解我们这些传统文化而且现在就是我们对模型的需求也也会
不断的变化以前是说他好像挺聪明就可以现在我们不仅让他聪明其实还需要让他知道更多的这个知识要知道更多的知识其实就需要更多高质量的这个预料
然后我看到现在其实大家也发了很多数据集大部分的数据集它们的源头其实都是 Common CrawlCommon Crawl 就是一个在互联网上的一个应该是非营利性的一个机构然后它从很早以前远远早于大模型出现之前就开始在互联网上爬各种各样的数据然后把它存起来然后
每个月就是发一个发一个版本然后到现在它应该已经有几个 PB 的数据但是所有的这些数据并不是都能被大模型用于训练比如说它爬下来的这个数据可能是 HTML 格式的那你要把它洗成就把里面的关键的信息找到广告屏蔽掉然后一些就是没有用的信息也都屏蔽掉然后就是把它洗成一个文本的格式然后方便这个大模型去去训练那很多人在这里面做了
蛮多的这个工作但是这个问题在于什么呢就是 Common Crawl 的理念就是就算你把所有 Common Crawl 的能用的数据全都用了它也只有不到 5%的数据是中文数据为什么呢就是 Common Crawl 它是一个就是君子行李的这种组织它也为了避免自己一些法律风险所以它在爬网页的时候它会看那个 Robots 协议如果这个网站禁止搜索引擎或者说其他的一些地方买 Hot 的网站的话这个数据是肯定不会出现在 Common Crawl 里面的
并且 common crawl 也会制定一些规则把一些网站就是给屏蔽掉那如果说大家的开源数据集都是从 common crawl 起并且 common crawl 不懂不太懂中文的话那其实就是我们会遇到一个巨大的这个危机就是开源数据集就中文的开源数据集实在太少那这方面就是有有有有两派做法一派是更草根一点的就比如说这个 MNBBC 实际上他们就是在各种
呃他他们的这个呃愿景会非常的高大大家感兴趣可以去去看一下那他们在收集各种就是高质量的这个中文语调并且啊做非常多这个呃清洗的这个这个工作啊然后另外一个呢就是可能呃不是草根的事而是就是啊更
官方的一个视角比如说智源就在做这个 CCI 的这个数据那么他联合很多这种单位然后去希望他们能够贡献一些数据集我觉得这些工作都特别特别的就是重要因为我们要找到一些 common cloud 里面没有的这个中文数据然后把这个这个中文数据集的这个缺失给补充上去然后后面就是我们其实看到这个中文数据集的这个缺失呢就是有可能会有另外一个方向的演
就是在海外这个 New York Times 不是把那个 OpenAI 给 gone 所以其实就是国内的知识产权界也有一些就是讨论说这个大模型的这个预料到底如何去界定所以现在很多公司我感觉还是有一些顾虑就是就算他们自己做了一些比较好的数据集是不是能够把这个数据集开运
那我覺得後面這個可能更多的不光是一個技術圈的討論更多的是一個法律圈或者是國際關係這些人討論的一個就是一個話題吧那這個我也不清楚後面會怎麼走那我還是希望能夠走向這個對泰元更友好的一個方向就是美國的話其實他包括這個
他们其实就是达到一个点就是 Fair Use 就是合理使用就是他认为大模型的这个训练啊什么的这些数据可能是被可以被定位成合理使用然后不受这个知识产权保护的这个限制这方面就是国内并没有这么一个知识就是合理使用的这个大规模的就是判例所以这块也看就是国内的一些变化吧
嗯嗯那俊阳我好奇因为你们在自己做单位性的过程中就是数据这一块用接下来主要研究方向是什么会有还有哪些新的挑战嗯数据方面的话现在预训链的数据我整体看下来可能大家略略都会有一些趋痛了因为都是
获取全网的数据放到这里边去训但我觉得这个数量上的空间其实还蛮大的像 Lama3 的话他说他是 15T 的数据但是我听 Mark 的博客讲我感觉他的数据应该是有多个 iteration 也就是说他的 unique token 不一定那么多我目前整体看到大家能获得 6 到 7T 会是一个
认为比较合适的训练数据 6-7T 会是一个比较合适的数字但是应该还有空间再进一步往上走走到比如说 10T 以上的比较高质量的数据因为事实上就是如果你觉得这个质量比较低你也能纳入进来的话其实你确实能把这个量能扩得更大但一般大家还是会有一个自己定义的一个标准的限制
但我觉得预训练这个事情的数据的方案可能会相对来说比较确定一些但是 post-training 这一块的可能性就比较大大家可以看到有很多不同的 research 在探索 post-training 的数据应该怎么构造会带来什么样的影响那像去年的话呢大家会说 less is more
比如说我 1000 条数据可能就够但今天的话我们可以看到 Lama3 的话引导的方向又变成了说我要用了 1000 万条 instruction tuning 的这一类的数据我觉得还有一个很大的空间非常值得探索我也知道现在有美国这边有很多大的公司在做的一个事情就是要标那种非常难的高质量数据举一个例子还是跟 Open Daven 相关的就是
encoding 相关的数据像我们现在想获得真实的我们叫 trajectory 就是人在解决代码问题的时候他是怎么做的
这个过程的数据能把它给构造出来比如说今天我碰到一个 issue 然后我去思考我怎么去做然后我第一步做什么然后得到什么样的反馈然后第二步又去做什么样的事情那这种数据的话其实是非常难构造的而且审核也非常困难就是你需要呃
相对比较专家的工程师他才能够去判别说你这个数据标的质量是好还是不好所以我觉得之后如果大家更清楚拿 Large Language Model 能做什么样的一些事情尤其跟 Agen 相关的时候它发展得更好的话
反而会知道这个数据应该怎么去标我觉得更大的空间其实是在 Post-training 这一块今天大家谈更多关于 OpenAI 的秘密的话其实 OpenAI 在数据方面的话也有很多不人知的一些秘密那也需要我们 OpenAI 以外的人去做非常积极的数据方面的探索
其实刚刚铁站还跟我分享了一下这个数字说其实这个其实像千万和亿以前我们提到要看他们的社区发展怎么样要看他们这个家族有多大我看到这个从国产的这些模型来看千万和这个亿都是在他们整个家族里面都是有上千的这个社区的这个这个
这个上千个 model 对吧这个社区里边我想都是一个非常非常不错的这个成绩了但的确对比起像 mistro 啊还有像 lama 这样国际顶尖的这些项目还是有一个数量级的差距说到底我们跟这些顶尖的这些模型这一啊社区他们的这个主要的啊差距在哪
然后还有哪些我们就可以学习的这个地方包括我们看到说 mx9 明明在其实是去年下半年对吧才开始然后好像一两个这个 magnet 这个磁力链接就就可以让他们的这个这个热度晚上上来就这个这个背后有哪一些跟技术产品和社区相关的东西我们是可以去学习的
这个问题我很喜欢,因为总好说起我们当时为什么会做 Q1.5 的经历其实当时就是因为看到了 Mistral,它虽然是后发者但是会发现它的世界范围的影响力的话,当时是远大于 Q1.5 非常非常多
像刚才我提到的甚至当时还有非常多人没有听过你这个名字那我会去看 Mistro 究竟做对了哪一些事情因为从 model quality 的角度上来讲的话我承认当时
即便是今天 1.5 的 7 币的话可能跟他的 Mistral 的 7 币的话在一些能力上还是会有一些差距但是我觉得这个不是完整的原因所以当时去做了比较多的探索其实会发现 Mistral 他看似非常随意的扔了一个磁力链接但是其他方面的事情他其实做的非常多就是我觉得海外的人反而
反而会把事情做得更加全面一些比如说今天我要去 release 一个模型那我以什么样的方式让这个用户能够更好地用起来然后预判一下用户可能会有哪些问题现在开源生态大家是怎么用大模型的那怎么样让他们不用 Lama 而用 Mistral 我觉得这些问题他其实是想的比较多的所以他把很多事情都
都推进下去那当时我们多少有点咫尺而后勇的意思吧就是因为当时内部去做讨论说我们问题究竟出在哪里有什么可以跟他学的能不能有一天别人在提完 Lama Mistral 之后想到的就是 Quant 这个系列的模型所以我们当时就去做了很多三方生态适配的这个事情包括修改我们代码的事情
所以其实很多事情或者是别人看起来非常轻易的成功他其实背后做了非常多细节的工作而不是一些大的战略上就能判断对的一些事情我觉得今天大方向上大家整体都差不多但是更多的事情是藏在细节当中像他们还有对开发者做很好的关系的维护我觉得在国内的话我们其实是相对来说做的比较少的
就可能也要再进一步的去做然后去教大家怎么去用你的模型你的模型可能优势在什么样的地方怎么样去给大家讲好你自己的故事我觉得这些的话都是需要我们去学习的这也是为什么我们当时 Q1.5 出来的时候还要配上一个类似于专属于 Qn 的官方的博客因为每一次的话我们就能够把这些信息的话以博客的方式去呈现给大家
但你可以看到之前有很多的国内的开源模型的话其实是没有把这个信息去做充分的传递也没有比较好的教程去做这个事情那我们这边还相对好一些就是某大社区帮我非常多就某大社区会去推广各个开源的模型教大家怎么去用那他同时也会去推广 QN 去怎么去做这些事情
我觉得这这些的话这些细节其实往往是呃你成功的关键而不是一些大的东西呃所带来的成功吧对我觉得这这是特别好的问题然后啊我觉得就是在国内呃
困应该是算是做得最好的这个海外宣传的之一就是大家如果想要做这种很有海外影响力的这个大模型或者是项目其实都可以和这个郡阳好好学习然后 VRM 在海外也有非常大的影响我觉得其实特别就是期待就是有更多的分享就是说这个从零到一的一个起步到底做对了什么然后我特别同意郡阳刚才的那个点就是其实从二的战略上来讲
比如说我们就就谈这个宏观的这个这个战队其实支持开源这个其实很多人都是认可的然后啊说我们要有更多海外影响力这这谁谁不想要对不对但是魔鬼都在细节是不是能够把这个东西做好比如说这个东西是一个 kpi 追问的事情然后上面就只有一个战略就是说啊我们要有一些海外的影响力那最后可能大家觉得哎呀这到底能做什么我把模型传到哈音 face 呃
是不是就结束了没有其实还有好多事情可以做比如说你是不是可以写一个非常好的中英双语或者说只有英文的这种 model card 就是在大家访问到你这个模型的时候第一眼就能看到说你模型有什么亮点然后解决了什么样的问题然后你的评测的效果是怎么样子有没有一些例子有没有一些吸引眼球的图片然后最后再给一些 code snippet 告诉大家怎么去把这东西用起来
然后你在上传这个模型的时候你是不是加了合适的这个 metadata 让大家在 HineFace 里面搜索这个模型的时候一下就能把你的模型搜到就是也可以就是比如说在模型发布之前然后就是可以找我然后我们可以一起对一下看看怎么能够帮你们有更多的这个影响力然后其实不光是 HineFace 比如说在推特上的宣传然后在 Discord 的宣传然后跟这些开发者的这个沟通然后跟
比如说是不是能够在模型发布之前然后就跟比如说 VRM 的团队去做一些沟通然后看看是不是可以一起去 release 然后还有什么 LamaCVP 等等这些就是下游的这些组件是不是都能够把你的模型跑起来
然后这样模型一出大家就能把马上把它用起来因为这个这个就是大家人的这个关注的热点都是说啊这热点一出来的时候是是就是关注度最大的如果那个时候你抓不住用户那后面用户肯定就就流失了没有人想说哎呀那我过一个月之后再看看你的模型到底能不能跑一个月之后这个就已经有新的模型所以一定要是在发布的时候就把尽量把所有的这些东西啊都准备齐然后啊像刚才也提到这个 miss 手他是用词连接的方式发布我觉得保持一点神秘感然后
把它做成一个话题然后让更多的人能够参与进来有更多的吃瓜群众我觉得这其实也是挺重要的一种能力我觉得像志洋刚才也提到他会在推特上去发一些 po 啊什么的我觉得这种
这种跟社会跟社区的一些互动也是非常重要的然后是不是能够让大家哪怕不是因为你模型发布以来也还关注你的公司的一些推特账号然后跟你有一些互动我觉得这些都是很重要的还有就是关注一下用你模型的一些 KOL 它可能会既然你用了模型不管它的评论是好是坏其实都可以
可以进行更深度的互动说不定就可以有一些非常重视的粉丝然后再尽量面向英语圈创作更多的内容就像刚才提到创作一些 blog 甚至可以考虑做一些 YouTube videoYouTube 上其实有很多非常火的视频就是教大家怎么去在 Windows 上面装一个 Stable Diffusion
那这这些博主其实啊他们也很缺素材嘛那如果你有一个非常好玩的东西不管是模型不管是文生图不管是 mora 还是怎么样是不是啊就是能找到更多的渠道啊在海外去去发生那回到主持人一开始的那个问题就是为什么 mistral 他的眼神模型会比啊昆和 01 要要多出一个数量级我觉得其实也是和就是大家主要面向的这个啊群体有关就是啊
我感觉国内其实也有很多人做了非常不错的模型但是大家可能就是也不太愿意呃网上传或者是开源所以看起来这个呃模型的数量会呃会有点少然后呃就是在海外的话这些用户因为这个这个 hanging face 的这个这个全家桶其实非常方便的你在那块随便就是我就我就我就说我有一个呃什么呃
300 条的数据然后我翻听一下然后用这个模型翻听一下那个模型翻听一下看看哪个能满足我的要求然后翻听完我就直接传到传到网上这这就是其实是非常非常容易的一个事情上次啊就是啊去刀粉去去翻听那个千万 110 币的那个呃老哥我问他说你大概这个用了多少张卡然后用多少时间最后一算他微调一个模型的成本可能也就
5000 美元海外的这个算力成本可能就是比较低所以大家就是嗯就是觉得哎我就是这个周末对吧我玩一下然后这个下周我就能看到一个呃这个模型训练训练出来的结果传到海音费斯看还有没有人关注或者说他去宣传一下他自己的微调模型啊间接的为这个啊基础模型做一些宣传我觉得这这里面其实有非常多啊特别好玩的东西可能需要啊找到一个啊就是天天在这个社区里面去积极发言然后去
啊就是知道这个社区大家可能会期待什么然后啊就慢慢去啊有一个啊就有耐心去去慢慢把这个自己的社区做好吧所以我觉得可能啊这个就是现在我们看到说已经有一些模型做的还蛮不错的那我们相信后面会有更多啊国内的模型会有非常大的这个影响力对我觉得刚刚铁针和这个铁针和这个俊阳分享的这个
关于这个就是到底如何执行上面和这种一些相相对于树上的一些这种呃分享是非常非常有帮助我觉得可以帮助大家这个在发布一个下一个大模型的时候能够做到怎么样能够有第一波的影响力但是我觉得到了最后你的一个模型最终能取得影响力其实还是取决于这个模型本身的质量就是你的这个模型比方说相比起我用喇嘛本身能够带来什么样的优势能够比方说能够更快呢还是说能够得到更高的质量呢对我觉得呃
大家就是我记得印象比较深刻的一个例子是就是 01 的那个模型 E 他们第一开始发布的时候我觉得我记得他们一开始还是有一些风波因为他们的模型长得非常像这个 Lama 的这个结构就是说对吧大家可能觉得啊这个就是一个 copy Lama 对吧你就是什么都是抄的但是其实在在海外大家还是最后还是发现这个 E 的这个模型训练其实是比 Lama
本身做的是要好他用更好的数据集可能训练了更久他的这个模型的质量是比喇嘛要高的最后很多很多人开始把自己的模型从这个喇嘛模型到 E 这个模型我觉得 E 这个模型到了最后还是能够收获非常大的成功的从我们 VLM 角度看这个我们很多的 issue 也是 like
就是大家碰到问题都是在跑意义这个模型的时候碰到的而不是对我觉得这个到了最后还是看这个模型的质量本身呃我非常同意卓汉的观点因为讲到意义的话就是一定程度上意义是一个学习的对象因为那个呃
我当时还专门问过吕强怎么去做这个 E 的运营这个事情因为 E 这个模型的话首先它运出来的效果是比较不错另一方面的话它无缝衔接了什么代码它甚至可以直接用单网的代码来跑它把之前的问题给解决了之后的话在海外其实很快就火起来而且它还有一个独特的优势就是其实也是前面 miss 掉的一次的事情就是
我们有很多的用户在用我们的 14B 的模型的时候会发现说能力不是很够然后用 72B 只能可以但是 72B 太贵了就非常希望我们能有一个中间的模型所以 E 的 34B 这个 size 的话其实是非常好所以几方面的因素一方面的模型效果很好另一方面的话这个 size 的设计的话正好填补了社区的空白所以其实它就很快的做起来就我其实想补充这一个点 E 确实也是一个做得非常好的模型
就我特别同意那个周涵说的就是最后还是其实实力说话 Mistro 和 Lama 获得那么大的影响力其实也是因为它的这个模型确实是非常不错的然后刚才给那个千万打这么多广告我也给 E 打一个广告就是 E 的这个最新的这个模型也有一个新的亮点就是说它的 license 切换成 Apache2 那就基本上就是没有太多的这个限制不管是商用还是说你想用这个模型去做一些这个更细致的调整啊什么的
其实都是非常方便的那个卓涵我好奇就是做像 VLM 这种 Mainframe 的项目为什么能够出了这样的成功回过头来你觉得有哪些经验可以跟大家分享我可以分享我们 VLM 从 release 之后发生的一些事我觉得我们第一天 release 的时候我们也是有一些这个
有一些一开始的这种 bonus 是因为我们实验室有好几个项目第一个是 Vicuna 我们当时需要 serve 一个 Vicuna 的 demo 来给大家用第二个是为了当时 evaluateVicuna 的结果 Vicuna 到底是一个好模型还是坏模型我一开始也有参与的一个小项目叫做一个项目叫做 Chatbot Arena 通过人投票的方式来比较不同的模型之间的好坏
不管是 Vicuna demo 还是 Treadable arena 都需要我们自己 serve 很多的模型然后在学术界我们又需要 serve 模型我们又没有那么多 GPU 那我们就非常需要一个高效的一个 LM serving engine 来能够
support 我们的这些这样子的项目然后当时 VM 在 release 之前我们其实我们是 6 月 20 号 release 的然后我们在大概 4 月份的时候就已经开始 support 这个 both Vicuna demo 以及这个 chatbot arena 的这个项目所以在 release 的时候我们不光是就是 release 项目受了一个我们的比较好的一个 performance number 并且我们也其实展示了一些我们的 real world case 我们已经 serve 大概两个月的 traffic 然后这个可以给大家更多的信心然后来可以开始使用这个
使用这个项目然后呃然后对还有一点就是我觉得对于一个开源的 infra 项目来说能够让大家 get easy to start 就是能够很快速用起来是一件非常非常重要的事情我觉得很多做 infra 的人会低估这件事特别是大家在呃大公司里面做你可能只面对你的一套这个环境然后你可能部署一次你就再也不用部署了然后你面对同事也是非常非常这个封面的同事他们可以 follow 你的这个 100 行的一个这个 instruction 来 setup 一个
environment 对我觉得这个然后但是在开源的世界很多时候很多人可能试了两三步发现不行可能就直接放弃了所以我觉得对于这个 project 一开始的 adoption 来说你的这个 project
project 本身非常要 very easy to get started 这件事情是非常非常重要的对如果一个人能够跑起来你的项目他就会对你的项目他就会对自己做的这件事情有信心然后他就会更愿意来看你的这个代码呀更多的使用啊都这样子的事情对然后我觉得最长期的发展的话我觉得还是要多和社区交流吧我觉得是这样我们我们在 vm
团队本身我们想我们的努力目标一直就是为了让大家能够更好的更好的用 VM 然后以及更好的加新的 feature 能够比方说你有有新的模型你想要实现新的一些优化或者是你有一个新的硬件我们我们想我们从在 VM 团队本身我们想要让我们的 project 能够
的结构上来说能够非常容易的来增加这些新的这种不同的优化对然后我觉得这个是我们一直在努力一直在做的一个事情然后最终以及就是还有我们要比 more inclusive 就是比方说像有有 committer 给我们来 commit
新的代码我们也会很积极的去 review 然后来提供我们的 feedback 然后如果一个贡献者如果能够他们如果有经常的贡献我们也非常愿意让他能够多参与进来比方说成为一个 reviewer 能够来 review 一些 code 然后能够有 merge 的权限然后相当于对我们这个项目有更多的拥有权或者说一个更多的参与感对我觉得这个也是非常在运营我们开源项目当中非常重要的事情
有一开始有一点无心插柳的这个程度但其实我觉得这个是挺常见的就其实有很多我们看到的一些开发者工具啊什么的其实他们的诞生都是因为这开发者自己在做另外一个应用所以过程中很自然而然的呃发现了这个需求啊主要和正好提到了一个项目吧不知道刚刚大家这个听呃有没有听清楚就是这个这个 chat 宝啊绿呢其实这个正好就是正好完美切换到我下一个想要讨论的这个话题啊就是呃
lm 的这个评估讨论反正热烈一个话题虽然我们有各种各样的这个 leaderboard 但是都没有一个共识啊所以差不多 arena 其实也是个特别我觉得很有特点的一个 leaderboard 而且如果大家去到这个哈根费斯上面去看的话哈根费斯也啊 host 了这个这个这个这个榜单吗你会发现在这个
Hive face 的这个 open lm leaderboard 的这个模型这个结果其实跟这个 travel arena leaderboard 的结果还挺不一样的要不卓涵跟大家简单介绍一下这个 travel arena 是怎么样的一个是是怎么样的一个评估这个方式你们对于啊大模型评估这件啊这个事情有怎么样的啊一些一些观察和思考嗯
对,Chatbot Arena 是我们实验室的几个同学他们发起的一个项目就是说当时一开始的 motivation 也是像我刚刚说的就是为了解决这个 Vikunia 的 evaluation 的问题我们到底怎么样判断到底是 ChatGPT 好还是 Vikunia 好,到底 ChatGPT 比 Vikunia 好多少然后我们当时我们很难找到一个自动的量化的评价指标所以我们到了最后我们想的方案就是 OK 我们给一个人给一个 random 的 user
呃两个模型然后那个 random user 可以问这两个模型任何各种各样的问题然后我们可以问然后他可以啊模模型会给出相应的输出然后这个人可以在两个模型当中投票所以
这两个人每个用户可以在两个模型当中投票然后可以选择一个相对选择他认为相对更好的模型然后我们可以最终通过这些投票的结果然后每一次投票就相当于是两个模型打了一场比赛然后有谁赢有谁输然后我们可以最后可以通过把这些呃
模型的这个输赢的情况作为一个加权的平均就好像大家比方说网球比赛有很多这个各种网球选手有一个世界排名他们的一个算然后有一个积分然后他们这个算法就是通过这种不同的网球选手之间的这个
对决然后来来得到一个来最后推算出一个积分这个积分我们用的一个积分叫做 Elo Score 然后也是一个大家在各种各样的这种比赛当中这样常见使用的一个积分对然后我们最终通过这个 Elo Score 来给这个不同的模型来进行一个排名
这个就是 Channel Board Arena 背后的故事 Channel Board Arena 比如说跟这个其他这个 Leader Board 像 OpenLeader Board 这个其实这个效这个排名上还是差别还是还是挺大的这个这个背后呃说明了什么对我我的我个人的理解我的感觉是 Channel Board Arena 反映的也是一种特殊的一个一个一个人的集体的 bias 到底是怎么样子是一个人人更加喜欢的一个一个一个一个
模型然后我觉得 Chattable ReelNet 比较 unique 的一点是说大家可以自由的问各种各样的问题大家可能都会问比较 challenging 的问题然后为了来区分出两个模型的差异所以这个本身能够这个问题的难度本身可以让我们更好地来 tell the difference between the two models 所以能够可以让这个模型本身的这个可以能够更好地看出这个不同模型之间的区别
对然后而我觉得我看到的其他的 benchmark 本身更多的是使用一组 fixed set of data 然后来呃测试这些模型然后 fixed set data 可能有这样子的两个问题第一个问题就是说呃就是这些 data 本身可能最终会进入到这个 pretraining data 里面去然后这个是一个非常难避免的事情那么在这种情况下你可能你的模型呃你最终这个 evaluation 结果就会出问题就会要有点 leaking 然后第二点就是
第二点就是说大家可能如果你有一个 fix 的这个 testing data 大家可能会就是 overfeed 到你的这个 feed testing data 上面去而不能最后看出你这个模型真正的一个好坏的结果所以我觉得就从从因为这两点原因可能可能其他的一些如果用 fix data 的呃
data 的一个 benchmark 可能多少会有些 bias 然后 archivebot arena 本身它可能会更加的这个 robust to against this kind 这些这样子的这种 robust against 这些这样子的这种这种这些因素所以能够得到一个更加更加相对稳定一些的结果对
对对就是我觉得模型的评测实际上是很重要的然后我觉得就发展到现在这个阶段其实对于就是我们应该对每一个不同的场景可能有自己细致的这个评测每一个榜单它并不是说非常全面然后都都需要不同的这个榜单结合起来一起看然后才能让你对这个模型的能力有一个这个大概的认知然后可能自己也会就是用户自己也会准备一些题然后去去问不同的这个模型
然后来有一些感受我们上面是有一个榜单叫 Open Large Language Model Data Board 它测的就是所有的开源的模型它没有测必然的模型然后它测的就是这些模型它的题目其实在网上也是知道的所以有的时候会有一些数据污染的问题但如果有这样的问题被发现比如说有一个模型特别小
然后它分数特别高然后大家就很怀疑它是有数据污染然后后面不管正是还是没正是大家通过在社区的讨论然后后面管理员会给模型加上一个标志说这个模型可能含有潜在的数据的污染问题然后所以作为一个防止数据污染的办法然后我们也其实也推荐大家同时去看很多不同的 Leaderboard 比如说 AnonSys 这个 Leaderboard 我觉得也是能给大家提供很多这方面的详细信息的
真的要做好这样的一个评测现在我们的呃他的难点他难点在哪对于很多呃用户来说我可能要看的不只是 LM 本身的这个呃就评测还要看他在我具体场景中呃的这个效果吗就这个中间会有一些 gap 有什么 best practice 可以大家去呃分享一下
对就是如果是开源的一个评测那其实比较容易有数据污染的问题因为你的所有的这个数据还有他的答案都是透明的嘛透明的意思就是说如果有一天这个东西被爬中爬了跑到你的数据集上那你需要主动的把这个数据从数据集里面删去不然你就污染了这个模型你的评测的结果就不准了
那避援的评测就是如果说我这个考题不告诉你那这种评测又会遇到一个公平性的问题就大家会觉得我都不知道你在考的是什么你这个题是不是答案错了还是我的模型错了就好像大家去参加高考然后得到了一个不公正的分数然后你去找人说我想看一下圆卷人家不给你就是会有这样的一些顾虑所以我觉得最理想
最终的一个解决方案可能就是说大家每个人都有自己的一套评测的题目除了看到网上已经发的这些评测之外还要把这个模型在自己的场景上跑一下然后给它一个分数来决定说要用这个模型还是用其他的一个模型
这样也听听你们这个做大模型的怎么解决这个评测的这个问题首先像刚才提到 OpenLM Leaderboard 和 Travel Arena 他们的评测的目标其实是不太一样就 OpenLM Leaderboard 的话其实是有六个比较经典的数据集组总结比如大家经常讨论的 MLU 然后像 Total QA 还有那个阅读意见的 ARC 等等的
JSON/PIN 或数学这些的话其实是考察这个模型的基础能力我们一般内部用这种数据其实是评测我们的 base language model 就刚才提到就是平时大家用的其实是我们想说那个 chat language model 那个是很难评的但是 base language model 的话
你其實是可以用這些對極去評它的一些基礎的能力我們內部去做評測的時候其實構建了比較長的時間因為如果你評測體系不做起來的話你是沒有什麼可能訓出好的模型出來的我特別記得 Greg Brafman 當時講了一句話叫 Evaluation is all you need 評測的重要性我們其實就是把這種評測給建設起來那我知道
这些数据集可以用来评 base language model 另一些的话它不能用来评那我就要去找一些新的然后评 base language model 这个数据集它评的这个分越高它跟后面的评测的分数的提升是否是正相关这件事情也是这样关键这样的话对不同的阶段进行
分层的评测之后这样这个 Tim 和 Tim 之间的话就不会出现打架的问题比如说今天我设了一个 chat 模型最后效果不是很好然后这个时候我们开始追求究竟是谁出了问题这个 post training 出了问题还是 pretraining 出了问题这很难解决所以当然我的角度刚才提过可能要 meet the board 这些数据其实是比较适合 pretrain model 的所以包括我们以及是
MixTroll 在宣传的时候,尤其是 MixTroll 最新的 8x22B,我们在宣传的时候,其实是在 Leaderboard 上会把其他的选项给点掉,只选绿色的 Between Model,然后去看看我们的水位大概是到哪个份上。那像之前我们 72B 排到这个地域,
然后后来 Mixer 把 72d 超过,我们后来出了 110d,这个分数更好这个是可以去看这个 base model quality 但是 check model 就非常非常难评了 check model 难评就是你用很多自动的数据体很难去体现它有多好这就刚才卓翰提到的这个问题就是你可能需要的是人工评测但是人工评测其实是非常昂贵的,而且它非常的耗时
然後對於學校來說想做這個事情你總得有一個好的機制我覺得這種讓人去盲評二選一真的是一個很好的方法現在 Table Arena 絕對不是一個小的項目這是一個全球都在關注的項目像 Google release 他們新的模型的時候我覺得他們都是會講我們 Arena 到哪個份上然後包括 Sam 去推 OpenAI 的模型他非常關心那個 I am also a good
GPT-2 和 IMR-GPT-2 的表现因为人评其实是更加公平公正以及是更加准一些的方式那除了这种因为这种其实是比较慢而且比较昂贵的方式那在这之前其实还可以有一些中间一些的方式比如说我们可以自己构建很多自动评测的数据体去考验它不同的能力那这个事情就得做得比较全了
像我们自己做的话,就会做非常非常多的子任务的评测数据集然后去评它在这些任务上面表现怎么样我们会去综合看它的一个平均分然后再去看它每个具体的分项表现怎么样比如说我们迭代的一个新的模型然后这个时候它的 instruction following 能力然后发生了这个显著的下降那这个模型肯定是不太 OK,我们就要去看我们的方法
说的那些问题这是自动评测自动评测完了之后呢然后我个人其实也做了很多很好工作像这个 MP bench 那其实你用这个 GPD 去评你也能大概看出来说我这个模型大概到哪个水位有可能人的表现的话其实跟那个 GPD 的那个评判其实还是有
比較強的觀點,我覺得還算是比較接近這個時候的話在進入 Trekko Arena 階段之前可以做類似這樣的事情
评测这件事情确实是非常难,但我觉得不同阶段的模型的话用不同的评测数据集去评,我觉得是比较合理的方式。那今天的话其实还有很多实际在用这些模型的开发者以及是企业客户他们自己会有自己的评测几分,就是发给他们领域的这个任务。我觉得这一块的话反而是相对比较稀缺的,就没有比较明确的说
我这个行业应该用哪些数据体去做一些相应的评测然后大家比较公认的这也给很多联系用户在选择大模型的使用大模型造成一些困难我觉得还需要时间再去对评测做更多的投入多摩泰这个评论是不是会向来说更难一些多摩泰的话其实也是
類似的一些問題吧,但是多瑪泰有比較不錯的數據集可以公佈去評,比如說他去評他一些數學能力,有 NNF,VSAR,然後還有一些 OCR 的能力,因為天天,其實大家已經發現 OCR 的能力對於 VL 模型的能力非常重要這些能力的數據集放到這裡來,然後現在比較有代表性的就是對標,這個 NNLU 的話就是
这个 MMMU 这个数据集那它其实一定程度上能反映这个摩廷不仅仅是自然语言理解而生成的能力同时还包含它对符像信息的理解能力这是自动的一些评测的一些数据集我觉得它相对来说这些自动的数据集没有那么多像
拉斐蘭維模特的這種評測數據所產生的一些爭議就是你的模型真的實力好然後它其實就本數就會越高但是其實多模態的模型它也需要人去評的這種方式就是類似於 Triple Arena 的方式那現在的話其實 Triple Arena 以前在做這個
据我所知,当时跟韦琳在聊,她已经在做 Vision 的版本了,可以通过上传图片去衡量 Vision Language Model 的表现。所以我觉得很快也会有 Vision Language 的 Travel Arena 流行开了。但我觉得多摩泰其实还有更大的空间,因为今天一个大的趋势是,
训练出来一些 Unified 的模型就是统一的模型将多种模型统一在一起只是能做到这个水平的可能当前世界上可能也就 Google OpenAI 相对做得比较好但我觉得比如说这个明年后年肯定很快这个开源社区雨后吞噬会有很多类似这样的一些模型
接下来的话,我们又需要一个针对全国和全方面同位的 Table Arena。那怎么去兼顾它的评测的公平性以及效率,我觉得都是需要考虑的问题。所以刚才提多玛泰评测的问题非常好,我觉得它也是一个开放的问题,需要整个学界业界去解答。
Johan 他们这个这个 Lab 真是做了很多非常非常重要的工作如果大家不知道的话其实 Johan 这 Lab 也是以这个生产开源商业化的这个独角兽著称对吧这个在这个 Lab 中诞生了像 DataBricks 还有这个 Ray 相对应的这个 Anescale 关于这个开源这种开源项目的这个商业化其实 Ombor 之前也做过一些这个这个讨论就是开源开源生
的这些项目的商业化的啊以中间的一些机会和挑战那么想啊卓涵我可以跟大家分享一下这些项目他呃可能以后商业化的一个一个潜力和挑战吧
对我可以呃我可以从 vrm 的角度说说这个问题首先对你看我们这个 vrm 项目是来自于这个 berkeley 的 skylab 然后之前前身是 rise lab 以及 amplab 然后我们实验室有诞生很多像刚刚 monica 说的很多很成功的创业项目就比方说像 spark 然后最后到诞生到后来的 databricks 然后以及 ray 到后来的 end scale 所以我们肯定有在想就是有没有办法把我们的这个项目商业化然后能够看看能够
能够有一个创业能能够根据这个项目来开一个创业公司然后这个第一方面能够是这个是一个很有趣的经历第二个是也能够保证这个项目的更长期的发展然后我们目前的想法还是觉得呃我们还是想要先 focus on 这个
open source 在本身我们希望能够在 open source 上的成功成功更加重要然后我们在商业化当中的角度我们还是在还是在思考当中吧因为我觉得我们还是我们实验室还是受这个 data breaks 的这一套方法论的影响是非比较深远的我觉得
呃,DataBricks 的成功其实不光是这个 Open Source 的成功,还有一方面它其实有两次成功,第一次成功是呃,这个 Spark 本身它非常快,它在开展世界影响力非常大,我觉得第二个成功是它 DataBricks 这个产品本身在这个确实是一个非常好的产品,在基于 Spark 上面做出了足够多的增量的一个创新,然后并且它给的是一个不同的用户群体,然后它能够呃,
获得更多然后他才能够获得这个商业上的成功然后从 vm 角度来说如果我们很简单的做一个这个 like a managed vm service which 这个就是说如果我帮你起这个 vm 的这 cluster 那这个生意本身其实和一个卖 endpoint 的生意是没有什么本质的区别然后如果你是如果是只是在这个 open source 的这个 model 如果我们就是 serve 一些 open source model 然后就是在 Nvidia 的 gpu 上然后如果直接做这样子一个
模式我们觉得可能是一个就是打价格战的一个模式可能并不是一个特别让我们满意的一个商业模式所以我们也可能在想现在有没有什么一些其他的事情可以其他的商业化的方向可以做对这个是我们可能目前的一些在商业化上的思考我们觉得可能暂时还是想要 focus on 开源的成功以及开源项目的保证开源项目的稳定上来说
前面有提到关于 Inference 的成本下降要让这大模型能够大规模的使用我想大家都很关注推理成本的下降卓涵你觉得说你怎么看待到底未来推理成本还有哪些下降空间哪一些可能是我们期待模型架构层面去做的哪一些又是不要 M 这样的框架会去贡献的
对这是一个非常好的问题然后我可能最一开始我想把这个问题分成两部分第一部分是硬件上的问题第二部分是软件上的问题然后应从硬件上的问题来说我觉得我们在 VM 角度出发我们可能想要做的一件事情是支持更多的更多的各种不同各种各样硬件而不是只支持英伟达的这个 GPU 然后现在感觉现在首先大家这个知道就因为拿 GPU 是非常贵并且在这个很贵的情况下也是
非常的短缺的并且在中国有很多的这个呃各种这个各种贸易禁运的一些受到贸易禁运的影响所以导致就是英伟达获取英伟达 GPU 的成本很高导致这个 inf 各种部署大圆模型推理的成本很高然后从我们 VM 角度我们会希望
有更多的硬件厂商加入进来然后加入进这个能够支持比方说更高效的这个呃大元模型的推理然后在这这样子的情况下如果不同硬件厂商本身的之间的竞争能够能够能够让这个大元模型推理的这个成本快速的降下来这是从硬件角度来说然后从软件角度来说呃
有我觉得有两种的不同的优化第一种是我们叫做 model agnostic 就是和这个模型无关的优化就比方说我们呃之前做的像是这个 vm 本身一最开始做的这个优化像配置的 attention 来管理以一个更高效的方式来管理这个 kvcash 的 memory 然后再加上以及其他的一些 technique 像是 continuous patching 然后像是最近大家可能比较关心的一些 technique 比方说像 speculate decoding 就是我用一个小模型先来预
快速的预测几个呃可能的这个输出然后再用大模型来验证这些小的输出呃小模型的输出是正确的还是错误的然后这样子能够加速一个大模型推这个推理的速度而且 spec decoding 另外一些像其他的 technique 就比方说我们刚刚一起提到的这个呃 prefix caching 我们能够能够 cache 一些之前算了算过的一些句子然后来生存接下来的这个新的句子然后
以及在我们还有一些更多的上这个 scheduling 上的优化比方说 trunk pre-fill 每次这个就是说我们每次在如果一个用户的输入过长的情况下我们可把一个用户的输入切成好几段然后再每次然后再让这个整个计算的过程更加的均匀然后让每次这个计算的这个 GPU 的利用率提上去然后以及像是 pre-fill disaggregation 就是说我们可以把这个大元模型推理这个处理用户输入的部分以及这个输出的部分放到两块不同的这个
机器上然后来做一个更好的这个呃更好的平衡对以及这样子一系列优化我觉得还是有很多提升的空间的我刚刚提到的这些优化很多已经被集成在 vrm 里面但是都还是一个刚刚被集成还没有被性能调优的阶段我觉得把这些优化全部调优之后才能够期待我能够有个 2-2-4 倍的一个提升我觉得在这个不同的这个 influence 的这个 throughput 的层面来说对然后在未来的话的话
我觉得还有一部分就是我更期待的是这个模型本身的一个变化就包括我们刚刚一直提到的像是更高效的这个 attention 的 curve 像是这个 moe 本身这个 moe model 的 influence 的一些优化然后再以及就是像更激进的一些模型像是 mamba 这类的模型如果 mamba
他们这样子的这种非 attention based 的模型到底能不能给我们带来一个这种比较好的 performance 然后能够通过这些模型本身我们也可以让我们推理加速不少对所以我觉得就是这一系列的从硬件然后以及 model agnostic 这个软件层面以及 model 本身的优化都能够都能够还能够让我们的这个 LM inference 的效率能够提升一大截
你说这个 VLM 角度可以再提升两到四倍如果执行的好的话你觉得相应的会对应到我们看到的这个推理成本有多大的一个下降对我觉得这个首先速度的提升你可以直接就是翻译成这个定价的提升定价的下降对吧就是如果如果一个东西本来需要跑两秒那现在只能跑一秒那它的价格理论上来说是可以除以二的
对对然后然后但然后我觉得定价本身是一个比速度更加复杂的问题因为价格是一个供需关系决定的就比方说以后就因为我们能够更容易的获取这个不同的 GPU 那我们的成本也就能够相应的下降下来我们的电费变得更便宜了我们的成本也可能能够下降下来对所以我觉得成本下降的空间是比这个速度提升的空间还是要更大的
非常感谢大家那么有耐心的跟我们聊了这么长时间那最后我们进入我最期待的一个这个呃快问快答的这个这个环节准备了几个小问题大家可以就呃很快的呃做说你们的这个想法那我觉得第一个问题因为经呃我们录制的这一周啊正好就是呃正好是 open i 和这个 google i o 的这个重磅的发布会那大家可以简单分享一下在这样长发布会上啊你们觉得让你们印象最深刻的是什么
你觉得比起你原来预期来说哪一些是超出预期哪些是不及预期的地方不可能不可能原来那个的话我我觉得他那个
TDS 确实做得非常的惊人因为它做得非常的自然而且涉及打断的功能我觉得 OpenAI 是投入了非常多的功夫在做这件事情看到博客的话甚至有 Interrupt 的组我不太确定是不是在干这个事情所以我觉得 OpenAI 我觉得
做出来的东西很让人震撼但上号它可能给我的产品的感觉可能会更强一些可能我还是更期待 GPT-5 的出现了毕竟对 OpenAI 的要求比较高这是 OpenAI 然后
Google 这边的话没有等到 Gemini 2 有些遗憾但是 Context-Length 能提到 2M token 的话也非常好可能比较 impressive 的是 Project Astra 我觉得如果 Google 能够把它的长序列的大模型跟 agent 结合的比较好的话反而是有可能通过 Google 看到大模型落地比较硬核的场景的可能性
你觉得说他这个包括打断还有这个语音的这种自然程度模型本身能力的事情有多少是可能一些微调的东西你觉得别人要追上这样的一个程度他的最大的考验是什么我觉得跟 OpenAI 还是有一定的差距的因为他其实把
多种模态都做到 end-to-end 我不能完全保证它生成方面也是 end-to-end 如果它生成方面也是基于 transformer 整个 end-to-end 去做的话那是非常惊人但从它的表现出来的水平来说的话不太像是一个 pipeline 的东西所以在技术层面上的话 OpenAI 还是至少在多模态这个方面我觉得是非常非常理想
我特别同意俊阳刚才说的那些观点然后我想加一个就是 OpenAI 它做了一个桌面的应用我觉得这个其实如果这个东西做得好的话可能算是一个里程碑因为之前大家需要打开一个网页然后在里面去跟 OpenAI 说话现在它变成一个桌面的应用有可能它就会长期的驻留在用户的桌面上变成它一个无时不在的一个助理
随时有遇到什么样的问题就把共享屏幕的这个权限交给 OpenAI 然后让他帮你去处理那甚至未来 OpenAI 也可以比如说开放这个接口然后设计一个 agent 能够帮你在屏幕上点点点点点去完成很多工作就把你自己的这个工作跟大模型通过这么一个桌面的应用再加上视频视觉理解的这么一个这个多模态的模型然后就无缝的衔接起来我觉得这里面想象空间会非常大
对我印象最深的是 real time 就是 open AI 的 demo 所有的 demo 都是在比方说在我说完话之后能够立刻的开始这个说然后并且我也能够随时打断并且能够做出很多 real time interaction 我觉得这个东西是我最关注的因为我本身是做这个推理框架的那么这个推理框架做到极致那就是做到这个 real time 我觉得 open AI 做的这件事情让我非常的这个 respect 对我觉得这个是我非常的这个
呃,非常觉得非常 impressive 的事情。我就在 Google 这边,我还是觉得这个 project,project astra,特别是他的那个 demo,就是能够看了很长的一段这个视频之后,并且能够 recap 之前视频当中出现的某一帧里面的某一个 object,我觉得这个还是一个非常,呃,impressive 的一个 result。呃,今年一年的话呢,我觉得,呃,
能够畅想的或者是今年之内吧就是开源的 language model 的话是真正意义的全方位的超越了 GPD4 真的能让大家用起来因为今天其实还是可以看到即便是 Lambda3 它的 Triple Arena 表现很好但是其实可以看到它在实际使用的时候还是会跟 GPD4 会有一些这个差距那在币源领域的话那肯定是希望有像 GPD5 这种
理解能力要完全超越它的我觉得结合 Open Devon 可能会更直接一些就是能让我们这个 Open Devon 能够帮用户解决真实问题 Sweep Edge 话题我提到这个 50 分以上吧这可能是一年然后三年的畅想的话那就是真正意义的多么泰的大模型
对于物理世界都有非常好的理解同时具有非常好的知识储备和非常强的推理能力我觉得未来一年我最大的期待就是能够 open source model 能够赶上 GPT4 这个 performance
对我觉得未来三年我已经不敢想了我觉得三年之前这个世界是和现在是已经完全不一样的一个一个世界我觉得未来一年我更希望说我们进一步能够降低这个推比的成本甚至说比如说 M4 Ultra 这个芯片出来之后我们能够在端上非常快的去跑这个马马
甚至是前面 110B 这个级别的模型那未来三年的我的愿景就是希望这个大模型能够跑在能够无处不在跑在各种比如说嵌入式系统然后跑在我们生活当中的就是每一个地方然后甚至有可能会出现我们就买一个简单的那种小的模组或者一个小的芯片然后它里面就已经带一个足够够用的大模型然后把它放到那儿然后就把原来的设备升级成这个有大模型智能的这个名字
一个一个一个产品啊这个可能就是不知道三年能不能做到但是这是我的一个比如说三五年的这么一个啊愿景期待啊几位在分别就你们所啊负责的这个项目这个卓涵的 vlm 然后俊阳的这个呃困还有这个啊铁证在哈根斐接下来的工作就下一个阶段你们自己的项目上最值得期待的呃
在發完 Quantum 2 之後,我們期待今年能不能把 Quantum 3 給做出來目前我們現在能做到的水平是語音、圖像和文本都能統一起來去做理解相關的工作
如果這個模型能推出來的話我覺得快 3 應該能幫到不少人可能今年比較重點是瞄準把快 3 給做好這件事情
如果是 Open Devon 的话就真的让它能够被某些人真正的用起来我觉得这个比较直白就是能够固定的解决某一些代码方面的问题有人拿去解决真实场景的问题比如 Fake Issue 或者是像我想的帮助地基学习工程师能够使用 Open Devon 去训练模型部署模型
那我还是希望有更多非常不错的这个国内的开源领域的一些工作出来然后甚至出来一些这个中国这个发起的一些组织然后这些组织能够也非常大的这个影响力
对我觉得从这个 VM 角度来说我们的目标还是是成为一个这个 open sourceLM serving 的一个 standard 就希望大家想要做这个 LM 推理的时候就用我们然后我们总的来说从我们这个 Berkeley 的这个核心的 team 的角度来看我们想希望 enable 两件事情第一件事情是更多的 hardware support 然后更具体来说就是我们怎么样能够 design
我们的系统使得使得就是加一个新一个新的硬件厂商想添加它的这个硬件支持是一个是一个使得使得这件事情是成为一个相对比较容易的事情然后第二个事情是还是就是针对于这种呃这个新的这种各种各种各样新的优化新的功能来说以及一些新的这种模型上面优化来说我们怎么样能够让 vm 这个软件的结构本身使得它非常容易能够加新的
这个 feature 能够加新的功能然后使得 VM 能够更加 robust 能够更加能够接受得住未来的这些模型的考验
其实就像我之前卓翰之前说的虽然说我们都觉得这个领域变化太快都不知如何预期未来做一个预演但是我想真正的这个未来其实是在这个创造者的手里去出现的非常感谢几位时间也希望我们今天的这个讨论能够对大家也都有所帮助也希望更多的人来参与到这个真正的开源社区
也欢迎大家去关注几位嘉宾接下来的很多项目还有活动和进展好再次感谢大家恭喜你终于听完了是不是跟 Monica 一样感觉有点疲惫又有点信息轰炸的开心希望你跟我们一起追寻最前沿的技术研究最一线的实战思考最后
我们的邮箱是 onboard.podcast.2024atgmail.comonboard.podcast.2024atgmail.com
onboard.podcast.2024atgmail.com 我们会给推荐嘉宾的你一些小小的福利和惊喜希望我们卧虎藏龙的听众们跟我们一起探索这个令人兴奋的 AI 和软件的未来链接更多未来的缔造者期待你的来信
请我们喝个咖啡
如果你在用 Apple Podcast 收听也希望你能花几秒钟给我们打个分打个五星好评让更多人可以了解到我们我们下期再见继续更多干货