欢迎来到 Onboard 真实的一线经验走新的投资思考我是 Monica 我是高宁我们一起聊聊软件如何改变世界
大家好,欢迎来到 Onboard,我是 Monica。转眼间,OpenAI 轰轰烈烈的开发者日已经过去一个多月了,这一个月也发生了太多的事情。但是除却各种大瓜和八卦,DevDay 实打实实行业里相当重要的标志性事件。这次涉及的不仅仅是大幅度的 API 成本下降、功能更新,更有 GPT Store、Assistant API、多模态等等非常重磅的赏心。
我们还是在 Deaf Day 三周后邀请了莫妮卡非常期待的几位嘉宾在经历了这一段时间的消化和观察沉淀之后一起聊聊他们不同角度的思考相信会给大家一些值得沉淀的启发
这次的嘉宾既有 RPA 头部公司来野科技的联合创始人兼 CTO 也有真格基金 ER 也是上一波 AI 的创业者 PIC 以创业者的视角也有美团智能硬件负责人孙杨的软硬件结合思考更有来自 Google Gemini 的研究员 Eric 从模型和技术的角度解读 DevDay 中跟 Agent 相关的更新背后的技术意义
真的是非常精彩丰盛又是一次接近两个小时的火花飞溅的讨论不追逐热点和八卦这里是最深度最真诚的 onboard 大家 enjoy
让每位嘉宾可以跟大家简单的介绍一下你自己也可以简单讲一讲这个你是如何进入到 AI 这个领域的每位嘉宾有加一个 fun fact 就是你最近看到的一个关于 AI 让你比较耳目一新的 idea 或者产品大家好我叫季超朋友们叫我 Pick
然后之前创业的时候是做一个项目叫做 Magic 知识图谱搜索也就是 Magic.com 我是创始人然后做了 10 年的 NLP 主要就是做开放领域信息抽取信息检索还有知识图谱构建相关的工作然后被收购之后就在一家 AI 公司负责 Retrieval Augmented LLM 也就是检索增强的大语言模型
同时我现在也是珍贺基金的 ER 就主要关注一些 AI 和相关领域的创新我进入 AR 领域的契机其实是比较自然的就是我当时还在上高中的时候开发过一款 LS 应用叫蒙马浏览器就是 Manet Web Browser
就一些上了年级的听众可能还听过当时的情况就是因为三聚网络很慢所以我花了很多精力去解决两个问题一个是就是正文的提取就是通过上下文来分析并只保留关键内容这样就可以优化体验并去除广告所需要的这些开销第二个呢就是智能的预加载就是根据页面元素去预测用户最有可能接下来点哪个链接
然后从而进行提前的资源的载入然后咱们现在眼光来看这就是很典型的两个 NLP 和机器学习的任务嘛所以就是我很幸运就是由于从产品切入然后在可以说就在上一波 AI 的这个起点就入局了然后就有幸就一直伴随着这个技术的发展就是从有钱入身吧就一直见证了从 Virtual VAC 到 LM 的一个历程这是我进入 AI 领域的一个情况吧
最让人耳目一新的产品我觉得其实是一个老产品大家知道微软在 Azure 上提供了 Bing Search API 吗为什么这个事跟 AI 有关呢我不知道是因为 Agent 还有 Rack 现在很火或者需求量很大还是什么原因 Bing 的 Search API 今年涨价了 4 到 5 倍
但是其实我们反思一下会觉得其实就是 Bing 或者任何搜索引擎之前都是给面前人去设计的它其实并不是特别适用于 agent 的比如 E2 也不同就对于 agent 来说你那些什么下载什么工具导航都没有用同时优化的方向也不一样就 agent 像我们人去用搜索引擎可能更多是关键词之类的 agent 你会有些语义或者 filter 之类的东西
所以我在想的一个 idea 也是受这个老产品 Azure API 的启发就是说会不会有价值为 agent 做一款单独设计的服务引擎虽然我以前可能干过类似的事但那时候现在想想可能太早了现在也许是更好的机会了这只是我的一个零星的想法 Hello 大家好我是胡一川我是莱叶科技的联合创始人和 CTO
蓝叶科技我们主要是给企业和个人提供这种流程自动化的产品和解决方案目前主要是服务一些像世界 500 强中 500 强这样的大型的客户我们最终给他们输出的其实是以这些技术驱动的我们叫做数字员工然后我们会说未来的时代是人类员工和数字员工协同工作的时代在这个 ChatGPT 和大模型出来之后我觉得
这个越来越多的成为了更多人的共识我自己跟 AI 的接触其实也挺早的就是我在上我在清华读书的时候我当时的那个读硕士的时候的毕业论文其实就是很有意思的一个课题就是去用用算法去理解一场足球比赛的视频
但那个时候是 05 年 06 年用的还不是深度学习就是一堆的 feature engineering 然后再加一个很复杂的 pipeline 而那个时候也不叫 AI 那个时候还叫模式识别和视觉计算
然后我就去美国读 PhDPhD 毕业之后我就开始了第一次创业做的是一个视频推荐的网站叫今晚看啥也是曾哥和徐老师最早投的所以那个时候其实也不叫 AI 那个时候大家都叫还是叫机器学习或者叫推荐系统
然後那家公司我們做了兩年的時間後來就被百度收購然後在百度我們團隊就參與了百度很多很早期的 AI 的項目包括今天大家知道的這個小杜音箱背後的這個小杜機器人其實最早都是我們團隊在百度孵化出來的然後 2015 年我們就離開百度做萊葉科技一直到今天當然萊葉科技真格也是我們的第一個投資人
所以說應該說過去大概 15、16 年的時間一直是在 AI 這個領域從在學校裡面做 research 到後來自己創業到現在去服務 2B 的客戶那麼第三個問題這個 Found Fact 我想分享一個特別有意思的 idea 其實也是前段時間在矽谷跟一個做客服 AI 的一個獨角獸公司的 CEO 聊天
他们做的主要是说用 AI 尤其现在这种大模型的技术去解决那种呼叫中心里边接电话的人的工作效率的问题
然后我们就聊说他也跟我说这个其实在美国做这样的大客户呼叫中心的这种 AI 也不容易是因为这些系统这些客服的中心经过多年的发展非常的复杂不论是流程上软件上硬件上所以他们要做大量的 dirty work 去把 AI 真的在这个场景下真的让他们用起来
后来我们就聊到说那大模型来的时候是不是可能会带来一个改变是说对于这种呼叫中心的 AI 的改造它有可能不是发生在接电话这一段而是发生在打电话那一段也就是说其实我们可以想象今天我们每一个人当我们真的不得不去打一个 400 或者 800 电话的时候其实我们的目标是非常明确的
完全可以通过一个 agent 我告诉他你帮我去打这个电话你帮我问清楚什么问题你帮我把这个退款给要回来然后如果这件事情能够发生的话那未来可能就会有很多帮助我们每个人去打这种客服电话的 agent
那呼召中心反过来又会被改变就是他可能会对于这种 agent 打来的电话他可能就会有一种特殊的接听的方式可能也是用一个 agent 去接听那这样子的话可能这个这个这个这个这个闭环就会转起来最后就真正的会影响到这个行业我觉得这个 ID 挺有意思的而且我也觉得
这个可能是未来几年真的会发生的就是今天我们也会聊到 agent 我觉得就是在一些垂直的细分的场景会有这样的 agent 开始出现然后它在整个这个链条上开始影响它所处的这个链条的上游和下游
啊谢谢一川哎我前段时间也听到一个类似的想法然后我想就有点像那个 do not pay 就是国外有一家其实做了很久之前他们都做一些 ruby 的这种传统吗是哪里做的啊我觉得这个肯定是一个未来这个我也不想跟这个客户打打那么多交道对好那那 eric 来聊一聊啊哈喽大家好我是 eric 李啊今天非常感谢有这次机会可以跟大家一起来交流分享
我自己目前是在 Google 工作主要是在做 Germany 上的 instruction tuning 和 RLHF RLAF 这些工作
我自己进入 AI 领域的时间其实是比较早的,我之前在读博的时候我们就是做 AI for science 上面的方向一些工作,但是那个时候 AI 还是比较像上一波,比如 Deep learning 那一波活的时候做 classification,regression 等等这些方向。
但是我做 LM 的话是从去年七八月份才开始在谷歌内部做了一些 instruction tuning 的一些工作然后就是参与了 Bud 的一些开发以及 Pum2 的一些 instruction tuning 所以大概这是我的背景
关于 FoundFact 的话最近我看到一个觉得比较慕意心的一个产品是一个硬件产品叫做 AI Pin 我觉得这个还蛮有意思的
就是它其实是一个可穿戴的一个小的 device 可以别在胸口上然后你可以通过语音交互或者说可以把信息投影到你的手掌上等等的方式跟它交互然后让它帮助你完成一些很多的多种任务
我觉得这个比较有意思就是我感觉很少见可以看到终于 LM 可以做一些不只是数字世界的事情真正可以帮助我们和物理世界进行交互而且在真正硬件上面
也开始去做这些 LM 的这些 application 我是这个孙杨目前是在美团到家到家就是大家熟悉的外卖配送对负责这个硬件加 AI 正好刚才艾哲提到硬件对我现在负责硬件加 AI 这部分
在美团之前其实和 AI 的渊源就比较久了其实最早在 15 年在 Google 的时候就在做 Google Assistant 但是那个时间点确实还是很多的 Ruby 这些 Feature 但是后面也会逐渐加了一些但是那就是 Deep Learning 很早期那一步所以做的并不深入
对然后刚刚 Eric 提到那点其实我自己的兴趣是说能够把 AI 能和物理世界有些交互所以后面也逐渐说去看一些所谓叫智能硬件这些东西因为比如说机器人现在在美团内部我们也有一具个末端配送机器人那种项目其实一直是希望说能够把 AI 和物理世界联系起来
谢谢 谢谢刚才几位的这个分享那我们这个开始讨论正题了在 11 月 6 号的时候对这个 OpenAI 开了他们的第一次这个 Debate 虽然说现场只有那么不到一个小时的这个分享但是显然所有人都非常的关注作为这个
我们今天讨论这个话题的这个 open 就让大家先从一个一个 high level 来跟大家分享一下你观看完之后是一个怎么样的感受让你个人觉得印象最深的这个 update 是什么当然如果我觉得也可以顺便聊一聊可能因为我觉得大家最近肯定也看了很多这些网上的讨论啊和报道啊
就你自己的这感受跟大家这个网上讨论对比的时候也许会发现哎就是说被大家高估和低估的一些这个 updates 可能是呃是什么对
嗯 说实话就是我看见这个问题之后我脑子一复盘我觉得就跟发布会之后的剧情相比好像已经没有什么特别称得上为惊艳或者说意外的但是如果说从这个高估和低估头的确实是有一些想法就是整体上我觉得可能 GBTS 就是那个 GBTs 或者叫那个 store 这个概念我觉得一定程度被
高估了但是呢就是他的那个 GPT Builder 这件事可能被低估了就具体我觉得是这样的啊就是 GPT 我觉得他受限于这种就是交互形式那么如果我是一个很认真严肃在做产品的人或者说我是一个创业者的话我肯定不太愿意
被这一个框架所约束也更不愿意被 OpenAI 这个平台所 lock in 所以你会发现包括它在发布会上那些演示比如演示我忘了是 Zapier 还是哪个就是旅行相关的一个产品的时候你发现可能用户刚开始是在 GPT 这一个框架内进行了几轮简单的交互然后更多复杂的完整的链路还是会跳到就是这个应用自己完整的一个独立的网站或者说一个 app 里头去那如果是这样的一个情况的话可能 Jigstore 我觉得
你可以说它是一个新的曝光的渠道或者说入口但我不太看好它能给开发者真正带来就像苹果的 App Store 这种级别的收入和分润所以我觉得 GPT 这个 Store 可能一定程度被高估了但是 Builder 这个东西我觉得是很有意思的 Builder 咱们大家是技术人可能会觉得不过有一个人帮我写 prompt 变成一个填空的感觉但是我觉得对于一个更大众的人群来说 Builder 其实帮你实现了一个身份的转化
就是很多人都想基于 AI 或者 GPT 做一些事情以前的话我们的视角一定是从工程师的视角去出发的这个多少还是有些门槛的但是有 GPT Builder 之后其实你的视角就完全变成了一个提需求的一个产品经理甚至是一个老板的这样的一个视角吧客观上来说我觉得这让门槛变得更低了然后他整个这个思路可能不只是 GPT Builder 这一个产品就我们做很多别的这些 AI 应用也许都可以去借鉴吧这是我认为高估和低估的东西
我觉得正好这个 GBT Store 可以给大家具体讲一讲这个高估的这些论调朋友就他会不会是下一个这个 App Store 对吧像很多这个 App 都会它成为下一个这个 OS 你为什么会觉得从你的角度上来说你觉得这个跟大家理想的这个 App Store 之间这个 gap 是什么
我觉得这个 gap 是有非常多的就是先说一个就是交互形式的限制吧就是你可以理解成如果有这样一个聊天形式的框架在约束你的话其实很多事情你是做不完的因为这也就有点涉及到大家一直在讨论就是 LEI 到底能不能在一定程度上取代 GUI 所以我觉得这两个东西并不是一个取代的关系你很多时候你要做一个严肃的场景的时候你还是会需要一套完整的自己的
交互的一个界面当然这是浅层的深层的其实还有非常多的问题比如说我跟一些开发者朋友在聊其实大家都觉得 GPT Store 对于你自己开发者的数据的保护做的不是特别好就比如说你在 Build 你的一个 GPT 的时候你会上传一些你自己认为比较有价值的所有的数据
来让这个 agent 作为 knowledge base 然后同时你也会精心设计你的 system prompt 但是其实到目前为止我们发现这些数据还有 system prompt 很容易都可以被用户从一些比较简单的攻击去获得到所以这个其实对于开发者来说是一个很大的担心就是如果我的一个应用我在上架之后其实很容易就能被别人逆向的话
即使是在移动互联网时代我们也是不愿意去看到这种情况的所以我觉得整体这个 store 还是不是特别的成熟然后这个的话也会涉及到一个就 GPD store 这个东西的定义的一个问题就是我们觉得 App store 它是依附于一个操作系统的比如说我在手机上写一个软件我如果不用 App store 和系统的话其实我无法触及硬件因为硬件是用户买来的对吧它真的是隔在我和用户之间的一个东西
它是唯一的一个选择但是 GPT 这个东西我觉得它虽然 OpenAid 大模型是目前最好的大模型但大模型本身是一个非常标准的产品所以所有的创业者都在思考就是说我如何把这个能力随时做好替换的准备而这个我觉得是完全没有问题的所以大家不会特别愿意把自己产品完全寄生在这个 store 上所以从开发者的意愿角度来说也是有一些问题的
所以总结来说就我认为他还达不到 App Store 的原因就是三点第一点就是交互形式形式是限制是比较大的第二点是他没有解决一些技术层面的安全和保护第四点啊第三点就是刚才讲的那个他其实不是一个绝对的唯一选择这是我的观点刚才说说这几点假设 OpenH 把这几点都做了那有可能解决你刚才所说的这些问题吗就你觉得这个是他一个他不能做还是不愿做的一个意义问题呢
第一点就是交互形式还有最后提到的一点就是它的可替代性这两个也许可以通过产品的不断的迭代来增加粘性或者说提高兼容度但是我认为第二点提到技术问题其实这已经不仅仅是一个产品技术这是一个研究的理由你如何让保护模型防止被注入防止这个 prompt injection 这个东西只能说还是一个进行中的事情我也不敢下一个定论
那我问一下一川我想要不你可以先说一说你对于刚才 Pick 对于这个 GPT Store 的这个评价你是怎么看的对我还是蛮也蛮同意 Pick 的这个观点的我也觉得这个 GPT Store 也还在一个非常非常早期我觉得可能体现在两个方面一个方面就是让用户自己来构建这个 GPT-S 的时候现在能做的事情相对还是比较有限的
因为我看基本上 OpenAge 定义了说 GPS 就等于在 ChatGPD 上加了外挂了几个东西一个是 Web Browsing 一个是 Dolly 的图片生成一个是 Function Call 一个是 Knowledge Base 还有最后一个是 Code Interpreter 但是其实你仔细去看这里面好几个东西
就是普通的用户是很难用起来的比方说让他去定义这些 function call 让他去这个上传一些很复杂的很专业性的这个文档其实这个都不是特别容易所以我觉得应该也还是说在一个很早期希望通过这种产品形态看看市场和用户的反馈而且还有一点就是嗯
OpenAI 并没有发布一个它自己的 Store 就像 App Store 一样让大家可以中心化的方式去寻找自己的这个需要的 GPTS 而只是说大家可以构建出一个 GPTS 然后通过链接去分享给其他人
所以我也觉得这应该也是他还没有完全就是这个产品的 PMF 还没有验证之前他们希望通过这种快速迭代小步快跑的方式去收集更多的反馈当然还有就是这个商业化如果 OpenAI 或者微软未来真的要构建一个这样的 store 的话他一定要把背后的这个商业化的问题也要想清楚不然的话就不会有开发者在这个生态里面去
去進行創造我覺得就是其實有一個被低估的其實是就是 GPT-4 Turbo 因為可能這個東西大家都會預期是會有的但是其實在我看來這次發布會上發布的關於 GPT-4 Turbo 的不論是價格還是相關的一些參數
我觉得会对未来一年我觉得会有很大的影响因为就从我们也作为开发者的角度来讲过去我们会发现在尤其在一些土壁的比较严肃的一些场景下你真的要达到那个效果的话 GP3.5 是不够的
那用 GPD4 在過去就是 Turbo 沒有出來之前有幾個特別大的挑戰第一就是它的價格還是太貴了然後第二它的 context lens 也不夠然後第三就是它的那個響應的速度非常的慢所以說過去包括我們自己在我們自己的產品裡面做的一些功能
功能其实是非常依赖于这几点有大的突破的不然的话不论是从性能上效果上还是性价比上都很难突破那这一次呢我觉得 GPT-4 Turbo 就是在这几个方面就全面的突破了仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅仅�
降了三分之一但如果你跟以前的 32K 比的话是降了六分之一那这个就是很我觉得很显著的一个一个价格的下降然后另外就是他的这个 context lens 也也提升了很多然后同时他的性能也提升了所以我是觉得这几点叠加起来可以让之前我觉得处于观望的很多的开发者可能在未来的很短的一段时间内找到很多的可以
规模化落地的这种应用场景尤其是土壁的一些场景因为土壁的场景它对模型能力的要求对 context lens 的要求对性能的要求对价格的敏感性都是比较高的所以我觉得这个是被低估的
你刚才提到了两个我觉得都可以 follow up 一下就是一个是这个 context window 一番一番可以跟大家简单介绍对于可能对这还没有那么有概念的这些听众啊就到底什么是一个呃大圆模型的这个 context window 那现在他提高从原来的这个几十 k 到提高到现在的这个 100100 多 k 应该怎么理解这个 100 多 k 到底意味着什么
对好的就简单的理解就是 context window 就是当我们使用这个模型的时候我们能够输入到这个模型里面的这个文本的长度那以前的这个 GBD4 是有 8K 和 32K 这两个版本然后 8K 是用的比较多的因为 32K 那个确实太贵了也就是说是 8000 个 token 和 32000 个 token
那么现在它是一次性的扩大到了 128K 相对于 12.8 万个 token 所以这个是如果是跟那个 8K 的比的话是有 16 倍的提升的这个其实是一个数量级的提升那这会带来一个什么样的影响呢就是如果大家只是把这个用在一些相对简单的比方说 2C 的场景假如我是要做一个聊天机器人或者我要做一个
举个例子比方解决客服场景下的这种意图识别的问题那其实 contextless 不需要很长
但是如果要解决一个很复杂的问题这个复杂的问题举个例子比方说是要去理解一篇很长的文档的内容那这个文档很容易其实就会超过 8K 甚至 32K 我举一个实际的例子就是我们在我们的产品里面有一个用到大模型的能力是用大模型去做文档的理解和信息收取然后这个文档在 2B 的场景下有很多类型那里面很有代表性的一种就是各种票据对
比方说就是这种 invoice 大家都知道 invoice 其实它可以很短也可以很长我们会发现我们之前服务的很多客户他们的上游的供应商给到他们的 invoice 有的时候长到可能连 32K 的 window 都不够因为 invoice 里面内容太多了这种情况下你就必须要通过有更长的 context window 才能够支持这样的应用
我觉得这就是一个典型的例子对我就做这么补充吧从一个从技术的角度来说就是这样的一个 context 提高到这个这个 100 多 K 的这个量级它真正的难度在哪就我们现在研究来看的话这个天花板可能可能又会在哪这个核心的挑战到底是什么从一个可能模型或者技术角度那这个因为大家都在卷嘛
那我们想说到底这个卷的这个最后的这个到底拼的是什么 influence 的这个成本能够降到多少就大家看到这个他 open 可以降到那么多我从从技术的角度你是怎么看待这两个为什么 open 能够做到这样的能力
OK 我觉得先 context window 那边我想先分享一下我的感觉就是刚才一传一讲了就是长的 context window 会有一些更多的一些应用我自己也能想到比如说真正比如说到 128K 是现在 GBT-4 现在能做到的 context window lens 这相当于大概已经有 300 页的一个 pdf
那我能想到就是说其实比如说这么长的一个 context window 的话那可能去做一些让 LM 帮我们去做一些数据分析可能就是一些以免让它成为一种可能或者说做一些 personalization 个性化的 LM 你就可以把很多的不同的每一个就是千人千面的这些信息都放在这个 context window 里面
还有 education,比如 300 页大概是我们一本教科书的厚度所以我觉得 long context window 是一个很重要的事情就是能解锁很多应用的场景然后回到它的技术难度的话我觉得它
我觉得比大家想象的要难一些因为可能我们会看到现在可能 OpenAI 发布的是 128K 但其实在学术界其实大家也提到了很多方法去比如说有 200K 甚至一个 million 的 token 这样的 context 问题
但是其实我觉得这边除了只是看这个长度这个指标来看我觉得还有一个就是模型本身的这种信息检索的能力也是很重要的比如说你在比如说像 128K 的这样一个长的档里你真正去准确的检索出我需要用到的哪个知识或者哪个信息我觉得这本身也是一个 matrix 需要去考量的
我最近也看到有一些人在分析不同的 LM 他们在这种很长的 Long Compact 情况下大家怎么去大家去真正在这种长文本中检索出我想需要信息种能力来看的话 GBT-4 还是表现最好的
所以我觉得技术上就是不只是提高 context window 的长度而且能够让模型在这么长的 context 中能够准确的找到信息然后去整合这是很重要的我觉得这个技术上是比较难的一点
然后降低 Inference 这边的话对我们也在思考就是他是怎么能够把 Inference 成本降这么低可能我觉得我目前能看到主流的方法就是做一些 Quantization 或者 Distillation 的这种方法
比如说把一个大的模型它的参数可能从把它做的比较更精简一点比如说从 float 变成 int 等等之类然后 distillation 也是
感觉大家会经常做的事可能 GPT-4 可能是一个很大的模型然后他们 somehow distil 到一个 GPT-4 可能是一个比较小的模型这样也是一个降低成本 inference 成本的一个方式但这边我觉得最终它还是有一个限制就是模型的 size 因为如果模型模型本身可能它
就是有一个可能有一个 lower limit 就是在那个之下可能模型就不太知道怎么去做一些推理或做一些规划等等这些能力所以我觉得这本身也是一个很难的一个挑战
我刚才就想 echo 一下 Eric 刚才讲的那个就关于 Context Window 内对于关键信息 Retrieval 这块这个我刚好看了一个很有意思的一个 paper 是 NVIDIA 前一阵写的叫做 Retrieval Meets Long Context LLM 就因为咱们刚才在讨论 Long Context 的时候我们都在讲一些可能稍微有点极限的场景吧就是
我们要一次让他看特别特别特别长的这个的文档然后这篇 paper 就是作者有一个很好玩的一个观点就是说当那个模型本身足够大的时候就即使你没有用满这个模型整个他所能声称的 claim 的这个 context length 的话具有更长 context 的模型其实能更好的受益于这个 retrieved context 所以就是对于就正常的一些长就没有那么极端的长度的情况下 longer context 的模型本身可能也有一些优势
然后作者给的那个解释也很有趣所以我想分享一下他就觉得简单来说吧就是如果 LM 都会有这个 lost in the middle 的问题也就是说对于一个长上下文 LM 一般都是就是头尾是比较清醒的但中间是模糊的或者迷糊的那如果这样真的是是成立的话你有一个 128K 的头尾其实也比一个 4K 的头尾的一号长度要更长所以这个观点是很好玩的就是 longer context 的提升并不只是用于极限场景
我觉得这个分享还挺有意思的回头把这个 paper 也放到我们的这个 show notes 里边大家感兴趣的同学可以去读一下那回到这个 Eric 这边让你印象比较深刻的一些 announcement 是什么呀
其实对我来说,我觉得印象最深的也是这个 Custom GPT 和 GPT Store 这样一个东西。因为刚才我看大家也都分享了一下,就从 Developer 和创业者来说,可能他其实还很不成熟,这个我也非常的赞同。但我觉得这边,他就是 OpenAI 去发布这样一个 GPT Store,我觉得他是一个从商业化来说是一个很好的很成功的战略。
尤其是他可能会想要开始打造自己的 Ecosystem 然后真正能够形成比如说用户和 OpenAI 之间的一个正反馈的循环我觉得这个是很有帮助的是一个比较创新性的第一步吧然后因为你会看到比如说很多大公司比如说 Google 我们做 LM 最终第一个想要去
蓝顶的还是说公司本身自己的一些产品因为这对我们来说是比较 low high in fruit
但是如果对 OpenAI 的话如果它想要有这种真正自己有造学的这种能力除了只是开放一个模型的 API 如果它能够真正把这个 ecosystem 做起来的话我觉得会是一个非常强大的无成果而且本身这个我也看我自己也能观察到它自从有了这个自定义 GPT 这样一个功能之后感觉 LM 的真正的就是渗透率也
也提高了很多因为有很多人之前可能哎哪怕给我这样一个 chatbot 这样的聊天窗口我也不知道我要去做什么但是现在就有很多人不需要编程然后给你做各种各样的 gbt 帮助你呃比如说做个性化辅导做等等的这种
很密切的这种 service 然后你就可以真正的 literate 只是去打开它的 link 然后去用就好我觉得这是对这个普及 LM 还是很帮助的
其实我觉得这个 GBT Store 因为大家觉得聊的确这个聊的非常多啊就有点像这个云厂商一样对吧大家看到当年看到 A2X 是个好生意这些大的公司都是做的但是其实从 ChatGBT 的情况来看我觉得这个情况挺明显就是就当一个这个概念先是先是由 OpenAI 而且又是一个目前来我们市面上看到这个博士能力最强的这个公司做出来以后在后面的这些公司再去推出同样
这个形态的产品其实就算你的就算你的这个模型的能力也许能够跟这个 OPERA 比肩似乎也很你也很难再有这个
大的这个流量红利其实 GPT Store 给我也是这个感觉就是在这个之前我想大家经常这个论调说等下我们也可以讨论一下大家对于这个论调怎么看啊就是就大家讨论说 GPT 这个出来 GPT Store 出来是不是杀死了很多这个这些应用别的具体应用不敢说但是的确有很多公司原本就是想做类似于 GPT Store 的这个事情那你现在就发现
最就是到最后大家似乎还是这个最最有流量优势的同时模型优势最好的公司在之后再有我我很好奇比方说如果哪天 german 呢对吧 google 的 german 呢或者说国内和国外这些做大模型公司如果他们
再去推出这个 GPT Store 的话哦类似的这种 store 的话到底会有怎么样的这个效果是或者说是否还 make sense 啊我这个也是我很这个大家最近也讨论的一个问题吧那最后听听思雅我觉得首先就是一个事情的成功或者一公司成功肯定是商业和技术
同时能够能力对它找到一交叉点所以大家刚才我听了好多谈了好多 GPSGPS Store 啥的首先我觉得 GPS Store 我倒没有大家那么悲观我觉得它是一个短期高估长期低估的一个东西对短期高估在于说就是刚才大家提了就今天的模型能力以及整个的生态开发的环境基建确实没办法支撑到一个非常牛逼的所谓的一个 Store 的一个东西对但是呢
这个大的方向我觉得是没有问题的对但是可能更有价值的是在说比如说 agent 大家都在探索 agent 对然后 agent 的如果真的到了一天比较成熟的时候那所谓的这个 ecosystem 这个 store 他可能发挥的价值会更大一些
今天这个 OPI 把 GPS 拿出来我觉得更多的可能是希望把这个开发的门槛降低然后从商业来讲渗透到这个全球的方方面面渗透率能够提高更多我觉得这个作用来看其实是达到了对这是我关于这个 GPS 的一个看法至于这个大家说可能哪一个被低估了我倒是有一个不太一样的一个观点因为不管 Context Lens 也好
还是这个 Turbo 也好然后还有降价也好其实在这个 Debate 之前有很多 Rumor 都传出来也都是属于大家这个预期之内的也是大家希望的东西对反而我觉得有一个是大家忽略的其实是这个 Function Calling 和这个 Jason Return 我其实在 Debate 之前我其实一直就就是我属于个人了一直在期待说有没有一种 Protocol 能够出来因为模型本身那是一个相对封闭的东西
作为一个开发者来讲应用到现实这个不同的场景里边其实还是要和已有的一些基建中进行一些交互以及各种数据也好各种 intention 然后做不同的 action 对即使到 agent 来那天我觉得是一样
所以它需要一種交互的一個 protocol 比如說 PC 互聯網時代大家覺得就是 TCP/IP 這是一個 protocol 可能到手機 APP 的時候有一個標準的 SDKLS 的 SDK 或者是 Android SDK
所以大模型在它这场进行开发其实也需要一种相对标准化稳定的一种 procure 以前我们更多的是作为开发来讲大家用自然语言对吧然后用不同的 prompt 大家也知道 prompt 其实非常不稳定
那这一次 function calling 就虽然 function calling 不是这 step day 拿出来之前也有对吧但是我们作为这个一线去摸一下手感其实能够感受到这个稳定性还是差很多在那个时间点的话那这次不仅是 function call 有加强然后同时说能够给标准化的 json return 对我觉得这个 protocol 就这个雏形已经出现了那这个可能就会下一步大的刺激整个应用生态的开发比如 agent 的这些发展
对所以我觉得这个其实是大家比较低估的一个点但是对于一个一线的开发者和开发生态来讲其实是十分这个重要的一个点嗯可能对这个不是那么了解的这个朋友也可以因此跟大家简单介绍一下就是什么是这个方圣扣你怎么看待这个这个方圣扣的这个这个价值
我举几个简单的例子吧比如说大家今天问大语言模型说天气多少度它肯定回答不了对吧因为大语言模型它是一个预训练的然后它是一个方便的东西它其实没法感知到你这边的情况对吧所以像类似这种时候其实我们可能需要一些接触一些外部的一些接口其实比如今天问这个小爱同学天猫精灵对吧好吧
我把小孩停下出发了对温他天气其实他是能够知道的这是一个传统的一个编程范式
所以其实像这些能力来讲在大元模型和传统之间需要一个 bridge 需要一个桥梁这个其实就是我刚才说的需要一个 protocol 可能就是类似于这种 function calling 的形式也就是说你给到大元模型是说告诉它我现在有一个 API 在外边这 API 它可能是用来查天气的你要在用户的自然语言中提炼出来用户想知道什么地点然后什么时间的天气举个例子
然后大元模型就能理解这些然后当用户像我刚才那个 query 给出来之后大元模型就会把这个 query 自然元的这个用户的 query 转化成一种 JSON 模式对这是刚才说的这个 JSON return
然后通过 JSON 是一个标准化的一个可以说 pair 或者其他的一种 data structure 数据结构然后把这个可以直接对接到一些传统的这种编程方式里面去来直接拿到这个结果对刚才天气查询只是一个举例还有些举例大家知道可能大圆模型不擅长去做数学题不是不擅长去做物理题还有很多不擅长
那其實這些都需要一種穩定的一種依圖識別和轉化的方式去對接到一些外部其實像傳統的變裝反射它有更擅長的一些領域將這兩種結合起來我覺得可能是更大的一個能量的一個爆發
嗯 非常感谢孙杨的这个这个分享啊其实我我才有一点意外就大家好像这大家提到的几件里面好像没有怎么提到这个这个 agent 的呃 agent 的这个能力啊就我好奇大家对于这个这一次的这个 deaf day 里边跟这些跟 agent 相关的这些 announcement 大家是大家是怎么看的啊我要不我先问问 eric 吧因为我知道 eric 之前我们也探讨过不少 agent 的话题啊
对我自己也是一直比较看好 agent 这个方向然后我觉得其实一个就是说一个好的 agent 首先他其实需要一些 foundation 一些能力的比如说他能够真正的通过自然语言来理解这个用户的需求然后 instruction following 这种能力还有就是很强大的就是逻辑推理的能力比如说如何把一个很复杂的任务
break down 然后以及逻辑思考这些能力然后以及也有刚才像孙杨讲的就是能够真正去调用外部信息中 to useknowledge base memory 等等所以我觉得可能对于 open 来说我看到他比如说哎他他的 gbt for 他本身的就是这些 reasoning 跟这些能力的提升我觉得可能本身首先他就对 agents 这个方向总的来说是非常有帮助
其次就是刚才讲到的 assistance API 这一些我觉得就是 function calling 还有 json 这种 format 这些对于我觉得对于 developer 层面来说是非常有用的但是从 multiagent 这个角度来出发好像目前我们又看到 OpenAI 说直接要去做这个事
所以可能只是我的猜测就是他们现在的一些 GPT Store 等等这些可能是想要先去最有更 diverse 的一些 agents 然后每个可能在自己都非常有专业性然后之后可能 maybe 把他们整合起来或再去训练或许是下一个 direction
当然我最近也听到有一些 rumor 是 Q-STAR learning 可能也是有一些类似的你看你怎么在里面很多创业者都说到底你们所谓的 agent 到底是什么它是不是就是一个更智能化的 RPA 真正它足够大的应用场景应该有哪一些我觉得这个话题我觉得要不请一圈来聊一聊因为我觉得你们应该是对这个话题很有发言权
對 好啊 我覺得就是 agent 這個概念今天我覺得這一次 open AI 的 dev day 之後應該是越來越多人知道這個概念並且對 agent 是什麼能夠做什麼有一定的認知但是我覺得即便這樣呢就是今天可能不同的人對於這個 agent 在當前這個
阶段能够做什么以及未来能够做什么其实还是我觉得没有完全达成共识的就可能有一批人是特别乐观的人就认为觉得说这个 DevDay 之后发布了这个 Assistance API 那是不是我们就可以真的一步到位做出这种真正能够理解人类语言理解人类指令并且跟人进行交互并且能够自主去完成任务完成工作的 agent
我觉得这个还有点距离我待会会说为什么但是其实前面我看那个孙杨 Eric 都提到了就说其实今天如果把这个 function call 把这个 code interpreter 这些包括这个 retrieval base 的这种 knowledge 全都加起来的话已经是可以做出很不错的这个 agent 来了就是他具备自己的领域知识他具备调用一些外部工具的能力他具备去自己编写一些代码解决
用模型本身生成的内容没有办法直接回答或者解决的问题的能力我觉得把这些加起来其实应该再加上开发者的这个聪明才智一定是能够找到一些应用场景在这个阶段做出基于这些能力的 agent 那回到说为什么我觉得就是这种
今天很多人很乐观觉得那种能够自主的去理解交互并且完成任务的 agent 今天还不能完全做到是因为今天我觉得不论是模型的能力层面还是今天 OpenAI 定义的这个 assistant 的这种框架的层面其实还是缺一个东西就是
当把用户的需求到最后变成可执行的动作之间其实是有一个跟领域墙相关的而且会比较复杂的推理和规划的过程
就是如果我只让这个 agent 查个天气他其实没有推理和规划他知道说你要查的是天气然后那边有个 API 是可以把城市和日期输进去然后他会返回天气这个是没有任何问题这是今天我觉得一定能做出来而且未来的短期内比方说三到六个月这到十二个月我们能看到很多的这样的应用诞生的但是如果今天我让他做一个举例的比方说一个旅行的规划
這樣的事情其實今天還是很難的就是這裡面它其實是有比較複雜的推理比較複雜的規劃那這件事情今天就是模型首先還是個黑盒子然後第二呢它的能力在不同的場景下的推理的能力是不是足夠強我覺得還有來驗證然後第三就是今天整個 assistant API 這套框架它並沒有定義我的這個推理的過程我應該怎麼讓開發者更好的去開發
开发它去控制它那这些东西还是只能开发的自己靠自己的方式用一些相对初级的方式来实现它所以呢就是当然我再多说一句就是因为蓝野过去我们
我們一個主力的產品是 RPA 機器人流程自動化然後我們也服務了很多大企業給他們輸送了大量的 RPA 的機器人今天很多客戶也會來問他說那 RPA 跟 agent 是什麼關係我們會說就是只要在 2B 的這個場景下我們都會用一個概念來說我們說這都是數字員工那只不過是數字員工的不同的階段
那数字员工的第一个阶段就是过去已经发生大家已经在广泛使用的类似于 RPA 这样的工具它解决的就是一些非常重复性的甚至是基于规则的一些工作的自动化也就是说我实现了这个数字员工之后我就可以让他定时的运行或者一整 24 小时的运行我甚至可以不用去管他
那第二个阶段呢就是大家今天看到的很多的 Copilot 它其实是在一个特定的应用场景下它通过跟人机协作的方式去提升人使用在这个场景下使用这个工具或者完成这个任务的效率那今天其实我们看到很多的产品都开始在自己的这个产品里面加入 Copilot 然后第三个阶段呢我们认为就是 Agent
就是你真的是给他一个目标他能够理解他能够做推理能够做任务的拆解然后最后会去做执行当然我们认为就是真的这个第三个阶段还需要一定的时间他需要模型能力的提升他需要对应的这个工具链更
更完善当然也需要底层的整个生态比方说 API 的开放性有更多开发者来贡献各种各样的能够被大模型使用的能力包括最早我记得 PIC 提到是不是在这个时代有机会是说做一个给大模型使用的搜索引擎我觉得完全是有可能的
就是因为过去的这些搜索引擎也好各种软件也好它更多的是给人用它叫 user friendly 我觉得未来有一个很大的机会就是大家去做 AI friendly 的软件 Pig 你有什么补充吗
我完全同意这个观点我们之前可能会想象说 agent 要去学会使用现有的这些工具但这个东西其实无论是从各个厂家的动机还是巨头的意愿上来说我觉得可能都是不太现实的所以我们觉得这应该是一个双向奔赴的一个思路然后这其中可能会有更多是属于 startup 的机会我就简单补充一下这个观点
你说属于 startup 的机会是去构建这个 agent 就是还是说在刚才其实呃以上也提到不论是做这个变相 agent 的这个 search engine 还是说这个框架你觉得 startup 机会主要在哪
我觉得这两端都有很多时候就是一些巨头或者也很成熟产生还有自己更多的考虑甚至一些内部的利益冲突所以创业者永远是一身轻的我们可以从一开始就想好我们这个东西如果是要做面向 agent 的话我可以抛弃一切之前关于人的束缚然后我要如果从头去作为 agent 来使用这些东西的话我也有更广阔的一个选择所以两边都是有机会的
那刚才其实一传提到就是 LPI 提过这个做 agent 的框架你觉得也不是那么的完善那现在我知道这个比方说开源啊这个社区里边也有不少这些做 agent 的框架就是我不知道你有没有试用过然后你大概的一个使用的感受是怎么样的那如果他们都不够好那你觉得到底一个好的 AI agent 的这个框架能够让开发者很快开发起来的他应该具备哪一些能力
这块的我的观点先说试用过了吧就主流的什么 Lanechain 这种肯定都会去试用一下但是这可能有一点我个人的暴露我觉得现在很多这些框架你都更适合做一些快速的 prototype 如果你真的要做深或者说要开始考虑到生产和交付的时候你总会觉得他们要么太重太冗杂
或者说它并没有解决完整的端到端的一个链路就是你无论是怎样到最后某一个阶段还是要自己去进行很多的开发所以我觉得现在对我来说不是说怎样能让开发者去更好的去启动这件事已经被解决了你随便挑一个成熟的开发框你都很快的可以做出一个 demo 但是我觉得真正的难点就是说我们要做出一个完整的产品的情况下是不能只靠这个框架的
但我觉得这也不是什么一个新鲜的问题就软件工程从古到今都是这样你永远会需要自己开发很多东西我也不认为这因为有了 AI 这件事就神奇的消失了对我们基本上就是把那个就 Assist API 出来之后因为其实前面那个
我想 Eric 和孙杨也都提到了其实这一次它的这个 function code 包括 code interpreter 并不是这个发布会上才有的其实之前就有只不过这一次它把它放到了 Assist API 这么一个大的框架下而且因为它底层的模型能力变强了所以它调用外部 function 和写代码的这些能力其实是增强了所以
我們其實也是在一些我們定義的一些業務場景裡面對這些能力做了快速的這個試用和測試就是我們得出的一個結論其實跟前面 Pick 有點類似就是這些場景今天如果你要做出一個 70 分的應用
应该是可以的但是如果你真的要把它做到 80 分甚至 90 分还是有大量的工作要去做的这些工作就包括说比方说你的知识库的数据你要做得非常非常的全面和高质量比方说你的这个你提供的 API 可能以前
如果你是面向你的用户或者开发者提供的 API 可能就不一定够你要更细的颗粒度然后有更完善的描述使得大模型能够更好地去通过 API 跟外部的数据也好外部的工具也好进行互动所以这里面其实
從 70 分到 90 分雖然只是 20 分但是這裡面我覺得還是需要有大量的工作去做的可能未來這也是一個機會就是很多會給很多創業者在這個基礎上去做一些新的工具或者一些新的工具鏈
当然我觉得还有一个更大的机会其实是说 OpenAI 现在把这个框架定义出来了但是它所有的东西都是闭源的那在开源的生态里面构建出一个类似甚至比它更灵活的借助开源社区的力量把这个整个框架迭代的更快
我认为这也是一个很大的机会因为尤其是在 2B 的场景下我们会接触到很多客户说我们试点的时候我们是愿意去用 OpenAI 的整个这一套 API 和 infrastructure 的但是如果真的要在我的企业里面去用有没有可能是基于某一个开源模型但是是做同样的事情这里面我觉得也有很多的机会目前你有看到效果相对比较好的这些开源的框架吗
开源的其实就是首先是 LandChain 是比较早的但是它我觉得不是完全不是往 Agent 这个方向走的它其实更多的是说是大模型的开发工具我更快地把大模型用起来然后把 Rug 能够 setup 起来我看到的有几家也是在硅谷的创业公司他们是在往 Agent 的方向我印象中之前有个公司好像叫 Fixing
然後還有幾家類似的公司都是往這個方向就是說往真正往 Agent 的方向基於這個開源模型去構建一套框架或者是這個工具鏈
对 Fixit 这条意思 Fixit 也是挺早起来的远在 agent 这个概念出来之前就就出来的一家一家公司应该是去年还年年初就就出来也是 google 挺 experience 的几个人出来做的感兴趣的朋友我看他们最近尤其在 agent 这个概念被越来越多人接受以后有不少的这个 update 感兴趣的朋友呢也可以去去那个分享去去看一下我们也把他们公司的这个 link 放在 show notes 里边
然后我正好问一下孙杨因为我想美团这么大的一个一个集团我想你们内部肯定也做了很多这一些各种尝试可以分享一些可以落地的比较落地的比较好的这个有实际影响的场景有哪些可能你会发现还是可能落地起来会有一些挑战
嗯对这个美团因为业务也比较广泛嘛对我们对于这个大约模型还是非常 close 的在关注这个整体的发展然后确实做了一些尝试比如上半年其实我们在那个时候 GP4 刚出来的时候对然后 function call 还没出来我们就已经开始在尝试搭一些比如外卖的助手啊这些东西其实更多是找一些体感的手感嘛对
现在我从我们视角来看我觉得有几个比较相对成熟的一个就是对于内部的流程的优化用来降本我觉得这是 OK 的不管它是比如像 Meet Journey 这种生图它虽然不是 LLM 但是像 Meet Journey 的生图其实内部一些降本是 OK 的然后在一些 specific domain 的一个客服领域
大圆模型也是能够解决一些问题的所以这些是已经验证能成立的但是 2C 代刚才大家可能聊的更多关于 agent 其实我们也是看好 agent 但是我这边有一个自己的一个判断吧就是 agent 这件事情我觉得和上一代大家和做 APP 的这个逻辑跟范式其实不太一样认知从我们来看刚才提到了这个大圆模型它需要有一个自主的 planning 还有 reasoning 的能力需要强
特别比如像我们美团比如外卖这个领域它是一个非常 specific 的一个 domain 有这种 domain 的 knowledge 在里边所以我们在尝试做这个事情的时候我们会发现不是不能做它能解决百分之七八十差不多用户的一个需求都能够判断对它的意图然后去做 planning 去做下一步的 action 都没问题但是呢
这个就是和上一代 APP 的方式不太一样用户的期待是像上一代 APP 它是一个 deterministic 系统而大元模型或者 AI 这一代它恰恰是一个 indeterministic 它可能或者需要可能多轮的一种交互才能说逐渐的把这个意图能够识别清楚所以这个除了我们自己对于 agent 持续的打磨技术上打磨
我们认为可能还需要整个社会吧然后比如 2C 的消费群体逐渐的能够适应这种范式的变化那这个范式变化其实是一个潜移默化我认为可能还需要一定的时间不会那么快那今年 Agent 落地我觉得是可以找一些相对容错率比较高的场景大家做的比较多的可能把大圆模型推荐我就没问题吧推荐错了
也不会造成什么 disaster 的一个结果但是比如说用在打车用在外卖举个例子这些大家觉得是很需要 RPA 的东西但是一旦识别错了造成一些交付或者交易上面的层面的错误这种场景其实容错率就非常低可能在这些场景 agent 到来就会可能还需要非常长的一段时间
所以我觉得这个可能演进路径是说 agent 我们刚提到很多基建基础设施基础上面逐渐成熟开发社区的发展都没问题然后可能找了一些相对容错率非常高的场景可能会有一些落地然后 agent 这个概念会逐渐渗透到普通的消费者里边
让大家逐渐知道可能这个东西智能化的东西不再是一个非常 deterministic 的东西不是说我戳一就是一对吧然后点到这个触控屏点到二就是二它可能存在一定像人一样我们人的交流其实也存在很多的 indeterministic 一些 hallucination 的东西
对他可能逐渐让用户去适应这种状态下然后可能 agent 才会逐步逐步的进一步的扩大对我是这么判断这个事情现在在你们内部你觉得 agent 已经可以落地或者说很也许很快可以落地的一些一些场景是怎么样
对然后我挑能说的说因为内部有一些这个保密项目大家看到其实像 Catheter AI 就是一个大家觉得大圆模型能够落地就 PMF 找到不错的东西因为这个就是一个相对浓缩比较高的一个场景大家就是一个交流或者角色扮演其实说错了也还好对但是你回到比如说浓缩比如 agent 的这个领域
坦白讲我们现在还没有看到一个特别好的一个落地场景其实就是刚才我提到的你又要做到场景的容存空间足够大又要做到足够有用然后能够这个用户能够觉得有价值对这个场景其实还是比较难找的我也希望说整个创业的这个社区吧开源社区大家能够都动起来对看看有没有这种场景
我覺得這是邁出第一步的一個關鍵
对如果说我想这个领域的这个信息很多如果说有什么感兴趣感兴趣的朋友你们如果看到了比较有意思的 agent 落地的场景可以分享在这个这个这个评论中那最后关于 agent 我再问一下 Eric 这个模型的这个能力对于整个 agent 来说是很核心的而且大家也发现那么多大模型的公司你们发现在聊天上可能大家的这个真正的差距也许没有那么大但是一定到了这个作为 agent 的这个
呃这个 resonate 的能力上发现呃这个 gb4 还是比大部分的这种大模型的公司还是要强很多的所以我让艾瑞可以呃介绍一下就到底这个呃为什么在作为 agent 的这个呃
这个买 LM 作为 agent 的时候就为什么各家的这个反而会突然之后表达了这个差距要获取这个成为一个足够强的一个 agent 的 foundation model 这个能力他主要来自于主要来自于哪包括因为我们最近也看到比如国外有家叫 inbuilt 的公司对吧他们很包括 adapt 推出了这个说我这个 foundation model 是专门为 recently 来做一个 foundation model 所以说大家用他来可以用他来去做这个呃 agent 那我这个这个其实
我也很好奇用于 agent 是否需要一个特有的这个 foundation model 还是说其实我们其实就是一个 general 的 model 其实最强的你听 Eric 分享一下我觉得如果作为一个 agent 的 LM 的话我觉得主要是有两个能力都是非常重要的一个就是 Monica 你讲的 reasoning 的这个能力包括之前一川也提到过
就是真正如果给一个复杂的任务那我比如说帮我去制定一个旅行规划我能够去 break down 我的 task 比如说我可能先要去考虑一下天气还要考虑一下机票如果我自己还有预算的限制的话那这都要考虑进来这个是非常是非常复杂的
推理的能力因为这个是 LM 必须需要具有的当然我们现在也看到包括 Monica 提到的一些专门做一些 reasoning 增强的 LM 或者也有很多一些学术界也有一些方法去努力去提升 LM 的 reasoning 的 capability 包括产生一些更多的 data 或者做一些更多的一些尝试
但另一个方面的能力我觉得也很重要就是说是对每一个就是 tool 或者 function 的一种理解的能力我觉得它也是同样重要的
尤其是说比如说我的 agents 要做一个很复杂的事情他可能需要靠可能很多个不同的 function 比如说我要得到天气的天气状况怎么样我想知道旅行的票价怎么样我想知道酒店的信息等等这些那我觉得尤其是如何把多个多个这种 function 靠这种
有机的结合在一起我觉得这本身也是很复杂的能力你可以想象我如果让 LM 去学一个方式考那可能相对比较简单但学第二个方式考的话他要学会第二个方式考本身的一些是做什么的同时他要最好能学会他如何和第一个方式更好的有机再结合一起那么这样等到学第三个第四个的话你会发现这个的复杂度是成指数分长的
所以我觉得这两个能力是真正以后能做到一个很好的 agent 可能必须需要的所以这个能力是一个 foundation model 就是你这个数据量到了一定的程度这个它就自动会涌现出来一个能力还是说在你的这个数据上或者说在后面的可能 SFT 或者说 RHF 这个阶段再加上的一些能力呢我们应该怎么去理解这个能力的来源
对我觉得这个两方面都有第一个是模型的 size 一定要相对比较大一些不然它本身的 reasoning 能力目前来看是会有限制的另外一个就是 data 方面说的那需要
需要让模型知道这个方式靠他们怎么去最好的 interactive 的去完成一个 task 是最优劲等等这样那这个真正在技术上面如果应该是要在 SFT 这个部分做还是 RL 这个部分做我觉得这个还是一个比较 open 的 question 但是我觉得确实数据和模型这两个还是都是很重要的
Chaining 一个 agent 需要什么特别的数据吗还是说就是 chain generalgeneral 的这个 reasoning 能力的数据 general reasoning 的数据是
训练专门的理论是需要一些数据的比如说你看到现在大家都在让 LM 去做解数学题解物理题的这些理论的数据有很多但是训练专门的话我觉得这个就需要看你本身他自己会支持哪一些的方式哪一些能力
比如说你如果想让 agent 学会去调用一个搜索引擎那你需要教他会用这个工具或者说你需要想 agent 去知道怎么去靠一个比如得到天气的一个信息等等这些
有一些做 prompting based 的方法但是我觉得如果真正想要把多个这种外部信息这种 function call 结合在一起可能还是需要去真正去 tune 这样一个下一个话题就是我觉得延续前面我们讲的这个
这个 GPT 对 GPT Store 的这个讨论我想把它稍微延伸一下啊因为前面也提到说这次很多人说哎看说啊这个 Deaf Day 好像啊杀死了很多 setup 当然我觉得一方面肯定有很多 setup 的会受到很大的这个影响但是我相信还是有很多 setup 的机会这一次这个 Deaf Day 之后让你们对于怎么样就怎样的 setup 是可以这是可以创造比较高的这个
价值的怎么样 SATOP 会受到这些 LM 的公司的这种更新这些往上做的这些能力的影响会比较大而哪一些 SATOP 最后是能够提供比较高的这个价值的首先我觉得对于创业这件事情就是首先大约模型长期发展路径上你肯定不能在这个路径上去创业这是第一个要领我觉得赛茅他们之前也说了
我會看另外一個方向其實我會覺得大家關注非常多大約模型本身但是我覺得忽略了低估了整個大約模型帶來的交互的變革因為這是第一次
因为我以前是做 Google Assistant 但是我不觉得 Google Assistant 那个是由技术带来的自然语言交互因为那个还是非常传统的用 Lubase 但是我认为这是第一次能够将自然语言通过技术泛化到防患命面然后去做交互跟交流所以我会更看重整个交互变革作为创业来讲带来的一些机会
大家今天还是在用电脑对吧然后跟 Kartier 去聊跟 GPT-4 去聊用手机但是大家知道像这个手机对它其实并不是天然的为打字设计的它其实更通过触摸的这种交互它其实是更希望通过去用点触滑动来去呈现信息
比如说我们今天在微信上然后去找一个朋友去发一个信息打开解锁打开微信通过触摸屏滑动找到对方然后打字大概是这么一个流程但自然语言交互我再延伸一下刚才这种流程下来其实是对于人的意图没有一个准确的判断
以前没有技术能够做到这一点所以它需要说通过触摸屏滚动来实现人脑中的意图以及找到比如某个人对吧在发信息而大圆模型通过自然语言其实就能够把人的意图识别的非常清晰比如说正常我们人的与人的沟通就是说我就说 A 小 A 对我说这个你几点钟来回家吃饭正常人的交流其实是通过自然语言交互能够识别意图来
那我就大圆模型这个在交互层面就是一个非常大的一个跃进的变革就像我刚才说的那句话比如小 A 你几点钟来吃饭那给到 GP4 今天第一能识别出小 A 我是要给小 A 发一条信息第二一个这个信息可以通过自然语言这种交互可以直达我完全忽略掉比如说解锁手机打开微信然后找到人等等所需的这种
步骤刚才其实我们提到 agent 也是比如说我今天要打车对吧我现在在家里边参加这个远程会议我要打车一会要去公司那今天我要通过触摸屏打开手机打开 DD 对吧然后等等等等那其实对于一个如果你有人的个人助理的话其实你只要语言跟他说一句
所以它整体上我觉得更大的是一个交互上的变革从长期来看所以它可能促进了催生了某种新的智能硬件的出现我们在今天这个节目早期时候看 Aggregate 也提到 AI pin 我其实个人也是非常看好这个方向因为手机也好电脑也好它不会消失它不是一个替代关系但是我认为有非常大的一些
今天花在 PC 和手机上的时间其实可以用一种新的 AI 形态的硬件来去替代而且会使整个效率以及体验感会大大提升对我觉得对于创业来讲这是一个非常好的一个方向
那我好奇就是你看到 AI 片以后你的感受是什么你觉得它有哪些让你觉得有启发或者经验的地方哪一些你觉得它还离你所想要你刚才所描述的那个愿景你觉得还有 gap 的地方
我觉得它是一个非常好的尝试我不认可它是一个最终形态的样子但是我觉得是一个非常好的尝试通过 AI Native 来重新正向设计一款硬件然后可穿戴对吧然后和物理世界有交互然后就长期来讲就是以一个贴身的随身助手像我刚才提到的一些场景其实未来这个 AI P 能不能干尽管它今天可能能力还
受制于这个大模型本身的这个能力还不能够繁华的那么强但是我觉得是一个非常好的 first step 的一个尝试但是我觉得今天大家有点可能一些比较敏感的同学能够觉得说这是一个很好的方向但我觉得大部分人我听到的我包括朋友我去聊了一下大家都觉得这是一个非常 disaster 的一个产品
也不道理有他们的道理所在但是我觉得整体这个 AIP 整个发布的这个流程这个 marketing 其实本身也是一个挺失败的一个状态因为他当天的这个发布会这个 release 这个发布会其实讲了非常多的场景但是没有找到一些能够非常 attractive 对吸引人的一些这个 PMF
所以大家觉得说我为什么要买花那么多钱对吧买这么东西然后能力也不如手机还有替代不了手机我为什么要买对但是我觉得我自己的判断我的本质的判断是这个东西它和手机并不是一个纯替代的关系然后这个 AI PIN 我觉得更多的是说
有非常多的物理層的交互因為手機是沒辦法做物理層交互的他手機放到大家口袋裡邊他不知道你今天吃了多少卡路里如果你真的健身的話以及說在什麼場合做什麼樣的事情大家可以想像一下人假設大家每個人拋開成本的約束每個人都有機會去 Hire 一個助理
那这个助理其实是每天跟随着你看到你所看到听到你所听到的他有足够多的 context 就物理世界的 context 所以他能够当一个好的助理加上他自己的这个 reasoning 这个头脑比较灵活对他能够成为一个好的助理大家想象一下如果 AI 今天 Agent 也好或者大圆模型也好被封锁在一个手机里或者 PC 里他和物理世界完全没有交互他没办法成为一个好的助理
所以我觉得 AI pin 的最大意义的价值是说把 AI 真正带到了物理世界来
这个是我看到最大的一个价值当然未来它的形态可能会演进未必是一个 AIP 的形态特别是在国内可能是大家觉得像执法记录一样未必是 AIP 的形态但是理念上从数字世界到物理世界这是一个非常大的一个变革我更看重这一点有意思那听听其他的同学对这个我正好想那个 echo 一下孙杨刚才说的我特别认同
就是如果就是現在這個大模型我覺得大家把這個在過去一年裡面已經充分把這個它的語言理解和生成的這個能力我覺得在很多場景下都挖掘出來了就下一步如果真的要往這個 agent 或者說真的往能夠成為每一個人都有一個這種智能助理的方向去走的話
其實它的感知能力是很重要的它不再是我們通過語言的 instruction 的方式去給它輸入 給它指令然後它去被動的響應而是它能夠通過借助軟件也好借助硬件也好能夠去感知周圍發生了什麼
尤其是他所服务的这个用户这样的话其实才有可能让他有更多的知识对他服务的这个用户有更多的理解从而提供更个性化的更深度的交互和服务的能力所以我觉得就是说这个感知的能力其实是之前或者说过去这一年我们讨论大模型的时候讨论的比较少的
因為更多的把大模型當成一個被動響應式的工具去使用這個是我特別想 echo 的一點然後還有一點就是剛才孫楊提到說
这个 LUI 或者 CUI 作为一种新的交互的范式它是有很大的革命性和价值这个我非常认可但是就反过头来讲我觉得这个价值它有可能不见得是体现在今天比方说现有的这些超级 ABP 里面的通过语言的交互让用户使用的体验或者效率有大幅的提升为什么因为这里面我觉得它带来的增量的价值还是相对有限的
就比方說今天我可以通過語音去發微信了可以通過語音的交互去叫車了 去點外賣了我覺得肯定是有幫助的但這些機會首先還是我覺得肯定是屬於這些大廠的如果它真的能夠被做出來 被很多人使用的話然後其次就是它的這個價值還是在現有的這些超級 APP 上的一個增量的價值
我可以分享一下萊野在 2015 年我們剛成立的時候我們前兩年其實只做了一款產品就是一個 2C 的智能助理叫助理萊野
然后我们当时把市场上所有的打车外卖什么咖啡鲜花家政推拿快递全都接进来了然后通过一个对话入口的方式给用户去提供这种服务比方说可以那个时候我们就已经能够实现的说帮我叫辆车去公司帮我点一杯咖啡到家里老样子
這些都實現了但是最後這件事我們沒有做成當然有兩方面原因一方面是說那個時候的技術確實太不成熟了我們只能通過上一代的技術去做一途識別去做一途的分發
第二就是我刚才说的那一点我们做完这一层之后发现虽然很多用户用用户的留存方面还 OK 但是它带来的额外的价值还是有限的或者说更大的价值其实是被滴滴美团微信携程他们给捕捉了所以这是我想补充的第二点
然后我觉得未来的发展其实是很有可能诞生一些在一些全新的应用场景下的这种超级应用的
我其實分享一個我自己的例子就是我現在在有一些場景下我已經不會去用搜索引擎去搜索一些新的知識了什麼場景呢就是比方說我希望就在可能我就是有半個小時的時間我希望在半個小時的時間裡面高強度的高互動性的去了解一個新的 topic 那這個時候呢
如果是有一个通过语音输入语音输出来这样交互的并且能够完全理解我的需求并且能够给我找到相应的信息做理解做汇总做摘要这样的一种其实就是今天的这个 ChatGB 的语音模式我觉得就已经很好了所以
那這個時候我可以在開車的時候或者是散步的時候其實我都可以用通過這種方式就對一個主題進行非常深入的去了解而不像以前可能我必須坐在我的電腦或者手機面前去搜索點擊一個鏈接閱讀然後再換一些觀點自由去搜索
所以我覺得其實就會有些新的場景它會誕生出來然後它是在這種場景下它以這種 CUI 或者 LUI 的方式是能夠給用戶帶來巨大的價值提升的那這種場景在我看來今天可能在很多還是會在一些很垂直的一些領域
會發生那這一次我覺得其實以 OpenAI 的 Assist API 為代表的這一類的能力其實就是能夠在未來激發很多的創業者去探索這樣的場景當然我相信開源的生態也會很快的很快的跟進甚至發展的比這個可能更快
我觉得说到这可以说一下为什么我刚才提了一个就是可能有一些悲观有一些乐观就是是这样就是因为我们可以把现在整体这个 startup 或者关于 AIR startup 分为三层嘛就大家老说的就是应用层包括硬件然后这个中间层以及 LM 层就现在的情况就是我们可以倒着看就 LM 这层的话出来机会大家我觉得已经形成共识了就这个事是一个很重很重的事情而且还有开源在后面不断的去追赶所以呃
如刚才这个孙杨还有三代我们说的就是不要尝试跟他们去卷这个我相信大家已经基本是一个共识了然后到了中间层呢其实就发现另外一个有一点点尴尬的情况就是我还碰见一些朋友或者一些别的团队说啊可能举例哈就我想做一个为 ai 时代的新的 q 本 edi 然后这时候其实我就想我们自己平时在做的事情我们就给 q 本 edi 加上一些这个比如 gpu schedule 用的也挺好的所以有没有一种可能性很多中间层呢比如说 ai 时代的 blah blah blah
其实就是就 AI 时代的 Kubernetes 其实就是 Kubernetes 本身所以这会会有很多的事情让我们觉得就是这个变革还没有大到让很多事情都要重新去进行一次重造那这样的话可能之前创业者有很多的自己关注的这个领域或者自己的强项比如我可能会关注一些这个偏这个 infra 层面的东西这对于我来说可能现在这个施展的空间也就没有想象中的那么的大所以很多时候一些人的目光自然而然的就走向了这个应用跟硬件
但这些事可能不是这个创业者本身最擅长的一个领域吧但是刚才也说到这么多 agent 嘛就是我觉得 agent 的话其实对于这个所有的创业者来说还是一个整体的一个利好的就是举一个我常说的一个例子就是如果你以前做一个 C-Tandy 应用无论你是做什么
其实抖音都是你的竞争对手因为它抢占着用户的时间但是 agents 包括刚才大家一直在聊的比如说像这新的交互形式甚至就长期的 planning 比如你让 agents 就离线去做很多的事情其实这对于创业者来说可能有一个很好的机会就是说我们不需要从用户实际上切出很长的时间但仍然能让我们应用为它提供价值
比如说如果我有一个专门帮我处理一些我这个 daily routine 那些事情的 agent 的话我其实每天可能只跟他交付五秒钟但剩下时间他也都在干活那如果从一个就是投资人口径来说的话我们是不是能重新定义 DAU 这件事情所以我们就不需要再以这个抢用户时间的方式来让我的细端产品获得成功所以这个可能我觉得是 startup 对于 income 的一个好的一个消息吧
这个东西是现有的比方说美团对如果这个时候我要做一个能够帮你干很多事情的小助手你想要做什么 OK 点外卖这个叫车那如果这些都已经在某一个平台上已经可以实现的话那你作为第三方你提供的核心价值是什么我觉得这个其实是
就从投资人角度因为我们不能再投美团对吧那下一个出来的公司就我们都同意 ai 有这么多的价值可以啊可以产生但这里边到底是谁来去最终获取这个价值我相信这个也是可能很多三需要去啊思考的这个这个这个点嗯对呃我非常赞同前面嘉宾说的就是我觉得
首先,这次 DevDay 的话,确实就是我觉得很多 startup 可能,就如果只是做一些 prompting 的一些的工作,或者说只是一些,或者说大厂已经在做的,要跟他去职业竞争的工作,我觉得可能就比较难了。
但是而且还有一些就是因为现在 LM 也可以去 Synthetic 去产生很多数据所以对有一些用户场景那可能数据的护城河这个概念可能也不会太存在那我自己是
是很赞同前面嘉宾讲的就是一个就是交互方面本身的变革包括 AI PIN 和硬件的结合还有一个就是自己可能本身在做一些产品更多的是 LM 来 Power 自己 Power 自己的目前的产品我觉得这也是可以做然后我还有一个小点就是说可能对于一些
需要容错率很低的比如说 factuality 非常 sensitive 的一些场景或许可能也是一个机会比如说
比如说像医疗等等这些那这些的数据其实也还是比较难通过 LM 自己来生成因为 LM 自己还是有幻觉的问题那如果你在这方面比如说做一些很领域内的一些 agent 或者 expert 的话可能也会是一个机会这方面的数据的糊称和可能还在这是我的一点想法
正好你讲到这个我觉得要问一下了你说到这个很多场景因为它的这个数据壁垒也是没有大家想象那么高那正好这个可以跟大家分享一下就是你觉得现在现在这个合成数据在哪些场景可以做得比较可以做得比较好那最近大家也看到这个 QSTAR 的这个传闻就是那我好奇你在看到 QSTAR 这样的一个传闻的时候你的一个你的这个 reaction 你的反应是怎么样的
OK 对第一个问题就是哪些数据可能觉得护城河不太存在我是觉得 LM 现在是对做一些 creative writing 等等这些方面是非常强的或者 instruction following 包括一些 reasoning 能力所以说如果可能只是做一些比如说辅助写作或者说心理辅导等等这些可能就很
很容易被别人去创造一个可能提供价值差不多的一个东西虽然可能就是 prompt 不太一样等等那数据方面也是可能 LM 能够产生的数据甚至比你搜索你自己收集到的用户数据还会高质量一些所以我觉得这方面可能相对比较难一些但是反而对一些可能你需要
用户就是一定要有很低的容错率或者要求很高的一些场景比如说医疗就不能允许他出错或者说比如说一些科学研究那么我们需要他就是要控制他的误差在某些范围之内等等这些如果有更多的这种 commitment 的话我觉得这些数据还是 LM 本身不太好合成的可能还是一个方向可以尝试
然后回到 Q*这个方向我觉得我的第一 reaction 是或许可以试一下在 Google 内部因为我觉得这个算法就现在好像大家只是在猜它的背后的算法的机制到底是什么但是我觉得好像
好像感觉这个好像是属于相对因为有人在猜测是他可能是一个 q learning 加一个 a star 的这样一个算法
这两个其实相对而言都是一个是在 RL 上面很传统的一个算法另一个是在比如说在一些我们说算法也是一个比较基本的路径规划这种算法我还蛮惊讶这两个算法结合在一起能够有真正他们所说的几乎到了 AGI 这种的效果所以我觉得这是一个
值得尝试的东西而且本身我觉得 LM 现在遇到的最大的挑战很难定义是说如何去有更好的方法更好的算法和技术去教会模型就是做一些真正理解人类的一些 instruction 然后做一些长期的规划 planning 和 reason 等等这些所以我自己还是觉得这个方法很有意思可以去尝试一下
我相信如果可能未来应该会有一些真正对这个算法的实现可能会有更多的讨论这种一些想法 QSAR 也是最近大家讨论的很多尤其是说到底这个这种 synthetic data 就是这个合成的这个数据有没有真正让我们被我们突破哦
Q*的话我觉得这个事咱们得先回到初初我记得好像只是路透社的一篇文章就是我们现在唯一关于 Q*能确定的好像只有名字就是具体它到底跟这个 synthetic data 有没有关系好像都没有一个绝对的一个定论
到关于 Faceted Data 我可以补充一个点这也是我日常工作中的一个感悟现在大家可能觉得合成数据是要直接用于 LM 我现在在干的一个方向其实可能刚好相反背景是这样我们可以回顾一下过去 10 年比如我们传统的 NLP 或者小模型时代其实好多任务我们不是做不了只是因为没有有标注的数据
尤其是 LPS 设计语言这事儿呢就有的时候英文直接有一些 DataSend 但我们中文还没有但是呢小模型跟现在大模型相比会有一个仍然很大的优势就是它的推理的维生性很小有很多场景我们还是需要比如说在十几毫秒到两百毫秒内返回目前的 LNN 怎么优化也很难稳定的达到这个程度所以我现在常用的是 Datic Data 的方法其实就是让大模型给小模型生成标注样本然后去用在这个对高性能
嗯要求很高的一个场景内我觉得这也是挺好玩的一个用法有一点我们之前一直没有提到就是这一次对这个呃多模态的这个能力其实一方面呃一部分也开放了而且我想大家可能也都尝试了就是呃应该是大一个多月前吧这个 gbt 也开发了很多吧这个呃 vision 的这个把这个 4 vgbt4 v 的这个 launch 呃也让我们看到了这个多模态的这个呃能力所以我想也想听听几位的这个呃
呃这个使用这个多模态能力的一个感受看到了这个 GPT-4B 出来了以后有没有什么让你觉得啊印象深刻的有可能打开怎么样新的一些啊应用的场景啊要不我就先从这个一川我觉得你那边因为每天对客户也许看到场景会比较多好好啊呃对就是其实出来之后我们很快做了很多测试呃
还是确实效果我觉得蛮惊艳的就是因为就是它的这个视觉的能力我觉得大体可以分为两大类的这个视觉的输入一类呢就是这种自然的场景比方说我们拍的照片啊我们从视频里截的这种针啊这是一类还有一类呢它其实它不是自然的它可能是本身就是生成的比方说你的一份文档啊你的这个手机的截屏啊电脑上面的一个截图啊等等
那么其实在我们的应用场景里面我们更多的是偏后者因为我们主要做土壁的业务流程的自动化那我们做了一些测试之后会发现说虽然我们之前看论文介绍是说这个 GBG4 Vision 是有一定的这种文档的理解能力但是我们真的实测之后发现它的效果其实是比我们想象的还要好的就回到前面我举的例子比方说我们把一些
其实是比较复杂的这种像发票啊收据啊这些都送到这个 GP4V 之后呢它其实是可以很好的理解里面的内容的然后
然后基于这个图像里面的内容再基于你的 instruction 给到你一些合理的回复不论是对信息做抽取还是做摘要还是做生成这个是让我们觉得其实是蛮超出预期的而且这个是大幅的降低了我们认为在一些土壁的场景下要去做这种文档的理解和自动化的这种应用的门槛
然后另外一个我觉得就今天还就他的这个能力还没有那么强但是我觉得已经是在往那个方向走就是
它对这个我们所使用的这种 GUI 就 Graphical User Interface 的这个理解因为这个其实是跟 RPA 特别相关大家如果熟悉 RPA 的话都知道 RPA 本质上就是一个 UI 自动化的这个脚本语言然后它能够去模拟人的方式去做任何在这个 GUI 界面上人做的这些各种操作那所以我们也做了一系列的实验就是把一些比方说我
我打开一个 Amazon 的网页然后我告诉他我说我现在这是我的浏览器我现在需要去搜索一个感恩节的礼物可能是一个价值 100 美元以下的一个什么花瓶举个例子然后我问他那你应该在这个界面上怎么去操作
它其实也是可以基本上理解出来这个界面里面的一些主要的元素比方说搜索框在什么地方搜索按钮在什么地方它应该在这个搜索框和按钮里面做什么样的事情我觉得这个其实就带来了一个更大的机会就是是有可能把原来我们 RPA 所做的 UI 自动化的这个整个的技术的方案从规则驱动变成模型驱动
就以前规则驱动是说我要让 RPA 机器人去做一个 UI 自动化我得告诉他你要先打开 Amazon.com 第二步找到输入框第三步在输入框里输入一个关键词第四步点搜索我得一步一步的告诉他但现在其实有了 GPG4 的这个 vision 的这个能力之后是完全有可能是让模型自己去 figure out 它应该怎么在一个符心化的交互界面里面去做操作
所以這個我們還是蠻期待的讀文檔 也有很多這個什麼 chat pdf 啊什麼的 對可以讓你自己可以用一些工程化的方式去實現這個我不知道你有沒有用過那些工具它跟現在 GPT-4V 的這個能力表現表現這個對比起來怎麼樣
因为以前读文档他更多的还是读一些 PDF 和 Word 就他里面本身就是其实就是文本然后而且是大段大段的文本然后他解决的更多的问题是说我读了这个然后这个 100 页的文档之后我能够快速的去给你做一些摘要啊然后你问一些相关的问题我能够通过这个 retrail 的方式找到对应的片段然后来回答你的问题但是我刚才举的那个例子是说我现在有一张发票我现在发给 GPT-4V
我问他这个发票里面的日期时间金额等等他都会非常准确的去理解它而且是完全基于图片的信息它不是基于一个文本的信息这个跟以前的像这个 Chat PDF 我觉得是还是本质上不一样的孙杨你对于这个多模态这一块有什么那有看到什么机会
多摩泰还是挺惊艳的对然后之前其实啊我关注的方向一直在关注多摩泰嘛然后原来预期就做到今天的水平可能应该是到明年年中的时候所以当他 9 月份 11 个放出来的时候其实还是惊艳头啊然后有几个非常
呃 typical 的 use case 可以讲一下你比如说我正在看一本物理的就是物理世界的书哈就纸质的书我上次试验了一下他就跟我拿手机拍我手指的一个词是一本英文书就就假设那个词不认识
然后我就问一下我这个词什么意思就是直接只是问他什么这个词什么意思然后他不仅仅把这个词给我解释识别出来了然后解释出的是对的而且更夸张的是他能够根据整个书的上下文然后给我更深层次的解释一下这个词在上下文在这个这个语境中的意思
对然后这是一个实验我还有另外一个实验就是我拍了一下我的工位啊然后我的工业其实很乱的然后特意故意把一个水平放到了一个非常隐蔽的角落稍微露出了一个啊盖子的这个这个形状我就问他我这个图里面有几个这个水平对然后他一开始跟我回答两个实际上他就没有看到我隐藏那个然后我就提示他我说你再仔细看一下
然后他下一个他真的说了三个他说对不起他说他已经这个忽略到了一个然后他说那个水平是在某某某个位置然后露出了一瓶袋所以我推理出来他是一个水平就 exactly 和我当时想设置的这个这个障碍非常完美的回答对所以当时确实还是非常惊艳到我啊
然后东北他的应用就非常多了所以我觉得刚才其实已经启发一个了比如说看知识书的时候对吧然后有你一次这个不认识所以翻译之类的所以我觉得还是意义很大
我先顺着那个一传补充一下刚才我就想说就是其实多模态我觉得本质上解决了一个信息的一个损失的这个问题就比如刚才那个比那个那个发票其实更具体更现实的一个小问题就比如之前我们用文本的形式去处理一个 Excel 的文档的时候其实我们连合并单元格这件事都很难去告诉大模型让人真的理解而现在用多模态的形式其实模型一下就理解了这个单元格被合并了而之前文本无论你用 Excel 或者 Markdown 其实这个信息就损失了
所以我觉得每多一种模态其实未来我们就能够跟大模型输入的信息的损失就会更小会带来很多新的变化但我觉得多模态其实更大的一个挑战也甚至可以说整个 LM 的挑战我觉得推理速度这件事还是不够现在一个 completion 可能要几秒甚至几十秒但是我觉得当推理速度快到一定程度可能会产生质变
比如我们可以想象一下如果我们能够从一次几十秒变成一秒推理三十次的话那可能电子游戏就可以 work 了我们可以每一帧都能让 LM 给我们做出一个指示那如果到了比如说每秒 120 帧甚至每秒 240 帧的速度下那其实已经到了很多比如物理模拟所需要的一个延时了那这种时候可能机器人自动驾驶就都能从多摩擦模型中受益所以我是看好也很期待 LM 或者多摩擦 LM 的这个
速度的提升我觉得这时候也会带来质变现在我们看到他的这个 GG4B 能有那么强大的这个能力你觉得在实现这个多模态能力上你觉得现在业界大家对于实现的如何实现这个能力上有一个比较共识的一个做法吗还是大家的这个或者能力的差距可能主要是体现在哪呢
关于做法这件事其实大家还是比较众说纷纭的包括像一个学姐也和朋友聊就是大家猜测现在的 GBT-4D 因为事实上它训练完成的时间应该还是比较早的它可能还不是一个就完全的用这个 interleave 的就是比如图文然后从头预训练就是多模态预训练完成的它应该还是用一个比较好的语言模型可能就 GBT-4 本身一个纯语言的模型然后再把这个图像信息做一个 adaption 去融入进去
主播他这个他可能做的比较好让我们看到了效果的一个质的一个提升现在大家整体来说还是就是有一个宏观的一个期望就是说我们能够从头就以多模态的形式就比如说说简单一点我输入就是图文图文图文交叠的甚至还有别的就是模态像这个文本像视频的语音然后让模型同时输出多模态的
这样的话可能会让这个模型在构建它的世界知识的时候就本身就有更强的一个能力只不过目前的话这还没有看到一个特别好的一个实现吧这方面可能就是 Eric 在 Gemini 项目上应该会有更多的一手体验我觉得都是 Pick 每次都帮我 cue 到正确的人那 Eric 你来聊一聊
对对的我我自己对 gbt3 的使用也觉得他非常的 impressive 然后呃我自己感觉就是
我先回答 Pig 的问题,确实现在做多模态的话技术上面是有多种解决方案的,包括比如说有些是不是要在 pre-training 的 stage 要做多模态,还是只是在
tuning 了的 stage 去做多模态那同样包括即使在去做多模态的时候怎么去把文本和比如说文图片的这种信息怎么去融合在去如何做 fusion 这也都有不同的解决方案
但我对于 GPT-3 的话我觉得它的 performance 还是非常的好所以如果它只是做 Fusion 就能做到这么好的话我觉得它应该可能在 Data 上面花费了很多很多的时间和精力然后还有
还有一个就是我感觉到就是 GPT-3 它还只是现在支持了图片它好像目前还没有真正的直接去支持视频的信息的这种分析虽然我看有一些分析是说它也能够识别这种时间序列的这些图片的帧数但是直接的视频的这种
读入然后分析好像目前还没有看到所以我觉得这也是我下一步比较期待 GPT-4 如果真正去做到视频的这种解读可能会更厉害
有一个问题想问一下 Pick 和一川因为二位都是经历了上一波 AI 创业起落的创业者从创业者的角度和我分享一下你觉得这一次 AI 的创业机会和整体环境跟上一轮有什么相同和不同的地方对于现在很有志愿加入创业大军的同学们你们会给出怎么样的建议想跟他们分享些什么呢先说一下不同的地方吧
那过去的 AI 创业其实对整个不论是团队 资金 数据各方面的要求都很高因为你需要有懂 AI 的算法工程师你需要积累数据你需要训练模型然后最后你需要用这个模型去解决一个实际的问题
那今天呢因为有预训练的大模型的出现其实是大大的降低了 AI 的落地的门槛或者从某种程度上来说我觉得因为有了大模型今天真正意义上有了 AI 开发者这样一个群体那 AI 开发者不再需要那么多的资源不再需要那么大的团队甚至也不需要数据来做冷气洞
它完全可以基于预训练好的模型在某一个场景下解决一个特定的问题去做 AI 的应用所以我认为这是今天的 AI 的创业跟过去的 AI 的创业最大的不同那么在做相同的地方我觉得做 AI 的创业或者 AI 的产品永远需要不能回避的几个问题第一
AI 作为一个概率的模型当它的输出或者当它的预测是不准确的时候我们怎么在产品层面方案层面去规避它这是第一第二就是 AI 的产品的价值在不同的场景下怎么去衡量
最终你的产品你的公司你的商业模式是什么我觉得这些依然是同样的问题过去的 AI 公司需要回答今天的 AI 的公司也需要回答我觉得这波 AI 热潮最大的区别在于它的爆发会更加的集中这种集中是同时体现在时间和空间两个方面上的
就时间层面来说我们可以回看一下过去 10 年就过去 10 年其实 NL 的发展是有许多的里程碑事件的就比如说这个 Word2Vac 技术让 NLP 走入了这个深度学习的时代
然后对应 CV 领域可能就是 ResNet 之类的总之就这些技术它的进步在逐步的释放出新的机会因此就是那时的创业者就即使我们都说是在拿着锤子去找钉子也会因为他们自己的入场时机不同而产生天然的差异比如我们整体看就是我们常说的 AI 思想其实都是 CV 思想或者说都是 CV 起家
而整体来说 NLP 公司就要更晚一些如果你从一个更微观的角度来说就从技术和他们自己解决的问题角度来看的话差别会更大但多多少少都会跟他们入场的时机有关但现在我们觉得可以比较武断的来说这一波生存式 AI 的里程碑可能就两个一个是 Diffusion 文生图还有一个是 ChagGPT 所以现在赛道天然是会更加拥挤的因为我们从时间上来说都被压在了最近这一周年里面因为现在 ChagGPT 才一周年
这是时间上而空间上的话主要是由于模型它的通用性变得非常强以 LM 为例它几乎统一了以前机器翻译 吸气抽取 阅读理解等多种任务以前这些可能分别都是某一家公司或者某几家公司自己独门绝国都是从头自己用自己独有的方法去 training 一个一个的专业的模型
所以现在的技术层面我们可以觉得比以前门槛要低很多一个创业团队可以就借力这种通用的模型去实现非常完整的产品体验
这比以前要强非常多你可能也不再需要那么大的所谓的科学家团队去做了但因此也要注意的是更通用的模型能力其实催生了更多的伪需求一定要注意分辨我们现在看见很多人在想自己新时代的拿锤子找钉子创业的时候大家讲的很多的需求其实我们在以前的 AI 时代也都想过
但是由于现在模型的通用的能力让这些很多不同的不靠谱的 idea 能融会成为一个更为大的不靠谱的 idea 所以千万千万注意现在我觉得新造比的情况是比较糟糕的这是我觉得最大的不同
而相同的话我觉得是有非常非常多的我觉得最关键的一点相同就是至少到现在为止我认为 AI 还是没能达到 it just works 的这样一个神奇的一个地步就是拿我更熟悉的 LP 举例吧就如果说以前的 LP 我觉得可能是在一个极客线上下徘徊的水平也就是 60 分那到现在的这 LM 我觉得也就只能打一个 80 分吧就距离真正的严肃场景可用这件事还是有很大的差距的就这方面做 2B 的朋友肯定会有体会
当然我不是说因为不能打到比如说 100 分我们就不做了你想以前能力如此不堪的时候我们也这样去干了我想说的是 AI 它从来不是一个能够靠它自己独立就能解决问题的一个东西它只是一个能力而在出类的过程中你会发现产品和工程才是永恒的主题当然后面还包括商路这些东西嘛
总之就是 AI 的落地依然是非常难的而且更糟糕的是现在用户的预期可能比之前我们在 AI 创业的时候还要更加的高更加的不切实际所以这对产品提出了更高的要求我觉得是相同的部分然后如果是说想对创业者说的话我觉得还是一个观点就是一定要找到自己的核心技术之外的护城河
刚才也提到现在模型的能力是非常非常通用的但是我觉得这种统一的范式其实也带来了更加统一的宏观的 roadmap 这是什么意思呢就是说你所看到的一个痛点很可能是一个共识性的问题
比如说咱们都觉得这个 Stability Fusion 就是文生图表漫那你看最近这几个月产生了多少来解决这件事的技术 LCM InstaflowSDXL Turbo 之类的对吧就是千万就不要基于自己能解决一个共识性的问题而就选择在纸质上的创业
这个我觉得是非常危险的因为你很容易就卷到比如说大厦或者说整个学界的航道上所以一定要多考虑就是如何构建其他的壁垒也许是我们常说的产品的网络效应也许是你对于特定行业的 know how 总之现在不是一个靠着 AI 就能 AI 创业的时代从前不是我觉得未来也很难是
谢谢非常感谢大家的分享最后一个 closing 的话题我们就比较开放性了就是两个小问题今天我们聊了很多从 Deaf Day 开始延伸了很多关于未来不论是 AI 本身技术能力还是应用创新上的机会还有哪一些你觉得在当我们讨论这个
opend fd 上你觉得还希望有更还希望有更多这个讨论的哎你觉得未来可能一到三年吧就是你最期望的呃看到 ai 这个领域会发生什么样的事情或者说你自己最关注的一些呃一些变会产生变化的方向从虽然开始吧好啊嗯对的 fd
越来越像苹果发布会我其实想更关注的是因为今天还是以 API 的模式然后去促进整个开发者生态其实我不确定说 OFI 内部以及行业里边大家有没有其他的方式一些思考今天肯定还是 API 和开源两部分但是我在想是不是还有一些其他的中间态或者其他的形式
会演进出来对这个是我最近在思考的嗯然后更看好的一些啊方向或者关注的方向吧明年
我会看两个,一个刚才其实提到了,Pig 提到了,就是 Inference 速度这件事非常关键,今天即使已经出了 GP4 Turbo,但是依然其实不太满足于应用爆发,所以明年整个 Inference 算力大家可以堆起来,是不是能在速度上能有一个值得飞跃,这是第一点,然后第二点就是整个开源社区,
这个跟进的速度怎么样对今天大家认为开发社区比较普遍什么拉玛这些其实和 GPT4 还是有非常大的距离对想看一下明年开发社区是不是这个进展的也比较快啊我只好关注这两点嗯
我觉得这一次 OpenAI Dev Day 通过 GPTS 还有 Assistance API 把 Agent 的概念推出来了但是就像刚才前面大家讨论的一方面是给了开发者能力去找应用创新的点另外一方面确实也在很早期所以我特别期待的是说
可能 Monica 未來還可以在未來三個月或六個月可以再組織一次關於 Agent 的方向的 Podcast 我相信到那個時候一定會有更多的更有意思的應用開始慢慢的浮出水面對於未來一到三年其實我個人特別期待會發生而且我相信也會發生的我是認為是
就是在这个大模型带来的生产力提升这样一个大的背景下我觉得整个社会的一些组织形态是会发生变化的什么意思呢就是说我们现在服务很多 2B 的客户都是大客户然后我们说我们提供的是数字员工我们会说未来是人际协同的时代但是其实你会发现在这个大客户的他们现有的业务的形态流程之下其实
依然是一个以人为主和数字员工为辅的这么一个形态比方说我们服务一个一万个员工的大企业可能我们给他输出了 100 个或者 500 个数字员工这个人和机器人的比例其实是 100 比 1 或者 50 比 1
但是我觉得未来一到三年一定会发生的一件事情就是会诞生一些可能在我们今天还不完全看到的一些领域或者场景下的小的公司然后它的里面人和机器人的比例或者人和 agent 的比例是反过来的可能是人和 agent 的比例是 1 比 100 或者 1 比 50 就未来可能我们会发现有一个公司只有 10 个人
但是他可能驾驭了 100 个或者 1000 个 agent 然后他创造出来的价值可能跟今天我们的一个几百人的公司是类似的我觉得甚至也有可能还有一种更极端的情况就是一个人加上 10 个或者几十个的 agent 然后他跟今天一个几十人的创业公司做的事情是类似的我觉得这件事情是我特别期待发生而且我也相信在未来的一到三年也会发生的
对 Agent 这个必须安排上那我已经在找嘉宾了欢迎大家推荐嗯就先说那 OpenAI Dev Day 我觉得刚才聊了很多但是有一点咱们没说到就我觉得他把那个 Whisper 的新的那个模型开源了也是个不错的事情吧就首先确实这个模型基本它的能力已经达到了大部分商用的这个解决方案的水平然后更关键的一点我觉得这也是 OpenAI 这家公司仅存的一点的 openness
所以还是值得肯定的然后如果说未来一到三年在 AI 领域期待的话就是我一直一直都永远是期待 AI 能帮我实现长生不老就如果说一年或者短期内的话我们先某种形式通过一些比如像是 AIP 也许就可以能帮我记录我的生活来实现一种就是简单意义上的数字永生至少可以复制一个我自己的 agent 万一我出了意外还能替我来录 onboard 对吧
然后三年到长期的话我就更看好就比如说 AI for science 能创造奇迹吧就 AlphaFold 真的就已经很让人振奋了就相信未来一定会更好也许比如三年或者多久以内我们这一代人就真的能见证就是在 AI 的帮助下让我们战胜死亡这可能是最美好的一个未来吧
哇非常非常棒让我想到有一个美剧叫 upload 就是把你 upload 到把你这个这个意识留下来以后 upload 到这个那是一个真的元宇宙空间啊我最近正在追 upload 的那部剧
我非常赞同 Pick 说的我自己对未来一到三年的期待也是 AI for science 这一块因为上一波 AI 比如说 Deep Learning AlphaGo 这些来出现之后在未来的之后的一到两年马上就是学术界就把这种当时的 AI 的技术运用到了各个学科物理 化学 数学等等然后都起到了非常好的表现
表现非常好的表现然后但是在那个时候呢 AI 最多的是处于一种工具性的一种角色比如说做一些 feature engineering 做 classification 做 regulation 等等这些但我觉得这一次的 LM 这一波的 AI 我是比较期待它真正能够从 generative 的一种方法可能真的帮助我们比如说从一开始的呃
呃提出一些初步的想法到慢慢一步步的去验证想法然后这种正反馈的循环然后这能帮助我们找到一个 new science 等等我觉得这可能是我最期待的我比较看好这个对我觉得这个也是 ai for science 大家最最终的这个这个期待啊等到 ai 真的能够创造呃创造我们的这个未来的时候而不只是帮我们做事
那我们今天也讨论了这个挺长的这个时间也再次非常感谢几位嘉宾的这个时间如果说大家觉得我们这次讨论比较意思有什么想要这个还想要关注的一些话题的话都欢迎在评论区留言给我们然后非常感谢几位嘉宾的这个时间谢谢
谢谢