其实 Augment 正在做 copilot,做 magic 点 def,做 pull side,这两个都是典型的需要开始搞模型的,而且我认为非常困难。不用 OpenAI,不用 SOPIC,不用任何一家,然后你自己搞个东西,那这件事情本质上你就变成了你对整个 AI 的格局的挑战。也就是说,我是不是做一个我自己模型,说这个领域能够做的比通用大模型更好。
我对这件事情是持巨大怀疑态度。因为我觉得智商这件事情或者 intelligence 这件事情,可能就是需要很大的模型,更通用的模型才能够实现。你在上面做各种 AI 的,无论是 prompt engineering 还是 RAG,还是 fine-tuning,各种垂直化的应用。当然了,他们的逻辑不一样,这也是为什么这个赛道还是蛮新的,就是巨大的非共识对吧?就是他觉得我们得从头干,剩下的公司我基本上看到的都是不做 retraining 的,包括我们也是不做 pretraining,都是做应用的很多很多。但目前我实话实说,我觉得没有一个像 Copilot 那样,已经被证明说他这个做法是 OK 的。但这样的话。
我们首先能不能说可拍到的这件事情已经跑通了,应该可以,对吧?给 tup 可拍照的,我记得收入很高对。
一定跑通了。对。
这个是 100% 跑通了。那在这个前提之下,为什么大家,尤其是包括你们在内,要去做 agent 的这件事情。而且我觉得听你的意思,agent 的这件事情目前还没跑通。
因为 Copilot 它还是个工具,但 agent 的是生产力,它自己就是一个劳动力,对,这个是完全不一样的体验。
就是我们现在可以做到的,是在某些场景下面,比如说我们有个论文,这个论文里面讲了一个算法,你想试一试这个算法,看看这个算法到底靠不靠谱,甚至实现出来这个代码可以直接移植到你的某个项目里面的某一段代码里面直接用,对吧?这件事情其实就可以 assign 给,比如说我们有个 agent,你把这个 PDF 扔给他,然后你跟他说,我想要这个 PDF 里面有个算法,帮我弄一下,弄点测试数据,帮我看看执行结果。那这个可能做不到,就相当于是你给一个小弟安排了个任务,这种任务输入很明确,输出也很明确。其实小弟理论上是可以通过自己的尝试去搜网站,无论是各自去编译运行、调试这个代码,它能够跑出来。最后给你一个报告,这个是我们想要做的这个 agent 的逻辑。这里面细节很多,不同的场景下面任务不一样,输入输出不一样,各种各样不一样。但是大逻辑是一样的,也就是说你给定一个 job,你描述清楚要干什么,然后这个 agent 能够帮你自主的干嘛,不需要你的参与。
当然 human in the loop 有另外一个故事,就是说一个好的 agent 在合适的时候会提出合适的问题,对吧?我觉得这个是很重要的。但是总而言之,它的逻辑就是说它能够自主的去端到端完成一个任务。所以我觉得这个更吸引人。这是为什么美国在 A 级赛道上这么多人愿意投钱。它的最大概念在于说,我不再是一个卖 20 美金一个月的,他可能就是一个 2000 美金一个月的。
对。然后首先我是不是能理解成,你现在有点像一年前两年前的 Cursor 的一个状态。就是反正相信一件事情,然后就在等底层技术成熟。
有一点。对,当然我觉得每个人相信的还不太一样。做 A 级赛道有很多不同的切入点。不靠谱的切入点是我觉得 David 其实为这个赛道做了很大的贡献的。他讲了一个很大的愿景,让很多人认识到这个赛道。但他的那个不靠谱的地方在于说他那个愿景基本上不可实现。也就是说我做一个 A 啥都能干。
其实硅谷这边已经基本上把这个形成一个共识了。也就是说你现在如果做一个 A 级,说什么啥都能干,基本上没有人相信你就是你啥也不能干。对,这就是为什么我不特别看好 alt replay agent 这种就是看起来啥都能干的这种。可能说小白能够做一个看起来用得 demo 有用。但是实际上你去真正去做软件工程,没有人怎么去写代码。所以这边的一个共识是说,你大概率的需要去找到一个细分切入点,让这个 A 就干这件事情。
对于 code agent 这件事情来讲,有的人觉得我做 code review,有的人觉得我做些 documents 帮你补文档,有的人觉得我做 reactor,就是我做重构这个需求量也很大。有的人觉得,比如说我们现在就在做 unit test。我们觉得 unit test 可能是一个最容易去落地,或者说准确率容易做的特别高,甚至比人都高的一个场景。
我问一下,你刚刚说那个我是。
没太听懂。
unit test 单元测试,unit test OK。但你仍然再解释一下,对单词我听懂了,事情。
这是个什么事情?Unit 什么意思呢?就是说你写了一段代码,对吧?你要确保这段代码是正确的,你要写另外一段代码去测这个代码的输入输出是符合预期的。
就比如说你写了一个算法是排序算法。那排序就是理论上讲我给你一串数字,你要把它按照 1234567 给我排出来。那这样的话我就可以写另外一段代码,说我输入 13976,能不能给我排出来?什么 13679,明白了。对。
然后这个单元测试最大的作用是什么呢?就是叫防止 regression。Regression 的意思就是说我这段代码本来运行的好好的,但是由于系统复杂,在大量的开发过程中,这段代码被谁因为另外一个原因要做一些适当的修改。然后改完了以后,这段代码 break 了之前的某个功能,这是很常见的。因为一个系统特别大了以后,它可能有很多十万个功能,每个功能之间有错综复杂的关系。所以 unit test 某种意义上讲是保证是 OK,你在改这个东西的时候,你要确保原来的东西不被改坏。
一个比较有效的一个手段。明白我们为什么觉得这个东西能做有价值,也有可能做的比较好。第一就是刚刚讲的防止 agression,它是很有价值的。当然这个对于小团队可能没有太大价值,只能做 enterprise。因为小团队的这个产品质量功能都不复杂。
第二个是说开发者不愿意写,因为这东西很无聊,但不像写功能代码可能还有一点成就感。我在实现一个什么新功能很炫酷。但是你去写 unit test 的时候,就是在组织输入输出,在做各种各样的周边这种配合工作,感觉就不太好玩。所以你会发现大部分团队的单元测试覆盖率都很低,基本上在 30% 以下,能不写的都不写。对,实在不行了再写。比如说变成这种,所以我们觉得就这种人不愿意干的活儿,是不是可以让 agent 去干呢?我不是抢你饭碗,你都不愿意干对吧,那我来干呗。
另外就是说它对于整个软件工程的其他方面的这个信息的需要相对低。比如说对于你这个业务到底是什么,你到底是个抖音,你还是个美团外卖什么的,就相对来说关系没有那么大。另外因为 unit test 它是一个已经被实践了几十年的这么一个操作,它基本上有套路的。所以不同的团队里面的工程实践上面也比较接近。所以这两个事情使得我们觉得它有可能能做一个相对通用的 agent 来解决一个问题,这是我们现在主攻的点。明白。
我在听你刚才讲那个场景的时候,他改错代码有点像棵 sr 的那个场景,就是上下不全的话。
不一样。就是说你改代码,你很难保证你改了不影响之前。因为可能有一千个地方都在调用这个代码,你不知道别人是怎么调用这个代码的。
但我重点想问的是,如果按这个思路推演下去,你你觉得 Copilot 和 agent 是能够并存的东西吗?还是 agent 如果起来,其实后面 Copilot 渐渐就会消失了?
我觉得这是两件完全不一样的,我觉得 Copilot 会一直存在,并且很重要。因为本质上它解两个问题,就是你找了个小弟去拧这个地方的螺丝,不代表你不需要一把电钻去拧一个更复杂的螺丝。对它不取代,就是我依然坚信人很重要,软件工程师很重要。AI 把什么程序员干下岗这种事情,我是不信的,除非你本来的水平都很差。所以只要人还存在,Copilot 就很重要。然后大家就确实帮人解决问题,能够提高你的效率,有点像科幻片对吧?我人需要一套很牛逼的装备来去打怪,但同时我还可以带一帮机器小弟。
所以如果这么讲起来的话,就是你是不太相信 AI coding 的能力未来能变得非常高级的对吧?比如说一个人在这说帮我搭一个 TikTok,这个好像之前是谁啊在一个讲座举的例子。
这个你是不信的,我是不信的,就是我其实不信任何代码平民化的东西。这里面有几个逻辑,第一,软件工程历史上这件事情没有成功过,就是很多人尝试过各种办法。最后你会发现所有的低代码产品或者无代码产品都只能局限在一个非常小的领域里面才能有商业价值。就是没有出现任何一个把软件工程门槛下降的产品大规模广泛使用的。没有几十年了没有过。
第二是说普通人没有写代码的需求。这里面一个假设,我觉得这个假设是不成立的。就是很多人觉得我如果把门槛降低,我有十亿人写代码,对吧?Which is a rapid vision,我其实以前对于这个微信深信不疑,但是从去年开始我就动摇了,我已经不相信这个微信了。因为我觉得普通人不想写代码,普通人可能想喝咖啡,想拍美美的照片,想去兜风,没有人想写代码,甚至他连跟一个程序员说话都觉得累。所以我觉得这件事情最后不会是这样的,因为它不符合人性。
我觉得写代码依然是小部分人创造大量软件让大部分人用对。如果一个东西变得特别的 common 的需求,就会变成一个独立存在的软件。就跟你现在的 SARS 一样。如果你的需求被大量发现,那他就会有一个人做一个特别牛的工具,解决你一系列这样的一个问题。那就只有非常小的,没有办法普世的这种很小的需求,你可能找一个朋友帮你弄一弄。
那现在很多这种什么一句话做 agent 的这种东西我也不信的,为什么呢?因为一个复杂的 agent,比如说你写代码的 agent 真的要做这个 agent,它的背后的工程复杂度远超你想象。不是说你说两句话,几个方块拖一拖就能够做出来,我怎么可能对吧?如果需求被大量发现,并且证实可行的时候,就会有专业团队做这个 agent,然后还有一个巨大的问题是,如果这件事情这么的 common,这么的简单,那它就是 ChatGPT 的生意,它不是你的声音。
对,这个也是我本来想问的一个问题。最终你你觉得模型本身跟这些 code agent 的关系会怎么样?
你看 ChatGPT 现在也集成了开发环境,甚至 Anthropic 也集成了 artifacts。ChatGPT 是搞了个叫 canvas,它都是轻量级的。在某种办公白领场景下面,我做一些,比如说你用 Notion,你也在里面插入片段代码,对吧?这种东西我觉得普通人可能到此为止就够了。所以就回过头来讲,就是我不是特别看好这种让普通人什么说两句话就生成一个什么应用。
对,但是我们踩过这个坑,我们去年做过一个这样的类似的产品,最后我们发现其实真的很难。因为我们从 2023 年 5 月份左右就开始琢磨 AI 的这件事情。其实做过很多很多方向,最后发现这也不 work,那也不 work。最后想明白了,说这东西你不要想的天花乱坠,不要有那么多幻想,不要想那么多科幻片,我们得想想商业片到底怎么商业化,到底怎么真的产生生产力价值。你往这个方向想你就会越来越窄,越来越窄你就会找到一个 OK agent。
你作为一个劳动力,最重要的一个品质是可靠性。你招一个实习生不太能干可能可以忍,但他经常性不靠谱,给你瞎折腾,然后浪费你的时间,你可能就不能忍。所以我们最后觉得 unit test 现在跑下来,我们也有些客户在试了,我们自己也在用,每天就觉得这条路应该有可能能通了。对我再说一句说为什么我们觉得这个口述需求,然后什么做 AB 不?
因为你很多人讲不清楚需求。对,你比如说做个抖音,其实没有人真的能讲清楚抖音的产品需求的。软件工程需求没有那么简单,OK 就扯远了。
然后说模型,我去年的时候特别担心这个问题,就是说 GPT5、GPT6、GPT8、GPT10 会不会使得上面的应用都没有意义?我现在特别坚定的不会,除非所谓的 AGI,真的 AGI 就是那个超人出现,对吧?那如果那个出现,那大家再说。
但我我觉得目前这个 AI 的进展看起来不太像,更多的是它会在准确率上、在上下文长度上、在速度上、在聪明程度上不断有一些提升。但一个再聪明的应届毕业生,你也很难直接在公司里面产生价值。进入一个公司要培训,要理解这个公司干什么,为什么?要理解这公司怎么干活。所以我觉得软件工程有两个重大问题。
为什么我说 agent 特别难做?就在于它有一个问题叫做业务上下文,有一个问题叫做工程上下文。这两个问题无论模型怎么进化,无论模型怎么 training,它都不可能解决。因为这两个问题是 domain specific 或者 company specific team specific,它每个公司都不同的。所以我觉得模型的进化只能给 agent 带来的是正向促进。就是说我本来这个 agent 只有 80 个智商,我现在有 100 个智商。我把我合适的给到这个 agent 的时候,它会更快的 pick up 起来。就能够更好的去解决我这个实际场景的问题。就是一个聪明的应届生和一个笨的应届生,他适应这个公司过程不太一样。所以我觉得不用太担心什么模型的竞争,我觉得 GPT5 的出现。
对我们绝对是利好。明白。所以其实你刚才讲了很多,就已经回答了一个问题。就是现在经常有人在讨论说,未来还要不要学编程?按你的这个讲法来讲。
肯定还是要的,肯定要。对我不是很有确定未来编程教育会演进成什么样子,但我目前坚定程序员一定是一个依然会被需求的岗位。但是它的量有没有那么大,以及类型会不会发生变化,我觉得现在是不好说。
我再明确一个点,就是你完全不相信未来会有 C 端用户用它来做些东西。
我不相信,我觉得如果这件事情成立,那也就是 ChatGPT 的事。ChatGPT 直接就是那个超级 agent,就是它能帮你干很多通用的事情,比如说它能够帮你订机票这种事情。但是模型的什么能力的进化,使得你这件事情能够真正特别靠谱。我觉得我没有特别想清楚。所以我们花了很多时间去 build 所谓的叫 evaluation,就是说你如何评估你的 agent,这个很重要,你制造了一堆所谓的数字员工。但是上岗之前你得有一个考核方式。
能不能简单分享一两个你们现在在考核的一些指标。
就比如说 unit test 这件事情,我觉得你要真正考核一个人,你不能够只问他一道题,对吧?所以我觉得很重要的一点是你要去 build 的这个题库。就是我们会拿比如说开源的仓库,我们自己的仓库和早期客户的商业仓库综合起来。然后在里面找不同的语言,不同的框架,不同的类型的写法整理。比如说一千道题,简单一点,你每次 agent 改进了一版,你要去 run 这个一千道题到底做对了多少道题?这个意外流行是一件非常耗时的事情,因为这个数据以前没有不存在。这就是硅谷特别强调的这个 synthetic data 合成数据。合成数据有两个作用,一个作用是 fine-tuning,一个作用是 evaluation。
顺着你刚才讲的,我就想问一下,因为你最近几个月都在硅谷,从你的视角来看整个硅谷那边的情况,包括你看整个 AI 发展情况是怎么样的。
我觉得硅谷这边目前来看每一个层面上面都非常欣欣向荣。我不说投资额多少或者投资 case,但是我看到的项目的种类多样性和数量的丰富程度,就各种奇怪的东西都有人做,什么?AI 鉴定假包的 AI,跟时尚 AI,跟玄学,我们全都有,都是成立的公司拿了钱。都是正儿八经项目,不是什么抖音搞教程。更硬核的点就是 info 卷的非常严重。我觉得 info 这层投入比国内我还不确定可能十倍以上。现在有很多做什么 agent 的 sandbox 的,什么 agent 的数据合成的,反正 info 这层是美国特别热衷的一个赛。当然 agent 的这层对美国反而做模型的比较少。
就剩那几家了。
主要是之前也没那么多,说实话。但 Anyway,最后回到你最早的那个问题,为什么我们都在用海外的东西?人家投入的多。
投入的早。对,但又回到你那个答案,就是国内投入的 to B 市场也做不起来,闭环了。有个很有意思的现象。
我跟你说我来了硅谷,在这边待的时间越长,我发现我买的各种各样的 SaaS 越多。因为没办法必须买。比如说我买 LinkedIn,你在这边基本上在商业场合都是这样 LinkedIn,对吧?那你得买一个它的高级版,有些功能你得用好,要不要买 Zoom,你得跟人开会,你不能够一个会 45 分钟就上线了,对吧?你得买 calendar,你得跟人约会,约会一来二去邮件很累,你直接发个开的链接,我发现这是一个这边 common practice?我也学会了?就是各种东西越多越买越多,全是 SaaS。但你被逼的,你没办法,就是你在国内已经啥也不买买啥 SaaS。
而且其实我感觉老美这边某种意义上讲的效率是比国内要高的。其实这种 SaaS 工具确实是可以带来提效的。然后没有免费可选项,所有人都是收费,这个可能跟国内卷的竞争的维度不一样。国内可能上来就给你整各种免费,然后就导致大家收不着钱,但我感觉还是有一些文化习惯了。我不知道,就是我来了以后就自然而然地开始买这种东西,因为别人都在这么干你会依葫芦画瓢的学。对,就是生态。
对我跟你说我现在要去买邮箱了,虽然我们买了那个微软的 Exchange Outlook,我觉得那个不好用。很多人给我推荐那个 Superhuman,那个又要花钱。国内邮箱花钱,大家觉得你天方夜谭。为什么邮箱要花钱?
回过头来讲,就是为什么之前我们在国内做 SaaS,做 devops 产品真挺难的。但是这边生态可能是一个循环不太一样,整个的气候不太一样。这也是为什么我们产品的商业化也想在硅谷做的一个原因。可能付费意愿,付费能力,产品早期接受度都会高一些。
OK 好,我最后一个问题,如果给今年的 AI 里面华人创业者一些建议,尤其是听你讲,你们去年其实走过一些弯路,也踩过一些坑。对我想听听你现在会给他们一些什么样的建议。
我可能没有足够的信息做所谓的给出建议,因为寻找这个 PMF 的难度比我想象中高太多了。好的事情别人也没找到,坏的事情我们也没找到。但是我为什么一直还有信心做?因为我不觉得我们的认知落后,或者我们的技术落后,所以我的感受是说对于底层的理解特别重要。你能自己去看论文的就自己看,能自己手写的就手写。然后直到一定程度上,你可能再去用现成的工具,或者才会对你真正地带来价值。因为这是一个新领域,它不是一个软件工程,已经做了几十年,大家都很熟门熟路,上来就应该这样那样。如果你上来就开始用各种各样帮你铺好的东西,你不理解底层很多东西,你以为你解不了,实际上是可以解的。
你自己做了以后,你会有体感,然后那个体感会对你的认知产生很微妙的变化。你突然某天遇到一个问题的时候,那个体感给你带来微妙的变化就会起作用。但是这个可能只是说对 agent 这一波做比较底层或者比较 hard call 的这个大模型应用有点关系。反正我们很大的收获就来源于说我们在去年开始大量地去做底层。所以我觉得这可能不是我们的建议,我只是说我们的路径。明白,好吧,那就这样,感谢海龙。好啊,拜拜。