大家好 欢迎来到脑放电波脑放电波是一档关注科技前沿品牌营销和个人成长的谈话类节目每期带给您一个有趣有据的话题帮您在信息严重过载的现代世界小幅自我迭代我是托马斯
我是尼克森我们今天还是一期关于 AI 的话题但是和我们以往讲 AI 的话题不太一样我们以往可能是更多的跟着一些新闻和重磅的产品的发布来去更新 AI 行的一些动态更多的可能是偏向一些更宏观或者是偏向一些商业一些公司的一些分析我们差不多有半年没有跟大家讲就是普通人你到底应该怎么样去接触 AI 或者是说可以开发什么样的一些 AI 应用了而且我发现我们还有一个
一个选题一直没做过就是 AI 的应用生态就是人是什么做的应用是什么做的应用成熟度怎么样这方面我们确实一直没有关注过所以今天我们确实有一个非常好的契机来去聊这个话题这个话题就是我们在深圳刚刚今天参加完了一场 AI 产品大赛对我们参加这个大赛的名字叫 AI Deer 创新应用大赛是 B 站的一个 up 主林毅和他的团队主办的一次活动
我们在现场看到了有 26 个参赛的团队我们也请到了这次大赛的主办方林毅还有小白来到我们的播客我们请他们先跟大家做一个自我介绍大家好我是林毅然后我们是在 b 站上运营一个叫做同名的林岩 OI 的视频频道然后现在全网也是超过了 200 万的订阅我们以长视频为主 b 站 youtube 这些然后短视频我们也有在运营
大家好我是小白灵异的合伙人灵异的 B 站的频道非常精彩我跟尼克逊我们都之前都是老粉了我对灵异频道的定位是科技区自己上手做项目做产品怎么讲呢最上手上手精力最多的一个团队有点像是用 AI 来做合同学的感觉也不敢当不敢当
何同学可能是整一些制造的机械的活多一些林毅的团队可能用 AI 来整一些电脑里的活多一些是的做着玩我们要不就聊一聊今天这场比赛我觉得还是蛮精彩的要不林毅先跟我们讲一下这个大赛最开始它是怎么一个 idea 诞生的这个的话有两层原因第一个行业这块的问题就是
咱们现在这个时候 AI 已经火了有一段时间了然后但是咱们就东西在哪对吧咱们日常生活有什么真正的重大的改变其实好像也没有没错所以说观察到了这样一个问题然后就觉得可能还是时候需要做一些改变然后我们想了一下就是觉得现在这个形势可能就在于
就现在都是大公司然后我们能看到很大数额的融资大团队在搞这些事情但我们觉得其实社会上也需要特别是这些小年轻尤其是一些很关键的很有想法有创意然后有能量的这些年轻人然后出来然后自己做一点有趣的东西然后今天也提到像亚马逊当年的话他创始人贝索斯他就做一张很破的桌子但现在的话亚马逊市值其实已经 1.7 万亿了还是美元
我们就觉得可能社会上还需要这样的一个动力给各位年轻的开发者朋友们然后给他们一个契机然后去做点好玩的东西出来然后另一方面就是说从活动的角度是受到了这个
深圳市政府这边的大力的支持特别是人才工作方面的领导然后当时他们拉着我们办了一个座谈会然后在座谈会上然后我们也是遇到了深圳另一个创业团队叫做 SET LIVE 他们是有比较丰富的办比赛的经验的然后我们就一起就决定因为也想为深圳这边吸引人才工作做一点贡献一点自己的力量然后我们就决定做这样一件事情
因为我们频道本身就是做这种以科技解读类然后包括一些我们自己的上手的这种项目为主的这种视频内容然后我们觉得这也是一种双向选择就是能愿意看我们视频内容的然后肯定本身能看得进去愿意看的肯定也都是高智商高知询体对吧所以我们就觉得那就从我们的观众中发起一下然后试一下看能不能办起来这样的活动
其实一开始挺忐忑的但是后来发现确实还是有很多优秀的作品我很直观的体会到什么叫做 AI 人才红利但这么说有点不负责任但我觉得我们的年轻一代成才率真的是特别高我没有想到这么多大学生今天来拿着东西都是非常好的非常有活力很年轻
然后也很多元它跟我们刻板印象里面的程序员的形象已经不太对得上了它的风格有些走在路上你不会知道它原来编程这么厉害这种感觉从你们报名的状况包括你们接触的团队肯定更多超出今天的现场的这些人在做 AI 应用开发的这些人的画像是怎么样
就和刚才托马斯说的有相应称的地方比较颠覆我们之前那种印象就可能大家都是什么大厂出身然后程序员专业之类的其实还不是有很多学生然后有很多可能做一些生活类的就是可能他更侧重就是生活体验这些方面的这种体验家这种就是感觉也并不是技术出身然后他也是在做这些东西
非程序员的拳来拳手给我留下比较深的一个印象如果他不是程序员那他是自学是吗就是他从来不会写代码有一组印象给我很深就是他是国家美术学院的一组学生他们做了一个
基于 AIGC 的一个艺术展示装置然后我去线下问的时候他直接给我看代码我说你们不是美术学院的吗你们哪个专业会教这个东西吗他说没有老师会教这个但是他们觉得现在用大模型写起来非常快他们全都是用 XGBT 来写的
因为我之前潜伏在你们的参赛选手群很多愿意折腾的游戏玩家因为他手里恰好有一个 3090 或者是什么 40 系列的显卡他会很容易折腾折腾然后自己就开始可以搞一些这个 AIGC 的一些东西
我也补充一个例子我们在这一次比赛现场也看到有一个历史系的一个姑娘她做了一个很全面很丰富的一个针对 B 站的一些文化现象的一个数据研究然后最开始我们看到这个图就觉得肯定是理科背景然后可能还懂一些计算机技术然后结果后来一问然后人家真的就是纯历史系纯文学连理科背景都没有
然后他的那个图做的相当漂亮而且还是可视化的可旋转的可互动的然后他就是说这个都是 AI 教他写的 OK 你让我想起了我原来带过的一个师范系的实习生他的毕业论文就是用自然语言处理的方法去爬教学视频下面的弹幕然后根据弹幕的数量和属性来去分析教学效果他们可能学生生涯可能绝大部分时间跟代码是没有关系的他很容易找到一些工具对吧来去解决这个问题
我们刚才聊完了谁在做对吧我们也可以接下来聊一聊都有哪些类型的应用我自己看到几个主要的方向第一个就是刚才提到的这种
游戏类的他做这个东西就是为了帮助他玩游戏的看到有一个用嘴玩原神的一个 demo 那个看起来好像很简单他就是要打嘴巴说什么出招什么就相当于声音控制了游戏的操作但其实背后的在技术上其实他还是有一定难度的他要学习他屏幕出现的这些东西这种帮你玩一个东西其实他已经是符合 AI agent 的概念所以在概念上我们觉得还是挺有意思的
然后我们也看到一个项目我印象比较深好像叫 Resignify 是吧它是一个网页版 agent 然后它对标的是叫做什么 code interpret 对就是对标就是 Changebit code interpret 然后它调用很多 function code 的函数这个开发者年龄特别小但是我觉得现在的大学生确实跟我们理解的大学生不太一样他们很多人跟我第一个介绍说我是一个什么什么的开发者然后实际上是个大二学生然后
然后我同时还在哪里上学念书他自我认知的第一身份已经不是学生了对我是一个开发者对这个还是蛮酷的是他那个产品我可以再多介绍点因为我蛮喜欢的它是一个网页基本上是通过网页访问的然后有一个很简单的对话框然后你就可以问他问题这个问题是开放的就类似 chat gpt 但是他的回答是自己编写 python 的代码
来回答你比如说明天深圳的天气它就会调用天气我忘了它应该也是调用百度的一些搜索然后得到结论然后再渐行的输出这是一类问题然后有些数学类的问题它会调用一些数学的函数来解决因为确认 GPD 有时候会算错它不是纯让确认 GPD 返回它一个结果
然后还有那种很实用的比如说你丢给他一个 PDF 你说我要把其中的第 10 页到第 20 页这中间这一段给我截出来他能给你返回一个截好的 PDF 就这个 PDF 拆分这个事我有一次临时要用的时候我发现你只能花钱到网上去
而且要把你的私人的 pdf 传到他云端的服务然后花我忘了是 5 块还是 20 块他才能帮你切开否则的话你自己要去 Adobe 的正版的软件或者是你去 GitGar 里面找一个 app 其实临时你要找很麻烦的包括他还演示了一个 demo 就是把一张好像 PNG 文件加上 4 个圆角他相当于那个东西就 Python 现场给你写了一段代码然后你把图片塞进去他就丢给你一个切好圆角的图片
切圆角这事我也花钱干过有的时候真的对于普通人来说如果你不掌握编程工具或者你不熟悉某一个领域的大家不可能熟悉所有事对吧如果你不是一个设计师有一些非常简单的图片编辑的活你会发现其实你在一些 App 上你是要通过付费来完成的
但是这个就是一个我觉得非常棒的一个 agent 它只是一个简单的 demo 你想它未来的想象空间它可能就是我觉得下一步因为 generative ai 应该是过去一年半左右很流行的概念但是接下来我觉得到了 agent 这个阶段了可能会有越来越多的这种 agent 去帮助你做一些执行的动作而不是说我只是帮你生图生文
虽然他最后没获奖但是我印象很深我觉得他很有想法很棒而且代码写出来我甚至还可以用他来学 Python 这段我要实现一个什么函数什么他就帮你写出来了你就直接看着好对然后他的项目因为是基于 function call 我觉得 function call 是去年 open AI 开发者大会开放的一个能力但是一年之前我意识不到这个东西有这么大潜力第一类就是 AI 的 agent 我记得你们好像也做过一些这种
或者是游戏相关的一些东西你们其实做的还蛮多的我印象中你们原来也经常也用那个框架叫做 yolo 对吧就图像识别和图像分割的今天其实那个语音玩原神那个他应该也是用了一些 yolo 的东西在里面他会去识别原神里的图像
特定的怪物是谁主角是谁然后怎么样去放一个招对然后接下来第二类我觉得这个是程序员很大的一个特点就是程序员先解决自己的问题编程相关的生产力它代码的学习今天最让我印象深刻的一个项目叫做 GUII 他们应该英文念的 GUI 对然后
我在那个项目上写出了我第一个人生的一个前端页面对对我觉得他那个设计的确实是完成度太高了他而且在交互上琢磨的非常明白他就是你鼠标挪到哪个位置因为在前端的页面里或在网页里面它会有一个元素嘛它就会把对应的元素给你标绿接下来你就用这个自然语言去表达你对这块元素你想做什么事情然后当时我想不以为难一下他字体变个颜色
我当时就说我想要一个彩虹的渐变色很交赚一个需求因为大概十个字要从彩虹这样渐变过来然后结果大概 run 了十秒钟就 run 出来了我还是挺惊讶的对 GUI 项目这个项目应该是冠军对吧
对这个项目是冠军因为它确实完成度很高因为我们看到现场很多学生开发者他们开发的应用都是没有好多都没来得及做 GUI 对所以这相当于就是现场就搞定他们的编程的困难了它基本上能解决好多队伍的问题
它其实是一个基于写代码的那个叫什么 VS Code 它其实是基于 VS Code 的一个插件但是你开始用上之后你的界面完全不需要看着 VS Code 你就可以只 focus 在你看到的那个网页上就好了你就跟它一句话一句话说话然后 VS Code 的所有东西它会在后端把你解决处理好
对于我这种麻瓜来说真的是蓄容心得到极大满足的这么一个东西所以这里面我们看到五分之一的项目就是在教你如何编程这个过程其实就是一种让以后有了 AI 其实很多时候普通人跟程序员就平权了
就像刚才尼克森说的我写一个前端我只需要把它选定然后告诉你说我不喜欢这个颜色我要换成什么颜色他就踏踏实实给你换成那个颜色然后你可能你这个软件就有了前端的 GUI 了我觉得这个还是蛮厉害的说到辅助编程其实今天有个事情挺让我意外的我不知道你们怎么想今天很多人都在自己的 PPT 里面鸣谢了各种各样的开源项目我平时看你们的频道好像你们自己做项目引用一些开源的东西或者把自己的代码贡献出去也挺多的
我现在去回顾互联网革命这个过程的话就好像每一次新东西出来都是先开源先行然后管后面再怎么发展但每一次早期都是先开源
这个规律是不是这样我也是刚刚拍脑子想到的最早期计算机那个时候的话可能硬件组装都是开源硬件方案都是开源的然后再后来互联网革命操作系统对吧都是开源的然后像这一次 AI 大模型也是一样也是先是开源社区先启动
然后可能是大家搞技术的都是不会一上来就先想着我要赚钱要怎么怎么样包括我们这场比赛也是大家更多来我们都没有什么很大额的奖金然后大家来其实就是一种分享的欲望然后想要去展示自己技巧然后想要和大家切磋交流的这样一种欲望可能这就是为什么这种新技术起来的时候早期都是开源社区扮演很大的角色
整体的开源工具有几类我觉得都还是挺亮眼的第一类呢就是很多人今天做的项目是他是去拿一些社交网络上的信息或者拿一些 IM 里的信息他就发现有非常成熟的那个工具让他去拿然后这是第一类第二类呢有很多非常多的 AI 的衍生能力他可以去获得比如刚才提到的这个 YOLO 就可以随便调用然后包括就是做 agent 的
其实今天我记得提到这个 Multiagent 就用的蛮多的然后还有一些开发者呢他今天他已经不是只用一个模型了他可能是他的业务流里面有好几个模型在做接力
那怎么样去协调这些模型的这个工作流他也在用这样的一些成熟的一些工具去做对然后还有一类呢是基于操作的就是比如说我们说玩原神那个人也是基于一个开源的工具我记得你们你们的节目里好像还做过一个类似的一个工具装在电脑之后他就可以替代人去移动鼠标和这个键盘对吧
所以我觉得基于这三类开源工具今天用的还比较多所以给我一种直观的感觉就是说因为今天来的开发者我感觉普遍做时间的项目的时间不太别长感觉也有可能两个星期到一个月给我一种感觉就是说只要你不是特别懒然后你有一些最基础的知识你总能在这个开源的世界里面找到一些东西来帮你解决这个问题然后你自己再加一点点代码它就变成你的这个创意
我感觉有点类似于打 mode 一样避援的东西更像是商品然后开源的东西更像是工具然后所以一个行业成熟的时候的话你就会看到商品很多但是一个行业在开疆脱土的早期你就会看到工具很多而且我们能看到一个很神奇的规律就是说现在哪怕是大公司他在 AI 这个领域他也要做开源就是大公司的话他在其他领域他不会做开源就是 Windows 我凭什么把
我操作系统的源代码贡献出来但是还是这个问题新行业的话大家都需要工具大家都在找工具做工具哪怕你是大公司你也得顺应潮流当然了后面你怎么操作我们不知道但是早期的时候大家必须都得拥抱开源所以一定是这样一个状态对我们能看到 Meta
就在开源他的拉玛对吧但是 OpenAI 现在被人戏称为 CloseAI 但是前几天谷歌的 CEO 不是在斯坦福前 CEO 在斯坦福阿什米特对他讲了一节课然后被人爆出来了对被爆出来最后他就是说他觉得开源我玩不起他最后他就是说他想把他自己投资的公司变成币源的为啥玩不起他就是说我不能把这么重要的知识产权就拱手就送出去
其实某种意义上的话是这样开源的话小团队个人和大公司的玩法是完全不一样的小团队个人做开源的话那就是出于兴趣出于热爱大公司的话他说到底他还是为了他商业利益
但是这就意味着大公司搞开源的话他得搞的特别大然后他赚的也特别大所以这就是像史密特为什么会说就玩这个玩不起的话就是说这个投入太大了像 Meta 是个非常好的例子 Meta 为什么现在这么大胆的搞开源他当年他在 Facebook 时代在脸书时代他就吃过开源的一波大红利因为一开始的时候脸书他需要非常多的服务器资源他用户非常多全球范围然后
然后他需要大量的服务器资源然后他就搞了很多的针对自己服务器的优化然后搞完了之后这个方案非常好然后他选择了一个事他就是把这套方案给开源出来然后业界当然看到了你这个东西又省电然后又省钱当然大家都用然后用完了之后他发现因为整个行业都跟着他走了
然后连生产商什么的全都跟着他走所有的东西都适配他的标准然后这时候他是那个行业里头最大的玩家然后他得到的就全都是整个行业为自己适配
他一下子节省的成本一年可能就是 30 40 亿美元他节省的成本就是他算是他的盈利嘛算是他赚到的钱所以开源就是这样大公司以他还是奔着商业力气的而且他那个野心非常非常大但是呢这个投入也非常非常大包括麦塔现在为什么这么的推进他拉马的开源那你想一下就是以后十年之后
整个行业从显卡到处理器到电脑主板然后到服务器架构全都是按照 Lama 用的那些模型层去适配的因为你整个行业你不只是它开源出来了然后它有好用那可能不止卖它然后可能什么其他的公司小公司中型公司然后也都去用那整个行业必须得朝它这个方向走那它到时候它能带来的效率提升资源节约就非常非常大
我记得之前在你视频里看过一个故事就是某家公司它套壳了不仅仅要套壳吧它基于拉玛做了一个微调的模型然后后来呢它就被开发者社区所诟病原因就是说它把很多变量的名称改掉了
他就发现很多基于拉玛的第三方工具在模型上没有办法直接跑起来然后后来那家公司道歉了 01 什么对 01 万物但这个的话其实说实话我也得为 01 万物说一句话他们做的模型性能的话其实还是不错的然后我觉得的话
可能也不是有意为之的错误就是一种可能长期以来对开源文化的这种对就是长期以来其实大家都是这么干的然后只是说现在到了这个转折点了然后可能他还是这么干但是他也立刻就意识到错误了然后同时也得承认他们确实是自己做了不少工作的然后包括他们的一模型其实性能是非常不错的理解以后找时间我们可以盘一下基于大模型现在就有哪些直接的这种基础建设的一些工具
它的整个生态是怎么样但是我听林毅听起来感觉就会说可能像 Lama 这种开源的模型现在就占的优势比较多因为开发者愿意为它做东西因为开发者了解这个模型很多的细节对吧对 OK 回到我们今天的项目里面还有一类项目我的播客听众特别感兴趣的就是知识和生产力管理的我点几个项目我觉得特别好玩的一个项目是做阅读的它在那个 APP 里面有不同的猫
然后每只猫代表一种阅读方法有的猫呢是直接帮你看提纲速读对对的速读有的猫呢是给你启发式的学习他学那个什么苏格拉底苏格拉底的这种 Socrochiti 对对的这种教学方法然后呢他给你通过这种聊天的方式帮你去启发一些东西
然后除此之外的话我自己最喜欢的一个项目是今天叫做跨领域学习的一个项目那项目让我印象很深刻它解决的是什么它解决的是让一个人理解另外一个领域的知识那个项目印象特别深刻它的界面是左边你随便选个职业右边你随便选个职业接下来你就生成一段话就把右边的职业介绍给左边的这个人
但是左边的这个人呢可能他并没有学过任何的相关知识所以呢他就故意让那个模型用左边的人听得懂的话来解释这个右边的那个陌生的技术概念对对对来解释这个概念你可以举个例子我
我今天举的一个例子是让一个理发师怎么理解 VR 的开发它一个是理解另一个是看这种专业或者技术对你所处的行业有什么帮助它是一种跨学科的一种我觉得很好的一个像脑爆一样的这样的一个过程
他当时举的例子就是说 3D 开发呢其实有点类似于老师这个给头发做造型然后呢这个我们的这个美术资产呢分成两部分一部分呢就是这个形态其实就是你类似给头发做发胶那美术资产另外一部分叫贴图那这个贴图呢就类似老师你今天长头发
或者类似你给头发这个上面做点这个质感这一段让我印象非常深刻开发者他考虑的还挺多的他甚至就是说我觉得他可能是微调了那个模型的那个温度生成的那个温度然后他就什么创意模式严谨模式然后通过这种东西来去生成了三段不同的介绍他
他有一个自我评分机制就是他觉得哪一段是最严谨的但是你可能听不懂哪一段呢是有可能这个理发师最可能听得懂的你同时看到三段话在你面前然后你就可以去理解另外一个行业的一些事情这个项目我也觉得特别好就是其实他这个项目最后没获奖嘛他可惜的点其实并不是说这个项目没做好而是模型能力不行就是
现在的话模型还是达不到那么自如的去帮你去做领域知识之间的转换比如说像您刚才举的例子就是理发师的话它就比较好也会看到一些它就会生斑硬凑它为了举一个例子而举例子这个就是现在大模型很经常犯的一个错误所以这也是可能我们经常会探讨就是说开发者面临的一个困境
很多时候开发者的想法是很棒的但是模型能力还是没到位可能比如说然后下一代 GPD-5GPD-6 新跨时代的技术再出来的话才能解决这个问题但其实我们之前有过另外一个探讨它可以说是不同领域之间知识的一个桥节也可以说是方便人和陌生领域的之间的一个桥节比如说是
人与人之间的社交我们之前想过他是不是也可以做比如说两个人之间互相的那个那个熟知的点不一样那是不能帮助说促进两个人的沟通这样子或者我们之前考虑过一个整活的项目就是说男女朋友之间沟通的这个这个翻译信息不对称就是女生说一句话的时候男生不一定懂
我好像看到了那种翻译机类似但那个偏整活他不是真的懂女生说这个这个随便是什么意思这可能我们先预设了几个答案然后或者怎么样给他调一版这样是是那
我后来发现模组层层上换模型能改进这个问题也能改进但是最简单就是换提示词换提示词的话就像我们 AI 超股那期视频里面我们举了几个典型的巴菲特然后利弗莫尔然后格威东对吧然后每个人就是那风格确实是不一样然后他在 A 股市场里头播杀的效果也确实不一样
你让一个你比如说让一个巴菲特然后搞价值投资然后搞这种我看经济理论然后看大趋势这种然后他去玩 A 股市场他惨败而归然后利弗莫尔也是就是外来和尚在 A 股市场那念不了经但是像葛卫东就
游子大佬然后那确实是不一样的这个你们在节目里面没有说原来你们是这样来调的这点没有特别强调其实有一个调的过程但是在那个 promo 工程里边你是谁谁是一个很强的形式确实会对他的风格有很多影响
我听过一些把提示词挑的很好的一些开发者的一些案例我觉得现在可能大家普遍面临一个问题就是模型能力不行那我用 prompt 去提它但是怎么去提我听过一个很邪门的一个做法就是说那个开发者他去 PUA 自己的 AI 他叫做你是一个已经稳定运行了 1000 年的 AI 你绝对不会出错你不会去不会说任何废话
那每次都吐那句话包括前段时间有人把那个 Apple intelligence 的那个提词拔出来发现苹果非常废的在里面说了句不要有幻觉那个被人吐槽你到底懂不懂提词但是有可能那个是很有效的一个方法我们播客的文稿很长时间我应该尝试了接近一年的时间每隔一两个月就要尝试一轮我们截止目前我们一直都失败而归
从专业角度来看的话这个做法的话并不能提升他能力的天花板只是能抬一下地板因为模型大模型的话他背后是概率论就是他其实是会有一定概率生成各种各样的结果然后所以说给他指定一个特别明确的一个角色然后一个身份其实是在避免他出现那种随机的那种就是我开始乱打我开始打弱智回答
其实是避免这个但是真正说能把它的上限给提高吗其实也不能最后上限还是这个模型的基础能力而已所以就是从应用的角度来说的话就是如果要是我们给它一个具体的身份的话能让它十次里头出八次优秀结果那其实也是有意义的就如果要是不加这个提示词可能十次里头出四次优秀结果
我觉得这是一个很重要的 know how 就虽然提示词工程各种建议有很多很多我们在网上看到各种各样的推荐但没必要神话实际上最有效的就是这一条就是你给他一个身份你是一个经验丰富的谁谁谁或者你是一个能够给一个五岁小朋友说的清楚的一个谁谁谁这个身份就是就框定了他后面几乎输出的所有的东西风格内容可靠性专业程度这段虽然有点跑题但是其实我觉得挺有可以记住啊
因为大家现在多多少少都会用各种各样的 chatbot 上来第一件事就是把他的身份定好我觉得会对大家有帮助现在做思维链的一般都是因为要执行一些复杂任务现在你很难说跟模型一句话让他干很多很多的事比如说你想让他做一个前端网页你可能跟他说先帮我做一个一个什么样的东西然后再逐步给我加东西你如果一口气给他说很多东西的话他其实不会懂你要干嘛他模型能力也达不到这个程度
现在的大模型还是停留在直觉这个层面它没有真正的深层次思考它解决不了过于复杂的问题
因为我们之前其实聊 AI 聊的很多但是可能聊的更多的都还是这种模型的基础能力模型的升级今天很有意思今天其实这么多开发者其实他们几乎没有人在聊所谓模型能干什么他们好像没有我们这么挑剔我甚至每到一个模型我都要问他你这个是掉了哪个模型我发现大家各有不同而且也没有很在强调说我用的是 GPT-4O 我用的是谁
他们都是真的是找到了一个需求或者我需要做一个什么东西我就用一个我最趁手的模型就做了我觉得这也是一个很好的一个创业或者是做一个东西的态度就是我先做起来再说比较成熟的开发者他们普遍的做法就是他的后台永远在跑多个模型他要看数据
这哪个模型业务表现最好我就长期用哪个但我不会把所有的模型都掐掉因为他也担心说我手上的这个模型万一叠一百你也不知道他这个他这个迭代的思路是什么对吧
所以万一跌 100 万一不好使了呢所以他手里永远都是有多个的这种备胎的模型在跑永远都是在看数据而他可以在后台去决定今天有一个那个项目是他是程序员他就是暴躁老哥将你编程他是类似这样的概念这个我印象很深对他的那个反应很好是因为因为你们的说法是说掐中了程序员说你可以说我但你不能问我技术的那个点因为
因为他就是做了一个 AI 编程教练,而且编程教练如果你写不出来,他会说话羞辱你。对,他是一个 IDE。他其实可以教你,但是教你的时候他还要羞辱你。对,这是很有意思的地方,它其实是一个相当于大家写程序用的编辑器,但是旁边他有一个对话框,很有意思,我觉得他最有意思的一个点就是如果你长时间不写,他也会羞辱你。
我要说的点就是回到刚才就是模型能力这点就是他那个开发者他用了三四个模型放在处理对话的第一个的模型其实很小只有 7B 的那个参数量 7B 的参数量其实是今天你的智能手机就能跑起来的一个参数量的一个模型他也不会去追求什么一定是要最强的那个模型他可能就是说我干脆按虚对反正性能都差不多我就跑个参数量小点的搞不好还便宜一点对吧
所以我那个印象还挺深刻的我当时还问了他一下就是因为我当时看到这个我第一反应就是他这个和苹果的思路是一样的然后我就问了一下你是什么时候做的
其实真的就和苹果 Apple Intelligence 的思路是完全一致本地小模型先处理一部分而且本地小模型还要做一个任务我要确定我能不能处理我既处理然后同时我还要给一个答案能不能如果要是不能的话哪怕我处理完了我也给云端大模型再去处理然后他就做的是这个事所以我问他我说你这个什么时候做他说今年 1 月份
然后说你还挺厉害的这是非常早会的一个人他是在看到苹果这个思路之前然后他先把这个想了很聪明很聪明的一个成熟的发文工程师是应该知道这个任务的难度是什么样的然后目前模型的能力是什么样的他用一个最高性价比来实现他的这项功能可以省钱同时如果做在硬件上就是可以省性的对我觉得这也是给这些个人开发者一个信心就是
可能你作为一个个人开发者你去开发一个模型基座这个不太现实对吧因为它需要成吨的显卡很强的算力你去做这种基础的训练但是你基于一个已经成熟的模型去做一个应用开发包括你的架构你甚至都可以领先于很多厂商对吧像苹果这么强的实力做出来的架构跟我们 1 月份的一个暴躁老哥焦边城也暗合了
在这个阶段其实就是一个我记得林毅你在开场的时候你说了一段话你说现在是没有正确答案的时代在 AI 这件事情上还没有一个答案说你就是对的
开源的这种技术氛围很有意思的一个地方然后我自己就是比如说我去看那种现在有很多人去给模型做简直人流然后希望他能跑在 PC 上跑在手机上甚至接下来有一些人要把模型跑在手表上其实你们也做了很多相关的内容但你们好像你们用笔记本比较多一些如果我去看那种就是模型性能优化领域的一些论文就发现很多论文和很多团队
他真的就是宿舍里俩大学生就干出来的你会发现大家的路子都很野就是各有各的不一样最后达成的效果是非常好我觉得这个就是开源社区也是很开源社区很有魅力的一个地方开源社区能给你贡献无数多的这种创意和想法然后你能够用在工程里面是很好用的这些东西对一方面现在没有正确答案所以大家还可以有很大的机会
另一方面最近模型的 cost 好像降得非常离谱好像是成指数级下降过去我可能弄一个我看最开始好多 AI 最早的那些应用都是因为太贵了好像跑一跑都跑不动了有些都关掉了现在那个价格不管是 GPT 应该是 GPT4 mini 是吧
豆包甚至有免费几个亿的那个 token 的那个个人用户你就可以申请我都申请了一个然后自己跑那个沉浸式翻译里面挂上去你可以用来给你做这种沉浸式翻译它的效果会比那个谷歌免费的那个要好这种也是给个人开发者一个很大的机会就是你几乎没什么成本就可以开发一个应用你后台挂一个成熟的价格很低的这种大模型的后台然后很多做出海的那种应用甚至很快就能赚到钱
其实最早说的叫 Resignity 那个东西万能切 PDF 跟切图好了光这个功能其实好多都是什么几块几块养活了多少网站真的但如果不信你可以去百度搜 PDF 切分你会发现最后要么就是点开是一个垃圾网站要么你就发现它是一个制作精美的网站然后你上传之后他告诉你说请交 5 块或者 29 块 9 我就帮你切了
这种活在网上现在多得很但如果你提供一个这样的工具收少一点而且它万能的听起来是很只要你能想到的作用我把这个图给我改一下尺寸帮我 P 一个什么尺寸的东西我甚至觉得我没试过回头我们试一下因为它其实是一个已经上线的一个 demo 帮我弄一个肖像照行不行搞不好可以能不能意识到这个需求像你说切 PDF 的需求一寸照 PDF 的需求我从来没有想到过
对是有的因为有的时候比如说工作中你要把一个前几页后几页载掉中间三到七页这四页单独切出来这个是有需求的我自己都出现过忘了具体什么场景好像是一个什么扫描还是什么场景
但是你需要发给别人就是其中几页但你一时找不到趁手的工具这就是一个很小但是又卡住你的卡点这就是个机会某些场景或者说你能意识到然后你能发现 AI 能解决它你就可以做出来这个产品给其他有这类需求的人用发现 AI 能解决它这一点很重要
就是现在某种意义上的话现在这有一个 gap 在这里就是认知偏差就是说很多人不知道现在 AI 能做这些事情模型能力在哪里编辑在哪里就比如说如果要是我们都很确定很明确的知道 OK 现在这个 recentify 这个工具有这样一个工具然后我们可以拿它处理很多我们以前那种琐碎的需求
去个圆角拆半个 PDF 然后或者说从 PDF 都抠个什么东西出来他其实能做到但是我们不知道也必须得是有这么一个小伙子他把这个东西做出来之后然后让大家看到然后才能有这个机会然后所以可能某种意义上然后这也说明我们之前一直觉得现在 AI 技术火了这么久但是雷声大雨点小那可能也有一个偏差在里头
就是说其实是雷声大同时其实有余点有门生发大财的没说大家其实都在屋子里然后不知道外面雨其实已经这么大了
刚才提到大家可能在闷声发大财这件事他们可能不是不愿意宣传自己而现在大家都基于通用模型的能力来做产品你可能说你这个产品我一个本科生或者说我研究生做一个月我也能做出来他本身在没有形成用户习惯或者说数据这类护身盒之前他很容易被人抄走所以他们只能被迫的去闷声发大财
我先賺著我就先做著直到說我成了某種負重合之後我才肯對外公開我這個領域我是頭部我賺多少錢這樣子
OK 还是把剩下的几个门类过一下陪伴和社交我觉得今天有一个很亮眼的项目叫做玩约会软件每个人把自己复刻一下数字人然后让复刻的你和复刻的他聊天如果聊得来再让你俩接管我们之前想做过类似项目就是 AI 恋爱的赛道但是我今天有一个现场的朋友他的一个概念他就是说他说这类 APP 可能用手机比较难承载
原因是因为说手机对人的了解还是比较有限你又是打字就跟他讲你是一个什么样的人他最后编出了一句他说如果是用一个智能眼镜来去干这个事情他陪伴你了很长时间他真的特别了解你那再去干这个事可能就能成回到了那个 agent 对对对可能就回到那个概念然后还有一个点是今天很多人会利用这个大圆模型的一些基础的理解能力来去做
偏向社会学和心理健康的这样的一些项目我很喜欢的一个项目他就是讲那个帕鲁的那个社区里面的这个舆论什么是见证人群什么是乐观人群然后他就衍生出了他就说通过这些人群的发展我是发现什么叫做见证的人声音最大为什么见证的人声音是最大的有什么叫做沉默的大多数他就把这几个东西非常可视化的在自己的这个图表上表现了出来
就给我的那个很好的印象,因为类似你们当初挖那个 b 站的评论,因为当时你们是挖出来了啊,b 站这 10 年从一个跟商业化没什么关系的一个网站逐步变成了一个叫做什么,厂商和科技公司投放一定要投的一个商业化的地方,对吧?
交叉路口对对交叉路口然后那个女生她是会翻译出来说就是那群特别喜欢见证的人她会带跑其他的人他们特别爱说把另一个派系什么吸收转化她用这个词对对对她用说一个派系怎么把另外一个派系吸收转化然后可视化的你就能看到那个大球把小球吃掉我觉得这种社会学分析太酷了真的我原来没有想过就是人在网络世界里的行为可以被这样分析和可视化我觉得这是非常酷的
对于采量数据的处理包括林毅你们频道之前做 B 站的评论的分析包括未来我们今天看到也有那种把你的微信导出来然后根据你的聊天记录其实如果我觉得做数字分身其实是够的你在过去一年里面所有的聊天如果放到一个模型里去学一下如果你放心的话对如果你放心
对这就是端册的意义吧王总说说说曾经我和托马斯是有一个共同的微信群然后我在里面放了个机器人然后那个机器人我每次往里转的文章他都会自动读我说我们老聊选题这样就很方便然后聊了一天他就受不了了他说你把那个机器人都去里踢掉
因为你确实不知道你的对话被一个这样的公司以上半的形式去处理确实是挺硬的信息安全可能是真的大厂也他需要 take care 的一个部分所以说回来就心理健康和这个社会学截止目前绝对的一把利器
当然在中国现在还有一些人在做算命的项目然后我前段时间跟几个刚开始创业的 Ada 创业者交流他们也会冷不丁的丢给我一个他们的链接放在他们服务器上就说我们做了个算命项目你来试试我们也有一个算命的项目你们也有一个算命的项目
对上面的项目他们还会门道是什么紫微斗数还是塔罗还是不同的理论依据吧反正就是那套东西它是有一套框架的对它基本上是框架逻辑来给你东西你把那套框架输进去其实那就是一个不会犯错很专业的我们不一样我们有一台开过光的 4090 什么叫开过光的 4090 我说拿显卡去五台山开过 OKOK
4090 却值得开一下光有佛位现在都不好买了拿卡算命是有加成的 OK 护城河你可以用它开光一些程序然后把这个程序发给你的听友
好我最后再说两个项目一个是我今天最喜欢的我今天看到一个学计算机的博士生他做了一个应用就是你把任何的书面的东西拍一段视频他会把这段书面里的所有的关键的文字信息按照一页一页或者一段一段的方式给你整理出来他解决的是什么痛点呢解决的是比如说老年人他看药品说明书确实就是找不到药品说明书了或者就是电子产品的说明书他就解决这个问题
你看就是以往我们我们如果要记住这样的东西我一个是我门槛很高我得去找一个扫描软件然后扫描软件你每一次拍你还很注意那个角度拍摄的时候不要手抖啊之类的
他那个应用就是有点类似于说因为我跟他交流他就是说两把上大码他做了一个类似 GPT-4O 的一个东西因为他的逻辑就是说视频就是连续的图片我通过连续的图片我能够去获取哪一帧是关键帧然后我把关键帧都凑在一起然后我给他一个特定的输出格式他就能把这个说明书的内容我们在他电脑上看了一下排版排得非常好就是按照 markdown 的格式排版好的一个东西给我
它技术还是蛮好的因为它其实是在本地用一个小模型去读取视频我们试了一下 7 秒钟的视频它本地大概要处理一分钟左右
然后这一分钟它就会在本地把它一个是找关键帧另外一个它把相似帧还要合成因为你一直在动那个画面一直在动所以它那个画面有的清楚有的模糊可能不同角度它会把它 OCR 到一起然后变成一个完整的序列就是说明书最开始写的什么然后中间的图片它会把图片抠出来
贴到里面去因为他这些整理完了之后他会把这些内容上传到 GPSOGPSO 就按照他的顺序去理解这里面有图片包括图片他会用文字的方式描述所以他最后输出给你的一个说明书就是一个完整的你是什么病要吃什么药包括他格式什么是他有一个比较好的 prompt 让他按照格式给你输出最后的结果这里面其实它是一个实际的痛点
而且它能够在因为我们知道其实 GDCO 它有开放多模态的甚至是它可以开一个视频跟你聊天它在开放之前就把这个问题用一个本地的方式解决了我觉得这是它很厉害的地方包括他跟我讲他怎么同时处理图像和语音模态的他会把它图像和语音信息分开但是他们会把它对齐时间戳图像第一秒钟它会有个 description 音频第一秒钟它会有个转译
然后他会基于时间说一遍一遍做对齐然后处理完之后最后再来把图像的那个 description 和这个音频的这个转录放在一起去处理我觉得这是一种非常聪明的方式而且我们和 Thomas 上一期我们聊就是这种语音的这种叫做流媒体形态的这种素材你为一个大模型大模型来处理但是真真正正的这样一个开发者他就是一个博士生他独立一个人就把这个东西做出来的时候我会觉得特别兴奋特别震撼所以这个项目是让我印象非常深刻的一个点谢谢
这也是开源项目的力量现在都是面向 GitHub 编程对然后最后说一个项目这个项目很抽象一开始我确实没整明白他们到底在玩啥他们就是无意之间刷到有一些爆款的短视频他在跟你念那个爽文什么重生之我在重生之我在部队当兵王类似这种
他配的画面是一个人在玩这种地铁跑酷或者什么要逃亡可能击中了人类某种很特殊的本能他就发现你就停不下来对这种视频在短视频平台上一旦被人刷到那个人的停留时间会很长被硬控 30 秒对对对那个团队就开始想说这样的东西能不能批量生成他们就真的训练了一个能自动给你生成爽文的然后用音频把你读出来
同时还能去 run 地铁跑酷的程序的一个程序然后这样的话它就相当于它可以批量生产非常多的这种短视频我觉得这背后可能是个流量工厂你知道吗我觉得最后再说一个点因为我们其实看到整个这么多个项目里面有很多其实刚才也提到了受限于模型的能力
它可能有些项目最后没有好像跑到半成品对吧因为它这个能力不足另外我们也看到很多项目它有那个语音的输出我们听到的还是相对比较僵硬的这种机器语音但是我们其实上一期节目我们聊到了这个 GPT-4O 它是一个带情感的原生多模态的一个模型
你可以跟他有这种情感交流他甚至能听出你的语气的悲伤还是欢喜然后根据你的情绪来输出一个很强烈带着情感的一个语音他甚至会帮你唱生日歌他已经不是我们通常理解的通过识别我的语意先把我的环境音全部都拿掉把我的说的话变成文字
然后它的大模型作为 Premt 输入然后再输出一段文字然后再通过变成文字转语音的一个 function 来输出一段话因为那个过程就是我们现在用的这个 ChatGPT 或者是其他的这些大模型大概需要三秒左右已经算快的了那 GPT-4 大概是 300 毫秒
就可以反馈然后带着那种完全相当于跟你只是在纯语音流来交流的这种能力其实这种模型的迭代可能也会带来我们看到的很多应用者的应用生态的这种变化就是过去可能是一个僵硬的机器大家听了没什么感觉
小朋友听这个听着听着就就腻了但未来它可能就是一个真的好像让你觉得它活过来一样就是语音其实有很神奇的魅力的就是它看起来只是一个小小的深了一尾可能从这个文字变成了声音但是它一旦带了情感它的信息量也完全不同了那一旦模型升级了可能开发者就需要自我升级
刚才我们提到它在 GPT4 后出来之前它就做了自己的拆分对吧什么把视频跟音频切分然后两条管线同时跑最后合成但也许你做了很多努力后面模型一迭代你的努力就不需要了因为模型给你提供了一个更好的反馈
可能我觉得你在没有正确答案的时候你可能就要保持这种迭代的这种心态小步快跑可能我今天做了一个东西下一次模型一迭代我要快速的跟进我这个东西可能就立刻不一样这可能是我今天的感受因为我们刚刚聊完语音的东西然后我看到很多语音被用在这些交互里面因为确认 GPD 还没有破圈的时候
可能大家就对它背后的原理它的技术的这种很厉害的这种背景我们会被这些东西震撼我打一行字他回一行字甚至回一段代码主要作为程序员的群体看了就很激动了但如果你想真的破圈让街头的大妈也用得很开心可能语音就极其的重要而且可能是下一次我觉得非常有机会的一个机会点可能 GBT4 欧先开放我觉得它国内的其实模型很多也会跟进这些机座一迭代
在语音维度我们还能玩出什么东西来或者说现在这东西有了它就马上变成质变的有哪些应用我觉得这些是很有机会的比如刚才提到的一些比如亲善陪伴这种他可能就不是我跟你打字了对吧真的是跟你聊天了你就一步步引导我对顺便说一下现在豆包我也试了一下它有什么御姐音什么小妹音霸总音男的女的你都可以选一个你跟他基本上聊一些
这个绿色健康的恋爱问题不大了关键是他有一个打电话模式然后他有很多很自然的语气词哈哈哈哈之类的已经很就中文世界应该是目前他是最好很接近那个 GPT-4O 但 GPT-4O 那个因为他能够感知情感那个就更厉害我的理解豆包还是语意识别就是我很开心这句句描述嘛那其实他识别出来就是我很开心四个字嘛
但是 CHAT GPT4O 他应该能听得出来我很开心我其实不开心我很开心是吧那就真开心了他能听得出背后的情绪你要做一个 AI 陪伴真的是宝贝你怎么了你不开心是吧完全可以霸总你是吧其实想想还蛮可怕的但背后的社会问题可能又是也许到时候 GPT4O 也要被阉割一下因为我记得最开始第一版的 GPT4 刚出来的时候
它的能力很强有一个弹模式不知道你们听没听过这是一个让它黑化的一个模式然后很多人就用它来跟他恋爱说骚话的当时在小红书上很火你说的就是那种不断的通过 prompt 来跳出它的对跳出它的限制来解锁一些莫名的能力那个就是毛雨顿你每解锁一段时间它就会把那个封掉然后反正每过一段时间 GPD4 好像就变傻了一些因为它对齐越多限制越多它的模型就越傻
好那差不多所有的项目我们就聊到这今天看到的项目就是这些那我们聊下一拍吧借着这一拍我也给这个我们的听众介绍一下灵异的一些频道一些过往的作品其实我我最早知道你们频道是因为当时你们做那个游戏 AI 的一些一些东西近一点的话让逆水寒在 NPC 反动对吧这是近一点的远一点的话就是我记得比较出圈的是那个 FPS 游戏就发现所有的 FPS 游戏作弊特别容易
其实跟今天我们做的那个原神那个项目是一样的对吧我理解是应该这样就是一个 yolo 模型他去能够去很好的判断你的游戏画面然后呢因为游戏画面总体来说对比现实世界观音简单很多你就会发现这样的模型它对比人的这个注意力反而是完全高了一个 level 所以在就设计游戏里面就特别好
然后你再有一个程序替你在电脑上去做移动鼠标和按键的操作所以就发现我记得当时你提到感觉所有的设计游戏这一轮都很危险因为这种方法它其实是符合游戏的要求就是它不是外挂对吧它没有 hack 进游戏本身的程序它没有调用程序本身的它不是侵入式外挂对对它不是侵入式的外挂其实我有一个好奇的点就是 AI 打 FPS 游戏比人好这个事儿
其实大概是在 23 年出现的但事实上如果我们再往前倒 18 年 19 年左右我们就能看到当时是 deepmind 吧就拿那个 AI 去打那个英雄联盟
就能打得很好就说就可以打赢人类了但是当时那个好像没有引起游戏行业很大的一个震撼它可能更多是对 AI 行业的一个进展其实我想了解一下就为什么到 23 年那个节点突然就一下子又变成就是说对普通玩家他也可以很容易的去装一个这种作弊的 AI 然后他的性能也很好为什么转折节点是出现在那个时候呢
其实这个项目本身的话它也不复杂你刚才说 18 年那个是 openai 当时搞了一个 dota 对对对大 dota 的一个机器人然后任务的复杂度要比去识别画面里头的一个定位是画面里面的人头在哪然后直接瞄准这个要复杂多的多多它还是个策略类游戏对所以说某种意义上的话倒也不是说 ai 技术有什么特别大的突破只是因为任务类型不一样
然后再一个的话就是到 20 年 23 年那个时候的话计算机视觉算法已经非常成熟了就会自然而然的有那么一个效果可能语言模型增长的比较快其实计算机视觉算法这几年的发展其实我觉得
比较少但是事实上这里面有很多很好的东西其实已经浮现了你们自己频道做过我记得你们是做过一个做资而且你们帧率还蛮高的大概你们当时是跑到 60 帧还是多少帧来着手机上那种相机相机视觉算法它反而进入到了一个我们知道曲线就是那 hype cycle
然后他先是讨论度非常高然后讨论度降下来之后然后他又慢慢开始发展现在机关机视觉其实有点已经进入到那个阶段了从低谷里爬出来对他已经从低谷里爬出来实际上我们看到他反而是应用落地的很好的现在像我们在深圳的话很明显很多小区的门都人脸识别
甚至上地铁炸机很多都人脸识别了然后我们在坐机场火车站都人脸识别刷脸支付这些反而就是它是都开始落地了但它真正开始走大规模落地它现在准确率什么的可靠性都上来了但这个时候其实关注的人反而不多了真正机房机视觉最热的时候反而是可能 12 年 13 年那个时候突然出了几篇论文的时候那个时候大家都觉得这个东西好厉害好厉害
谷歌刚开始认识猫那会儿是吗就最开始他能够通过一个训练一个模型他能够认出哪个是猫我为什么对你们做身体识别的那个项目印象很深刻呢因为我在八年前我一个师兄创业他当时就做这个
他当时就是做一个把手机架在旁边然后把 Keep 的教练就是健身的东西引进来但是呢 8 年前做这个东西局限就很明显因为可能你最终图给那个手机的图像可能他能处理的可能是一秒五帧普通人听起来很快了哈一秒五帧但事实上一秒五帧就意味着他计算机看到你的画面是跳动的他看不到你连续的动作
他做一些反馈的时候其实很不及时就导致了当时用下来的体验是很不好的只适合做一些动作很慢偏力量型的一些东西但偏力量型的东西事实上你不那么需要教练每一次都做动作纠正对吧你肯定是要动得快的项目动作幅度大的项目你才需要教练做频繁的修正
所以我觉得这是一个例子吧可能就是八年以来其实解决的问题就这么简单就是怎么样让一个看人体姿态的一个东西从五帧变成了三十帧甚至六十帧但是到六十帧可能就是一个可用的一个状态我们就说这个 AI 教练基于手机上头来 training 你是 OK 的对吧差一句啊所以现在这个计算机视觉看一个人体姿态它跟可能七八年前效率跟能力也差别很大了
效率本身有提升然后再一个也确实更准了两方面都有提升然后若是七八年前的话它不只是说效率低它同时它也不准就是它那个手跳来跳去的它一会儿把你左手当右手那个其实完全是一个不太可用的状态有的时候可能把眼睛和什么肩膀搞错了这里面具体有哪些技术的迭代有哪些关键节点吗
有一个很有意思的我记得就是我们刚做讲 AI 挂内息的时候好像是优露我还是姐就是那个模型性能就突然就提上来了就大家都可以用它来
做很简单的动作识别识别对我们这里提到优罗给大家解释一下优罗应该是现在计算机视觉这开源领域里面最通用最有影响力的一套框架然后他们还每年叠一个版本就是 VG 目标检测对目标检测非常有名的一个开源工具
因为确实机认计视觉现在你看到特斯拉在做端到端的这种自动驾驶的时候它甚至就是用图像来处理这种开车这么复杂的行为它只要有足够的信息足够的视频的语料它学了可能一点几亿公里的人类司机驾驶的数据它那个摄像头其实分辨率也不高
但它就真的能看出这个像素的变化带来的在驾驶上的这种安全性的提升我看了一个分析说还是会超越人眼的虽然它那分辨率大家感觉有时候清晰度也一般但是那种比如说鬼探头那种人人其实有的时候很难注意到但是在摄像头它可能在这个人探出来之前比如说从侧面有一个人出来它只是透过路边停的车窗的颜色一点点变化
集团机视觉就能判断说那个地方有一个东西过来了所以他在那个人探头之前他可能就有所预判了而人类其实感知不到那么细微的亮度下一点点那个一点点人的一个人影可能你就会撞上去也许特斯拉就能杀住啊这种很细微的这种对画面的识别可能也是一种非常大量的这种训练语料它是不是跟过去最早早期这种机器视觉有一些区别
它从网络结构层上有优化然后再一个的话就是现在其实架构上可能有一个颠覆式的创新就是也是大模型这一波其实说白了就是多摩泰大模型嘛
现在视觉语言语音这些然后都直接打通了然后各种语料全混到一起然后相互促进然后所以说它整体性能都有提升特斯拉直接端到端现在是所以这可能是它最大的变化过去是一个模型干一个专业的事情对现在就是一个通用的这种大模型搞定你所说的事情而且这个通用大模型可能它在各方面能力上都比以前那些细分的都要强
就是它的视觉它的文字处理能力都比以前的视觉文字处理这些都强明白好然后我还有下一个问题就是你们最近一年其实拿通用的语言大模型整活挺多的我想问一下你们是怎么想到要用弱智巴的语料或者是 B 站的一些抽象的一些视频来去测评大模型的能力的就是纯从好玩出发
就是觉得这个东西本身也比较有挑战性就是说回正经的话就是它里面有存在一些逻辑陷阱我以为你会说首先若知巴是一个非常高质量的中文语量确实高质量挺高质量的比如说他若知巴一个经典问题叫做香菇掉粪坑里还能不能叫香菇若知巴是一个百度贴吧
然后有各种各样的弱智问题对就是弱智八没有他那个八明那么弱智他其实是很多逻辑陷阱构成的但是呢很多东西他又不是那种就是很莫名其妙的脑筋局长弯确实是一些有道理的一些问题正常智商的人类未必能很快回答的那种问题对吧对对对对
它会对语意理解达到一个更高的要求才能去回答明白它的问题比如说咱们举香菇掉粪坑还能叫香菇这里头其实就有一些一语双关在就是那种粪坑对应着臭然后臭和香对应着一种矛盾
然后同时呢就是他臭了并不代表这个东西就改变了然后所以这些就对大模型会提出更高的要求然后像比如说一些你好啊早上好啊吃了吗这些问题呢以前的话那大模型能力其实可能 90 分大模型和 95 分大模型分不出来所以你得给他一些极限性的问题 OK
然后才能去看出来原来你这个东西是 95 对这就像你给早期的多摩擦的大模型为一张比如说就刚才提到积蓄视觉你给他看一张图这个是猫还是狗这道题就太简单了现在都给他看的是那些梗图模仿蔡旭坤的这种舞蹈梗图可能人类你都需要知道他的背景你才知道笑点在哪里
但是我们看好像新的模型基本上玩梗真的就是他理解能力是很强的尤其是一些过去的梗但是一些纯新的梗我看好多模型也不能马上 get 到但那种有搜索能力的模型好像就表现就会更好一些对这里可以宣传一下就是林毅他们做了一个大模型的能力的测评的网站
因为现在很多做大模型的人他们为了刷榜他们其实有各种各样的策略去提升自己在榜上的排名比如说把这个榜单的标准问题哪怕是一些相似的问题在训练的时候就塞进去这个能力就能大幅度提升所以他们自己其实现在做了一个网站这个就是大家投票头来的对对对你们是怎么去避免他作弊的呢你们不是实测是吧纯投票吗因为我确实没上过
就是有点类似于国外的 Arena 项目大家可以用我们的模型问一个问题它给出 200 匿名的答案然后你来选那个答案好然后我会分不同的维度你问这类问题的时候这个模型答的好我们就会在模型的维度上给加分
我们会分不同维度来给模型做这种盲测相当于它做了人工的打分最后根据这个打分做了排名因为我们不太一样的点是我们不会直接把大模型接过去有些模型大家是正常是用不到的普通用户来说可能日常基础导致是一个 APP 一个产品我们接的给大家的就是说比如说豆包现在背后的模型现在叫豆包之前叫云雀我们之前可能就是说豆包产品的测分是什么样的
然后比如说那个叫月支月支是哪个来的月站面 Kimi
还有一个我就记不太记不太住他们的名字越问那叫越问越问是谁家的我记不太住就是他们有的 abp 名字记不太住但他们的模型名字对大家来说也不重要我们就会说以大家能用到的产品为准来给这个榜单明白所以不是后面的模型而是他提供的消费者界面的产品用他的实际 to 的结果来做对比这个确实会比较客观一些对我们可以念网址吗
我们是 lyihub.com 直接就可以进对我也会放在文稿里大家可以上去看一下大家可以去自己玩一下我们有很多听友他确实是存在这个需求就是他想知道到底哪个模型会比较好一些他可能安全感比较好比较高一些吧他用一个看起来板子上更好的模型我们其实最后想做的是一个你想做一件什么事就在来我们边一看你就知道应该用哪家的产品就会效果最好
明白我们都掌握一下我们每个人来回答一次这个问题假设有下一次的 AI 大赛我们可能时间设定在半年到一年之后我们觉得那个时候什么样的项目会做得很好或者是什么样的项目的体验提升会非常明确
我先问一下你们还会再做一次大赛吗大概率会应该就是会以后就会这样做下去对吧直到正确答案出现对吧 OK 要不林毅你先来我可能最期待看到的就是像我们今天聊到的就是有一些应用它受到了模型能力本身的限制有一个它跨领域之间比如说你是一个理发师然后他用理发师能听懂的概念然后来解释
大模型比如说 AI 是什么然后我觉得这一类的话是我最期待看到能有提升的就是大模型能力本身提升上去然后这样的话就是大家的一些有趣的创意然后能够更好地被实现出来而不会就是卡在大模型那里然后把很好的一些创意然后实现不出来看着像半成品一样除此之外的话可能陪伴类随着多摩泰模型的这种流行起来而且音色更自然然后可能这些做得更好
好 Thomas 我其实比较期待各种各样的 agent 我觉得一年后一个是模型能力另外一个可能大家对这件事情应该怎么做会想得更明白这里面我最期待的还是这种个人的 agent 就是个人的这种助理的这种角色他去帮我规划
我接下来的行程其实今天这次有一个项目我们今天刚才没提到他就是帮你做这件事情对日程助理对日程规划我希望这个 agent 最好是能够全能一些他既能做日程规划他也能帮我把 pdf 切出几页来就是所有数字世界里面的事情他都能搞定如果他搞不定他就去叫人来搞定就所谓 agent 集群嘛
他可以接触别的服务这个其实我觉得都有机会能看到当然在我们的 AI 大赛还是面对更加初级的开发者或者个人开发者这种群体我觉得他们还可以聚焦到某一个细分维度的解决一个具体问题的这种 agent 会是我比较期待的还期待可以跟硬件做结合多一些的这种项目我们这次其实大家看到有两个项目是跟硬件相关大部分项目还是纯软件它可能要跑在 PC 或者跑在手机上的我还是希望看到一些跑在
可能比如说未来的眼镜因为其实眼镜现在也有很多开源的这种项目了有开源的眼镜也有一些比如跑在耳机上它可能也是在电脑里在手机里但是它通过耳机来完成交互你可能不需要有真的不需要有个什么 GUI 它就在后台帮你做一些这种知识问答或者是某一个方面的解决问题的能力的这种产品我觉得我比较期待跟硬件的结合以及这种 agent 的方向能看到更多的好的应用
刚才 Thomas 说的一个个人助理很戳我我其实也很期待大家出这种个人助理类的产品这个原因其实就是模型能力提升肯定是最大的助推的因素但是其实我们不太确定模型能升级到哪一部分比如说你可能像 Sora 带个头然后大家各家的视频生成就起来了然后你说印象最深刻的 XRTTS 火了之后就一大批这种语音合成就火起来了我们其实不太清楚明年的时候
哪像就是会火但目前能看到的就是说苹果带头的就是信息的生态在逐渐打开无论是用户而言还是厂商而言愿意把越来越多的信息交给 AI 我觉得这也不很重要连红当年说过一句话就是用隐私还换便利这个放在今天也是一样的使用的只不过是说随着这个这个
等体量模型性能逐渐提升硬件性能提升大家可能说端侧模型会做得越来越好个人助理这个东西想做下去的话就需要这些东西一起来合力来推我觉得目前这个方向是比较清晰的就是隐私保护可以跟着模型能力的提升一起让用户愿意把这些东西放出来
对由于模型性能和端侧硬件性能的提升导致端侧模型落地的可能性越来越大然后个人助理这个方向就是我觉得是比较期待的一个方向我期待两个一个是这种交互类的娱乐内容原因是因为我前段时间老在谷歌上被人投一个广告有一个网站全是一堆 AI 的电视节目然后可以切换可以切台
虽然很僵硬但是我觉得按照今天开发者的这些独立开发者这些创意和技术进步的速度我很期待明年也能有一些真正可用的一些东西比如说可能是这种有 AI 生成的互动短剧有 AI 剪辑的互动短剧跑酷爽文也算对跑酷爽文也算我觉得跑酷爽文明年迭一代可能会很好玩因为这个东西你们说我不知道它戳中我哪了反正那一瞬间我多巴胺确实分泌了我觉得这类交互类的内容会很好玩
然后第二类跟办比赛这个地方很关键办比赛这个地方周围 5 公里我知道有好几家机器人公司的仓库和供应链在这边
所以我很期待一下明年能有一两个这种巨声智能的项目进来它不一定要是很很 heavy 的机器人那哪怕就是一个很简单的一个可能可能就跑了一两币模型的一个小机器人它能做一些很可爱的动作这也算是一种巨声智能对吧所以我很期待明年能有一些这样的一些项目出来大概是这样机器人这个还蛮有机会的我觉得
因为现在当然可能个人开发者有点难但是中小型团队跑一个开源的比如说斯坦福的那个项目两个机械臂然后底下是个轮子反正他就能干一些我们现在都不敢想象的一些工作了这个其实也是受 AI 的这种发展带来的这种巨神智能的发展才有可能的这种场景今天一个参赛者是一个大一的学生就做了一个掌上的一个有两个小眼镜拥抱机器人对小眼镜
一个是用帽机还有另外一个是掌上的一个小火柴盒一样的东西它会给你有一些情绪化的一些反馈我觉得对他来说可能就是对这样的积极学习能力很强的这种开发者来说能加上一些动作和实现一些具体的一些东西我觉得只是时间问题
因为我们刚才说了半天 agent 它还是这个叫数字世界的如果这个机器人的巨神智能发展到一定阶段它其实就打通两个世界了我不知道多少年后能看到但是还蛮期待的好啊那我觉得感谢今天林毅和小白感谢邀请对
对我们也感谢你们邀请我们参加今天很精彩的一个比赛现场我们也学到很多那希望后面有机会我们可以有更多的进一步交流 OK 一定一定好那我们今天节目就到这里好谢谢谢谢好谢谢大家
感谢收听脑放电播欢迎在苹果播客小宇宙喜马拉雅等播客客户端搜索脑放电播找到并关注我们如果你觉得这期内容对你有所帮助欢迎你在评论区留下反馈这对我们非常重要