AI application development is still in its early stages because the technology is only about a year old. The development of applications depends on the maturity of models and the gradual construction of the application ecosystem. It is expected that in four to five years, many successful AI entrepreneurs will emerge.
The explosion of AI applications will be driven by four key factors: model performance, inference cost, model modalities, and the evolution of the application ecosystem. These factors will determine the pace and sequence of application development.
Reduction in inference costs is crucial for the widespread adoption of AI applications. Currently, high inference costs limit the development of large-scale, free applications. However, it is expected that by the end of next year, inference costs will drop to 1% of current levels, enabling the creation of applications with tens of millions or even hundreds of millions of daily active users.
The performance of AI models in China has significantly improved and is now close to that of the US. Chinese models like eLog from Zero One Universe have reached GPT-4 levels, with only minor differences in performance. However, China still lags in multi-modal capabilities, but this gap is expected to close within six months.
Wang Hua advises AI entrepreneurs to avoid excessive anxiety and focus on deeply understanding user scenarios. He emphasizes the importance of balancing technical and product development, and suggests that entrepreneurs should be realistic about the current limitations of models and technology while exploring potential applications.
The widespread adoption of AI applications is expected to follow a timeline of three to four years. This includes the development of productivity tools, large-scale utility applications, and eventually, entertainment and daily life applications. The process is anticipated to be faster than the adoption of mobile internet applications.
欢迎收听 AI 局内人 AGI Insider 是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目
作为创新工厂的联合创始人汪华可谓是个互联网老兵了他见证了移动互联网从萌芽兴起到遍地开花的全过程也迎来了当下 AI 时代的到来针对当下 AI 的创业焦虑汪华如此回应大家还是太焦虑了大模型从开始到现在才一年多的时间整个应用的发展本质还是要随着模型的成熟和整个应用生态的构建逐渐发展再过四五年一定会有更多的 AI 成功的创业者涌现出来
AI 的投资在逐渐向应用侧迁移大模型的推理成本会持续下降国内还处于 ChatGPT Moment 的第一阶段以及 AI 应用爆发到底有哪些前提 AI 的应用开发需要具备哪些能力在 AGI Playground 2024 上创新工厂管理合伙人 Co-CEO 汪华就这些问题进行了一场干货满满的 AGI 创业信息分享
本期节目是 AGI Playground 2024 系列采访之一这一期的嘉宾是汪华
感谢极客公园让我有机会能跟大家分享一下我对于 AI 应用方面的分享为什么是这个主题呢因为过去一年大家在基础模型算力里面投了大量的资源和金钱然后结果都把 NVIDIA 弄成了市值世界第一的公司了但是相匹配的时候也有很多的同学跟我交流说有焦虑感说
算历史上花了那么多钱模型上花了那么多钱但感觉好像应用却没有爆发那到底什么时候应用能爆发然后到底将来这个应用能不能起来正好我也介绍一下我的背景因为创意工厂和我应该是国内最早
去投资这个移动互联网的这些企业我记得当年在 2010 年的时候就跟大家去宣传当年移动互联网的应用一定会起来而我们我这边也是国内最早全世界也是最早投资 AI 的
2012 年 AlexNet 那篇论文发表的时候我们当时在 12 年就投资了矿石在 15 年 AI 是 15 年 Google AlphaGo 火了之后才开始流行了但是在 2013 年我们已经投资了矿石第四范式包括之后的自动驾驶然后比如说像地平线
然后那个 V-Ride,Momenta 包括我在 20 年就开始投资了这个元大模型所以跨两个领域我是完整地经历了整个移动互联网从 2010 年开始应用崛起然后到整个的 AI 从 2012 年到现在整个十多年的时间对两边也都有一些完整的认知和看法吧
而且今天也是特别的欣慰因为我记得在 2010 年到 2013 年的时候我当时也跟非常多的开发者和创业者去交流移动互联网的应用是怎么会崛起怎么会 takeover
那时候看到大量的开发者充满了梦想充满了理想而且有很多后来都获得了成功然后今天事隔了十多年又是熟悉的场景然后又是跟很多的充满了梦想和理想的开发者然后又在和创业者来交流 AI 的应用将来会怎么发展我相信
再过四五年我在在座的各位里面也能看到很多真正的像当年移动混量物一样获得巨大成功的创业者从今天的会场上能涌现出来先说一下海外吧过去年大家都知道整个的全球大量的投资投在 GNI 和大模型身上然后去年有将近 200 亿美元的投资
但是去年的大部分的投资实际上还是集中在这个算力英法基础设施和底座模型上投在这个应用里面呢只是占一小部分啊
然后不过这个事呢从今年开始发生了一个变化今年从 Q1 开始投资在应用的这个无论是金额还是结束其实比去年都有翻倍而且这个大家可能有时候觉得好像今年的这个投资冷下去了但实际上并没有大量的这个投资集中在开始集中在应用上而且在 Q2 的这个时间的时候然后那个整个的这个应用这个
这个投资还比这 QE 有了更大幅的增长甚至整个的还出现了一些像过去达到几十亿美金投资的都是 Foundation Model 的公司但最近你可以看到 Perplexity 也融到了这个也是在两三亿美元的这个投资在三十亿美金的估值然后你会发现大量的跟应用模型相关比如说音乐啊
Sono 这些也快速地发展获得得到的融资所以你可以明显地看到整个的投资开始从底座模型和 AI 策向应用策进行迁移而且到去年为止大部分的应用还是 2B 的然后 2C 的也是以生产力为主但是今年开始的话
大量的这些关于应用 C 端的应用开始爆发而且也不光是那种生产力和效率类的应用像偏娱乐社交类的应用也开始批量的涌现所以在美国或者全世界应用已经开始真正的开始大规模的出现无论是拿到投资还是它的整个品类也开始多元化从土币延伸到土 C 从生产力和效率延伸到综合的社交娱乐和综合的
其他的多模态等各个领域然后我在这里面就说一下整个的应用的发展的节奏大家我个人觉得还是太焦虑了因为大模型从开始到现在才一年多的时间然后整个的应用发展其实本质上来说还是要随着模型的成熟和整个应用生态的逐渐的构建然后要第四发展的
而这里面的话应用力要拓展的话其实在我看来有四个前提模型性能然后推理成本模型的模态然后最后一个是整个的应用生态的整个的演进和完善所以大家要做应用的话其实要严格地按着这四个轴然后来规划当前做什么
第一阶段做什么第二阶段做什么超前来做的话可能会相对来说就会比较难和比较麻烦一点而这里面我一个个解释一下吧里面首当其冲的实际上是推理成本然后还不是推理成本最重要的是因为对于尤其是在座的各位来说
AI 最重要的一点实际上并不仅仅是 AGI 的实现而是普惠化比如说 AGI 就算实现了如果无法实现普惠的话其实跟在座的各位没有任何的关系比如说当年的 PC 计算机为例当年在 mainframe 的年代 IBM 曾经说全世界只要七台电脑就行
然后这台电脑 mainframe 大型主机只用在银行金融部门这些大型的关键企业里面但实际上只有到微软把每台 PC 放在每个办公桌上然后整个的社会价值和产业生态则达到巨大的拓展而直到手机把每台电脑装到了每个人的口袋里它才真正地影响整个社会从吃喝玩乐到意识住行
所以现在制约模型大规模的话普惠的话实际上是模型的推理成本然后现在你刚看到为什么大部分的应用到现在为止还是以 2C 或者生产力为主其实现在做生产力应用其实哪怕是对于 GPT-4 做复杂的生产力应用模型性能还是有挑战性的
反而现在 GPT-4 如果去做社交娱乐一时住行消磨时间模型性能是够的但为什么大家都宁愿去做生产力或者土壁呢因为推理成本太贵 GPT-4 的推理成本在十几美金然后在这种情况下的话你必须要做所谓的高价值用户场景
然后要能从用户那边收到钱的比如说现在的你也很少见到免费的 AI 应用大家在欧美的话大家都要收个 subscription 费的订阅费用的就是因为模型成本太贵大家反而是那些做那些生产力对模型性能有挑战的
那些模型其实做生产力能收到钱但模型性能不足而如果做社交娱乐消磨时间大用户量的用模型的成本又太高所以现在的应用实际上是被卡在当中了两边都有点不沾
生产力太难然后做 2C 的娱乐和日常工具又太贵但这点的话只要模型性能成本降下来比如说
在我的信息和判断里面其实到今年年底左右比年初模型的推理成本可以降 10 倍而到了明年大概明年年底的时候模型的推理成本会降到现在的 100 倍大家想象一下如果现在的推理成本降到现在的 1%
那是不是模型就只能去做生产力或者去做收费应用了做相对比较小众的应用了如果比如说
这个第四级别的模型的推理成本降到几美分那其实大体量的应用免费的应用甚至不光是生产力这个娱乐类的社交类的消磨时间类用全部都可以这个大规模的普及所以这块的话那个实际上是那个第二个是模型性能那个模型成本下降的前提是模型性能够那个现在的话其实无论是做生产力大家会意识到
很多应用为什么做不出来因为模型的幻觉模型对于复杂指令的遵循的能力不行你设想了一个很好的场景但模型的失败率特别高压根就做不出来哪怕是大家认为去做那种社交娱乐的应用 character AI 的类的应用
如果用集对 4 level 的模型还是用一个比如说便宜的开源模型大家会发现我们有很多的测试用户的留存用户的使用时长
可以差出两三倍所以其实到现在为止的话做很多的应用 GPD4 级别的模型性能和体验实际上是底线甚至 GPD3.5 的级别的模型性能在做很多的应用里面都是不够用或者没法用的哪怕是做一些 C 端应用而随着模型性能提升的越多
其实能解锁的利用类型也越多然后第三个就是模态了做 C 端生产力应用的话还有一个原因就是现在的模型模态是以文本为主而如果要做 C 端的话大家可以看到比如说单件移动回量应用
今日头条的日活和使用时尚语言比不上 TikTok 如果你只是交流的模态仅限于文字的话其实尤其是做 C 单的应用的话会非常的受限当你能解锁更多的模态你的应用就会解锁的类型就可以解锁的更多所以这三个前提就是跟模型完全相关的
而大家要做应用的话必须要根据当下的模型和接下来一年内模型能达到的这三点然后来决定自己做什么这跟当年移动互联网还是不一样必须要跟着整个模型的纠正往前走而最后一个的话实际上就是
关于一个新的平台出现其实是需要几年的时间一是完成用户群的扩散二是完成对于产品交互和新的产品体系的探索任何一个新的应用出来的时候其实第一波用户
都不是下层的用户而是先导用户比如说一般都是年轻的学生科技爱好者科技从业者一般而要花一个一两年两三年的时间渐渐下层到年轻用户最后下层到普通用户当年的移动互联网也是从一开始的爱好者慢慢地下层到下线城市中老年人或者社会主流人群
第二个是产品交互其实也需要时间探索比如说我在 2010 年的时候跟大家来分享说将来所有的用户所有的应用吃喝玩乐看视频买东西都可以在手机上对但是大家想一想从 2010 年最早说看视频也可以到手机第一阶段大家做的事情都是把 YouTube 把优酷土豆原封不动的直接搬到手机上然后等
而等到什么时候比如说 TikTok 是什么时候出现的那时候其实已经到了 1566 年了这个
最终的产品形态并不是把优酷土豆或者是 YouTube 直接搬到手机上无论是从内容源产品交互最终的版本答案比如说短视频是整个的花了四到五年时间才慢慢地去摸索出来的而比起 PC 和移动互联网的区别
AI 的应用本身正确的交互形态到底是什么其实差别会更大
是需要开发者和应用者一点点花时间我觉得会比当年移动互联网更快但也要 take time 整个的话可能也要花两到三年的时间让大家去真正地探索 Air Native 的产品交互和产品形态产品定义到底是什么样子的所以应用的爆发并不会一蹴而就
它是这四个维度其实是决定了整个应用发发的整个节奏和顺序而里面其实最大的一个前提其实就是这高性能的模型的成本下降高性能的多模态模型但所以在此来说也有个好消息好消息什么呢最近的 GPT-4O 包括刚刚出的 Cloud 3.5 它
其实已经在很多的大规模的 2C 的应用里面已经够用了大家都不用去担心将来的 AGI 能不能做到或者将来的 GT5 性能到底有多好现在的 GPD4Cloud3.5
其实哪怕它的性能没有太大的提升就维持着现在的性能已经足够做我们的大量的应用了无论是从它的模型性能还是多模态的角度来讲而模型成本的下降其实只是一件工程的事情是一件确定的事情所以
大家不用担心技术和成本将来达不到当下非常确定的模型的性能和模型的成本对很多应用够用的是确定的是可以达到的比如说零万物其实自己本身也是在做很多的模型的推理成本下降的探索
我可以说到今年年底到明年年初 GPT-4O 级别的接近于 GPT-4O 级别的模型性能和多模态在明年年初的时候
可以降到现在 GPT4O 的售价的十分之一百万 token 降到几块钱人民币而到明年年底的话这个数字还可以再降一个数量级这个的话是非常确定的一件事几个事一个是模型结构算法和硬件 infra 本身每个在接下来的半年
半年到一年的时间内都可以实现四到五倍的提升硬件的专门对于推理优化的硬件成本可以降四到五倍模型结构的优化和特化可以提升四到五倍然后一些算法测的各种各样的优化可以提升三到四倍
所以这些乘起来的话其实差不多就是一个在明年年底左右能实现 100 倍的模型成本的下降其实现在大家已经看到一些很好的 signal 了比如说最近前段时间大家可以看到这一些大厂开始非常的卷模型价格号称把百万 token 的推理成本降到了一块钱两块钱甚至更低
当然这个还是不够的因为目前大家卷的这个价格的还是比较低性能的模型真正的高性能的模型的成本还没有降但是这个事会在下个半年的时间半年之后很快会发生半年之后的话
高性能的模型的成本现在的价格也会从现在的二三十块钱降到几块钱人民币而且现在的话目前国内的模型还都是文字模态的多模态性能并不强
然后到今年底明年年初度末态真正的全末态的模型都会出来起码零一万物的今年年底的模型就到明年年初模型就会是一个接近于 GPT-4 的完整度末态并且推理成本会降得非常低的一个模型而其他几家国内的企业我觉得也应该是在明年上半年的某时间也都能做到
所以对于应用开发的大家做大体量的应用的最大一道锁实际上是确实可解的所以整个的事情的话我把它定义成一个普惠点对于我们各个开发者来说最重要的点是普惠点什么时候能达到随着普惠点大家能解锁什么样的这些东西然后我觉得最大的一个普惠点就是推理成本降到 1%推理成本降到 1%的话就意味着这个
几千万日活甚至上亿日活甚至是免费的产品可以大规模的实现而这个的话实际上是第四的推理成本哪怕降到十分之一已经有很多的应用可以提前出现了所以顺着整个的多模态和推理成本的秩序然后我的整个顺序的定义就是 2B 是会先实现因为它对价格的承受能力最高对模态的需求最低
其次的话就是生产力工具然后再往后走的话实际上是大体量的工具性应用这个的话原因很简单工具性应用的话只要推理成本降 10 倍就能实现大体量免费
举个简单例子互联网时代搜索就是一个典型的工具性应用为什么不是社交娱乐呢比如说当年移动互联网搜索类的工具的用户的使用时间短消耗的 token 少比如当年搜索我记得我在 Google 的时候用户的平均使用时长是两三分钟不超过五分钟恰到 GBT 作为通用工具用户平均使用时长是七八分钟但我们自己在
我看过很多的做社交娱乐的创业公司他们的平均使用时长是超过 150 分钟甚至更长所以
推理成本只要降十倍工具类的应用就可以做大体量免费推理成本要降到更低高时长娱乐性的应用然后才能做到大体量和免费所以大用户量工具会我觉得在今年年底到明年年初就会实现
再下一步就是吃喝玩乐一时住行就是类似于像 TikTok 那种营容消耗用户时间的娱乐性的这个常识常的这些应用会是再下一步而再往后就是一时住行就是
这个的话会比吃喝玩乐就娱乐性的要更晚一点因为把它涉及到人类的交易生活的话第一个是需要更高的模型性能第二个是需要商业模式整合
比如说你做一个今日头条你只要处理信息就行你做一个新浪只要处理信息就行但你做一个拼多多你要做个电商你要整合供应链你要整合很多的资源建立商业模式所以再往后一步先要完成吃喝玩乐然后才是衣食住行
而这个的时间轴我个人觉得差不多能在三到四年之内把整个的这节奏走完移动互联网大概是从 08 年苹果出 App Store 开始大概花了六七年的时间而我觉得大模型时代的话整个 AI 节奏会比移动互联网更快
大概可以三到四年把这个顺序走一遍然后我们现在可以做什么然后一个好消息是现在中美的模型的对比中国的模型已经有足够多的能力了
其实去年大家在做应用的时候要么只能做出海因为出海的话有 OPI 的好的 API 和特别好的模型可以调用但在国内的话如果合法的做的话其实国内去年的确模型的性能是不够的但今年从最近开始的话其实
中国的模型的性能已经足够强了比如说这里面我截的是 LMSIS 的榜因为为什么截 LMSIS 因为大家大模型都去刷榜刷考题其实已经刷烂了个个号称说我达到 GPT-4 但是只有 LMSIS 是大家如果知道的话它是基于真实用户的对模型的盲测
然后十几万的真实用户使用这个模型这是最然后来决定哪个模型输出更好这个是无法刷榜的而且是最能体现模型性能的大家可以看到在这里面的话中国的模型比如说零亿万物的 eLog 已经是真正意义上达到了 GPT-4 的级别跟 GPT-4 的模型的分叉只在几分之内
然后下面的话你可以看到这个千问还有这个质朴的这个模型也已经扎扎实实的跟这个拉玛三然后是非常的接近所以中国的这个模型那个闭缘模型已经达到了这个 GPT-4 的这个水准当然 GPT-4 还是一只独秀了开缘模型已经达到了拉玛三的水准
然后对于做我们的这应用来说做产品级的应用来说的话其实用中国本土的这模型跟用美国已经没有什么太大的这个差距了当多模态中国比美国还是落后一点 GPT-4 的多模态能力但这点的话也就是半年的时间半年之后那个中国的这批多模态的模型也会
很难说达到接近 GPFO 的多模态效果而且我相信在中国比较卷的情况下中国同等性能模型还可以做到更加便宜所以中国已经有了基础了所以接下来的话其实中国就可以开复刻应用爆发的状态了中国的整个应用因为模型的拖累
当然也包括了中国的很多的对应用本身和大模型本身的监管和管理大致的节奏是比美国慢差不多一年的时间美国是一个什么样的情况呢其实美国的应用开始已经到了第二波的发展阶段美国是在去年上半年就是去年年初大概到去年七八月份已经完成了我把它叫做 ChatGPT Moments
就是完成了第一波的应用普及在知识工作的人群里面然后已经达到了大几千万的日活 CHAT-GBT 不光是完成了对于用户认知的普及美国现在的白领工作者和知识工作者已经是有百分之七八十已经日常使用
不光是 OpenAI 了 ChatGPT 了也包括了 GemNight 也包括了 Binge 也包括了各种各样的 Publicity 的一系列的工具作为他们的日常使用工具而且美国才三亿的人口已经达到了大几千万的日活然后那个
现在实际上甚至已经到了第二个阶段包括刚刚的各种各样多模态 社交 娱乐 sono 这样的第二波已经到了百发齐放 扩展应用类型的阶段完成了基础普及 到了扩展应用类型的阶段中国实际上现在刚刚处于美国上半年第一阶段的应用爆发的前期
虽然最近大家看到很多的产品在大量的推广用户量也在迅速的增长无论是什么 360 百度 Kimi 文心 蜜塔 千问这些但是其实它们加在一起现在的日活也不过就是一千万中国作为十二亿网民然后
然后其实所有的这些东西加在一起其实也不过就是一千万而美国其实三亿的人口大几千万的日活所以但好处是你可以看到最近无论是什么样的这些应用虽然用户基数很小大家可能也就是小几百万日活的状态加在一起也不过是一千万日活状态但大家的增速都很高月对月的增速都达到百分之几十以上
所以非常像美国去年上半年的认知真实的用户的情况也是这样大家都知道 AI 都听说了 AI 但大部分的中国用户是从媒体上听说的大部分的用户并没有真正的用上就算用上的用户也只是偶尔常先式的用用并没有像美国的那些知识工作者一样天天的日常的把它都当作工作伴侣来使用
但往好里说的话就意味着中国现在的震荡潜力非常大我预判今年年底在效率工具类的 2C 的应用里面今年年底到明年年初就会出现单应用达到千万级日火而到明年我个人觉得上半年的话中国也会完成类似于美国的 CHAT GPT 的低波的普及
当第一波的应用我客观地讲还是会集中在学生科技从业者科技爱好者白领知识工作者这样的第一个先导人群而且应用的类型的话自然大家也会是先是工具效率起步慢慢再往社交娱乐杀时间多模态的方向去扩展
然后我在这里也是说说对创业者建议因为我平时也是投资应用也见过了非常多的创业者然后第一个我跟大家说的话就是大家还是太焦虑了我经常看到同一波创业者经常会两极分化
然后一个大的新闻出来了之后大家非常的兴奋觉得 AGI 要实现了这个潜力非常大过了几天又突然的觉得很焦虑说这个应用怎么到现在为止还没有爆发投资是不是又趋冷了或者什么的其实移动互联网当年从 08 年 App Store 正式出来
到得到整个应用形态初出产那时候都已经 1213 年的事情了甚至当年直到 1213 年我记得百度李彦宏还说移动货币老师旧瓶装新酒新瓶装旧酒所以大家不要太焦虑了
真正地把时间心思沉浸到用户场景开发里面去深挖里面去而不要太焦虑于一周两周一月两月的这些外部的变化我看到过大概两种创业者一种创业者的话是产品商业出身
一种的创业者是技术科研出身其实从长期来讲的话其实要做移动互联网做 AI 应用的话是要既懂产品又懂技术因为的话其实 AI 大模型创业跟当年的整个的移动互联网创业有一个很大的不同移动互联网当年创业的时候虽然是一个新的平台
但整个后台技术是成熟的无论是成本上还是技术战上还是端测的开发还是后台上都是当年 PC 互联网奠基了 10 年你只要想什么用户场景是什么只要你能想得到对的用户场景从技术上成本上没有做不出来的但是大模型的创业本身更接近于 99 年的时候 Google 去做搜索的这一年代
99 年 Google 做搜索的年代大家可以想一个事非常的容易你想个场景很容易让人能全搜整个互联网
但实际上这场景很容易想到关键是你能不能做得出来 Google 为了做这个东西当年是开发自己开发了 PageRank 然后开发了集群开发了 MapReduce 之类的一套的技术才把这个东西来实现所以整个的事本身必须我看到的产品商业出身的开发者有时候会过于宏大虚实过于
不考虑产品模型的限制去做产品而对于技术科研出身的这些开发者的话往往是太追求于技术圣杯然后往往不是不考虑算力成本的花效而考虑整个的场景考虑的比较少
所以对这两边的话其实我的建议是两边都要考虑对方的优点大家还是在现阶段旧不成熟的时候
更脚踏实际 落足场景而且哪怕是技术出身的创作者开发创业者也不要过于追求技术圣杯然后还是更加落实一点现实一点是最重要的一点事这里面结合起来讲的话其实仰望星空要脚踏实地这里面几个创业者都是当年 PC 互联网和移动互联网的创业者
然后 Larry 然后 Google 的创业者他就是典型的旧出生的创业者但他们当时是非常现实的一件事他当时要做搜索高阶的服务器买不起所以他们自己到货架上去买 PC
买这个服务器然后手搓自己的这个服务器为了把成本降下来然后那个最早的这个服务器都是他们从这个电脑店里面买回来自己传出来的然后我当年零几年 2000 年初加入 Google 的时候还看到过他们传的这个服务器然后那个
杨志远做雅虎技术出身的非技术出身的他们也是算技术出身吧
他当时做的一个产品是什么呢非常落实大家都知道雅虎第一个产品是一个网址战所以他是非常脚踏实地的并没有追求说我的技术而产品商业的创业者产品那边的类型创业者我看大家有时候还特别地宏大叙事有时候还非常地
去怎么说呢还看不起 talk 或者用过于简单这些事但实际上比起杨志远来说的王子站来说那个
没有比这个更加落实的了吧如果产品出身创业者只要找到这个需求你做不了 Google 你也可以去想办法去做雅虎去做做不了 Larry Sege 你可以做杨志远而张一鸣实际上是一个我觉得在两者之间结合得非常好的创业者他既非常懂技术当时说要用这个 A
当时机器学习吧第一代的 AI 然后要推荐算法然后来重塑内容行业但另外一方面又特别地脚踏实地在早期移动化量早期的时候其实除了今日头条他当时做了内涵段子甚至美女或者是其他的大量的一个产品矩阵来去获取早期流量所以这些成功专业者其实早年都是非常的脚踏实际的无论是从技术出身的也还是从产品商业出身的
最重要的是挖在现有的模型和技术的成本的限制下真正的落实的深挖的用户场景因为什么都变了但是人性和用户场景并没有变化而我有时候跟创业者交流我发现大家对这件事做的还是不够的
然后未来转化我就说快点因为这个我已经超时了然后基本上来说的话接下来的确定的智能上线多模态 AI Agents 这三个都是在今年底到明年会有很大的改进然后今年底的话 GP5
GPT 4.5 或者 5 吧会有一个渐进式的改良而到明年年底的话这模型的智能上限真正要出现跨代级别的模型智能上限的体验大家可能还是要等到明年年底的时候
但今年年底在模型的指令遵循和复杂能力上就有个不错的提升然后多模态的话今天是 GPT-4O 大家已经看到了很多而到了明年的话我们会实现理解和生成真正统一的多模态 AI Agents 现在是一个痛点但这个的话主要是在复杂指令遵循现在 AI Agents 还是一个玩具
但是所以 2B 的应用大家都只能做 Coup Palette 但大家真正想要的是 Auto Palette 然后这个 Auto Palette 的话我个人感觉还是可以有机会工程实现的
然后巨声智能是 Agents 和多模态智能上线都实现了之后真正的巨声智能就是模型不只是在数字空间而通过 Robotic 传感器在物理世界里面实现智能和交互这点在 Sense 实现了之后
巨声智能就能真正的实现将来大家做 APP 就不是做数字世界的 APP 而是在做物理世界的 APP 了所以这个的话接下来就有两个基点第一个基点是非常确定性的就是不会基点 24 个月降到 1%一级别的日活应用因此可以实现
然后五年的时间内的话如果是以两年为主以四到五年为主的话推理成本会降到现在的千分之一然后那时候的话就不存在什么叫 AI 应用了因为所有的应用都会用 AI 重塑交互和后端的实现第二阶段的话是智能基点这个我说实在的
并不是特别的确定有可能模型的性能达到了 GPT-5 这个级别了之后就会达到一个软天花板但即使这样并不影响第一个阶段的普惠的基点
如果模型性能能继续通过 scaling law 真正突破 GPT-5 就是达到复杂指令遵循达到 PAGD 级别的思维能力
包括这个的话这个如果能在五年之内真的达到的话那就不是我说的普惠极点的这个概念了那可能会对整个人类世界实现这个重塑这个智能极点的话我确定的说其实四到五年之内就可以看端倪如果能实现三到四年之内
就能实现如果三到四年之内实现不了那这一代基于 Transformer 和 Scaling Law 这整一代技术就实现不了所以智能基点能不能实现其实大家也不用等太远这一代技术能不能实现智能基点四到五年之内就可以见分晓然后我再说一下如果大家如果是做 AI 的话这个创意工厂
其实是从 2012 年就开始大力的投资 AI 无论是这个应用和 AI 里面有非常多的经验所以如果大家对于这个 AI 的应用整个开发会有什么样的无论想创业还有很咨询的话欢迎大家到创意工厂然后来和我来交流谢谢大家