The ultimate goal of AI models is to create a 'world model' that can generate highly realistic videos simulating real-world physical laws. This virtual world can then be used to gain infinite knowledge about the real world, which can be fed back into the model to enhance its understanding of the world.
AI models could be used in warfare to the extent that soldiers might no longer carry traditional weapons but instead operate computers to eliminate targets. For example, drones equipped with AI algorithms could autonomously target and neutralize threats, making warfare more technology-driven and less reliant on human physicality.
AI's values, which are influenced by the companies and engineers who develop them, could accelerate the 'McDonaldization' or 'Americanization' of the world. This means that AI content could increasingly reflect the cultural and ideological biases of its creators, potentially homogenizing global culture.
AI models face challenges in both the quality and quantity of data. High-quality data is essential for training effective models, but the internet's vast amount of low-quality data complicates this. Additionally, the exponential growth of data required for advanced models like GPT-4 is becoming increasingly difficult to sustain, as the internet's high-quality text data grows only linearly.
The AI industry is addressing data quality through methods like 'Human and Model in the Loop,' where humans evaluate and select the best responses generated by AI models. This approach helps refine the data used for training, ensuring that the models learn from high-quality, human-preferred outputs.
Video generation models are expected to have a significant impact on AI's future, potentially leading to a major breakthrough. These models could be used to create highly realistic videos that simulate real-world physics, effectively serving as a 'world model.' This could revolutionize fields like autonomous driving by generating vast amounts of training data for rare scenarios.
AI-generated content could complicate scientific research by making it harder to distinguish between real and fabricated data. While replication of experiments is a standard method to verify results, the increasing complexity of experiments and the potential for AI-generated data to be indistinguishable from real data could pose significant challenges to scientific integrity.
Energy consumption is a critical factor in AI development, especially as models become more complex and require more computational power. While the internet already consumes significant energy, AI models, particularly those generating videos, demand exponentially more resources. However, ongoing research aims to make these models more energy-efficient, reducing their overall impact.
The US and China differ in their AI development strategies, with the US having an advantage in computational power and access to high-quality English data, while China benefits from a large, cost-effective engineering workforce. China's centralized approach allows for the development of models that can be widely used across industries, whereas the US's decentralized model leads to more fragmented development.
The use of AI in predictive policing raises significant ethical concerns, particularly regarding privacy and the potential for bias. AI models can predict behaviors, such as criminal activity or medical emergencies, but this capability also risks misuse, such as preemptive law enforcement actions based on flawed predictions. The technology's deployment must be carefully regulated to prevent abuses.
其实我们这些模型最终想达到的一个目标是希望它来做一个叫做世界模型的一个东西如果你能生成一个非常逼真的一个视频然后你的视频可以比如说模拟现实世界中的一些物理的一些规律那其实你就可以把这个东西当成一个虚拟的一个世界来看待你就可以用这些知识来去反哺给模型
不知道你有没有想过就比如说这些 AI 模型如果被投入到战场上面会是什么一个图景我觉得没有任何问题可能将来就是美国大兵他们都不是这个拿一个枪然后一身健子肉然后都是那种戴着眼镜然后抱着一个电脑然后再啪啪啪打几个字然后恐怖分子就被消灭了
对 AI 它其实有价值观的对我们之前在讲是世界的麦当劳化或者是世界的美国化那这个 AI 的内容肯定会更加加速这个过程我觉得对因为毕竟 AI 的价值观其实就是这个公司或者是这几个工程师他们施加给这个模型的
每期对谈一个陌生领域欢迎收听天宇 2FM 这是一档为了开拓眼界走出自己的局限而设立的播客我们通过与人对谈来试图与未知的领域和知识产生互动
距离我们上次聊 AI 的话题已经过去了将近一年引用一周前马斯克在 O-In 峰会上说的一句话 AI 的进化速度远远超越了任何现存的其他技术 ChatGPT 发布才仅仅不到两年 AI 的应用已经光速地融入到了几乎每一个主流 APP 以及我们生活中的各个角落但另一方面随着前两天 ChatGPT 的最新模型 OE 的上线
相信你也一定有注意到普通用户们似乎也逐渐地在对 AI 的更新与新闻变得麻木似乎 AI 的更新迭代对我们生活的直接影响正在逐渐减小可事实真的是这样吗从前沿 AI 科学家的视角
AI 未来的发展是会趋于小规模进步还是暂时趋于平静的水面之下正在孕育着新一轮颠覆的能量本期节目我们的老朋友被大家称为天宇图 FM 第三位主播的 AI 科学家林志秋再次回归来和我们一起聊聊 AI 接下来将会继续如何发展你好我叫林志秋我是凯瑞金梅隆的最后一年的 PhD 我现在是在做视频生成方向的研究
出生于 98 年的知秋在业界和各种报道中几乎是教科书般的天才少年他 17 岁就考入康奈尔大学仅用两年的时间便修完了计算机和数学的双专业并从大二开始为康奈尔科技学院编写硕士生的课程给博士生的试卷打分 2020 年还是本科生阶段的知秋就获得了被誉为计算机视觉界奥斯卡的 CVPR 最佳论文的提名他是唯一当时还是本科生的获提名者
这也成了学术圈当时一个现象级的新闻如今知秋除了自己的博士研究他也在 Meta 也就是 Facebook 训练模型今年他也与 Adobe 合作训练视频生成的 AI 模型拥有科研和商业一线的全面视角那在本期内容里我们从 AI 的智能是否还会继续成指数级发展聊起聊到了是什么在制约如今 AI 的发展 AI 前沿在讨论尝试创造的世界模型是什么
我们又是不是生活在虚拟世界中视频生成模型什么时候会爆发而这新一轮的爆发又将对我们的世界产生怎样的影响而它又将在中美博弈中承担怎样的角色产生怎么样的影响等等话题这次对话呢让我再次感觉到 AI 这项技术似乎还远没有完全苏醒相信知秋的视角也会对你有所帮助那就请你扶稳坐好和我们一起加入这场对话吧
OK 那我们就聊第一个问题第一个问题是你觉得比如说不断的投入因为我们刚才也说到资本是超乎大家想象的在疯狂网里边去投入资源嘛
那你觉得这个东西比如说我们投入的比如说就说卡吧和训练的这个资源电力能源等等这些东西和大家拿到的这个所谓的结果这个东西有点模糊但是我们就假设说是一个它的好用程度或者它的智能程度吧这个东西你觉得是线性的还是指数的还是递减的对我觉得这个的话
就是因为我自己还没有去训练过那种比如说千亿参数的大模型然后但就我的了解的话其实我个人感觉在一定程度之前它其实是一个指数级别的增长然后就比如说像是我们从这个 GBT2 到 GBT3 再到 XGBT 也就是现在的 GBT4 我们是明显的能感觉到一个这种指数级别的什么体验上的一个增长的
但其实如果说再从 GPD4 再往上面去做更多的比如用更多的卡来训练其实我个人感觉能得到的这个收益已经有限了然后其实因为我觉得这里面就是说我们可能在想这个问题的时候会把它想象成一个比较简单的一个二维关系图然后我们想的可能我们的这个 X 轴就是说我们的这个变量就是说我们所用的比如说英伟达的芯片的数量
然后但其实这个在现实中训练这些模型有几方面我觉得比较重要的点吧然后算力肯定是一方面算力和模型大小这个是决定了就是你这个模型它这个能背下来多少知识的一个这个区别它决定了这么一个上限然后但其实这里面还有两个就是说之前大家可能没有那么重视但这几年开始越来越重视的点然后第一点就是说你这个数据本身的这个量级
就是说你这个因为我们其实之前能看到像 GBT2 到 GBT3 到 XGBT 它其实有这么大一个提升就是因为它用了更多的数据它的数据是和它的这个模型的这个参数是一样在同时做了一个指数增长就只有你在满足这个模型和数据同时增长的情况下你才可以看到这个模型一个这个质的一个飞跃然后但另一点就是说其实我个人感觉尤其对于 XGBT 这类的模型
大概率他们已经用到了现在互联网上所有的文本的资料就尽管说我们可能这个每天 social media 上不断的会有人发更多的这个文字但其实真正高质量的那些文字资料比如说这个我觉得最有价值的英文互联网里面的像 wikipedia 然后这些其实它基本上它的每年的增长可能是一个非常缓慢的
可能是一个线性的一个过程然后也是因为如此就是我觉得这些模型我们在期待它从它的本质的能力上面有一个质的飞跃是不太可能的了但另一点就是关于数据这边就是它除了这个数据本身的这个量级其实很重要一点就是数据的这个质量
然后其实这一点也是 OpenAI 他们很早在那个 XGBT 出的时候发的那篇论文里面就去讲然后他们讲的就是说他们如何用这个叫 Human and Model in the Loop 的方法来提升他们数据的这个质量
就是说之前可能我们找数据的方式就是通过你有很多的这个 human annotator 然后他们可能从网上比如不管各种网站上面去找各种有价值的文字资料或者说你已经下了很多资料之后你把每一个这个网页发给一个人来让他来看说这个网页它上面的东西是不是有价值的它是不是有一些虚假的一些信息就可能会做这一部分的 data cleaning
但其实从这个 GBT 开始呢就是他们做了很多工作就不是在通过这种就是直接用人来去筛原始数据的方式了而是通过就是说这个你直接比如说因为其实最终这个模型还是由人来用所以说你可以让用人来去问很多的问题然后这些模型它可以生成很多的回答然后你只需要再用一个人来去看哦这几个回答里面它哪一个说的是最好的
就这个模型它其实本身已经可能把所有的互联网上的有的没的东西都已经学会了所以它比如对于一个问题它可能会有十种不同的答案然后这个时候你只需要让人来告诉它比如说你这个答案它是最符合人类偏好它是最正确的然后这个时候你只要提供这样的数据你就可以再进一步的提升这些模型的性能
嗯,ChadGBT 经常问我这两个答案你喜欢哪一个没错没错,他们这个东西背后就是用到了一个这个叫应该叫偏好对齐的一个算法对对对,它也是一个 human loop 然后你现在也是在这个 loop 里面对,我觉得这个描述还挺搞笑的这就怎么讲,上套了对,人和模型 in the 圈儿
对但话说回来就是我觉得这些这个其实我自己也会这个我一般见到这种时候就是他给我两个回答我其实一般一个都不选他有时候就固定给我选第一个然后其实我是觉得就是大部分的这个互联网用户可能你比如说在问你哪个回答更好的时候可能你的选择不一定会那么的理智
所以说其实我觉得这里面很重要的一点就是说这些公司愿不愿意去投入很多的人力和物力去筛选一批特别特别靠谱的人然后来去帮他们做这种偏好的对齐
然后话说回来其实这个道理就是说就像是特斯拉很多年前做的事情一样就是说人工智能我们都知道有多少人工就有多少智能其实现在人工智能已经发展到了一个阶段就是说你现在用比如说 90%的人工是没有用的了你现在要做的事情就是说你要给人类再做一个挑选然后说你要挑出来比如说这 100 个人里面最靠谱的人用他们来教你的 AI 模型
所以我其实个人感觉就是这几年这个行业主要的提升都是来自于这个数据这一块然后但其实像我刚刚说的就是这种 human in the loop 其实这里面有很多的这个工程上的问题有很多算法上的一些这个还没有解决的问题所以我觉得这块还是有很多的进步的空间的但这个我感觉像国内的话可能
好像国内的资本会更理智一些好像现在国内已经意识到了这个很难去赶超差 GPT 所以其实国内其实说实话现在在做圆模型的公司没有那么的多然后大部分好像都是有一些这个比如说是一些国家的一些背景的因为的确像现在这些公司他们你没有一个这个几万张卡的一个集群那你是连一个这个 GPT3 都训练不出来了
所以这一块就是我感觉这几年还有一个明显的趋势就是说这个资源是在不断的集中然后之前那些做的好的公司他们会不断的做得更好像是 OpenAI 然后像是 Google 虽然说有一段时间可能被这个 XGBT 的风头压过去了但我自己目前使用他们最新的那个 Gemlight 的那个模型的时候我是感觉还是尤其是他在这个图像和视频上面的理解其实是我觉得还是做得很强的
对我这里有一个总结就是我们前一段时间聊那个太空探索也说到过这个话题就是一个行业一个新的可能巨型的行业诞生之后有一种模式就是第一波在这个里边的玩家会迅速成为基础设施嘛
然后这个可能这个基础设施的玩家他一旦涨到一个体量之后他就很难被撼动就有点像比如说我们的这个航空公司对吧大家现在比如说我要去做一个生意我不用从这个物流开始做而是我直接用这些物流公司去做这个我的生意就完了我直接去运我的商品就好了
然后可能这个我们聊太空探索也一样就是 SpaceX 这样的公司可能它后面就变成一个像太空快递一样的这样的基础运输公司然后
然后可能像我们在聊 AI 的时候这个事情就一样就有几家大公司会成为像是类似于互联网的这个运营商一样的这种电信运营商一样的存在然后呢其他的这些小公司或者小团队它是在这个架构的基础上比如说像你刚才提到的就调用 API 可能做一些更具体的工作吧
但是我有一个对你这个话题更就是我觉得有价值的回应是说我们这个对话到现在因为我们这几年每年都聊一回然后这次第一次听到了一个观点是说我们在大语言模型上其实现在碰到了一个上限
然后刚才我们讲的就一开始可能指数上升然后它逐渐的这个东西遇到一个瓶颈而这个瓶颈是人类的鱼料不够了是吧就是我们没有更多的鱼料可以去喂给它了而我们就是人类这个肉身人口恒定的情况下我们生产鱼料的速度是比较稳定而不会就是它不会加速增长的
那这些模型确实可能到一定的水准之后它就会遇到一个这个就是它原料的这个天花板但这个地方就有一个比较有意思的东西是你像比如说 Sam Altman 这样的就是 OpenAI 的负责人他就会讲说他觉得 OpenAI 未来的发展还需要比如说几百亿几千亿甚至是好像他提过三千亿这样的一个很恐怖的天文数字
就是钱吗对钱钱 3000 亿美金如果我们说这个他的比如说文本已经到了一个天花板那他需要这么多的资源甚至你像之前咱们前采的时候在报告群里面提到就是最近 Google 的前 CEO 就 Eric Schmidt 他那一场被禁的斯坦福的那个演讲也提到就是说未来甚至能源都会变成一个影响这个发展上限的一个因素的话
这个东西的影响它影响是啥既然我们已经碰到了这个数据的天花板然后我的猜测就是是不是就是这些其他模态的东西的训练什么视频音频之类的
对这个我挺同意的就是说尽管说这个文字的这个载体可能目前像 XGBT 包括一些大公司尤其像 Google 这种公司他们大概率已经有了互联网上所有的文本资料所以说其实能用的这些文本他们大概率都已经去用了
然后可能他们现在主要在做的工作就是说怎么把这么多我不知道他们那应该是一个天文数字量级的一个文本库怎么把这里面最有价值最有含金量的一些文本给挑出来他们一定还在做这一部分的工作然后这里面一定也会有很多像我们之前聊到的这种 human 和 model in the loop 的方式然后来去我们通过模型自己生产数据然后再通过人来
人类来去给它做一个筛选这样的话我们可以通过这种方式来合成就是更多的这种假数据然后其实这个点可能稍微有点跑题但就是最近有很多人这个在说就是因为之前差支被刚出来的时候很多人会说你之后这个互联网会有很多比如说像之前我们 radar 都是人来写的 wikipedia 都是人来写的然后他之后可能很多这些互联网上的语料都是由模型来提供的
然后但其实现在也有这个之前大家很担心的一点就是说哦你如果网上都是这种原模型生产的这种资料对就是他担心这样会降低你互联网这个语料库的这个质量但好像最近也有人讲就是说自从这些这个原模型活下来之后反而是他们发现互联网上那些最新的那些文本他可能质量变得更高了他不管是这个从语法上面啊
它这个句子通讯程度呀然后再比如说是这个句子的就它所说的这些知识的可信度上甚至都会高了很多所以说这个我相信这个合成数据将来是一个提升这些模型的一个比较重要的一个一个一个课题然后已经是很多公司他们在主要攻克的一个一个方向
然后再回到回到就是这个刚刚你说的其他的这些模态就是我觉得这个的确是一个很重要的一个方向尤其像是这种视频的生成的模型或者视频理解模型其实我是觉得这几年可能会迎来一个非常
大的一个爆发不一定是我的暴论只是我单纯感觉到就是现在每个公司都砸了非常非常多的钱在这一块上面尤其是自从 Sora 火了之后你现在比如说你要搞一个创业公司做视频生成那可能就是不管是在美国还是中国只要你是一个相关背景的一个研究员就有很多的钱投到你这边来然后可能你可以轻轻松松的就买一个
几千上万英伟达芯片的这么一个集群然后你就开始做一个你自己的一个视频模型因为我觉得这里就是它最重要的一个点就是说其实我们现在网上的视频的数量可能比文本的数量还要多因为视频的话就是目前我们可能大多数网民主要接受信息的一个载体不管是短视频还是像 B 站 YouTube 这样的长视频
然后其实视频里面的信息量也是非常大的然后而且基本上每天每个用户都在上传非常非常多的视频然后里面就算是比如说 99%的视频没法用只有比如说 0.1%的数据能用但我相信这个的量也是非常非常庞大的
所以我相信就是未来几年只要能把这些数据给利用好能把这些互联网上高质量的视频给这个收集过来我相信这些模型的质量会有一个质的一个飞跃然后其实这些我自己因为我自己是在最近在做视频生成这个方向然后我其实能感觉到像是一些这个大厂 Google Demand 他们最近出了一个模型
然后还包括一些小厂就是一些创业公司像是 Runway 然后像是这个像 Dream Machine 就是他们做的这些模型其实我个人感觉在质感上面已经做得非常非常优秀了然后其实我们这些模型最终想达到的一个目标呢是希望它来作为一个叫做这个叫世界模型的一个东西就叫 World Model
就是说其实如果你能生成一个如果你能现在能生成这个一个非常逼真的一个视频然后你的视频可以比如说模拟这个现实世界中的一些物理的一些规律那其实你就可以把这个东西当成一个一个虚拟的一个世界来看待就是说这个世界可能和你真实世界是我们是没有什么区别的然后这样的话你就可以用一个模型去这个得到无限多的关于现实世界的知识
然后你就可以用这些知识来去反驳给模型然后来学到很多的对于世界的一些理解我有一万个想说的事情我有两个想说的事情要不我先说一下其实就是我觉得这两个想说的事情可能有一些关联刚才知秋你讲到就是说我们的模型的一个进步的方式是通过就是
就是不断的相当于解构更多模态的还有就是说新生成的这些呃你叫数据也好或者预料也好然后来用来就是进一步的训练嘛然后呃我从我的角度出发我会在想说其实我不确定是不是业界会已经在重视这件事情就是我
我觉得有很多的语料他现在就不在互联网上吧就是说他还没有被电子化的一些可能更老的书啊画啊然后这些那种档案管理的资料如果我们把他能够电子化成一种能够被模型来去学习的东西呃我个人觉得这个是也会有意义的但是我不知道是不是有这个企业在关注这件事情然后
然后另外一个角度上来讲就是刚才你说到从大量的语料生成就是大量的 AI 生成的文本已经开始出现在互联网上之后这个网络上的语
语言的这个质量提高了这个我一定程度上是相信就是说他在语法层面肯定是能够提高的但是就是我会想的东西就是说因为我们基于大家已经都很有认识的一件事情就是说 AI 他还是会犯错或者说他不知道自己在乱说的这样的一个前提下我们还是会有越来越那你就有一个风险就是说原本在他
他乱说的一个东西被当成了学习的资料然后进一步强化这个乱说的概念就是说那这个他的规避的方式有什么我觉得这个跟自动驾驶的一个问题是一样的就只要他比一个普通的人
出错的概率如果要小的话那它在就是总提升上面应该是大的就是因为比如说原来我们也会看到一些道听途说的普通人就是张嘴就讲的一些消息然后去就变成我们的一个知识系统里的一部分那现在等于就是 AI 生成的这个可能它的准确率比那个原来的那个总体的量要稍微精确度高一点对但咱知秋说
我想第一个问题是什么来着第一个其实不是一个问题就是我可能就在或者说如果有一个问题就是我在好奇你在你的认知里面有没有这些 AI 的这些公司在关注到就是把一些更古老的语料吸引进来的这么一个事
其实我觉得这个点问的很好然后其实我觉得你说的这个事情其实是为什么 XGBT OpenAI 这么成功的一个很重要的原因当然不是说 OpenAI 最早的开始做这个事情其实像那些大厂的研究员很早就开始比如说把那些这个没有被收录到互联网上的一些语料比如说书籍啊这些载体里面的文字信息给直接给录入到这个他们的预料库里面
然后其实现在很多大部分的模型都是在用这些知识来去做的训练然后我不知道之前有没有人说过这个好像有人在训练中文大模型的时候发现用弱智八的那个语料反而会得到一个异常的模型对对对我很相信这点就是说真的是你你用的这些语料它的本身的含积量有多少知识量有多少包括它本身这个难度有多少你就可以最终得到一个什么样的模型
其实它就是一个可能能不一定能举一反三但至少可以给你举一反二的一个复读机这是我对于圆模型的一个理解
然后所以你说的这个事情是基本上是大家都在做的一个事情然后当然就是我相信还有很多的领域比如说他们像这个律师啊会计啊比如很多领域他们还有一些语料不一定是这种纯文本的一个形态然后我相信就是这几年有很多的创业公司然后再去收集这一方面的这个文字的资料然后试着给他们去做一个筛选然后我相信每一个就是
行业只要你还有没有被录入到比如说这个这个这个 XGP 里面的知识然后你都可以去做这一部分数据的这个收集和筛选然后其实这些都是一个非常好的一个业务嗯
到你的一万个想说的了对对对对就是我一个一个来就是我刚才在知秋讲那一大段就是关于世界模型的想法包括后面视频类型的这个 AI 可能爆发的这一段里面我想到了特别多东西就是我在当时当时在听你说视频会爆发的时候我的第一个问题是它有什么用
这个是我的第一个问题我们当然能想到最简单的大家有一个需求然后生成成一个视频但是我感觉这个东西我一开始想到的就是说它的用处不算特别大你像比如说我们作为创作者视频创作者或者内容创作者这可能是有一个很大的应用场景的
我可以更快的把我的一个想法变成一个 demo 或者变成一个直接可以用来这个宣传或者是使用的这么一个视频然后大家更习惯去消费这个内容媒介那这个确实是有用的但我觉得这个还是一个相对来说比较小的场景
所以就我刚才想到的就是那也许未来的这个视频生成它如果我们想象是现在的这种语言模型的延伸的话也许它就是一种交互的界面就比如说我现在是跟一个
文字的其实文字输入用 ChatGPT 的这个沟通效率并没有特别特别高就是我要想一下我这个话该怎么说然后比如说我想把我生活中遇到的一些问题还要想办法用文字的形式转述给一个原模型什么的那也许视频如果能生成
并且能录入这么一个全我们我随便发明一个词就全模态吧比如说我们人能感官感知到的东西大部分他都能够处理接收跟输出的话那可能就是他可以真的变成一个所谓全能的助理就是我给他一个视频输入他再给我一个视频的输出然后我对话的对象可能用语言然后对面可能是一个人物的形象
我不知道这个想象是不是你想象的这个比如说视频生成跟这种多模态向后发展的一个未来的想象对我觉得这个就是我觉得你的想象我觉得是有概率会发生的事情然后我觉得说的挺好的
我可以就是总结一下我个人感觉这个将来这个就是视频这个模态会怎么样的发展然后其实刚刚虽然说我聊到的这个世界模型 world model 这个概念但其实这个概念更多的我觉得还是可能学术界造出来的一个 buzzword 它还是一个非常大的一个词
而且我们都知道现在的视频模型它这个达不到我们对于它的这个预期所以说我个人感觉视频模型它会有如果它会有什么样应用的话可能分两方面吧就一方面是在它成为真正成为世界模型之前
然后其实有很多的,就像你刚刚说的这种艺术上的一些应用吧,比如说现在的视频模型,其实很有意思一点,就是他们其实完完全全没有在模拟这个真实的世界,我不知道之前可能有个例子,就是 Sora 他们有一个视频是说,哦,你有一个这个椅子悬空的在漂浮,就像是被施了魔法一样,
其实现在这个现象是大部分的视频模型都会有的尽管说我们可能觉得它是一个对于现实物理规律的一个这么一个这个逆反吧但其实这些视频它可以被那些艺术家用来去做一些艺术的创作
然后这个当然一方面是艺术家可以用他们来做创作一方面比如说你如果你是做一个你是一个广告从业者你平时要去拍很多的视频结果发现广告里面用的特效非常非常多然后其实这些模型之所以可能现在会出现这些很奇怪的现象很可能就是因为他们用了很多广告片去做的这个对对对去做了训练所以他们学到了一些这种很很 fancy 的这些这些特效
然后所以说就是说你用这些模型将来比如说去做一个比如说降低你去拍这种特效电影啊或者拍这种这个广告的这个成本然后这个是一个我觉得短时间内一定会发生的一个一个一个
短时间我是说可能三五年吧保守估计我说一定会发生就是说可能到时候 Adobe 比如说 Adobe 他们现在的这些视频编辑软件就会加入这种视频生成的这种呃这种模块比如说你现在想做一个视频的编辑你可能之前需要去比如说找一些素材找一些特效可能之后你只需要去跟他做一个对话然后他还可以自动的来帮你去编辑这个视频嗯
我觉得这些都是未来一定会发生的然后这个另一方面就可能很多的用户会用这些软件然后来生产大量的短视频然后这个放到比如说这个互联网上这些可能都是一个降低这些这个比如说自媒体从业者门槛的一个事情尽管说现在门槛也不一定有那么高吧但比如说我自己最近在做的项目就是我会发现比如说尽管说
短视频可能还比较容易拍但比如说像那些真的是这个电影大师拍的那些这个长的电影镜头它其实一般都非常非常复杂就是它一个镜头里面它可能会在比如说不同的人物之间去做切换
然后一个人物他可能会在场景里面不断地去走然后你可能一会儿要在这个人的后面一会儿要在这个人侧面一会儿要在这个人的正面然后你这时候是想表达比如说不同的电影里面的情感然后像这种拍摄其实对于一般的就我都不说比如说一般的这个普罗大众了就是你让一个比如说刚电影学院毕业的一个小白出来你想让他拍这么一个专业性的场镜头其实也是一个非常困难的一个事情
但将来很有可能我们可以通过这些视频的模型就是你做一个没有碰过摄像机的一个小白你有可能可以拍出来一个就是这种有电影质感就仿佛你请了一个专门的摄像团队然后来去拍摄的这么一个视频
所以说我觉得这些还是会带来很多有意思的一些应用的但可能更多的还是这种就是不是特别这个 serious 的这种 jobs 然后再回到就是说我们真正这个是要学术界对它的畅想就是说我们还是希望它可以作为一个这个世界模型来存在的因为等它能实现这个世界模型之后这个意味着什么呢比如说我们可以通过它这个视频模型来生成非常多的自动驾驶的数据比如说
比如说自动驾驶现在最大的一个瓶颈就是说你现实世界中有很多的那种比如说 corner case 吧比如说像是一个这个飞机撞到了这个这个马路上这样一般你的数据收集是很难收集到这样的例子的但比如现在你就可以通过视频生成模型来帮你生成更多的这些 corner case 然后你可以把这些情况加到你的数据集里面然后你就可以得到一个更 robust 的一个自动驾驶的一个模型
所以这个其实是我们这个对于这些视频生成模型的畅想之一了解我非常同意就是这个他肯定第一波用的是影视然后我补充一个我觉得很有趣的就是我们前采的时候知秋提到这个作为一个 AI 专业的高材生现在已经开始去研究电影语言运镜跟分镜了哈哈哈哈
我突然想到那个知秋在说就是在讲运镜怎么复杂我想到张艺谋前一段那个梗一镜到底是不是很大胆是这样的跟所有人说的都是一镜到底是的就是这种一镜到底真的是对于演员对于摄影师是一个非常大的一个挑战
然后但如果这些视频你用视频生成模型来去拍的话那其实非常非常容易但是目前的模型还没有到这个这个程度但我相信这个未来一两年是会有这样的能去拍摄场镜头的这种视频模型的出现以后就有一个满江红 AI 剪辑版没有结果明年我们聊的时候知秋说到最后我还是放弃了哈哈哈哈
对但这块的确就是得看资本还这个会不会接着给这些公司投钱因为视频生成模型它的确会比图像生成模型可能要烧至少这个十倍百倍的资源吧那对这个就是我刚刚想问的一个小问题就是说这个文本到图片到视频可能中间还有一个音频比如文本到我不知道音频跟图片哪一个更大一点我也不知道
他们的这个算力需求的这个差异是一个什么概念呢嗯就是现在其实就是基本上这个大部分不管是学术界还是工业界用到的模型架构都是这种 sequence to sequence 的架构就是说他其实本身上做的事情就是把不管是任何模态的信息他都会把它变成一系列的这个 tokens 嘛
然后比如说我现在说一句话我说这个 hello world 我说这么两个词然后一般原模型对它的处理就是把 hello 当成一个 token 然后 world 当成一个 token 所以说这么一句话的话它其实就是这么几个 token 它就是两个 token 然后一般我们跟 XGBTC 对话就即便说我把一整个这个我的代码文件发给他了其实最多也就是可能十万个 token 左右吧
但其实如果是这个图像的话就会多很多比如说一个图像目前大家做的事情就是把比如说一个图像给拆成比如说很多很多的小块拆成很多的正方形的小块然后比如一个图像你可能拆成最少可能拆成比如说 16x16 然后比如说你想得到更好的效果你想看清图片里的细节的话可能你就要拆得更多你拆到比如说 100x100 也是有可能的
所以说其实你的一个图像本身它其实可能就是要比得上比如说一整个代码文件的一个大小然后视频的话其实就更夸张了一个视频其实就是这个很多个图片的一个连续嘛然后一个视频一般一秒钟的视频像现在我们基本上看的都是比如说 30fps 60fps 就是说你每一秒钟其实都是有 30 张图片或者 60 张图片
然后如果说我们是希望用这个 4RJ 模型来生成比如说一分钟的视频的话那其实相当于就是哇那得有上万张图片了然后但视频生成这边其实有一点就是说视频的信息很多是这个连续的就是说可能你这个第一帧和第二帧之间基本上是没有什么特别多的变化
所以说基本上现在学术界工业界在研究的就是说哎你怎么把这些有用的信息给压缩到一起就是说与其说你把一个视频就当成是几万个图片你可以比如说就提取出来几个关键的针然后比如说用可能几百个 tokens 你就可以解决这个问题
但就是这样的话我相信我觉得如果理想情况假如说我们有无线的能源无线的芯片然后无线的数据最好的肯定还是像训练员模型一样我们就比如说每一个 pixel 我们都把它当成一个 token 然后但这个不可能实现了就是短时间内不可能实现我相信这样肯定会得到最强的模型
但这个目前来看的话我们在视频生成这一块大部分公司遇到的瓶颈还是在算力这一块就是说因为大部分公司也就那么几千张卡几万张卡可以去用所以说你是一定要对这个模态进行一定程度的压缩的然后不管你怎么做压缩它一定是会损失损失一部分的信息我
我本来准备了一个问题我突然误了就是我当时有一个问题就是说为什么 AI 生成的这些图片视频总有一种油腻腻的感觉嗯
这个就是不是你说的就他没有把一个像素当成一个 token 而是他可能是一小片一小片的在分析然后导致就是他有点就是过于怎么说我觉得这个是很好的问题这个可能还真的跟我刚才提到的不一定是同一个问题然后我其实个人感觉很有可能是因为他们用了一些就是数据筛选的方法
换句话说就是他们可能筛选数据的时候其实现在的大模型它其实分成两个部分第一部分就是说你先追求量你比如现在你互联网上能找到的所有的文本库或者互联网上能找到的所有的视频上面去做一个预训练这一部分叫做 pre-training 预训练然后你会得到一个很强的基础模型
但这个基础模型的问题就是说他可能什么都懂但他比如说不是特别专精因为就像是比如说我们其实我们平时用 YouTube 这些这个视频流网站的时候我们其实也有这种偏见我们其实能看到的视频一般都是那些大家已经认可了非常好看的视频
但实际上就是说你如果看 average user 普通用户上传这些视频那可能拍的就乱七八糟的然后可能分辨率也不高然后可能这个流畅性也不是很好然后内容也不是特别的有意思
所以其实说就是你如果用了大量的数据训练的话你的得到的这个模型你直接比如说随便丢给他一个这个 prompt 他可能就会给你生成这么一个很平庸的视频但其实我们现在的作为我们一个这个这个互联网的这个原住民我们其实已经这个口味已经变得很刁钻了我们其实一般只能看就是所有用户上传视频里面最好的那百分之零点一
所以说其实现在的模型的训练方式也是在用这套逻辑就是说他们在进行大量的预训练之后呢他们会再通过这个人工的筛选或者是加上一些机器的筛选
对加权然后他们会比如说从比如说几亿的这么一视频里面挑出来几千个最好看的视频然后他们只在这几千个最好看的视频上面去做一个训练然后这样的话他们得到的这个模型就是说他们会非常的像这几千个视频的风格去做一个靠拢
然后很有可能就是说这个这几千个视频他比如说不光是用了那些很真实的视频他可能用了很多那种本身就很油腻的那种那种质感的视频所以说导致就是说我们最终看到的这个生成的结果也很油腻但其实我个人感觉就是最新的一些模型他们其实做的也更好一些了像 Google 他们有些模型其实现在生成的这些视频感觉已经像是我 YouTube 首页会给我推荐的视频嗯
好这种叙事待发的聊天感觉太爽了三分之一万对我的一万个问题下一个来了就是刚才我们说了几个东西这个就我发现了一个非常非常好玩的假设就我把几个我们刚刚提到的东西揉在一起变成了一个那种思维实验吧就是说
我刚想到第一个问题是我们可能永远都不会达到那个世界模型因为如果我们达到那个世界模型的话那基本上就意味着说我们复制了一个世界嘛那如果我们复制一个世界的话理论上来说你的能源是不够的嘛
除非比如说我们去什么殖民外星然后我们把什么火星什么金星木星我瞎说呢就是其他星球的能源都拿过来然后我们复制了一个地球的这个世界这个可能是可行的这个是第一件事我想到的就是说世界模型的上限可能是这个能源吧就是我们没有足够的资源真的去复制它
这个事情当然就已经让人想入非非了就是我们说世界模型的时候我们就要开始质疑就是说什么是真实的什么是虚拟的我们是不是活在一个这个虚拟的世界里面既然我们未来认为我们能够做出来大家无法分辨真伪的视频音频图像文字这些东西
然后我们现在已经说这个 XGBT 已经能通过文字的所谓图灵测试了然后我们前采的时候知秋说可能视频我们也很快能做到这种就是说如果有一种视频的图灵测试可能我们也很快就会达到那个水准这个是第二个事情
我还在构建我的这个思维实验大家这个 stay with me 然后第三个事情第三个事情是你刚刚说自动驾驶的这个 corner case 就是这个小概率事件的发生比如你说飞机突然失事了的这么一个场景可能是我们在现实世界中不会看到的一个场景但可能万一这个自动驾驶需要的话我们就需要比如说这种用这个模型
训练模拟这么一个场景然后让这个自动驾驶的模型然后知道万一出现这种极小概率事件应该怎么去应对对吧那我们把所有的这些东西放在一起的话我们把这个自动驾驶的这个故事如果再加一个参数就是假设这个车里面有一个人
这个人会做什么它可能也会影响到这个车的这个走向嘛我们就这么假设那这个人可能我们就也需要用一种模型来去模拟就是它也是这个事故可能会发生的一个变量嘛
对不对我不知道你们听不听得到我这个话要往哪走听不明白了对就这个事情的结果不就是变成了如果我们现在的逻辑就是我们想要预防一件事情我们可以通过这些模型的方式先去生成一个场景对然后来去比如说给我们自己的这个世界需要用的一个另外一个模型去学习这个东西以便这个东西不真的变成一个灾难
那我们把这个逻辑往下推演就是这个东西如果越来越扩大的话它就有可能最后变成最后谁是谁的训练场对我们如果有一个无限的能源提供的话那比如说我们现在所生存的这个世界它可以就是比如某一个文明再去模拟比如说我们现在这个世界是建立于和和平的这个 power dynamics 的前提下的
然后呢他模拟非常多的人模拟非常多的这个世界的这个运行机制然后让他自己去发展看看有一天这个和平会不会崩溃以帮助他的世界来去判断说他现在的这一套运行机制是不是合理的
我觉得 OK 如果能源是无限的话或者说如果有某种方式解决能源问题是不是我们能达到世界模型就意味着我们真的没有办法判断我们现在在的是不是别人的一个 corner case
我们进到这个问题的速度比我想象的还要快是我也觉得但是就箭在弦上不得不发了我觉得这个已经好几个东西都聊到了
我觉得这些讨论还都挺有意思的是我平时在搞 AI 研究的时候我一起考虑的一些问题但就是话说回来就是我感觉我可能我们说的世界模型的这个概念会有一点点区别我可以想象就是你们想象的世界模型是说我们复制了一个世界比如说我们复制了一个地球然后这个地球上有七十亿的人然后他们可能每天在做着自己的事情然后我们想预测比如说他们会做什么样的事情
然后我能想象就这种世界模型如果真能实现的话那那个时候我觉得我们人类的这个存在肯定是这个存在感会遇到一个危机我们会不知道我们到底是活在真实还是虚拟世界了但我其实个人感觉目前这个我所能看到的这个大家想做的世界模型其实更多的不是说复制一整个世界而只是说复制就是说我们的这个人所能从世界里面接受到的这些信号
比如说视频的这些模型我们其实就等于是来复制说我们人可能会看到这样的景色所以说我们希望把这些景色给学到这个模型里面然后这样的话这个模型就可以产生这个无数多的就是我们人眼可能可以被接受到的这种视觉信号
然后同理还要比如说这个音频然后图像这些都是然后另一点就是说这些模型比如它可以用来模拟就是说我们做一个人我们人脑是在想一个什么样的事情然后其实这样的话就是说我们其实归根结底这些模型它的上限并不是说我们需要穷尽于整个世界的能源
而指说我们只要能复现一个人大脑他所能接受到的信号和他所输出的这些信号其实就已经足够了然后人脑呢其实又是一个比较不是特别耗能的一个一个不是特别需要能源的这么一个一个器官所以说我觉得这一点其实是一个可以有有可能会去实现的
我相信未来几年我们会看到很多的视频像现在其实比如说很多网站上已经有很多图片是 AI 生成的但是我们如果不是比如说平台给我们提示一下我们可能自己根本就识别不出来
所以这个将来我相信视频的话也会出现同样的现象就是说很多视频这个它不一定完全是 AI 生成的但它比如说是可能通过一些这个人类的这种不管叫提示词工程师吧然后或者反正他用了这些模型然后比如说和自己一些人物做了一个结合然后生成了这么一个视频然后最后也达到了一个一家乱真的一个结果我相信这些都是一定会发生的事情但我感觉就是
如果只是到这个阶段的话我估计人还不需要这个还不会失去我们的这个存在感我们只是可能上网的时候要多留一个心眼我突然有一个特别特别这个 sidetrack 的一个想法就是当我们一切都能生成的以假乱真的时候它会怎么影响我们的
科研的最前沿呢因为如果你没有办法判断真伪的话那我有一些研究的证据就感觉没有办法判断真伪了对吧就是如果我生成这些我研究的结果的一些比如截图然后数据所有这些东西可能当然对对对科研里边有一个简单的方法就是别人再去做一遍看能不能复现
就他可以再去做一遍验证应该不是那么大的问题应该还好但我没说吧没有我觉得这个问题特别好我也觉得这个问题特别好这个问题特别好其实你说到这个学术界复现的这一点其实大家都知道这个东西很重要但其实很多时候科学就是没有办法复现的
然后甚至像 AI 这种学科还好一点就是说我们有一些模型我们直接放到网上别人可以拿过去用然后在我们的这个数据集上做一些测试但比如说你如果落到一些实体的机器人上面那其实就没有完全没有办法浮现了就可能你这个机器人在我们这个实验室里能 work 那你换到一个换另一个实验室它就不能用了这是完全可能有可能发生的情况
所以就是我感觉其实现在在做可复现性的科学这一块其实大家做的也没有说实话没有那么的多我其实个人感觉在学术界大家做的更多的事情是讲新的故事就是说看有没有一些新的一些学术界我们可以去做的一些东西或者提出一些特别有意思的一些观点
然后其实可复现性这一点不一定有那么的那么的重要然后反但我觉得有一个很有意思的一个现象最近就是我不知道你们有看到新闻就是有很多人在做这个 AI scientist 就是想用 AI XGBT 来取代科学家
然后这一套就是我身边有朋友在做在做这块研究基本上已经可以做出来一个框架了就是说其实你现在如果想想一个科研的 idea 说实话没有那么难比如说你想做视频生成你可能比如说只要找一下这个领域前几个月的比如说最新的试片文章然后知道他们在做什么然后再用一个 XGBT 比如说提出一个新的想法比如之前他们没有考虑到的一些点
然后你可以比如说用这个 XGBT 来调用一些代码机器人但是代码机器人本质上也是一个 XGBT 让他来帮你去写这些实验的代码然后最后你写论文也可以用一个机器人把你所有的实验结果整合到一块所以其实这些框架已经有人在去做了当然好不好用肯定是不好用的只是说就是这个你觉得将来会好用吗
我觉得得看就是我觉得每一个环节都有有很多优化的可能性但比如说就是的确像是这个我自己个人在做科研的时候想 idea 这块我基本上不会用 AI 因为其实 idea 是我们最不缺的东西我们其实最缺的是这个时间还有包括实验对对对还包括这个芯片
这些是 AI 没有办法帮我们解决的然后咱们比如说像是写代码呀然后包括写作呀画图啊这一块其实大部分都是 AI 来帮我们去做了所以其实我个人是觉得就是说还是有一定的有一定的价值但就是这个东西能不能取代人它肯定可以取代一个比如说你现在想培养一个小学生来去做研究那肯定不如你直接去这个调用这个用提示词来让 XGBT 帮你写一个文章
我想到就是天宇说的就是说 AI 对于科研前沿的一个影响就是说想到其实很多时候这个可复现性本身已经成了一个稀缺品就是他好像是说我的理解是虽然理论上你的实验应该可以被复现但是
大家的实验也越来越复杂因为现在行业已经发展了很多年你可能很难达到就是真正复现他实验的这个前提条件所以你说他的实验可以复现吗可以复现但你怎么凑齐这些前提条件呢这个本身成了一个问题然后很多时候我们发现一个实验造假发现他这个数据是 Photoshop 的不是因为这个东西真的被复现了而是我们发现他那个图 P 的不太好啊
发现了一些这个批图上的问题这个我觉得其实也说明了我们的这个科研本身也可能有一定的这个空子可以被钻嘛那这个也是一个风险吧嗯
我想回到这个我们最初的那个问题上面我觉得这个节点也不错就是我们之前两三期之前跟马昭远教授就是他是学物理然后逻辑然后也从事过 AI 研究的一位就是很有成就的教授
跟他聊的时候他就提到现在的这个学术界跟工业界的这种越来越大的割裂跟分离的这么一个现象然后就是刚才我也听到嘛就是你讲说比如说现在学者和科学家这边在做的可能是提出一些新的构想跟故事
然后但我们另一方面刚才也说到了就是大家在工业界就是 AI 的这个前沿的这些公司这边大家在做的这个应用的这些模型的科研的基础其实是已经是比较固定了的这么一个状态我就想回到咱们最早聊的那个问题就是说一个科技浪潮的发展的脉络吧
因为其实我觉得知秋算是非常完整的经历了就是从这个大众化的角度爆发前爆发中然后到现在大家现在听到哎呀有点麻的这个状态虽然看起来他的这个
价值还远没有被完全的展现出来所以我有点好奇就是如果你来复盘这个整个的发展比如说从 transformers 这个东西出现或者从你比如说接触到这些东西到它的爆发就是你所看到的这个过程和总结是什么样子的
对我觉得这个问题还挺好的然后我觉得如果这个要定义什么时候 AI 出现了现在的开始了这一波浪潮那可能得一直推到十几年前吧可能就是 10 年之后然后那个时候就是可能也是 Google 最先开始就是他们这个用想试用一个端到端的一个模型然后来去学会这个世界上所有的这些知识然后其实也是从他们那边最开始开始做了
然后我个人是感觉就是这个这十年的发展其实是在验证了就是说他们当时的那条路是正确的就是说你只要不断的往上去积累更多的这个这个你的网络的层数去做积累你的参数量去做积累然后更重要是你的这个数据量你要去做这个积累只要积累到了一定的量级你就可以得到一个模型它可以帮你去做所有的事情
然后其实我是觉得这条路的确实现在已经被走出来了然后这个想法其实它的诞生我觉得也没有特别的远其实也就是这么十几年的事情然后其实我说实话我觉得现在大家这条路还没有完全的走完
就虽然说已经大家都意识到了这个数据的重要性然后但比如说你这个数据的这些质量呀然后包括就是说你怎么保证你这些数据它是一个对于这个世界一个很公正的一个认知比如它不会有一些这个一些偏见不会有一些这个自己的一些这种就是 bias 或者一些歧视就这些我觉得还是大家没有完全做好的
一些点所以其实说这条路其实还有很多我们可以接着做的就数据的力量还有包括模型的力量其实还没有被完全的发掘出来
嗯然后但这个回过头来就是在这整个周期里面我确实是感觉就是作为研究者我觉得大多数的研究者是看不到这个未来的这个这条路的然后这个其实说实话就是 OpenAI 当年也是嘛就是也只有一个人在做这个 language model 然后其他人当时还都在这个做游戏的 AI 然后所以说其实我个人是感觉就是预测这个科技的浪潮其实是一个挺挺困难的事情然后
然后往往就是说这个需要什么样的人就需要你有这个自己的想法
然后你可以去践行你这个想法只有把这条路走出来我觉得才可以做出来这个最优秀的这种成功我补一个那个就是比较场外的信息就我最近回听了一些 Sam Altman 在就是可能七八年前上的一些演讲那个时候他还在 YC 就是那个 Y Combinator 然后那个时候他已经开始去在做 OpenAI 的一些就是工作了
大家当时熟知他是因为他是 YC 的那个负责人嘛然后包括他好像也在 Reddit 做过董事长什么的这些工作大家是因为这些事情知道他然后当时就有人问他说什么未来他最看好的东西是什么之类的然后他里边就有提到 AGI 七八年前提到 AGI 当时他做客的那些就是高等学府的教授就那种啊哈哈就是这种反应你知道吗就是就非常明显今天回去看的时候大家的那种
不屑程度之高吧就是虽然我们也能想象了但是就是你在那个时候跟人说我要做通用人工智能什么的确实是有点难以想象但我觉得还是一个挺有趣的当时看到的时候感觉是确实是这样的那种感觉是但其实说实话到了今天比如说同样一个问题去丢给那些老教授他们可能也会觉得你现在这个 AI 它不是一个通用人工智能
就是说这个其实我觉得 AI 可能这里面大家走的一个弯路就是说之前大家也不一定叫弯路吧说不定这条路将来还是可能会被被人捡起来的就是这种符号主义就是说我们想理解世界的方式不是通过训练一个端到端的一个黑盒子而是通过把这个世界每个元素去做一个特别明确的一个结构
比如说我们现在其实说实话前几年的自动驾驶大家也是这么去做的比如说我们会得到一些视觉信息然后把比如说这里面有几辆车然后你在哪条路上这些信息比如说都通过符号化的方式然后喂给你的一个控制算法然后让他来去做一个驾驶的一个行为
但其实最近这个我不知道特斯拉好像他们已经开始做这种 end to end 了就端到端的了就是说你直接接受信号然后直接输出这个动作然后你中间发生了什么事情你不是通过人为的方式去做这个解构所以我其实个人感觉这个目前来看还是端到端的这条路最容易实现因为你其实要做的事情就是不断你就是去大量的收集这种就是你输入的视觉信号以及你输出的这个你驾驶这些行为
然后反倒是你要去做解构的话你其实要收集更多的数据然后你解构每一个环节它都可能出错所以我其实觉得这个其实是一个 AI 可能这几年我觉得更多人意识到的一个点之前可能很多 AI 的任务包括就在 NLP 就是自然语言处理这块在 GBT 没有出来之前他们也都是用这种符号主义的方式来去做这些任务的比如说给一句话我们现在想对它做一个回答
我们第一个要分析说你这句话里面的名词是什么动词是什么然后可能涉及到的知识是什么然后你可能要去比如说调用一些外部的知识库去提取一些可能相关的一些知识然后但其实现在你发现这些都不用了你不需要去解构这里面一句话里面的这个每个词是什么意义你其实只需要有一个模型它给一个输入给一个输出你其实就可以得到一个非常好的一个效果
所以我其实个人感觉这是这波浪潮以来就是大家意识到的一个很重要的一个点虽然说现在还有很多人在做这种就是结构主义或者符号主义的工作然后但的确就是这些在工业界里面已经不算是这个主流了但如果要说这些就是端到端的这些模型它真的能不能解决所有的问题
我个人也是觉得他不一定就是说他的确可以做很多事情但就是你要说他是一个 AGI 的话那好像他还是没有到一个我们真正就是当年科幻小说里面想象的一个 AGI 就一个真的是一个什么东西都理解然后什么东西都可以去帮我们去做一个结构然后包括有些我们人没有想明白的问题他可以帮我们想明白的这么一个 AI 我觉得这个东西还是这个还是挺遥远的
就是复读机的本质还是超越不了那种感觉对对对 是的 是的当然我觉得可能大家低估了就是说你复读机的这个意义对 因为大部分人是不如复读机的对吧就大部分人不如世界复读机的是的 是的可复读的东西不多对 任何一个个体都一定比不过世界复读机
对吧这个是可能它很有价值的前提这个就好像你的知识不如互联网对我感觉打标解构的形态的符号你说符号主义的这种解构方法的一个核心问题是所有的符号都需要某种定义
就是这个定义是无法就是完成的那这得做到什么猴年马月去然后这个颗粒度就我纯是外行想象这个颗粒度也很难很难去搞就我们之前跟马昭远教授聊的时候我觉得他也说了一个很有启发的事就是所有的这种逻辑的争论最后就是定义的争论就很多或者说很大一部分是定义的争论
就是大家在说的是不同的东西同一个符号大家的理解也是不一样的所以会
对感觉这个挺难的是的对因为其实我个人感觉就是这个很多这些研究出发点都在说我们人比如说会怎么去想这些事情然后比如说我们人有自己的一套逻辑系统然后我们可以用这个逻辑系统去做一些符号主义的一些这种运算然后通过它来计算出来我们当前的这个一个情况的一个最优的一个解但其实我个人感觉这些不一定是我们其实到现在也没有搞懂人脑是怎么运作的
说不定人脑也是一个这个大号的一个 transformer 了所以我们也是无非就是有一些输入然后我们有一些输出
然后那你只要你能通过一些方式来模拟这个过程然后能达到这个目的其实我觉得它就可以算是一个不管你叫世界复读机还是叫世界模型这谁还分得出来我和变形金刚好像大家都忘了 transformer 大白 get 了对不起你说就你这些烂梗是只有我能 get 是吧
我觉得这就先听懂了我看好了 OK 我们就不说你之前的另外一个烂梗的事了
你觉得如果当时没有比如说 Elia 和 OpenAI 这样的看中了 Transformers 并且大举投入 Transformers 的这个模型的这样的组织存在的话它最终会是个大浪淘沙还是可能我们就暂时没有走上这个 AI 爆发大语言模型的这个道路呢
其实我感觉就算是没有 openAI 应该迟早也会出现因为其实就是我们现在用到的这个 transformer 最早也是 Google 做出来的然后其实在 GPT 之前他们也做过训练过大圆模型其实说实话我觉得可能没有 Google 不一定会有 openAI
就是先是 Google 他们训练了一个这个圆模型虽然说他没有用那么多的数据就在当年是一个非常大量的一个大的一个文本库但今天来看的话就可能我们随便一个实验室都可以训练出来的一个模型了
然后但就是当年他们其实也是他们先走出这一步然后才让大家看到了哦你只要去堆数据你是可以这个得到更好的效果然后这个是一点就是说这个的确还是得有人先走出来这个第一步当然走出来第一步的人他不一定是最终能做出来最优秀的模型的那一批人然后另一点就是说的确这个模型的算法这一块还是有很多的区别的
比如说就是这个这个我就 openai 他那边就是坚定的就是要做生成式的模型就他所有的任务他都把它变成一个生成式的一个一个任务然后对这条路的确也是一个我目前来看我觉得他是一个更有这个效率的一条路吧就你可以通过这种方式去把所有的数据给融合到一个模型里面去
我可能更本质的问题是就是能跟你聊这个问题的一个核心是在 XGBT 这个东西大众化的这个市场爆发之前你就在做 AI 相关的研究吗那比如说在那个十点学界大家会关注到比如说 Transformers 这个东西就是那个时候大家认为这个东西是一个牛逼的东西吗还是说大家其实觉得这就是另一篇 paper 然后
然后所以我觉得比如说 OpenAI 他们的价值在于说因为他们重金重举投入了这件事以至于我们掀起了就是在这个时间点掀起了这么一个 AI 的浪潮也许你比如说可能多年之后这个大家又回来看到这个东西或者是怎么样的但是我觉得比如说他们在那个节点重举投入是不是一个很重要的节点
其实我个人感觉有没有 OpenAI 或者就是它这些事情都会发生因为其实说实话在 GPT 出来之前大家其实也认识到了就是虽然每个人会有不同的观点但也知道就是你用这样的一个端到端的模型结构然后你找对更多的数据更多优质的数据你就会得到一个更强的一个模型所以这个共识大家都有然后只是那个时候大家还没有意识到这个事情的重要性
就是可能那个时候大家都说哦你有更多的数据你就会有更好的结果这不是这个理所应当的嘛但就是你去怎么整更多的数据呢然后你这个你这个也要花很多的成本对不对所以说这个我个人感觉就是大家没有意识到的就是说哦你找光是这个把数据给堆上去就可以形成这么一个一个量到质的这么一个一个提升我觉得这个是大家可能当时没有意识到的一点就大家都知道数据越多越好模型越来越好但
但就是这个没有人真的把这条路给去做出来然后所以说我这几年能感觉到的就是所有的大厂基本上就是那些可能就是还想在这个生成式模型或者说通用模型这一块有所建树的公司他们都在尝试着把自己的这个比如说研究院的人员给去缩编然后让更多的人去加入到这个同一个模型的训练当中
比如像 Meta 呀 Google 啊他们其实都在做这个事情就之前可能就是说每个研究院都会有比如说几百个不同的团队每个人会研究这个模型的一小部分现在的话基本上就是说大家都放下你手上的工作我们一块来洗数据一块来给模型增加参数量
然后但这么做的确这个至少这几年来看在资本上面还是这个运作的很成功的至少 Meta 的这个这个拉曼模型的确做的还是很强对 Meta 已经股票起死回生了从元宇宙那一波哦然后变成哦是的是的然后现在除了 Meta 之外就是我了解到的基本上美国的大厂也都在做这个同样的事情然后
然后国内的话其实也差不多我觉得国内反而可能本来之前在国内做 AI 这块人也没有那么的多然后或者说就是有资源的组其实也没有那么多然后其实现在也是就是还是那几个实验室那几个学校然后再接着做这个方向的研究然后其实也包括做这个方向的一些这个面向这个消费者的一些模型然后我其实个人觉得做的都还
都还可以就是说现在其实已经用用的场景已经非常多了只是说我唯一一个 concern 就是说可能目前来看的话就是说真的用这些模型来完全替代人或者说就是给你的这个这些产业来达到一个比如说两倍或者三倍的这么一个增效我这个来看的话还是没有到这一步所以说可能资本不一定会在这个未来的几年还接着在这个方向上会去做更多的投入
所以就是这个归根结底其实我个人感觉更多的还是这个怎么说呢我觉得营销还是挺重要就是说你这个东西有没有真的吹出来然后有没有让更多的认识到用到然后让每个人自发的来去这个给他做一些宣传我觉得这个东西还是挺重要的你觉得我们该管现在爆发的这个东西叫 AI 吗还是我们其实就应该管它叫 Transformers
肯定不能叫 Transformers 我觉得叫 AI 还是比较 make sense 的当然就 AI 里面有各个不同的方向然后不同的任务然后每个模型做的事情都会有些区别我觉得统称叫 AI 没什么问题 Transformer 的话其实现在已经不一定是主流了因为现在甚至很多人在说 Transformer 已经不一定是最有效的架构了因为它毕竟它的运算的成本还是比较高的
然后但是这一块的话就是我个人感觉就是我自己在做研究反正我天天用的模型都是穿梭门这个所以说未来大家会用什么模型不好说但我觉得这些已经不是这个最重点了就是模型用什么不是那么的重要就我觉得更重要的还是说就是这个模型所接触到的这个数据是什么就它的这个数据是否是涵盖到了你感兴趣的点然后我觉得这个其实是最重要的事情
对你知道为啥我会问这个问题是我刚才想问就我们还会或者说你预期里边我们还能看到下一个比如说 AI 模型的一个大的底层的范式转换吗这个是我刚才想问的问题然后我这个问题我当我想问出来的时候我就想突然想到说因为你刚才提到说可能这些底层的模型的技术它已经没有什么太大的变化了大家现在都是在进行
竞争什么数据卡然后算力然后包括数据的打标之类的这些东西所以我刚才在想说是不是其实这一波爆发的我们不应该管它叫 AI 而是就是那个模型它爆发了就以这个模型为基础的这一套东西爆发了
对我同意其实我个人感觉就是模型这边就是其实也不是说没有什么可以研究的了就是说它肯定还是有很多可以被优化的比如说你一个模型你之前是在 1000 张卡上面训练你现在怎么比如说扩大到这个 1 万张卡 10 万张卡上面训练其实这里面肯定都会有很多的工程上的问题这个学术上的问题
但其实我个人感觉就是不管模型怎么去改进其实这个东西我觉得和大多数人没有什么本质的关系因为这个因为模型的研究这一块已经被大厂垄断了就是为什么所以说我在学术界其实我也不完全知道说你这些模型到底背后用了什么样的架构像我们到现在都不知道你 XGBT 是什么结构你 SOAR 是什么结构他们只给了一些一点点的信息
然后所以其实我个人感觉就这些东西我们这个一个是不知道一个是知道之后呢就是说我们也没有这个集群也没有这么多工程师来帮我们去落实这些模型但我觉得跟我们就是可能跟更多人最有关系的其实就是数据
就是说如果说 XGBT 它能接触到你所在的这个领域的数据然后那其实它很有可能就可以来这个不能叫代替你的工作吧就是说它可以这个来帮助如果你能用好它的话它可以来帮助你的工作然后这个其实是一个我觉得最有这个最值得大家去思考的一个点就是说你你所在这个行业就是说它有没有被文本化有没有被信息化
然后所以说回到这个到底是什么的爆发其实我个人感觉是一个数据的爆发就其实还是这个在 AI 火起来之前我记得当时我高中的时候其实大家都在聊大数据大数据然后其实说实话我感觉这一波其实还是这个大数据就是现在这个 Big Data 这个词大家不会再去说了因为已经被用的有点这个有点烂了这个词已经有点土了但其实我觉得归根结底就是这一波的爆发其实还是数据的爆发
就是一个新的大数据的用法对一个新的数据用法然后另一方面的确也是就是随着这么多的更多人开始用互联网然后这么多的流媒体
所以就是的确互联网的信息也是在不断的去去去这个应该是以指数级别再去增长大数据变成了基础设施对对对是的是的所以我其实个人感觉就是为什么中国搞不出来很强的模型这个还是得这个这个怪我们的中文互联网毕竟还是没有那么好的环境
再往下就没法说了我想总结一下就是我们刚刚说的就是现在走到今天 AI 比如说这些厂商的大模型厂商在竞争的是什么
就是我们刚刚说了几个我来复盘一下然后如果我有说的不完整的之后来补充啊呃就首先是数据就是数据的这个量以及数据的这个精度那也就是说数据和打标数据这两件事情然后呢再一个是能源和算力对吧就是我有多少的钱去投卡然后我有多少的钱去跑这些我有的卡然后再往后的话就是
还有就是那个模型自己的可能一些比如说微调什么这那的是不是就这几个是主要的竞争点还有什么其他的吗对如果我来总结一下的话我觉得目前可能最重要的竞争点总结的很好就其实就是一方面是算力和能源就这个是但大部分的大厂都很有钱所以说是不是一个太大的一个问题
然后数据这一块我其实感觉其实更多的是一个人力的一个资源就是说除了那种就是客观的能源就是其实人力的资源我觉得是一个很重要的一个点比如像这个 OpenAI 他们其实可能 80%的精力都是花到了这个数据的这个收集包括数据质量的提高上面
然后所以其实这一块就是说不光是需要大量的人工然后也需要很多的工程师一块来研究这些问题就是怎么更高效的去收集更多包括更高质量的数据然后这些其实就是人力的人力的资源其实我觉得一个大厂在主要争夺的一个对象
然后可能最后的话我觉得一个很重要的一点就是可能大厂还不是特别在乎这一点但就比如说一个 AI 的小厂的话要在乎比如说一个 AI 的应用就你是怎么接触到这个用户的比如
比如像图像生成这一块就是我们都知道 MajorNi 这个公司做得很成功然后他们现在这个日活月活这个用户体系非常庞大然后每个人都在给他们贡献这个每个月这个几十刀的这么一个会员费然后带你像同样的这个搞图像生成的公司比如像这个 OpenAI 肯定也花了这个同样多的钱来去搞这个模型
但我相信就是他们这个大力但我不知道对他们的股票增长有没有帮助了就是说这个目前来看还没有办法用这个模型去做这个很多的这个收费的事情然后包括一些搞开源模型的像这个 Stable Diffusion 然后尽管说他们模型其实现在做的质感已经很不错但就他们开源的模式他们可能商业模式上面就挣不到太多的钱像我了解到他们基本上就是他们公司目前已经这个解散了
他们可能现在训练出来的模型就是说如果你是一个公司想用他们的话一个月得给他们 3 万到 5 万块钱但我感觉这个商业模式肯定就没有像 Midgernie 那种通过大量的用户来去每个人收一点点钱的模式要做得更 scalable
我感觉就是怎么去把这 AI 模型做到这个应用上面也是一个就是每个大厂然后每个小厂都要去关注的一个很重要的一个点就已经不是一个现在你说你是在做 AI 当然你如果是做视频生成可能现在很多人会无脑给你投钱
然后但如果你是你说做圆模型的话那我感觉基本上就是说你得讲清楚哦你是做一个什么样的应用然后你这个应用是面对什么样的群体他们能给你能给你产生多少的利润就可能市场还是更回归理性感谢这里边其实我最关心或者我觉得最有意思的是这个能源的部分
这个也是我觉得可能我们之前节目里面包括我去听其他的节目大家讨论的不算多的一个东西不太多对然后他就是我这次也很注意到的原因也是回到之前在那个 Google CEO 前 CEO 在 Stanford 那个就是背景的演讲里面的他提到说美国人应该跟加拿大人这个交朋友他当时那个话翻译过来就是加拿大人啊可好这个
人傻能源多大概就是这种感觉
反正回到这个问题吧就是这个我们现在对这个能源的你会有这个概念吗就比如说它会用能源到什么程度比如说如果我们继续发展这些视频然后的这种世界模型因为我们刚刚说到视频对算力的要求它是类似于指数级上升的嘛那我估计那也就意味着能源的需求是指数级上升的嘛
对但其实我个人感觉能源这块应该还好就毕竟支持这么大的一个互联网也是不少的能源那现在没有互联网我们都没有办法去好好的生活所以我个人其实感觉这一块的能源不是一个特别的 concern 然后但话说回来就是其实在 AI 领域这边有很多人在研究就是说怎么让这些模型做得更节能
不是像图像生成之前比如说那些模型它可能生成一个图片得花个好几分钟然后现在就会有很多人研究说你怎么用更少的这个步数来去生成一个同样质量的一个图像然后其实现在就是很多人已经把之前的那些这个叫 diffusion model 就是我最近也在看这个方向
可能一开始的 Diffusion Model 你生成一个图像你得跑 1000 次这个模型然后现在的话就是很多模型就是你可以直接跑一次或者三次或者五次你就可以生成一个同样质量的一个图像所以其实我个人感觉这一块也是一个挺重要的一个研究方向然后当然说就是说其实大家已经想明白该怎么去做了其实更多的是一些工程化一些的考虑就比如说像是 GBT-4Ozo 的事情他们就不断地在压缩他们这个模型
其实这个就给他们达到这么一个节能的这么一个一个效果
然后我相信就是说这个未来的这些大厂也都会做这一方面的不管是研究还是工程所以我是觉得就是能源这一块一定是不是特别大的一个 concern 就是说我相信 AI 一定会达到一个就是说它能带来的价值一定比我们消耗的能源要更多嗯我刚才想说我刚才又想有一个烂梗对不起这个
就以后这个中国的这些 AI 模型得打一个标叫什么 AI 效能标识就是大家能看到什么空调上面贴的那个东西是这还挺重要的像谷歌他们可能每一个模型都会说我这个模型有多少的碳排放是是是但我觉得中国目前的情况还是我们的模型本身的没有人家美国的模型聪明
就这个还是我们主要面临的这个问题因为我是觉得就是只要你这个聪明程度上来了然后你在想节能的问题其实节能是一个比较容易做的一个事情然后但就是你怎么让这个模型真的能达到这个效果是一个比较难的事情了解就是又回到这个这次对话的一个大的灵感来源 Eric Schmidt 的那个演讲上面他提到了一个词叫 knowledge supremacy 智能霸权吧我们翻译过来是这种感觉
所以我当时就想说 OK 我们可以复盘一下比如说中美在 AI 竞争上面的图景和大家的优劣所在然后我就想到我们前采的时候你说现在比如说国内做机器人很有优势是因为国内的工程师相对来说
这还是相对便宜一点对吧然后我就想说 OK 那也就是其实是不是最终我感觉我们刚刚整个聊下来复盘下来就是美国比较有优势的是卡或者叫算力更强一点因为现在有这么一个芯片的限制中国用的芯片稍微差一点意思
然后呢另一方面是刚刚说这个语料库上面可能英文的语料库的整个的上限和它的内容更多一些然后可能中国这边目前能看到的一个优势就是在于我们因为过去这些年的这个大规模的通才或者叫工程师的培训和我们工程师的人力的这个平均价格导致的大学生的扩拙
对对对大学的扩招导致可能国内有这方面的人力的成本优势感觉这个是现在两方的对我觉得总结的特别好然后说个不是题外话吧就是的确我现在在做研究的时候因为我也是在做数据方面的研究我会请中国的这个大学生来帮我标数据然后质量非常非常的高然后比美国的这个美国有很多的标注公司嘛也都是那种就是 AmazonTerrySkullAI
但就是我之前也用过但就都没有我们中国的大学生这个质量标的要标的很细心然后质量上面就是把握的特别好然后同时一个小时 25 人民币然后其实比美国这边的这个人力成本要低很多
而且我也知道像 OpenAI 他们也在做类似的事情比如说他们为什么这个模型写代码很强他们之前也收集过很多这种代码偏好的这种数据然后一般也都是请比如说印度啊然后可能也有中国的一些工程师来帮他们去做这种数据的挑选所以说我的确觉得这一块就是其实我们中国是一个被也不能叫剥削吧就一定程度上我们的确是被用了很多这些人力资源哈哈
不管是机器人还是大模型上面其实我觉得中国都是中国印度这些公司都是非常重要的一个一个力量然后也包括像那些大厂就是其实大部分的工程师还有研究人员也都是我们亚洲人嘛就是印度人也是亚洲人嘛然后其实就是我个人感觉这一块的确是这么一个情况嗯
我不知道这个问题是不是好了就是就是我当时听那个因为因为那个 Eric Schmidt 他现在在做一些国防不叫国防了他说他现在是个军火商
就是他们在做一些可能 AI driven 的这种什么无人机之类的这些东西我不知道你有没有想过就比如说这些 AI 模型如果被投入到战场上面会是什么一个途径我觉得没有任何问题就是比如说就回到我现在自己在做的这个就是我自己在做视频生成然后发现一个很有意思的点就是很多那些大厂用的视频模型他特别喜欢用那种无人机拍的那种视频来作为他的训练素材
然后你就可以用它来生成很多那种像是无人机拍的那种风景照它平时会把无人机的那些这个视频上传的都是那种就比较有经验的然后包括它会去旅游然后去拍一些比较好看的景色本身那些视频就很好看但其实很重要一点就是这些无人机其实它拍摄的手法它其实本质上已经用到了 AI 的算法了
比如说我们经常能看到一些无人机的那种拍摄就它会做一些非常这个速度很快的比如说往前推然后往左摆往右摆然后比如旋转一下角度然后其实这些东西做的非常非常的专业化它不完全是人操控的其实它里面有很多的 AI 的一些算法
然后所以其实我个人感觉就是这个你若一个 AI 它可以来这个做这么一个拍摄的话其实你用这个 AI 来比如说去这个瞄准一个人然后来去做一些这个危害他们这个人身安全的事情也是一个完全可以去实现的
所以我其实个人感觉其实算法层面上这边没有任何的难度就是说只是一个就是这个东西它到底该不该用怎么去用我觉得更多可能是一个政治上的一个问题了就技术层面上我觉得一个无人机它这个比如说就是瞄准一个人过去嘟嘟嘟不会有任何的难度
没有任何问题没有任何问题问题不在这儿问题就是太简单了它就是个问题是的是然后我们回到比如中美竞争上就是你觉得如果比如说这一方有一个所谓远强于另一方的这种超级大模型它意味着什么呢
我个人感觉好像我们之前说的这种就比如说用无人机或者什么机器人然后来去参与战争这种行为我感觉这种可能都属于小打小闹就可能这个大国之间更多的还是这个核武器吧因为毕竟你再多的无人机你丢个这个氢弹过去也都没有意义了我感觉这个可能还是这个真正大国之间在
博弈的主要的元素 AI 在其中能扮演的这个角色我个人感觉还是比较少了
就是在这种就是超级大型武器的使用上我没有觉得 AI 能带来什么本质的提升那就如果这个西化到比如说用 AI 来去比如实现一个对于恐怖分子精准的一个打击那我觉得这个东西是非常非常容易实现的可能将来就是美国大兵他们都不是这个拿一个枪然后一身健子肉然后都是那种戴着眼镜然后抱着一个电脑然后在
啪啪啪打几个字然后恐怖分子就被消灭了我觉得这个是未来很有可能发生的事情叫什么 text to action
对就是虽然我刚才本来想问的是就是软实力层面上面意味着什么但你说了一个又是一种想象的可能性吧就是如果有一天我们这个 AI 模型可以生成和预测一些所谓的就是意图这种感觉的东西他就又回到了那种天网的终结者还是天网的那种想象就是呃
如果我们用 AI 生成或者叫预测一些人会不会做一些可能犯罪行为我们要不要提前去预防这个事情可能会变成一个这个事情好像已经不是未来了这个好像是现在就这个都不需要用到比如说最新的那些 XGBT 这些模型
就我知道像国内那些这个极个比较大的安防公司他们都是这个可以来预测哦你走在街上这个人比如说不好听的他可以来判断说哦你有没有在做一些这个不法的行为然后好听的比如他可以看哦你有没有比如说突发相应病倒在地上
所以就是这些就是对于人行为的预测其实都已经应该都已经实现了所以其实就是这个这个怎么去用的问题了就技术已经在这里了嗯了解如果回到软实力的问题呢就是我们不聊这个战争上面就是
就我们之前有过一个推论嘛就是说 AI 的加持会让一个人变得或者说一个我们打引号的劳动力变得比之前的能力高很多嘛然后呢也就是说如果一个国家有一个更强的大模型那就意味着他的单兵软实力要强很多生产力要高很多嗯
是的我觉得是一定一定是会发生的所以就是说不管哪个国家我是觉得只要有实力还是得去卷一卷这些大模型我其实觉得中国这边可能我们
有几个除了这个人力的优势可能还有一些优势就我们可能集中程度比较高我们有可能比如说国家可以训练出来一个模型然后这个模型可以给所有的比如说国企洋企甚至民企来去用我觉得这种这种的话可能就会比美国这边比如说每一个公司他们来分兵作战要效率效率更高一点毕竟这边就是每个公司都有自己一个模型
同时他们每一个模型要考虑到就是他们各个族群各个人种然后各个地区的这个不同的偏见所以他们在这一块的确会遇到一些这个使用上的一些限制我觉得可能国内的话不会有这些问题
我突然有一个问题就是你比如说我们刚才说到这个中文英文语料库我记得我们上次之前应该也聊到过就是说这个语言的壁垒可能之后就不存在了嘛就是因为就比如说我现在翻译的时候就基本上都是在用那个我有一个插件
然后好像我们之前也提到过那个叫 Bob 他可以调用那个 TrashBT 的 API 然后我就滑词然后让 TrashBT 去翻译那个精度已经非常非常高了那就是我这个问题有两个层面一个层面是那如果已经语言的问题不存在了那为什么就是比如说语调库会成为一个壁垒呢比如中国的这些公司也可以去扒英文世界的语调库
对 是的 我觉得其实应该大部分人是在这么做的就直接把英文的语聊库翻译成中文然后你就得到了一个很优质的中文语聊库所以我觉得这个可能是目前这几年国内的大模型提升飞速的一个核心原因就用了更多的外国优质的数据
我觉得这个才是真正的软实力的问题对我不知道刚才我们讨论的软实力定义是怎样但是就是说我觉得一般来讲软实力的定义可能是就是文化层面或者说就是社会思想层面上的这种你的价值那如果说我们把一个语料可以完美转换成另外一个语料当然我们首先就是不确定它是不是真的可能但我们假设这样做是可能的基于知秋之前的这个观点的话
我们可能也会看到就是说它我们中文会吸收英文的语料库但英文又有多大程度上会吸收中文的语料库在可能一些层面上会吸收但是另外一些层面它可能又不会吸收比如我举一个最近的例子就好像这个
这不是最近有个游戏叫黑神话悟空吗然后这个我不知道他的英文翻译具体翻译的就是质量本身怎么样但是首先你会看到就是很多英文的玩家他对于这个故事本身的这个概念就不够熟悉因为他不了解这个西游记里面可能的有的这些元素是什么
那这个我觉得就更接近于软实力的我们讨论的一个东西那这个不是语言本身能完全解决的一个问题当然就是我们也听到另外一个声音就是说最开始可能英文媒体游戏媒体会对这个游戏有的一些批判是说这个在你不了解西游记的时候不能不太能 follow 这个故事
就有一些另外国内的声音出来说那你这个不就是傲慢吗就是我们玩北欧神话的游戏我们就得了解北欧神话我们玩日本战国就得了解日本战国你也没告诉我大概是什么故事现在你玩了西游记你就让我们把西游记给你讲明白了
这不合理我觉得这个就是对文化软实力到底是什么的一个讨论然后基于这个如果再说一两句的话就是我觉得 AI 如果我们基于刚才说的美国会拥有一个
更强的模型的这样的一个情况或者说任何一个国家中国拥有更强的模型这个我觉得对软实力层面肯定是有影响的因为比如说你什么样的价值观被以各种预言去输出出去什么样的东西被默认为是合理的
什么样的东西被默认为是就是说应该这样去操作应该被这样理解对我觉得这个很对都是会被 AI 生成的内容来影响没错对 AI 它其实有价值观的对我们之前在讲是世界的麦当劳化或者是世界的美国化
那这个 AI 的内容肯定会更加加速这个过程我觉得是的毕竟 AI 的价值观其实就是这个公司或者是这几个工程师他们施加给这个模型就比如说像这个 XGBT 它一定是不会跟你谈论任何黑人问题的
我觉得差不多了然后我最后一个收尾的就是分享一个感受吧看大家有没有什么共鸣没有我们就就把这个当做一个结尾就是我记得大家一直在说一个东西尤其是互联网爆发之后就一直在说我们这个世界在加速嘛就是各种意义上在加速我们从宏观的跟微观上都在聊
这个问题宏观的就是我们比如说刘自新这个小说里面讲到的这种科技的爆炸对吧就是我们是加速进化的然后呢这个微观的就比如说大家从看书到看长视频电影然后到这个中视频到现在短视频就这种注意力和这个信息的这种加速就是很多地方我们都看到这种加速的存在
然后我感觉这个趋势还在 AI 的这个环境下在继续就是我们有 AI 的加持之后一种新的加速出现了就是我想到一件事情到把这件事情上就是实现出来的这个速度加速现在你想到一件事情把它做出一个 demo 的这个速度就是确实是快了太多了我有两个比较有意思的案例吧
一个就是我作为一个完全不会代码的这个个体这个我们最近这个我不是在海外有一个买手平台去把国内的设计师卖到海外吗然后我们有一个新的网页设计然后有一个细节我不满意然后我是真的就是告诉了拆 GPT 我想要这样然后他给我付就是他出了一段代码然后把那段代码粘进去然后他就
实现了我想要的那个结果这个绝对是一种加速原来我至少要个两三天跟这个开发人员去沟通然后还有就是最近我们自己服装品牌这边我们要启动一个新的节目然后我们需要一份这个跟合作伙伴合作的这么一个合同
然后这个合同我就是起了一个新的拆 GPT 的对话框然后我们随着大家沟通说我们这个合同应该有什么样的条款应该注意哪些问题我就不停的让他改就是我想到一个我就告诉他一个想到一个我就告诉他一个然后大概两三天之后他就形成了一个这个合同的一个很完善的初稿可能我们还需要一些人工的审核来确认他没有问题
但是他这个出稿出现的速度简直是比因为我们刚做这个公司的时候也请律师去帮我们出过拟过一些合同不管是成本还是效率都简直是提升太多了就想到一个事情到
做出这个事情的效率在各个意义上我觉得都被 AI 进一步又加速了是的对我觉得我还是挺有共鸣的而且我感觉这里面最重要的就是它减少了就是你和人和人之间打交道需要涉及到的这种不管是沟通的成本还是信任的这些成本对
好呀好那我们就是又是一个非常酣畅淋漓的对话然后这个每年骗你来上一次节目这个就我们就暂时这么说定了好的可以很开心行行行对这为了上这个节目我的话筒都专门升级
对对对这次已经不是胶带沾的是的不是沾到水瓶上好呀好呀那我们这期节目就到这超级超级超级感谢知秋再来参加非常感谢知秋一直都很开心谢谢你们那我们一块说个拜拜感谢参加拜拜谢谢拜拜
嗨 这里是后期的甜语先别急着关掉这期结尾有一个非常有意思的彩蛋本期节目录制最开始的时候呢知秋推荐我们去尝试一下一个叫 SUNO AI 的 AI 作曲工具
然后我们就干脆把那个体验的过程录下来了结果意外的特别好笑所以给大家放一下那请允许我先念一下节目的结尾那如果你对我们本期聊到的任何内容有自己的看法或者补充欢迎你在评论区留言和我们一起交流说不定你的评论呢也会启发到其他的人另外呢我想代表天宇图 FM 团队的小伙伴们来和你请个假
国庆假期这一周我们想让团队的小伙伴们歇一歇所以原定于 10 月 3 日早上更新的下期节目我们决定延期一周在次周的周四也就是 10 月 10 日早上和大家见面希望你可以理解好了如果你喜欢我的播客希望你可以订阅我们点点赞或者把我们的节目转发给你的朋友这都会是对我们做节目特别大的鼓励和帮助特别谢谢你那我们一块看彩蛋我们就上来来试一下这个 SUNO AI 吧
是这个是吧是这个对就反正也是就是文字图音乐这种逻辑对他第一个版本当时我用了我觉得最震撼的就是你可以自己写歌词然后让他帮你来作曲
然后我不管你歌词写的是什么乱七八糟的东西他都可以把它给编成一首歌我们把我们的前三个问题写成歌词翻译成英文让他唱一下好了我觉得可以试试但我今天试了一下大家好像改版了之前是有一个填歌词来奏曲的一个版本现在的话我有点不太了解它是该怎么用的
我试试看他最厉害的就是他可以支持中文至少他当时第一个版本对直接输入中文然后他可以做出来一个中文歌而且他的中文歌唱起来没有任何的违和感对对对我听过他的中文歌挺好的
OK 那前三个问题的中文好吧在这里你觉得 AI 爆发之后你对这个行业学科最大的误判是什么反过来你判断最准的是什么我们可以做个复盘你在 XGBT 爆火前就是很厉害的 AI 科学家了在 AI 爆发是增减这几年之后你对于这个科技进展的爆发什么总结吗正好我们在这个四数线我们不给他任何其他的 prompt 看看会是什么样的
哎 爱的误判 爱的误判 爱的误判 爱的误判 啊 电子舞 跳舞 跳舞 行 我们准备好了吗 来来来来来
优优独播剧场——YoYo Television Series Exclusive
他这个他这个并不是我们的歌词对以为科技能拯救改变命运不再愁可是机器心无忧冷冷算法无尽他自己这么写自己我们听下第二个好像歌词是一样的我看不清因为科技能成长
改变命运不再差可是记起心无忧
如果没有意外的话我们可以用这个当我们的片尾曲可以还是挺牛逼的我觉得他的他在音乐里边确实这个中文没有任何违和感对尤其他这个歌词我觉得一般人唱可能还唱的会有点有点尬但他来唱的话我竟然觉得还挺还挺合适的嗯
以为科技能拯救我们把你这刚才这个也捡到花絮里面是吧我们这期花絮有点多我们这期半集花絮等着 别命运不在这可是记忆无忧冷冷像发霧 心痛预测未来多 聪明来爱却虚拟世界见识
盼望多荒唐可惜改變太瘋狂任性善安難得了啊未來還在裝