cover of episode  #128. 计算机视觉遇上大语言模型

#128. 计算机视觉遇上大语言模型

2024/6/8
logo of podcast  牛油果烤面包

牛油果烤面包

AI Deep Dive AI Chapters Transcript
People
W
Windy
成功设计和3D打印全尺寸风力涡轮机的创新者
孙晨
斯图亚特
Topics
孙晨教授回顾了过去四年计算机视觉领域的发展,特别强调了生成式模型和扩散模型的兴起,以及它们在图像和视频生成方面的突破性进展。他分享了自己的研究成果,包括一个用于测试模型在新环境中表现的宇航员测试集,并探讨了大语言模型在医学、教育等领域的应用和未来趋势。他还强调了工程能力在该领域的重要性,并指出了未来发展面临的挑战,例如模型的幻觉问题和对基本概念的理解不足。 孙晨教授还深入探讨了AI模型的“理解”能力问题,认为目前难以明确定义“理解”,并对现有模型缺乏对基本概念的理解和组合能力表示担忧。他认为,将物理引擎与生成式模型结合,可以提高模型的准确性和可靠性。此外,他还分析了学术界和工业界在AI研究中的不同侧重点和面临的挑战,并对未来AI发展趋势进行了展望,认为AI技术发展速度很快,但同时也可能面临寒冬,预期过高可能导致失望。 斯图亚特和Windy两位主播与孙晨教授就计算机视觉领域的发展、大语言模型的应用、AI的“理解”能力、学术界和工业界的研究现状以及未来发展趋势等方面进行了深入的探讨。他们还讨论了AI技术对人类生活的影响,以及人们未来可能更多地成为AI的“数据提供者”的可能性。 斯图亚特和Windy两位主播主要负责引导话题,与孙晨教授就其观点进行深入探讨和补充说明,并对一些关键问题进行总结和归纳。他们共同探讨了AI技术发展带来的机遇和挑战,以及对人类社会的影响。

Deep Dive

Chapters
本节回顾了过去四年计算机视觉领域的显著进展,特别是生成式模型的崛起,以及扩散模型在生成高保真图像和视频中的应用。讨论了生成式模型的局限性,例如幻觉,以及学术界如何应对这些挑战。
  • 生成式模型的崛起使图像和视频生成技术取得突破性进展
  • 扩散模型在生成高保真度图像中的应用
  • 生成式模型的局限性,例如幻觉
  • 学术界探索将物理引擎与生成式模型结合的方法

Shownotes Transcript

整整四年以前 计算机视觉领域的专家孙晨来到我们的节目和我们介绍了计算机视觉领域现在我们有幸再次请到了孙晨和我们说一说过去四年这个领域的发展和我们想象的一样大圆模型给计算机视觉带来了很大的冲击但冲击的方式和我想象的并不一样四年前孙晨说出了一个他的理想

现在他会告诉我们这个理想实现了没有它是一个很有用的工具但是你把它当做人脑一样研究的话好像有可能有南辕北辙的风险 AGM 这个事有希望吗这是一个信仰吧就是你是否相信你只能相信你不断地做一件事情就像你拜耶稣一样你去不断地去拜他那就可能你就有福报了

这里是牛油果烤面包大家好 我是斯托亚特我是 Windy 这次我们又请到了我们之前来过的嘉宾孙晨现在已经是孙教授了大家好

上次孙教授来我们节目还不是教授,还给我们介绍了一下计算机视觉,讲得非常好,我们都学到了很多东西,现在孙教授已经是孙教授了,他现在在腾校做教授,对吧?对,在腾校做教授,孙教授感觉在腾校做教授和在大企业做研究有什么区别吗?

感觉在学校做科研和在公司做科研还是很不一样的就是在学校的话更多的是以这个培养学生为目的就是说你会发现学生一开始的时候他可能很多东西他还不太了解需要就是有很大的耐心去把你的想法分享给他们然后去给他们不断的这个反馈然后这样的话你做科研的节奏然后选题可能

可能就跟你在公司不一样了对然后一开始的时候我还是想着去去让学生在公司实习啊比如在 Google 实习啊

但是还是感觉就是其实并不是特别理想的一个状态吧就是毕竟在学校和在公司侧重点还是不太一样做项目要是要困难一些因为要先交才能上手才能才能做出东西来对对但是成就感还是很很有的因为你就是交出一人是吧逃离满天下而且是一个非常纯粹的一个关系对吧就是没有任何公司的这些 career 相关的东西啊

那么在研究方面呢比如说在大公司做现在的这个机器学习研究或者是世界研究和在这个大学里面做的角度啊什么有没有什么不一样啊

这是一个非常好的一个问题就是我记得我们上次聊的时候您还说这个老北京一百年前有一个老电影然后上颜色这样子对吧然后说为什么能用机器视觉或者用生成式模型给这个老电影上色上色还没有生成式模型那个也可以你认为是一个生成式模型吧就是视频进视频出对吧然后这过去三年这方面的进展非常非常的

迅猛对吧你像都不需要这个给他一个视频你别说老北京 1990 年街头的一个视频让他自己给你生成出来一个这样类似的一个东西是不是对发展这么大对然后这样的话带来的影响就首先作为一个旁观者不管你比如说这个 OPI 的 Sora 我不在 OPI 对吧或者说我在我甚至都不在工业界我主要正心在学校

那这样的话就会被震撼到因为 DFI 是不知道它怎么能做到的跟我认知的跟我从 paper 上面读到的那种是存在一个代差的对吧然后第二个就是说比如说很多人说这个东西你就是给它足够多的数据然后你有多足够多的算力当然有很好的 engineer 你就能有这样的好的一个结果

那这样的话其实对学生来讲包括对老师来讲就是一个非常 depressing 的一个过程对吧因为我们既没有好的 engineer 没有好的工程师啊对因为学生还在学习过程之中是做研究的嘛是吧也不是写代码的啊对然后也没有这个计算计算的器材对吧我们可能就对啊 GPU 那么贵吧都被都被 meta 囤了啊

所以就会怀疑是不是做的东西是有意义的就是有这么一个

失落的幻灭的这么一个阶段然后你再去看去接受这个事实了以后你就会去想有没有自己学校所做的一些可以做的事情对吧然后我们找到的这个角度当然我们肯定不是独创的还有很多很多的其他的 researchers 在做类似的事情就比如看

Sora 它生成的这个视频它是很多时候有 hallucinationSora 就是 OpenAI 就是放了很多的这个生成的视频但是还没有出产品的那个东西很多人都震撼等你们研究了一下他们的视频对 然后就比如说你会看到这个一个蚂蚁是应该是六只脚对吧然后它生成的是四只脚或者说然后它在这个

人在做一些活动的时候然后时不时就多出一个胳膊或者说时不时就穿过了这个墙啊或者其他的物体就是说还是不给力就是还是他有很多有缺陷错误的对吧然后他可能缺少一些这个 common sense

对没有什么常识我们人一看就不会怪那叫做 hallucination 是吧怎么翻译这个词是幻觉吗叫做应该是幻觉我觉得这可以算吧就是说现实中不存在的事情然后它编造出来这算是幻觉的一种可以算

那这个看到了它的这个不足之处在从大学研究者的角度来说那从什么角度来为这个领域做贡献呢这是很有意思的一件事情对吧就是我们学生在做的就是说怎么样把这个物理引擎跟这个生成式模型接在一起我们是相当于是把这个生成式模型用来

生成这个这怎么说呢奖励信号在这个强化学习的这个学习框架里面就是说我告诉你就是我物理引擎里面有一个小人对吧这个小人可以你控制他走或者跳或者

或者说跑类似于这样的但是他并不知道怎么做这些东西我想让他做的事情呢就是说我先告诉比如说 Sora 或者其他的一些开源的这个生成式模型让它生成一个小人蹦或者小人跳或者是跑然后让用强化学习的方式

去模仿让这个物理世界物理引擎里面这个小人去模仿生成的那个视频然后它的奖励信号就是说我生成的这个视频用这个 Sora 或者用其他的一些神经网络跟我这个小人用这个强化学习生成的策略来演出来的这个

小孩的动作应该是近似的越近似他的这个奖励就越高然后这样奖励越高呢那你这个策略就会越去鼓励他去做这样的模仿的这个

决策我不知道我有没有说清楚然后这样的话你可以认为就是说相当于是我把这个生成的一个视频把它投影到一个物理引擎里面或者真实世界里面如果你有一个机器人的话那就是一个真实世界里面去重现这个事情你重现的这个过程之中呢你就强迫它是去遵守这个物理的定义了对不对因为你这个物理引擎就是 implementedhardcodedwithlawofphysics 那

那如果你是现实世界里面的机器人那更是这样对吧那也就是说我希望去把这个东西演出来但这演的过程之中我必须要遵守这些物理的规律那这样的话就是一种方式让这些生成式模型能去吻合现实世界里面的规律对吧

孙教授现在做的一个项目就是说让生成式模型生成式模型就是我们现在这个大模型生成的东西不一定是大模型了出来的东西它可能有一些幻觉有些不对的地方孙教授用一个用一个物理

引擎就比如说像这个游戏里面那些那些这的模型一样把这些生成式模型给演一遍这它不就真了吗这些演习都是人做过的是吧是量过的去测试过的所以它就会变成一个两者结合我们人的结晶和生成式模型的这个创造力不叫创造力了他们完成了一部分工作然后我们再验证一部分工作结果会是一个更好的工作

对 司徒解释的非常非常好孙教授上次最后说这个上次节目里最后说理想孙教授理想孙教授还记得吗理想就是在 YouTube 上面拿下一段视频做菜的视频然后把它生成做菜谱来这个理想实现了吗

这个理想实现了但是不是由我实现的是由大家同行们实现的对吧就是现在就比如说我平时经常去看 bilibili 然后 bilibili 上有那个 AI 小助手就是比如说一个视频然后你去 add 那个小助手它就自动给你生成一个简介对吧那现在做的已经非常非常好了这就可以说明这个

这个叫什么 AI 发展最近两三年有多大的发展是吧我们这个跟孙教授还不到三年前吧就两年多两年前的事情孙教授还认为这是一个理想认为这是一个远大理想现在就是一个随便一个公司 B 站就可以把它做出来就是为什么呢这两年会有这么大的发展就感觉整个这个节目就做完以后就已经好像已经过时了一样是吗

孙教授陷入了思考大教授的思考我在想为什么呢我们 2020 年聊的时候还没有 chatGPT 对我们第 39 期 6 月份发的

2020 年 6 月分发的所以应该可能已经那就已经是 4 年前录的了现在已经是 2024 年了是 4 年前我算错了真的啊我时间过得好快已经将近 4 年前了天哪所以 4 年前孙教授认为的他的感觉已经很遥远的梦想现在就是已经是一个非常平凡的技术我觉得是这样就是一个技术一旦走通了的话它就

大家就能把它做得更好对吧就是说我印象之中比如说像 Meta 那个时候是 Facebook 就是在 10 年代的时候大概就是七八年以前他们也想做他们的 chatbot 然后杨乐坤以及他的那些 collaborators 也宣传了很多对吧然后最后并没有 take out 就是大家其实并不知道这个东西如果你给他足够多的

数据然后足够多的算了以后它能到底能做成什么样然后这其实是一个非常大的一个投资是一个非常大的一个赌博对吧对他们他们当年还是有一个产品试试用但是产品试用的时候后面是人跟他们聊就是为了这个得到数据因为没有数据嘛怎么跟他聊天啊后来后来这个产品也没有怎么样对吧虽然他们花了很多钱让人跟人聊的数据也没有怎么样啊

对这其实是一个非常大的一个赌博对吧就是说我把东西做到极致什么做到极致呢就是我要有工程去支持这个大规模的模型和训练然后我需要有足够多的海量的高质量的数据并不光是这个你在互联网上直接抓的如果你在互联网上直接抓如果不小心的话可能就鼓励你去跳金门大桥了对吧然后你需要去

比如说甚至收集什么做奥数题的这些数据或者说我听到的 rumor 就是说 OpenAI 花了极大量的 budget 在这个收集它的数据上面然后这个东西就是说你必须要非常相信这个东西是能 work out 的然后你在

在他真正 workout 之前你所有这些东西都是 uncertain 的对吧然后你一旦 workout 那其他的这些国内的大模型或者甚至其他的公司那广播味来了说那原来可以这样那我可以也许把这个钱花在这个场面然后这个是整个大模型的我理解的一个警探式的一个爆发对吧所以大模型我们说大模型就是我们叫

large language model 这个国内叫大模型是吧就是 open AI 的那个玩意儿大圆模型 ChatGPT 背后的那个玩意儿是吧

那个玩意儿就是实际上受 OpenAI 一手推动让大家知道这件事情是可以做通的立刻就开始紧喷了那大模型和这个菜谱有啥关系呢对 然后这是非常好的一个问题就是说我接下来想说的就是说处理很多人类的生成的数据就比如说这个做菜的视频王刚做菜或者说 Jimmy Oliver 做菜然后发现其实人类的语言是一个非常好的一个中间媒介

就是说计算机视觉里面有一个模型叫 Socratic Model 叫苏格拉底模型就是说像苏格拉底跟其他的人问答一样的去解决问题就是我只需要说什么我只需要去把这个视频里面这个做菜的人他去怎么描述他做菜

提取出来你甚至都不一定需要看这些 pixel 你甚至都不需要知道他真正在做了些什么你只把这个人的描述人的语言去传给这个大语言模型他用这个大语言模型做一个计算的中心去处理他们他就能达到一个很不错的一个效果对吧包括

现在我学生在玩那个 GPT-4O 就是他们刚出的刚出的那个模型他就发现好像即使现在这个 GPT 它也是这么去 incorporate visual information 它是先把这个一个 image query 好像是先把一个 language query 变成一个 pront 然后

然后再用 language prompt 去生成一个图片就是在你让他画一幅画的时候然后他就发现了一个什么样的 failure mode 他让他画一个什么东西我忘记了比如说画一个好吃的 in and out 的 burger 然后这个时候 API 出错了然后 API 可能返回了一个 404 或者返回了一个 query

出故障了对然后生成的这个图片不是说一个错误的汉堡或者说不是一个空的图片而是一个说 404 但是这 404 不是说是提前存好的而是说它用生成式模型生成出来的这就 imply 什么呢说明这个它是一个 pipeline 的一个架构对吧

就是流水线嘛就是流水线做完一步再做另一步再做一步一步来就是做流水线然后这个流水线之中呢它可以用这个人类的自然语言去做一个交互的一个 input 输入和输出对吧第一步第二步第三步每步中间它是一个人类的语言自然语言在交互

然后这样的话呢那你中间有一个错了那在自然后面的也都错了但是与此同时呢如果用这样的一个流水线架构呢它可以把很多非常强有力的模型给粘在一起给串在一起对吧然后做一些原本可能一个模型做不了的一件事情对吧然后这个生成视频生成菜谱就是这样我们说生成菜谱就是它先把里面的语音提取出来

然后语音变成文字这就是一个 ChatGP 非常擅长的工作了那文字之后呢那怎么又回来使用那些视频信息他不一定需要使用视频信息你就是说我在什么时候说了什么样的话然后就传给大语言模型然后让它生成一个总结然后他可能就已经能把这件事情做得不错了

那他就就不用看吗他有他有时候就说就没有啊我加了什么东西只有视频上有在搬呢

那就是你可以用一个计算机视觉来帮助这个过程是吧然后那现在基本上我学生发现就是说你只要把这个视频里面随机抽一些关键帧然后用一个生成图片描述的一个模型去描述它里面这张图里面发生了什么然后你把这个几个关键帧的描述删起来再把它变成 promptprompt 中文怎么说

我不知道呀提示词吗我不知道提示词吗反正就是 prop 提示词然后这么多人提提示词对我的视频有这些关键证他做的这个请你生成一个菜谱这种感觉所以就是说你把一件事情做好以后它帮助了很多很多其他的事情对吧

所以说就是说为什么盛城菜谱这件事情变得这么容易实际上它是以一个自然语言为中心的大语言模型来把很多事情把很多一个处理一个每一个个别领域的事情能够串起来完成一个非常伟大的工作

感觉就是这个流程给完全跑通了对吧就一个盒子它里头装的一些流程然后你无论往里头倒什么东西它都能给你出来你想要的东西对

就像于你有了一个非常强的电脑或者计算器那你想怎么用它就可以变得非常 created 但是怎么造这个电脑或者计算器你需要花大量的精力去等它先跑通了对吧然后后面再做 application 的话就相对比较容易就像 GPT-S 那些商店里面的那些小的 APP 其实很多时候就是一个比较 cute 比较可爱的一个小的点子对吧然后就能做很多很方便的一些工具对

看上去这个大圆模型还不仅仅是一个 AI 技术可以用在各个地方它还是一个指挥中心是吧是个控制台是吧它可以让所有的事情都什么事情都以它为中心在处理这些信息以它为信息在整合这些信息从这个角度来讲作为 AI 来讲是一个

很大的进步对然后这样的话对于学术界的人来说那遇到的一个问题就是说你做的科研是不是已经被公司解决了是不是已经被 Gemini 或者说 GBT 解决了这其实是一个非常现实的一个问题学术界需要寻找自我的过程需要一段时间才发现他们学术界的定位是什么对啊对啊然后现在可能可能

可能比如说 2021 年是镇静然后 2022 年可能有点幻灭然后 2023 2024 大家就开始 2023 可能是大家急着做各种各样的应用对吧 学术界然后今年的话我觉得更多的是发现它还有很多局限性还有很多东西它做不好就比如说刚才说的那个幻觉的事情

那就是我们可能需要去探索新的方法然后像比如说 Meta 的我总是 cueYan LeCun 但是比如说他最近在说你如果现在开始读国的话就不要做这个大语言模型相关的东西对吧那就可能是说他非常有用的一个工具

就是你们 A-Head 喜欢劝退上次孙教授也喜欢劝退我们节目有一个传统最后就是问嘉宾如果想进入这个领域你要做什么准备有什么建议孙教授说的是你要想想现在做这个人已经很多了你是不是还要做这个看来这个建议还非常对我个人感觉这个预言好像是挺正确的因为现在人才确实很饱和了当然整个计算机行业都非常饱和然后像

像做科研的话做这人工智能科研的话就非常非常卷对刚才不好意思打断了就是那个 Yellowquin 说怎么样

我就说你不要做这个大语言模型因为当然其实它是有道理的嘛就是说首先这个在学校你能做的事情就比较有局限性然后除了一些非常有资源的这个学校比如 Stanford 啊 MIT 啊这些然后另外一个就是说这个学习范式到底是不是

它的潜力到底有多大还是说已经这个大数据大模型然后和这个大语言模型这一套其实已经被发挥到极致了其实大家谁也不知道就比如说刚刚看到的这个 Gemini 发布会和这个 GPT

欧的发布会你就会觉得虽然非常 impressive 但是好像并没有什么完全出乎我预料的这个事情对吧就是说井喷时代开始进入了一个比较之后进入了一个比较平稳的一个时代没有什么特别多的特别大的发现我觉得工业界的人就是喜欢这么说我也听到过很多别的领域比如说你之前做系统工业界人喜欢说你不要在学术界做系统你们做的这都是啥

其实那也是工业界的偏见学术界总归能够找到一个创新的点他们能够要不然是长远的是吧远期的或者是工业界的盲点是吧他们都不爱做的他们都有各种各样原因避免做的是吧

是 是我们这个聊到视觉和大羽毛地形孙教授给我们更新一下知识上次讲的视觉这过去四年哇 四年了这个计算机视觉的发展大概是在哪些方面吗

对 首先我的以防观众我猜你们的听众里面有非常多的专家所以我这只是个人的见解那肯定有了 他们都无所谓我的理解比较有局限性然后我个人的感觉就是说首先各种各样的生成式模型就是在上次录节目的时候好像生成式模型还大家觉得是一个玩具就是说好像还并不能用

然后是很有意思的一个概念至少在这个图片里面是这样的那个时候大家比较关心的是无监督学习就是怎么样给你一堆数据怎么让这个深度神经网络去利用这些没有标注的这些数据去学到一个非常强有力的这么一个模型吧

对吧但是那个时候已经像什么 TensionTransformer 已经都出来了吗对吧 2020 年都出来的但是更多的就是还是一个理解或者说一个 perception 就是是一个认识这个世界并没有去生成这个世界对

后面我我现在有点记不清这个历史了但是四年就已经日新夜异是吧发生太多事对过去某一个阶段里面大家发现这个像大语言模型一样在这个大的就传统的这个视觉的生成式模型你在做非常好的这个工程化的实现并且把它们参数量加大的情况下它的表现是非常不错的能

能生成非常高保证度的图片甚至是一些视频这是其中的一个大的进展然后还有一个大的进展就是这个 Diffusion Models 我不知道叫扩散式模型还是叫中文叫什么就是一个新的特别适合生成图片的这么一个机器学习的模型他利用了这个之前就是

比如说图像处理里面这个图像去噪的这么一个想法就是给你一个带有噪音的这么一个图片然后我想生成一个没有噪音的这么一个图片它相当于是什么呢它是相当于是从一个纯的一个噪声的一个图片然后你去一步一步的好多好多步去逐步的去去噪声然后最终你生成的这个图片就是一个高保真的图片了

然后我怎么样去让它生成比如说一个猫一个狗一个人呢就是我在最开始那个噪声里面加上一个 conditional signal 就比如说我说这个我有一个一个句子的一个这个 prop 对类似于这样吧然后我去让它生成就是这个是一个非常

scalable 的这么一个一个学习机器学习的范式然后现在有很多很多的成功的案例包括 OpenAI 的 Sora 也是也是利用的这个叫什么视频版本的这个 Diffusion Models 我不知道怎么说就是 Diffusion 模型扩散模型扩散模型对 然后这是一个大的一个进展就整个生成内容生成变得

非常火然后这时候有很多工业界就突然生成模型就变成非常火了吗一直都有人做但是你并不知道这个东西有什么用就是比如说我做 language model 我做这个 machine translation

语言模型对就是说机器翻译然后我没想到这类似的这么一个范式我能用来生成这么强有力的这么一个像 ChatGPT 一样强有力的一个聊天机器人然后他能记住这么多的

事实但是他也会编造这么多的事实对吧然后这个图片的这个生成甚至视频的生成也是你并不一开始觉得就是说我生成一些数字我生成一些 64x64 个像素点的这么一个低保证度的一个人脸或者说一个小的图片的 thumbnail 能有什么用呢然后现在你一旦有了这个

有人证明他能做的这么厉害之后那很多 application 马上就跟进了对吧比如说特别是工业界我生成一个广告我把这个用户提供的比如说做 YouTube 的话我想用户提供一些 metadata 然后我让他生成一个 poster 甚至一个短的视频那就非常有挣钱的潜力对吧非常的有用啊

比如说像我们这个节目最开始我们每集有一个图标对吧有一张照片我们之前找这个照片都找得非常辛苦对吧各种图片网站上免费图片网站找啊找啊来讨论现在也没有说很容易吧但是我们就在大圆模型上生一生就可以做的质量就可以找到质量非常高的模型这都是

完全不一样对然后这个就是还挺有意思的一个地方所以说这就是说技术发展到就一定要一定程度发现它可以做到一定质量的这个生成出来的作品之后就开始得到应用了那就又会让这个领域变得更加的

更加的热门就是因为对对然后除了这个生成以外就生成图片生成视频还有生成 3D 的模型就比如说我在做比如说我们想做一个游戏或者甚至是电影然后我想生成一些素材对吧我想生成一些可以让这游戏里面的主人公去交互的一些

3D 的一些物品那我如果有一个生成式模型那我就可以很方便的就是理论上如果这个东西能做的话对吧哇这个很厉害啊然后 3D 打机一打电源一放是吧哇这确实是非常的对然后这也是一个挺大的一个进展

哦那现在看来是生成成了一个热门啊关于上次聊好像多数时候还是这个理解视频啊什么之类的好像还是重点现在已经变成了一个视频已经都进入生成式看来这个真 AI 啊生成式 AI 现在这么热可能确实是也有道理这个孙教授上次这个最后给我们提到了一个哲学问题说 AI 最终是一个哲学问题啊 AI 到底可以不可以理解这个东西为什么猴子刀远

还有什么呢我当时这么中二呢对就觉得这个 AI 这个还是不行是吧因为它确实只不过是只有一个表象它没有理解这真正的东西有点像这个杨立坤最近说的那个什么蚂蚁八只脚那现在这个孙教授还是坚持这个观点吗还是会有什么变化还是会有什么有什么更多的想法

首先我个人感觉还是依然没有一个非常明确的定义什么叫这个模型理解了一件事情对吧特别是这个深度学习的模型是一个大的黑盒子对吧然后现在很多就是比如说我们更大了现在对

对我们学校里面的就是比如认知科学神经科学的一些老师他们甚至对这个东西很感兴趣他们想用他们去研究人的方法去研究这个大模型对吧就是说在不知道他内部运作机理的情况下怎么让试图去理解他是怎么样去运作就像理解人的大脑一样对吧这是他们在做的事情

但依然不知道我从我的角度来说我并不知道呃什么叫做理解怎么去定义理解一方面你去你去分析他们这些训练好的生成式模型他们其实是学到的非常有强有力的这个表征就是深度学习就是就是学习这个呃

数据的一个表示的一个形式对吧然后你把这个深度学习的网络里面双声式学习的网络去抽取一些特征然后你让他干很多的事情比如说我去给视频打 label 我给这个音乐我去判断它的 genre 去判断甚至它的音符类似于这些就是现在不用这可以做曲的双声式模型你会发现你能得到非常好的高

精确度的这个结果就说明它的表征是非常有用的可以用来理解这里面的理解就是说我去改定一个任务然后我去测试它能不能去比较好的去做这个分类的任务对吧但另外一方面就是也有

比如说像华盛顿大学那边的人去研究说我这个生成式模型是不是真正的理解了这些内容呢他们发现并没有但我那篇 paper 我太久以前看过我已经忘记内容了

我唯一记得就是说因为大家做生成式模型的人因为我理解在若干年前并没有一个非常好的 application 他们总要安排自己说用费曼的一个名言去安排自己就是说还是爱因斯坦就是 what I cannot createI cannot understand 就是我如果不能把它创造出来的话我就并不理解它

然后他就是想去说明为什么我们要做这个生成式模型生成式模型因为是他去创造对吧然后这个华盛顿大学的 checkmark 了一下对然后华盛顿大学的这个 paper 就是论文就是在说你虽然能创造但他并不理解他创造的东西到底是什么

然后推荐大家如果感兴趣的话可以看这篇 paper 但具体内容我忘记了我对 Taggit 这个各种生成图片的网站有一个觉得最不能理解的事情就是我经常跟他说我们一家四口人嘛你生成说你生成四个什么什么什么

从来没有对过几乎就从来没有什么三个五个六个就从来没有对过让我觉得很震惊就是他对于这个简单的一个数字从来就没有没什么过对这个是非常好的一个 observation 然后其实还有另外一个更简单的一个情况就比如说我说有一个图片里面是救火车英文就是 fire truck 然后

然后另外一个就是说这车着火了爆炸了车祸了着火了叫 truck fire 火车是火就火车就火车对然后就是同样的英文里面是两个同样的单词然后顺序变了然后人是非常能容易去理解他们的区别并且去 visualize 他们的这个应该是长什么样子的但你去问现在的这些模型它就并不能

去做这件事情就是说他并没有好像并没有学到这个更基本的这些原概念就比如说什么是一个车然后如果它被火修饰了到底应该怎么样去变它的这个 appearance 包括你可能有三个这个橘子四个橘子三个人四个人他并没有办法很好地把这个概念

去原概念去理解或者生成出来然后把它们组合在一起这就是一个英文是 compositionality 这就是一个非常难的一个问题这对于人来说毫无难度当然因为这个深度学习是一个黑盒子你就并不知道它是怎么把这个概念组合在一起

他有没有一个真正的一个高层的概念我们还不知道是吧在有些迹象看起来可能没有是吧就我们不知道但是一个非常表象的一些概念他没有提取出非常抽象的概念来我们不知道也可能他有抽象之后只不过和我们人类的不一样是不是像什么奶牛和牛奶这种就是两个词换个调个个儿他就觉得迷糊了他本来觉得是一个东西

有可能呀然后但是像具体的这个您说的这个例子有可能他能认出来因为这两个太常见了对很多呀有很多很多的这个数据嘛它肯定是不一样的对就人类学词的时候多少还是有一些词源我们是就是学的过程中是知道词源是怎么拼起来的他可能就是 lost track 他就是看别人是有些什么 pattern 然后他就照搬

对就是你很难把人的知识去加给这个训练模型的训练过程你只能把人类知识产生的结果用最直接简单粗暴的方式喂给他喂给他的方式就是让他去重建我的这个我的这个句子对吧然后这样的话好处就是说人

人不需要装自己很聪明人认为自己很聪明的地方通常并不聪明然后我加了越多的我人为设置的模型在机器学习框架里面可能适得其反这是好处但坏处就是说我明明知道一些非常基本的概念但我没办法把这个东西交给大模型包括大模型做数学题的话都很容易错的一塌糊涂

所以这个还有待观察我们这个大模型到底能够理解到多少东西那现在有没有什么就是具体的研究往这方面发展吗我看好像杨立坤好像有很多在这方面的评论什么之类的有很多人在做特别是在学校吧因为学校你没有计算资源去训练这些模型但是你可以去

分析这些模型然后所以就是学校里面还在并且这是一个非常有益的一件事情脑神经科学人看看但你也在赌对吧大家也在赌就说明我之所以去研究它是认为它值得研究那有可能这个东西并没有那么值得研究对吧为什么会不值得研究呢就是是研究不出结果吗还是

就是说你研究了它是一个很有用的工具但是你把它当做人脑一样研究的话好像有可能有南辕北辙的这个风险对吧就是说它有可能就是没有那些东西你也没必要去浪费太多时间没有必要戳穿是吧可能它就是不行当然这是我的个人的想法

对这个孙教授曾经在这个微信朋友片中分享过一个视频啊

就是什么三国时代有一个什么本来是谁的下属变成了他的什么这个上级然后怎么怎么样然后孙教授好像是发了一个评论好像是什么过去是在给是在是的是 AI 给自己打工的这个 AI 打工我是这样的我当时可能是因为看到就是比如刚刚说这个 OpenAI 它雇了很多人去标数据那有可能以后大家就是都是给这个大模型标数据打标的对吧画家就是

生成创作以后喂给这个模型做训练然后做数学家就是推完公式以后教这个大模型怎么样做推理对吧咱们都是实才是吧对啊他们是 Jamie Oliver 对他们才是有大脑的人我们只不过是替他们做一些一个整理数据的整理信息的人把他们喂给他们的人是吧

而过去我们这个我们这个都是这个工程师现在我们都变成 prom 在那是吧我们都变成是我们的思维方式过去是这个

AI 围着我们转我记得好像 420 那样说过去是 AI 围着我们转现在我们都在我们的思维方式在调整成怎么能够给 AI 最好的输入让它做出最好的输出而不是想这个问题怎么解决您说的这个非常好就是我觉得抛开这个所谓咱们变成耗材这个担心不提更多的就是说好像特别是工业界做研究的话现在同志的话特别严重就是因为

我们就比如说可能高管认定了这条路就是可以走的一条路而且它非常好预测对吧就是如果你相信给他更多的钱去买设备然后标更多的数据那他就能带来回报的话那他就做这件事情就好了对吧所以这样导致的情况就是说很多我认为非常才华粉艺的这些科学家们在工业界的原来可能可以做各种各样的稀奇古怪的事情

然后现在可能做的都是像您说的 prompt engineer 或者说怎么样优化这个大模型那这个是一个好事对吧就是短期内能把这些东西做得很好但长期来说感觉是一个

就是对人才的浪费我们对一个没有解决一些非常核心的问题都变成一个大模型的应用过程是应用研究者了是吧其实是一个问题我们一直我们都会有个问题就是说是不是 AI 在控制我们的人生我们过去说

我们人生的多少多少重要阶段都是 AI 控制的比如说什么你上去买个保险你买个房是吧你能不能买房最后能不能给你批贷款实际上是 AI 给你批的对吧

你去求职扔个简历最开始谁给你第一批筛简历能不能过面试都是 AI 给你筛的还有什么教育教育怎么样现在都是标准化考试 AI 给你出哪个题然后最近我听说一件事情就是说 Meta 原来的

Facebook 不知道那个别的公司怎么样啊就是他们过去这个每年的这个绩效考核嘛都是这个都是你的这个经理嘛要给你看嘛然后给你哦是现在不用了给你写一个 package 嘛就给你写嘛看你写了多少代码做了什么 feature 现在呢据说他卖他就不像真的啊据说是卖他就 Facebook 那公司他出了一个出了一个模型他在系统里面可以看的嘛你写了什么文档

你这个写了什么代码你干了什么什么事然后他就给你的管理者生成一篇文章说你干了什么什么什么事

据说这个文章非常的不错生成的质量非常的高然后那些经理就可以以这个文章为这个底板然后去给你做绩效考核所以以后可能你的这个升职很多时候就是 AI 也接近了很大一部分那感觉经理的工作就更加危险了他们的是这有点我们就有

越来越像是那些比如说那些生产线上的工人就是我看这些有些书上面写就是说几十年前比如说五十年前六十年前那时候流水线的工人的工作实际上是他们的那些工头什么的他们非常灵活的供你干这个你干这个每天车检主任定怎么怎么样对吧这是我们理想中传统的这些流水线工人或者说产业工人现在都是不一样了现在都是

就是计算机就是严格的计算你干这个你干这个你干这个分配给你那些中层领导基本上就越来越少了越来越少了基本上就是 AI 是你的老板产业工人我们以后白领工人是不是也慢慢慢慢变成我觉得有可能像您说的总结这我觉得就是挺好的一个 AI 的应用是吗你们都觉得很好是吧你都觉得很可怕吗是很可怕但是好像是一个比较恰如其分的一个应用

对一个语言浪费很多时间搞这种东西对啊我们人生的重要决定就都变成是 AI 定了你看以后医疗也是现在医疗也是现在那些看片子过去看片子你知道我片子

X 光片都有一些非常非常这个资深的这个医生才能看你这到底有没有骨折你知道有没有肿瘤对吗现在那肯定都是 AI 给你先看一遍呢是不是然后建议跟医生说建议多大可能性占了一个肿瘤是不是我今年去洗牙嗯

那个洗牙大家知道在美国中国也一样吧每年会给你照个 X 光片嘛对吧看你有没有里面有没有什么这个取齿啊有没有蛀牙什么之类我今年去了一次三年三月份然后那个医生还不是牙医是一个助理拿了一个我去年三月份做的 X 光片说我们有一个 AI 程序看了一下你这几颗牙有蛀牙需要补

让我觉得非常的震惊这个听起来也是一个挺恰如其分的应用老师你们做视觉都感到非常重要的东西就是说我们人生这么多重要的事情还有什么不是 AI 做出最重要的决定吗我觉得更多是你跟社会交互只不过 AI 是一个你实现交互的一个手段提高效率挺好的

孙教授这件事还还是不是一个什么大的问题啊虽然是 AI 但是后面还是人是吧是很大的问题但是更多的是你没有办法阻挡对吧就是你已经这样我们已经是给 AI 打工了是吧对啊就是比如说互联网的内容的质量肉眼可见的在下降

就是被各种各样垃圾生成的内容所占领那你也没有什么办法因为这个老虎已经放出笼子了对吧你不可能再把它关回去

其实很可怕的样子我们来预测一下四年之后真的 四年之后来预测一下四年以后会怎么样对啊没想到上次已经是四年之前录的了真的 已经四年了四年后再上我们节目预测一下怎么样不一定要四年可以明年就来对 可以明年就来每年更新一下可能可以啊

现在太快了应该每半年来一次也可能就慢下来了怎么样来预测一下四年后会怎么样四年以后我不知道我现在特怕下一个人工智能寒冬又来了然后就是

就首先这次不一样的地方就是它确实非常有用对吧它能做很多很多事情上次也很有用啊上次那个深度神经网络那也很有用啊那我们这个翻译都可以了是吧但那时候还没有寒冬啊就是一直热乎到现在嘛

然后现在的主要问题就是说大家的预期会非常非常高可能就是说就像一个俗语说的你所有你出生以前的东西就是 take for granted 所有你出生的时候年轻的时候的事情都是非常有用的事情非常现代的事情所有等你老了以后出现的事情都是异论对吧那现在小朋友就会觉得

就是我会被大受震撼的东西可能现在的小朋友就会觉得那就应该是这样那他觉得就应该是这样的话那他的预期就会更高了对吧但是现在的这个学习的这个范式能不能 deliver 这个事情就比如说您说的这个医学图像到底它能取代人到什么样的程度那不知道对吧然后现在很多人在做机器人那我的理解我个人的理解就是说你车还没做明白呢

那为什么就跑去做机器人是因为投车的人都跑路了吗还是因为什么对吧就孙教授还是一个比较悲观的认为现在这一波浪潮很有可能就是说会在很大一段程度上是让未来的突破变得更难了一段程度上可能就是只不过是消化这一波大数据的这个大圆模型的结果

这是我个人的观点希望我是错的我们看看四年以后怎么样现在这个吵得很凶的 AGI 叫什么通用人工智能是吧这个事有希望吗这是一个信仰吧就是你是否相信为什么是个信仰呢

这个东西你相信它存在然后你不知道它长什么样你也并不知道它通过什么样的途径实现

然后你只能相信你不断地做一件事情就像你拜耶稣一样你去不断地去拜他那就可能你就有福报了我不信宗教所以我无意冒犯这个有信仰的人我非常尊重你们但是我就想说这个东西更多是一个人的信仰就是说你看不见摸不着甚至没有一个明确的一个定义

没有一个明确大家认可的定义对吧那就是有点无从谈起了就是更多的是说我希望实现这么一个东西我相信它终将存在那我去做它对吧哇听下去非常的内神吧

我们回到这个我回到从哲学层面回到这个现实层面孙教授我看最近做了一些工作比如说孙教授做了一个什么一个 benchmark 是吧叫一个叫什么标准测试测试的这个标准测试集测试集是吗这个需要有人做吗现在还没有这些这个视觉的测试集吗哦

我不知道您说的是哪个有可能是有一个我们最近做了一个宇航员的这么一个测试机就是它的故事是这样的就是说我们

这些所有的这些大模型都在很多的训练数据上面训练过了收集的大量的数据去训练了但是你真正去部署这个模型的时候你在通常在一个之前你没有见过的一个环境里面对吧然后有可能是一个新的家有可能新的工厂甚至是一个新的战场对吧当然这个不是我们关心的我们就是

有一次跟其他老师聊天的时候他说你看了 YouTube 上有很多 NASA 上传的宇航员做太空行走的视频然后我们就去看了一下发现这个特别适合做我是做视频理解的这么一个测试集然后他主要的去

想去理解的一件事情就是说我如果把地球上的事情都训练一遍他能不能去 generalize 我不知道怎么用中文说怎么样去普遍化吗叫什么

适用到这个一个之前没有看过的领域然后这个为什么知道你是之前没有看过呢因为你在网上的公开的这个太空行走的数据就是这么几步然后可能是二十几步然后你即使把它用来做训练数据的话也很难去真正去记住它因为它可能是几亿分之一的这么一个训练数据那基本上就是没有什么太大的影响对吧那这个

那这个就是一个非常好的一个测试集去测试现有的这些大模型它是否能去 generalize 到一个新的环境里大概是在做这件事情所以说找到一个角度就是说可以测试这个模型到底到底能不能应用于他们不是那么没有训练过的东西最后你们测的结果怎么样

就是大家都非常差呀现在所以大家就是 2023 年一个趋势就是说我们开始被这个 open AI 的这些模型震到了然后我们现在又想到一些这个它是不是不行那个是不是不行然后发现还真不行还有什么不行了

就是有挺多就刚刚您说的这些算算术呀数手指头呀然后数人头呀

奶牛牛奶或者火车和车着火类似于这些那都不行看来还能找到看来学术界的一个存在感现在就是发现这个模型哪不行对然后之后就是想去解决这些问题当然解决这个东西到底是缝缝补补还是说你有一个真正比较根本性的一个解决方案现在好像还并不是特别明朗大家还都在试图去做这件事情

我们就进入最后一个环节了就是我们再问一次孙教授这个四年以后没有没有没有四年以后已经问过了就是说如果现在呢很多人看到大模型非常的厉害或者说计算机视觉生成这个可以生成视频可以生成这个图片生成非常厉害他想要进入这个领域想要他们应该做什么呢或者对他们有什么建议呢

想要进入这个领域你可以首先是一个非常好的工程师对吧然后你把这个模型怎么样去部署加速

然后节约资源这些都还有很多很多可以做的事情对吧就是包括你像当时这个 Google 搜索的算法出来以后你怎么样把它真正做到一个这么 scalable 的这么一个 system 可能花了十多年对吧并不是一蹴而就的我觉得这是一个很好的事情如果你相信它是一个 long term solution 的话

然后另外如果你是真正想做这个算法研究的话那我希望你有一个比较清醒的一个认识就是它有非常好的一面它也有它的局限性的一面如果你自己有一个非常独特的一个见解你想去验证它

那你就很适合比如说做一个读博通过读博的方式去做研究对吧哎呦要招生了吗没有啊我现在不招生了我我我学生已经比较多了所以我我更多说如果你考虑因为很多人想去想去考虑比如说我要读读个研究生或者读一个博士生我觉得这个就是可以你去想清楚到底

到底你有没有一个非你不可的想去探索的期望值搞对对探索的这么一个事情想要成为那种那种大家式人物已经机会比较少了是吧对找到一个角度

对我现在越来越感觉到就是我在工作这种就特别是在我的 part time 在公司工作的时候接触到非常多非常优秀的没有读过研究生的同事然后他们科研做得非常非常好然后他们的见解非常非常的犀利然后他工厂能力还非常非常强就是说在现在的这种范式就是工业界做人工智能这个范式的话你可能这样的话能做得更好你不一定需要去

去接受这个博士的这么一个训练那就今天就这个感谢孙教授来到我们节目这是来到我们节目的第几个教授头几个他是第 39 期的嘉宾应该是头几个是吗我们的嘉宾第一个成为教授的

从不是教授成为教授的所以感谢孙教授对 还是腾孝教授这就逼掉了好吧 感谢孙教授来到我们的节目给我们带来了非常非常精彩的知识给我们更新了过去四年计算机世界领域到底发生了什么听上去确实是天翻地覆很大的变化所以喜欢我们节目欢迎在各大翻译型播客平台订阅和收听对

欢迎在我们的这个节目上面留言和转发一键三连对如果有什么问题或者像当我们倦着的话呢可以给我们的邮箱我们的 show note 上的邮箱发现所以呢我们就后会有期后会有期拜拜拜拜拜拜谢谢