cover of episode  #128. 计算机视觉遇上大语言模型

#128. 计算机视觉遇上大语言模型

2024/6/8
logo of podcast  牛油果烤面包

牛油果烤面包

AI Deep Dive AI Chapters Transcript
People
W
Windy
成功设计和3D打印全尺寸风力涡轮机的创新者
孙晨
斯图亚特
Topics
孙晨教授回顾了过去四年计算机视觉领域的发展,特别强调了生成式模型和扩散模型的兴起,以及它们在图像和视频生成方面的突破性进展。他分享了自己的研究成果,包括一个用于测试模型在新环境中表现的宇航员测试集,并探讨了大语言模型在医学、教育等领域的应用和未来趋势。他还强调了工程能力在该领域的重要性,并指出了未来发展面临的挑战,例如模型的幻觉问题和对基本概念的理解不足。 孙晨教授还深入探讨了AI模型的“理解”能力问题,认为目前难以明确定义“理解”,并对现有模型缺乏对基本概念的理解和组合能力表示担忧。他认为,将物理引擎与生成式模型结合,可以提高模型的准确性和可靠性。此外,他还分析了学术界和工业界在AI研究中的不同侧重点和面临的挑战,并对未来AI发展趋势进行了展望,认为AI技术发展速度很快,但同时也可能面临寒冬,预期过高可能导致失望。 斯图亚特和Windy两位主播与孙晨教授就计算机视觉领域的发展、大语言模型的应用、AI的“理解”能力、学术界和工业界的研究现状以及未来发展趋势等方面进行了深入的探讨。他们还讨论了AI技术对人类生活的影响,以及人们未来可能更多地成为AI的“数据提供者”的可能性。 斯图亚特和Windy两位主播主要负责引导话题,与孙晨教授就其观点进行深入探讨和补充说明,并对一些关键问题进行总结和归纳。他们共同探讨了AI技术发展带来的机遇和挑战,以及对人类社会的影响。

Deep Dive

Chapters
本节回顾了过去四年计算机视觉领域的显著进展,特别是生成式模型的崛起,以及扩散模型在生成高保真图像和视频中的应用。讨论了生成式模型的局限性,例如幻觉,以及学术界如何应对这些挑战。
  • 生成式模型的崛起使图像和视频生成技术取得突破性进展
  • 扩散模型在生成高保真度图像中的应用
  • 生成式模型的局限性,例如幻觉
  • 学术界探索将物理引擎与生成式模型结合的方法

Shownotes Transcript

整整4年前,计算机视觉领域专家孙晨首次做客节目,介绍了计算机视觉领域的发展。如今,他再次做客,详细讨论了大语言模型对计算机视觉带来的巨大冲击与新机遇,并回顾了过去4年的显著变化。他提到生成式模型的崛起,使图像和视频生成技术取得了突破性进展,以及扩散模型在生成高保真度图像中的应用。孙教授分享了他的研究成果,包括一个用于测试模型在新环境中表现的宇航员测试集。他还探讨了大语言模型在医学、教育等领域的广泛应用和未来趋势,强调了工程能力在该领域的重要性,并提出了未来发展的挑战与机遇。

嘉宾:孙晨 主播:斯图亚特、Vindy 剪辑&时间线:季雨清

  • 00:01:53) 学校做科研和企业做研究的区别

  • 00:09:39) 短短4年,做菜视频生成菜谱的理想已经实现

  • 00:19:34) 学术界寻找自我

  • 00:22:37) 计算机视觉的最新进展

  • 00:29:01) AI具备“理解”能力吗

  • 00:37:16) 给AI打工

  • 00:44:41) 计算机视觉的可能未来

  • 00:51:24) 如何进入计算机视觉领域

欢迎您在每期节目下方给我们留言,和我们的主播互动交流。如果您对我们的志愿者工作有兴趣,请点击 这个链接) 看我们的招募帖;你有什么有趣的话题,想来作牛油果烤面包的嘉宾,或是对节目有任何的意见或建议,欢迎发邮件和我们联系。我们的邮件地址是:[email protected]

片头片尾音乐: Courante 1st Cello Suite Exzel Music Publishing (freemusicpublicdomain.com) Licensed under Creative Commons: By Attribution 3.0 http://creativecommons.org/licenses/by/3.0/)