cover of episode Vol.26|张宏江对话卢一峰:大模型「皇冠上的明珠」,到底是什么?

Vol.26|张宏江对话卢一峰:大模型「皇冠上的明珠」,到底是什么?

2024/1/16
logo of podcast 开始连接LinkStart

开始连接LinkStart

AI Deep Dive AI Insights AI Chapters Transcript
People
卢一峰
张宏江
Topics
卢一峰:实现大模型的慢思考能力需要解决两个关键问题:一是判断模型何时不确定;二是引导模型在不确定时停止解码并进行探索,这可以通过搜索引擎、专家系统、多智能体交互等方式实现。当前大模型的幻觉问题是阻碍其应用的关键,需要通过改进数据和对齐方式来解决,例如使用更可靠的事实性数据进行微调,并结合检索增强生成技术。合成数据,特别是能够超越人类认知水平的‘超人类数据’,是未来突破数据瓶颈的关键。 张宏江:Transformer架构并非一成不变,未来可能会有新的架构出现,这需要从硬件和训练目标两个方面进行突破。突破Transformer架构优化瓶颈,可能需要‘先下山,再上山’,即先打破现有优化状态,再寻找新的优化方向。当前大模型的训练数据已接近瓶颈,需要探索新的数据来源和生成方式,例如合成数据。创业者应该专注于自己的独特优势和机会,利用大模型作为工具,创造独特价值,积极参与实践才能深入了解大模型的潜力和问题。 张宏江:当前大模型技术快速发展,但要实现大模型能力在关键领域的落地,仍面临诸多挑战,例如如何解决大模型的幻觉问题、如何使大模型拥有‘超人类’的能力、如何应对训练数据枯竭以及如何进行底层技术架构创新等。这些问题都具有重要的价值。

Deep Dive

Key Insights

为什么大模型需要具备慢思考能力?

慢思考能力是实现长期学习和产生智慧的关键,而当前的大模型主要依赖快思考模式,缺乏深入探索和自我进化的能力。慢思考能让大模型在不确定时暂停解码,进行探索和验证,从而提高决策的准确性和可靠性。

如何解决大模型的幻觉问题?

幻觉问题的解决需要更好的数据对齐和谨慎选择训练数据,避免模型在不确定时“撒谎”。业界正在探索通过RAG(Retrieved Augmented Generation)等技术,结合搜索引擎和专家系统,提升模型的确定性和事实准确性。

未来大模型的架构会有哪些创新?

虽然Transformer架构目前仍是主流,但其优化已接近局部最优。未来的创新可能来自硬件的突破,如新型加速器的出现,或训练目标的改变,如多模态能力的提升。此外,架构的改进可能需要“先下山再上山”,即暂时放弃现有优化,探索新的方向。

中小企业如何获取高质量的训练数据?

中小企业可以通过合成数据来突破数据瓶颈,尤其是生成“超人类数据”,即通过AI系统自我改进和自我对弈,生成超越人类认知水平的解法。这些数据可以被提炼回模型中,提升其性能和可靠性。

创业者如何在大模型领域获得核心竞争力?

创业者应跳入大模型的实际应用中,成为“Doer”,通过实践深入理解模型的潜力和问题。只有亲身参与,才能发现模型的边界,找到独特的应用场景,并在大模型驱动的创业浪潮中获得成功。

Chapters
本部分探讨了大模型当前的局限性,即缺乏'慢思考'能力,并深入分析了如何通过改进解码机制、引入搜索引擎、专家系统以及多Agent交流等方式来增强AI的探索能力和不确定性处理能力,最终实现'慢思考',从而具备长期的学习能力。
  • 大模型当前主要依赖'快思考'模式,缺乏长期学习能力
  • 实现'慢思考'需要解决两个问题:1. 模型何时不确定;2. 不确定时如何停止解码并进行探索
  • 增强'慢思考'的方法包括:搜索引擎、专家系统、多Agent交流、实验等

Shownotes Transcript

【本期内容】

自 OpenAI 发布让全世界瞩目的 ChatGPT 以来,时间已经过去一年有余。大模型技术在这一年里不断进化:无论是越来越强的多模态能力,还是智能体 Agent 潜力初现,都让人们对这一场 AI 革命充满期待。但在 LLM 技术飞速发展的当下,要想使得大模型的能力落地关键领域,还存在哪些挑战及亟待解决的问题?

本期播客,开始连接 LinkStart 特别邀请了两位顶尖的技术极客——美国工程院院士、智源研究院原理事长张宏江院士,与 Google DeepMind 资深工程师卢一峰,于极客公园创新大会 2024 上进行了一场有关前沿技术的对话。这次对谈中涉及了多个极为关键的话题:如何解决大模型幻觉、使大模型拥有「超人类」的能力、训练数据枯竭的下一步应对、以及底层技术架构创新等。

正如卢一峰的调侃,不少提问是价值「百亿美元」级别的问题。

                                                                                                              【嘉宾】

张宏江:美国工程院院士、智源研究院原理事长

卢一峰:Google DeepMind 资深工程师

                                                                                 

【精彩时刻】

03:21 聊聊大模型已做到的「快思考」与未拥有的「慢思考」

05:49 大模型如何学会像人一样「慢思考」,即具备长期的学习能力?

09:12 在解决大模型的「幻觉」问题上,有什么新的技术突破?

10:43 如果在对齐步骤中不够谨慎地选用数据,可能会促使大模型「撒谎」

14:06 除开 Transformer,未来会出现新的大模型架构吗?

15:43 如何突破大模型架构的优化瓶颈:“先下山,再上山。”

18:53 在训练模型时,中小企业如何寻找更高质量的数据?

20:17 合成数据的下一个机会点:「超人类数据」

24:52 创业者如何获得核心竞争力:跳入水中,成为大模型世界的 Doer

                                                                           

【对话稿件实录】

《智源张宏江对话谷歌卢一峰:什么才是大模型「皇冠上的明珠」?》)

                                                                        

【关于节目】

「开始连接」是一档由极客公园出品的泛科技知识圆桌栏目,在这里,我们会邀请各行各业的嘉宾一起跨界对话、碰撞思想,用科技、商业和人文的视角一起描摹这个时代。每周三晚也会在「视频号-极客公园」同步直播,共同畅聊时下热点话题,欢迎扫码关注。

本期编辑:xuxu

剪辑:Katherine

公众号/视频号:极客公园