慢思考能力是实现长期学习和产生智慧的关键,而当前的大模型主要依赖快思考模式,缺乏深入探索和自我进化的能力。慢思考能让大模型在不确定时暂停解码,进行探索和验证,从而提高决策的准确性和可靠性。
幻觉问题的解决需要更好的数据对齐和谨慎选择训练数据,避免模型在不确定时“撒谎”。业界正在探索通过RAG(Retrieved Augmented Generation)等技术,结合搜索引擎和专家系统,提升模型的确定性和事实准确性。
虽然Transformer架构目前仍是主流,但其优化已接近局部最优。未来的创新可能来自硬件的突破,如新型加速器的出现,或训练目标的改变,如多模态能力的提升。此外,架构的改进可能需要“先下山再上山”,即暂时放弃现有优化,探索新的方向。
中小企业可以通过合成数据来突破数据瓶颈,尤其是生成“超人类数据”,即通过AI系统自我改进和自我对弈,生成超越人类认知水平的解法。这些数据可以被提炼回模型中,提升其性能和可靠性。
创业者应跳入大模型的实际应用中,成为“Doer”,通过实践深入理解模型的潜力和问题。只有亲身参与,才能发现模型的边界,找到独特的应用场景,并在大模型驱动的创业浪潮中获得成功。
【本期内容】
自 OpenAI 发布让全世界瞩目的 ChatGPT 以来,时间已经过去一年有余。大模型技术在这一年里不断进化:无论是越来越强的多模态能力,还是智能体 Agent 潜力初现,都让人们对这一场 AI 革命充满期待。但在 LLM 技术飞速发展的当下,要想使得大模型的能力落地关键领域,还存在哪些挑战及亟待解决的问题?
本期播客,开始连接 LinkStart 特别邀请了两位顶尖的技术极客——美国工程院院士、智源研究院原理事长张宏江院士,与 Google DeepMind 资深工程师卢一峰,于极客公园创新大会 2024 上进行了一场有关前沿技术的对话。这次对谈中涉及了多个极为关键的话题:如何解决大模型幻觉、使大模型拥有「超人类」的能力、训练数据枯竭的下一步应对、以及底层技术架构创新等。
正如卢一峰的调侃,不少提问是价值「百亿美元」级别的问题。
【嘉宾】
张宏江:美国工程院院士、智源研究院原理事长
卢一峰:Google DeepMind 资深工程师
03:21 聊聊大模型已做到的「快思考」与未拥有的「慢思考」
05:49 大模型如何学会像人一样「慢思考」,即具备长期的学习能力?
09:12 在解决大模型的「幻觉」问题上,有什么新的技术突破?
10:43 如果在对齐步骤中不够谨慎地选用数据,可能会促使大模型「撒谎」
14:06 除开 Transformer,未来会出现新的大模型架构吗?
15:43 如何突破大模型架构的优化瓶颈:“先下山,再上山。”
18:53 在训练模型时,中小企业如何寻找更高质量的数据?
20:17 合成数据的下一个机会点:「超人类数据」
24:52 创业者如何获得核心竞争力:跳入水中,成为大模型世界的 Doer
【对话稿件实录】
《智源张宏江对话谷歌卢一峰:什么才是大模型「皇冠上的明珠」?》)
【关于节目】
「开始连接」是一档由极客公园出品的泛科技知识圆桌栏目,在这里,我们会邀请各行各业的嘉宾一起跨界对话、碰撞思想,用科技、商业和人文的视角一起描摹这个时代。每周三晚也会在「视频号-极客公园」同步直播,共同畅聊时下热点话题,欢迎扫码关注。
本期编辑:xuxu
剪辑:Katherine
公众号/视频号:极客公园