面壁智能选择聚焦端侧模型是因为端侧离用户最近,能够更直接地与用户互动,并且端侧模型在落地时更具象化和现实。此外,端侧模型能够在隐私保护和环境互动连续性方面提供更强的能力。
面壁智能通过注重数据质量和算法优化来实现高效训练,而不是单纯依赖模型规模的扩展。他们使用高质量的训练数据,并通过合成数据的方法提升数据质量。此外,他们还采用了动态学习率调度器(WSD)等创新训练方法,针对模型的不同阶段进行精细化训练。
面壁智能的目标是在2026年底推出一个达到GPT-4水平的端侧模型。这一目标基于他们对大模型智能密度(每8个月翻一番)和端侧芯片算力提升的预测。
面壁智能认为AGI的发展是一个马拉松,而不是短跑。他们强调通过高质量数据和算法优化来推动大模型的进步,并认为AGI的实现需要大模型与Agent技术的结合,才能形成更完整的智能体。
面壁智能通过2B2C和2B2B等多种方式探索大模型的商业落地,并在金融、营销、法律等多个领域进行了尝试。他们目前聚焦于端侧模型,认为端侧是离用户最近且更具现实落地潜力的途径。
面壁智能通过与国内生态公司合作,通过2B2C的方式让用户感受到价值,同时寻找自己的场景。他们认为端侧AI的发展需要生态合作伙伴的紧密合作,并已与华为云等公司达成端云协同的合作。
面壁定律是指大模型的智能密度每8个月翻一番,即在同等参数规模下,模型的智能水平会显著提升。这一规律基于面壁智能对行业发展的观察和自身模型的实践。
面壁智能将云端模型定义为“无所不能的智能”,而端侧模型则是“无所不在的智能”。端侧模型需要在隐私保护和环境互动连续性方面更强,同时克服能耗限制。他们通过与华为云等合作伙伴进行端云协同,推动大模型在用户最近的地方落地。
OpenAI 说,Scaling Law 是大模型的关键。
但AI创业者中,有人看到Scale之外的另一面。
面壁智能的小钢炮模型,只有 8B 大小,却可以跟去年GPT-4V 的多模态能力对标。
CEO李大海说,面壁不玩资源游戏,而是注重数据质量与算法。
面壁如何进行精明的模型训练?
为什么聚焦端侧?
开发端侧,如何距离用户更近?
本期播客,我们请来了面壁智能联合创始人兼CEO李大海,讲了他的AI创业,面壁开发的端侧模型,还有与云端协同的未来。
嘉宾介绍:
李大海,知乎联合创始人、CTO,面壁智能联合创始人、CEO。Google中国创始员工之一。
00:01:51: 我被时代感召,all in AGI
00:05:57:只有LLM可不行——AGI离不开Agent
00:09:06:宗旨是距离用户更近,从端模型到边模型
00:16:18:小目标:26年底,端侧模型达到GPT4水平
00:22:04:训练效率大增:不靠Scale,靠高质量数据
00:26:03:公司一年商业模式全摸了一遍,多个场景落地
00:30:20:走向用户的路,怎么个走法儿?就两点!
对话面壁智能李大海:Scaling Law 之外,大模型的另一条关键路径)
这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。
「AI局内人」,国绕 AGI 相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。
Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。
对更多内容感兴趣,欢迎关注公众号「Founder Park」。