cover of episode 多模态GPT-4o的诗与远方,和走进田野与工厂的大模型-Vol48

多模态GPT-4o的诗与远方,和走进田野与工厂的大模型-Vol48

2024/5/15
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
郭胜
Topics
OpenAI不太可能推出AI搜索引擎,因为其在用户体验和商业生态方面与传统搜索引擎相比存在差距。传统搜索引擎也在逐步融入AI技术,与AI搜索引擎的差距并非如想象中那么大。AI搜索引擎在小众领域表现较好,但在信息可靠性和速度方面仍逊于传统搜索引擎。AI搜索引擎的商业模式和生态尚不成熟,这限制了其发展。AI搜索引擎并非搜索引擎的迭代,而是AI应用的综合入口,其未来发展方向是成为个人助理。大多数语音助理并未完全接入大模型,其功能有限,且难以避免幻觉问题。 金融领域对数据来源的可靠性要求极高,更倾向于使用官方渠道获取数据,而非搜索引擎。金融领域对AI模型的应用非常谨慎,上线前会进行严格的评测,并设置多道防线以应对模型的潜在问题。大模型应用提高了信息抽取的准确率和效率,降低了人力成本,但并未完全取代人工。企业应根据自身业务场景选择合适的模型,并建立相应的评测标准。大模型和小模型结合,以及结合传统方法,可以有效提高效率并降低成本。多模态模型的训练是通过将不同模态的数据(例如图像和文本)编码成向量,并利用其相似性进行训练。目前的多模态模型大多是将不同模态的数据分别处理后再进行拼接,而原生多模态模型则是在统一的框架下进行处理。多模态模型是迈向通用人工智能的重要一步,但要实现通用人工智能,还需要解决数据生成等问题。目前模型训练数据都来源于人类,因此难以超越人类智能,未来需要探索如何生成超越人类感知的数据。未来大模型的发展趋势是采用混合专家模型(MoE)架构,以提高效率并降低成本。

Deep Dive

Chapters
讨论了OpenAI推出AI搜索引擎的可行性,分析了AI搜索与传统搜索引擎的区别,以及AI搜索在实际应用中的体验和挑战。
  • AI搜索在信息多样性和结构化输出方面有优势,但在速度和信息可信度上存在问题。
  • 传统搜索引擎在处理高频和标准答案查询时表现更好,且有成熟的商业生态。
  • AI搜索可能更适合处理需要内容组织和深入分析的问题。

Shownotes Transcript

OpenAI 发布GPT-4o、谷歌用Gemini重塑搜索引擎之际,来自网商银行的多模态和深度学习专家郭胜和我们聊聊了热点话题及独有的AI 落地经验

  • 为什么OpenAI推出AI 搜索引擎不是个好主意?为什么重塑搜索引擎的是AI Agent?我们的结构化分析
  • 连做客服都还存在幻觉的大模型,为什么能用在农业、制造业和小微金融里面?用卫星帮农民算收益,顺便改变农村金融是什么体验?为什么大模型能发现比亚迪和华为的供应商,并为他们提供更充分的金融服务?郭胜在网商银行的实践还覆盖了 GPT 爆火前后的技术范式转变,是极好的案例
  • 从传言中的视觉多模态大模型 GPT-5和最近发布的GPT-4o、谷歌Astra开始,我们不仅理解了AI 如何接近人类,甚至探讨和如何利用计算机独有的优势影响人类

**欢迎在评论区留言发表你对 AI搜索/郭胜AI 实践的感受与看法。**对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01)加群参与讨论。

本期人物:

  • 郭胜博士:毕业于中国科学院大学模式识别与智能系统专业,现任网商银行人工智能部副总经理,负责多模态大模型相关算法的预研以及在网商业务场景中的应用。
  • 主播:Nixon,XR产品经理、曾是AI教育硬件“大力台灯”产品经理;托马斯白,科技营销人、前XR创业公司CMO,科技媒体特约作者;
  • 剪辑:柒

谈话中涉及的概念:混合专家模型(MoE)) / 网商银行大山雀卫星遥感系统)(服务农业) / 网商银行大雁系统)(服务供应链) / 360AI 搜索、昆仑万维天宫、秘塔、Perplexity / 比尔·盖茨讲Agent取代搜索) / 蚂蚁集团基座模型百灵) / GPT-4o) / 谷歌Gemini 和 Astra)

节目中用到的音乐:来自 monkeyman535 的 90's Rock Style,地址 freesound.org);来自 kjartan_abel 的 Berlin Town,地址 freesound.org);基于 CC BY 4.0 DEED 使用

时间轴

04:29 - Part1-为什么OpenAI推出AI 搜索引擎不是个好主意?为什么重塑搜索引擎的是AI Agent?我们的结构化分析

24:20 - Part2-从传言中的视觉多模态大模型 GPT-5和最近发布的GPT-4o、谷歌Astra开始,我们不仅理解了AI 如何接近人类,甚至探讨和如何利用计算机独有的优势影响人类

01:06:00 - Part3-从传言中的视觉多模态大模型 GPT-5和最近发布的GPT-4o开始,我们不仅理解了AI 如何接近人类,甚至探讨和如何利用计算机独有的优势超越人类

脑放电波往期节目精选(搜索关键词可收听)

脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。