cover of episode AI快讯:马斯克撤诉与苹果WWDC生成式AI亮相

AI快讯:马斯克撤诉与苹果WWDC生成式AI亮相

2024/6/18
logo of podcast AI Odyssey

AI Odyssey

AI Deep Dive AI Insights AI Chapters Transcript
People
马斯克
鹏鹏
无足够信息。
Topics
鹏鹏: 本期节目主要围绕马斯克撤销对OpenAI的诉讼,苹果WWDC发布会上展示的生成式AI技术,以及其他一些AI领域的最新进展展开。马斯克撤诉事件始于他指控OpenAI违反创始协议,转向盈利模式,以及其他一系列指控。最终,法院文件显示此案被无罪开释。苹果在WWDC上发布了其生成式AI技术,强调隐私保护,并采用本地大模型加云端的策略,新版Siri将具备跨应用信息整合、连续对话、上下文理解等能力,并集成ChatGPT功能。此外,节目还介绍了快手Klin、Luma AI Dream Machine和Runway Gen-3 Alpha三款AI视频生成模型,以及英伟达Nemotron-4 340B大模型和阿里云开源Qwen-2大模型等。最后,节目还分析了一个包含15140条ChatGPT提示的数据集,展示了用户互动情况和越狱提示的分布。 马斯克: 马斯克在节目中主要以其与OpenAI和苹果的事件为中心。针对OpenAI,马斯克最初的诉讼指控OpenAI违反创始协议,转向盈利模式,并损害了他的利益。最终,他撤销了诉讼,法院文件显示此案被无罪开释。针对苹果,马斯克强烈反对苹果与OpenAI合作,将ChatGPT集成到iOS 18中,他认为苹果没有能力自主研发AI,并且使用ChatGPT会泄露用户信息,并威胁如果苹果将ChatGPT集成到系统级别,他的所有公司都将禁用苹果设备。

Deep Dive

Key Insights

为什么马斯克撤销了对OpenAI的诉讼?

法院文件显示此案被无罪开释,马斯克主动撤销了诉讼。此前他指控OpenAI违背创始协议转向盈利,但案件的法律基础存在问题,核心合同并非由所有涉事方签署的正式书面协议。

马斯克为何反对苹果与OpenAI的合作?

马斯克认为苹果没有能力自主研发人工智能,且使用ChatGPT会向OpenAI泄露用户信息,无法保护数据安全。他甚至表示,若苹果集成ChatGPT到系统级别,他的所有公司将禁用Apple设备。

苹果在WWDC上发布了哪些生成式AI技术?

苹果发布了全新的个性化智能系统Apple Intelligence,采用本地大模型加云端的策略,本地模型约30亿参数,处理速度为每秒30个token,响应延迟约0.6毫秒。Siri将具备跨应用信息整合、连续对话、上下文理解等新功能。

苹果如何确保生成式AI的隐私保护?

苹果通过Private Cloud Compute设立了AI隐私保护的新标准,确保用户数据安全。独立专家可以检查在苹果芯片服务器上运行的代码,以验证隐私保护措施。

快手、Luma AI和Runway的文生视频模型各有什么特点?

快手可灵适合生成高分辨率长视频,Luma AI的Dream Machine适合快速生成高质量短视频,Runway的Gen-3 Alpha适合高保真和多模态创作。

Pika公司为何能获得8000万美元的B轮融资?

Pika凭借出色的视频生成效果和实时编辑功能迅速走红,成为视频生成赛道的龙头之一,计划扩展研究和工程团队以保持竞争力。

英伟达的Nemotron-4 340B大模型有哪些优势?

该模型包含3400亿参数,能生成高质量合成数据,适用于医疗、金融、制造等多个行业,并针对开源库的推理进行了优化,确保高效运行。

阿里云的Qwen2大模型性能如何?

Qwen2 72B在性能上全面超越了Llama-3 70B等知名模型,预训练数据和训练方式使其在自然语言理解、代码、数学等多方面表现卓越。

ChatGPT提示数据集包含哪些内容?

数据集包含15140条ChatGPT提示,其中1405条为粤语提示,展示了用户在不同平台上与ChatGPT的互动情况,尤其是粤语提示的频率和分布。

Chapters
本部分主要讲述了马斯克获得560亿美元工资,以及撤销对OpenAI诉讼的事件。其中包括对诉讼案的背景、诉讼内容和结果的描述。
  • 马斯克获得560亿美元工资
  • 撤销对OpenAI的诉讼
  • 诉讼案的核心合同问题

Shownotes Transcript

大家好,欢迎收听本期的 AI Odyssey,我是鹏鹏最近一周呢,最高兴的人莫过于特斯拉的老板 Mask 了他终于拿到了拖欠将近 6 年的工资 560 亿美金,约合 4000 亿人民币

Mask 在 18 年 1 月签订了一份类似对赌协议的 CEO 绩效激励方案其中包括了 12 个市值 milestone 和盈利目标在当时这些看似不可能的目标如今悉数实现另有消息称 Mask 计划将特斯拉迁移至德克萨斯州外界则认为这是他的无声反抗此外最新消息显示 Mask 主动撤销了对 OpenAI 提起的诉讼

此前他指控 OpenAI 和 Sam 违背创始协议转向盈利要求 OpenAI 恢复开源这起诉讼已持续近四个月如今法院文件显示此案被无罪开示原本就在旧金山还有一场听证会法官将考虑被告请求决定是否应当驳回此案

值得一提的是,3 月份有专家告诉 CNBC 该案件的核心合同并非由所有涉事方签署的正式书面协议因此案件的法律基础存在问题

好了,我们简单回顾一下他们的爱恨纠缠今年 2 月份,马斯克将 46 页诉状提交到法庭指控 OpenAI 及其官联公司和高管有 5 项罪状第一条,违反创始协议,将 GBT-4 独家授权给微软,背离了非盈利使命第二条是,诱使马斯克对 OpenAI 投入巨额资金和资源

后来违背非盈利的承诺第三条是违反信托责任将 Mask 提供的资金和知识产权用于盈利目标第四条是涉及不公平的商业行为虚假承诺索取捐赠第五条是掌握了捐赠资金的知识产权和财务信息使 Mask 无法确定资产使用权利益 OK 看完了 Mask 和 OpenAI 的爱恨纠缠我们再来看看 Mask 和 Apple 之间的故事

6 月 10 日,苹果宣布与 OpenAI 合作,将在 iOS18 中接入 ChatGPT 服务。用户可以通过 Siri 使用 ChatGPT,然而这一消息引发了马斯克的强烈反对。

Mask 公开表示,Apple 没有能力自主研发人工智能,并且使用 ChatGPT 一定会向 OpenAI 泄露用户信息。他认为 OpenAI 获得用户信息后,无法保护这些数据的安全。Mask 进一步表示,如果 Apple 将 ChatGPT 集成到系统级别,他的所有公司都将禁用 Apple 设备。这事件引发了广泛的讨论,尤其是用户隐私和数据安全问题。

Mask 的强硬态度会带来怎么样的影响呢我们拭目以待接下来我们看一下这件事情的主角北京时间 6 月 11 日凌晨苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 召开

这场大会不仅为全线产品带来了生成式 AI 技术还公布了许多意想不到的消息苹果的生成式 AI 理念是必须要强大直观完全整合个性化且保护隐私基于苹果设备强大的 M 系列的芯片采用自研本地大模型加云端的策略本地模型解决不了的问题可以借助云端大模型或

OpenAI 的 ChatGPT4 来解决超出处理能力的部分大会着重介绍了 Apple Intelligence 苹果的全新个性化智能系统这套全新的个性化智能系统的模型框架由三个部分组成端侧大模型约 30 亿参数在 iPhone 15 Pro 的处理速度为每秒 30 个 token 初始响应延迟约为 0.6 毫秒

苹果的云端大模型处理能力与 GBD3.5 相当 ChadGBD4 在需要调用时优先级排在苹果资源的大模型之后因此在苹果的全新个性化智能系统的加持下 Siri 将变得更加智能拥有丰富的知识并且能像先进的大模型工具一样一步步的提示用户帮用户解决问题苹果表示 Siri 的新形态将改变游戏规则新的 AI 能力很快上线

Siri 也将具备以下特征,跨应用的信息整合能力,通过为照片、日历和文件等内容创建与所引,Siri 能够理解 APP 之间的信息并具备跨平台信息处理能力。

支持连续对话和上下文理解更自然的语义理解能联系上下文体验更加自然屏幕内容理解可以根据屏幕内容执行操作如将朋友发来的地址信息添加到联系人中在与 OpenAI 合作的 ChatGPT 部分将集成到 iOS、iPadOS、MacOS 中用户可以通过 Siri 访问 ChatGPT 功能并保证内容在发送给 ChatGPT 前都会先询问用户

此外,系统范围内的写作工具也可以使用 ChatGPT 生成内容。Apple 表示,今年秋季将先提供英文测试版。

更广泛的功能软件平台和其他语言将在明年推出苹果通过 private cloud compute 设立了 AI 隐私保护的新标准确保用户数据安全独立专家可以检查在苹果芯片服务器上运行的代码以验证隐私保护措施这个号称是有史以来最强的 AI 隐私标准我们将在 shownor 上贴出官方的介绍文章感兴趣的小伙伴可以去看看原文

最后对于 iPad 用户来说苹果终于推出了原生的计算机引用数学笔记计算机用户输入和手写数学表达式后可以立即看到这个结果 OK 以上是苹果在 WWDC 发布的主要内容

我们简单的聊一聊为什么目前只有苹果能实现跨应用的信息整合能力原因是因为跨应用的信息整合非常依赖系统芯片模型和终端的一体化安卓手机厂商在系统芯片高通或者联发科模型目前除了三星接入 Gemini 外其他的普遍是采用字眼或者开源大模型

终端的话是各家的不同的品牌安卓在这一体化上的打通难度较大导致现有的安卓手机的 AI 应用局限于某个 APP 比如说面向录音或者是电话或者是修图等而苹果则可以面向距离的场景所以从这个逻辑上看华为的鸿门系统加盘古模型和麒麟芯片一体化也是非常有前途的另外在发布会前后市场做出了完全不同的反应

苹果发布会当天股价先跌 2%,第二天涨 7%先跌主要是冲着 OpenAI 合作而来的投资者他们会先走,因为与 OpenAI 合作仍比较浅发布会前的预期较高但是在发布完发布会后发现仅将 ChatGPT 作为一个按需调用的工具而非深度集成的贩载功能

后面的涨是因为认可苹果 AI 设计理念的投资人他们会留下来苹果目前的产品仍然是最好的且符合人心两拨不同的投资者给股价也带来了不同的走势那么除了股价和功能外哪些还是我们可以关注的点 Apple Intelligence 仅限于搭载 A17 Pro M 芯片的机型这些机型普遍具有更高的运行内存可以满足端侧模型运行的需求

那么苹果未来的创新方向包括算力大模型落地散热光学等方面的持续创新 iPhone 17 也有望迎来较大的换机动力生态上建议大家可以关注一下果链相关的企业预期这些企业将受益于苹果产品的创新和量价提升接着发稿前果链生态均有较不错的涨幅

本周在纹身视频方面可谓是异常热闹接下来我们将为大家介绍三款最新发布的 AI 视频生成模型并对它们的特点进行简单的对比帮助大家更好地理解它们的优势和不足快手版 Sora-Klin 快手推出了一款名为 Klin 的大模型支持生成长达 2 分钟 30 帧 1080P 的视频

它不仅能生成符合真实物理运动规律的复杂视频还具备强大的概念组合能力和想象力第二款是来自旧金山初创公司 Luma AI 推出的新一代 AI 视频生成模型 G-Machine 这款模型速度快 120 秒内即可生成 120 帧的视频动作逼真流畅融入了电影级别的摄影技术和戏剧张力

第三款是 Runway 的 GEN3 AlphaRunway 推出的新一代视频生成模型 GEN3 Alpha 它能够实现高保证度和一致性生成丰富的动作手势和情感的人类角色总的来说这三款纹身视频模型各有千秋快手可灵适合需要生成高分辨率长视频的用户尤其是在复杂运动场景下表现尤为出色

Luma AI 的 Gene Machine 适合需要快速生成高质量短视频的用户,如注重动作和角色一致性的应用场景。Runway 的 Gene 3 Alpha 适合需要高保真和多模态创作的用户,如复杂叙事和专业创作场景。

这些模型展现了 AI 视频生成技术的前沿进展,为创作者提供了更多可能性,同时也反映了各自的设计理念和技术路径,无论你是哪个领域的用户,都能从中找到适合自己的工具。

说到文生视频我们不得不提一下皮卡近日皮卡宣布完成了 8000 万美金的 B 轮融资总融资金额达到 1.35 亿美元估值翻倍至 4.7 亿美金这家刚刚度过一周年生日的视频生产创业公司计划在这轮融资后快速扩展其研究和工程团队

去年 11 月,皮卡推出了其 1.0 产品,凭借出色的视频生成效果和支持用户实时编辑视频的突破性功能,迅速走红。在短短 5 个月内,皮卡的三人团队成为视频生成赛道的龙头之一,成为 Runway 的最大竞争对手。

同样说,皮卡的快速融资和团队扩展显示出其视频生产领域的雄心壮志在 Sora 这样的强劲对手面前皮卡如何保持竞争力值得我们持续关注接下来我们将为大家介绍英伟达最新推出的通用大模型 Nimotron 4 340B 这款模型不仅包含一系列的开放模型还能为各行业的商业应用生成高质量的合成数据我们简单的介绍一下这款模型

它包含了 3400 亿参数并提供了一系列开发模型开发者可以使用这些模型生成合成数据用于训练其他大模型这些模型经过优化后可以和英伟达的 NEMO 配合使用或者是一个用于端到端模型训练的开源框架涵盖数据管理定制和评估

该模型的主要优势是首先它能合成高质量的数据通过独特的开放模型许可 NemoCharm 4 340B 为开发者人员提供了一种免费且可拓展的方式来生成合成数据

这对于自定义 LM 来讲是一性能准确性和质量指挥之中其次这些模型适用于医疗健康金融制造零售的各个行业可以帮助开发者构建强大的 LM 最后模型针对了开源库的推理进行硬化确保能高效运行

该模型现在已经可以在 Hugging Face 上下载了本周阿里云同意千问团队宣布千问 2 大模型的开源这些消息也引起了众多 AI 开发者的关注千问 2 72B 在性能上全面超越了业内知名的开源大模型 Lama 3 70B 甚至迁移于文心 4.0 欧包 Pro 和会员 Pro 等国内必然大模型

相比今年 2 月推出的千问 1.5 千问 2 实现了代际飞跃之前的千问 1.5 110B 已领先于文星 4.0 等国内币源模型而现在的 2.0 表现更为卓越在预训练母语言模型的评估中千问 2 72B 在自然语言理解知识代码数学和多语言等多个能力上显著超越了当前领先的大模型如 Lama3 70B

和签问 1.5 110 币这都得益于其预训练的数据和训练方式

大规模的预训练后千问 2 进行了精细的习条以提升智能水平使其表现更加接近于人类这一过程进一步提升了模型在代码数学推理指令遵循和多元理解方面的能力微调过程中团队也尽量减少人工标注使训练规模化现在模型已开源大家可以在摩塔社区或者 Hugging Face 上免费下载千问 2

相信大家在社媒平台上可能刷到过一个中国小姐姐和 GBT DAN 的互撩视频。GBT DAN 是基于 ChatGBT 的粤语模式实现的。今天我们将来聊一聊一个非常有趣的数据集。这个数据集包含来自 Reddit,Discord,各个网站还有开源数据集的 15140 条 ChatGBT 指令,其中包括了 1405 条粤语提示。

这些数据展示了在不同平台上用户和 ChatGPT 互动的情况尤其是粤语提示的频率和分布这对研究 ChatGPT 在实际使用中的表现和用户行为提供了宝贵的经验好感谢你的朋友可以根据 Shownu 上的地址玩起来了以上就是本期的全部内容感谢你的收听我们下期再见