Hello, 大家好, 这是 一期 大家 等待 已久 的 battle 集。 说是 battle 是因为 之前 我们在 采访 侯 晓 迪, 他在 谈到 特斯拉 自动驾驶 的 时候 是 这样 说 的。 上次 谁 跟 我说, 你说 如果 把 马斯克 绑起来 在 驾驶 上, 然后 让 他的 车 从 西岸 开 到 东岸, 全程 都能 无人驾驶 的话。
你 就 直播 吃。 没事, 对我说, 我 直播 说 了 好多年 了。 对我 觉得 首先 是 这样, 伊隆 马斯 这个 事儿 是 我是 实名 反对 伊隆 马斯 的。
但是 最近 特斯拉 推出 了 自己的 V 12版本 的 自动驾驶, 在 驾驶 体验 上 可以 说有 很多 的 提高。 我看 也有 媒体 取 标题 说 这是 自动驾驶 领域 的 GPT moment。 马斯克 去年 年底 他 就说, 特斯拉 F S D beta v 一二 从头到尾 都 没有 编程, 没有 程序员 写 一行 代码 来 识别 道路 行人 等 概念, 全部 把 这些 工作 交给 了 神经网络 自己 思考。 它的 C 加加 代码 只有 2000行, 而 V 一一 有 30万行。
其实 这就是 一个 你可以 说 路线 上 的 不同 意见。 比如 戴 维尼斯 的, 他 就 强烈 认为, 因为 他是 做 计算机 纯 视觉 几何 出身 的, 所以 他 对 all in A I 的 态度 就 不如 马斯克。 他的 要求 也没有 达到 他的 要求, 这 两个人 完全不同, 意在 这个 技术路线 就 完全 不 同意。 所以 android 后面 从 OpenAI 离开, 然后 加入 特斯拉 变成 A I director。 我 觉得 他 做 的 最大 的 贡献 就是 不断 的 带领 团队 去 探索 A I 的 边界。 后面 在 整个 过程中 就 培养 了 很多 人才, 我 觉得 特斯拉 主要是 内部 培养人才, 这个 机制 特别 重要。 所以说 太 under 离开 之后, 端 到 端的 出现, 我 刚才 说是 自下而上 的。
所以 我们 也 在 思考 这个 神秘 的 V 12版本 会 不会改变 整个 自动驾驶 行业。 当然 我们 也会 深入探讨 F S D 入 华的 技术难题, 还有 8月8日 推出 的 robot taxi 的 靠谱 性 分析。 如果 你是 自动驾驶 或者 A I 的 从业者, 那 这是 一期 不可 错过的 播客。 来 听 一听 另一边 的 声音。 欢迎 收听 硅谷 101, 我是 红军。 这 期 我们 一起来 聊 一 聊 特斯拉 的 自动驾驶。 今天 我们的 嘉宾 阵容 可以 说是 特别 强大, 我们的 第一位 嘉宾 是 前 特斯拉 A I 的 工程师 于 振华。 Hello, 振华 你好。
你好, 非常高兴 来到 这里 和 大家 一起 到 特斯拉。
振华 在 推特 上 也是 一个 非常 有 影响力 的 大 V, 也是 非常 早期 就 加入 了 整个 特斯拉 的 自动驾驶 团队。 还有 一位 嘉宾 也是 来自于 特斯拉, 他是 王成 胜, 是 前 特斯拉 的 采购总监。 Hello 程 胜。
hello 红军, hello 硅谷 101的听众。 很高兴 来到 这个 节目, 我也是 硅谷 101的忠实听众。
今天 还有 一位 也是 之前 在 我们 侯 晓 迪 那 一期 节目 的 节目 评论 下方 呼声 非常 高 的 一位 主播, 大小 马 聊 科技 的 大卫。
Hello 大卫 你好。 嗨 大家好, 我是 大卫, 很高兴 做客 硅谷 101.
欢迎 大卫。 最后 一位 就是 硅谷 101的老朋友, 大家 非常 熟悉 的 cargo 的 软件 负责人 刘冰 彦。 Hello 冰 验。
大家好。
非常高兴 回来。 今天 我们 其实 在 聊到 特斯拉 的 F S D 的 时候, 开始 的 时候 我们 要不要 先 讨论一下? 因为我 看见 很多 媒体 在 这次 V 12发布 以后, 他用 了 一个 标题, 他说 这次 V 一二 是 自动驾驶 领域 的 GPT moment。 我不知道 大家 是不是 同意 这个 观点。
我是 同意 这个 观点 的。 无论 它 叫 什么, 我们 从 方法论 上 来看, 它是 第一次 做到 了 端 到 端。 就 是从 perception 感知 到 planning 规划, 就是 一个 很 革命 的 一个 算法 推出 来。 在 之前 我们 做 所有的 L 4当中, 其实 我们 大部分 情况下 用 的 都是 rubs 的, 或者 叫 决策树 也好, 一般 就是你 会 列举 很多 scenario, 这种 方法 还是 比较 老套。 虽然 说 看起来 如果 做 robot taxi 行业 是 比较 灵 的 一个 方法论, 但是 他 不能 满足 乘用车 几百万 上千万 台车 将来 在 全世界 的 路面 上 行驶。
振华 你怎么看?
首先 ChatGPT moment, 我想 第一次 最早 提出 是 2023年 马斯克 在 一次 专访 中 提出 的。 大家 很喜欢 很 愿意 把 自动驾驶 和 ChatGPT 来进行 相比 的 一个 重要原因, 就是现在 ChatGPT 代表 A I 的 一个 潮流。 那么 A I 自动驾驶 其实 在 过去 的 十年 发展中, 其实 也 曾经 辉煌 过, 非常 辉煌。 到 最近 的 两三年, 就 变得 处于 一种 比较 冰点 的 一个 时期。 所以 我 非常 认同 马斯克 说 特斯拉 到了 一个 拆 的 基地 moment。
这 里面 一个 因素 就是 大家 看 OpenAI, ChatGPT 它 不是 近两年 才 开始 做 的, 他们是 已经 做了 非常 长 的 一段时间。 但是 只是 在 最近 两年 大家 才 引起 关注, 是因为 它的 XGP3、 GPT4, 它的 用户体验 提升 到了 一个 新的 高度。 这个 新的 高度 让 更多 的 用户 愿意 去 使用, 让 更多 的 用户 认为 这 是一个 能够 改变 他们 生活 方 是 生产方式 的 一个 工具。 特斯拉 的 V 12在我看来 也 到了 这样 一个 能够 改变 人类 生活 和 生产方式 的 一个 工具 的 时刻。
我 个人 也 非常 同意, 特别 是从 客户体验 来说。 我 作为 一个 用户, 我 从 V9V10 开始 使用 特斯拉 的 自动驾驶, 一直 到 V 12。 V 12的版本 从 每个 版本 到 版本 之间 的 接触 是 最 明显 的, 能 从 用户 的 角度 感受到 的 开 的 更 像 老司机 了, 可能 更容易 让 用户 对 这个 产品 更加 放心, 而 不用 全身心 的 关注 于 它的 驾驶 表现。 当然了, 从 市场 来说, 或者 从 用户 买账 的 程度 来说, 它 确实 没有 说 像 GPC3 上市 之后 有 这么 一个 快速 的 用户 的 成长。 从 特斯拉 公布 的 数据 来讲, 更多 其实 是因为 特斯拉 给 每个 新 买的 客户 以及 现有 的 客户 推送 了 一个 免费 一个月 的 试用期。 我们 可以 看到 一个 指数 级 的 里程 数 积累 的 上升, 这一点 对于 数据 的 收集 是 很 有效 的, 至于 有 多少 客户 买账, 我们 现在 并没有 从 一个 官方 的 数据 上 或者 一个 public 数据 上 看到, 是不是 这样?
除了 这 以上 两个 维度 来说, 我 觉得 马斯克 的 想法 可能 还有 第三个 维度。 这个 对于 公司 内部 来说, 这是我 预测 特斯拉 内部 可能 看到 了 一个 更能 高效 实现 到 F S D 的 这样 一个 技术 路径。 以及 说 可以 类比 于 在 OpenAI 当中, 从 GPT2 到 GPT3 之后, 通过 一个 更加 user friendly 的 这样 一个 用户体验, 能 走向 一个 potentially A G I 的 通用 人工智能 的 这样 一个 道路。 所以 我 觉得 从 马斯克 说 ChatGPT move, 它 可能 还 会有 这个 第三层 的 意思。 在 这边 我。
非常 同意 你说 这个 观点, 非常 相似 的 一个 类别。 有 同样 的 问题 就是现在 也有 这个 争辩, 甚至 就是说 GPT 是不是 同向 一 这条 路线, 我们 实际上 是 不清楚 的。 有 很多 大佬 也 在 争辩 类似 这 样子 的 路径 能不能 提供, 就是现在 我们 说 的 V 12或者 n to n 的 这种 模式, 能不能 实现 我们 想要的 最终 的 force of driving, 我 觉得 是一个 非常 像 类似的 问题。
这里 我想 补充 一点, 就是 大家 对于 F S D 这个 词, 或者说 特斯拉 很 擅长 在 词藻 上面 故弄玄虚。 比如说 最早 叫 autopilot, 后面 叫 full self driving, 但 这些 词 我 觉得 更 多是 类似 广告 层面 的 terms。 对它 不是 像 S E 或者 i triple e 下面 定义 这些 level automation 对 吧? 如果我们 要 看到 比如说 L 4、 L 5、 L 三 的 这个 定义, 它是 非常复杂 的。 而且 它 有一个 短板 效应, 就 不是说 你 长板 是 L 4你就是 L 4, 而是 你 基本上都 要 满足 L 4, 你 才是 L 4。 所以 有的 时候 大家 问 说 F S D 到底 是 能 实现 什么? 是不是真的 能 实现 L 四 了? 当然 它 表现 好的 地方 确实 是 L 4, 但是 它 有些 地方 甚至 是我 觉得 L 2都表现 的 不是 特别 好。
所以 这 里面 我 觉得 大家 对于 特斯拉 的这 套 F S D 的 系统, 以及 对 它的 评级, 可能 是 被 特斯拉 的 宣传 有点 给 带 歪。 我们 不会 用 这套 体系 去 衡量, 比如说 vivo 或者 cruise, 或者 zooks, 或者 中国 的 百度 萝卜 快跑 等等等等。 但 我们会 好像 在 客户体验 上 会给 F S D 很多 放松, 或者说 它 出现了 什么样 的 功能, 我们 反而 会有 很多 惊喜。 但是 让 这些 惊喜 在 真正 L 四 的 这些 公司 上面, 我 觉得 早就 有了, 这 不是 什么 特别的 惊喜 了。
对我 刚才 想 补充 一点 的 就是我 实际 觉得 这 两个 问题 很有可能 是 最后 是一个 问题, 就是 GPT 会不会 通向 A J I 和 whatever 技术 能不能 通向 最终 意义 上。 比如说 L 5他们 俩 很有可能 最终 需要 是 同一个 技术, 这是我 对 这个 技术 L 5的理解。 L 5就require A J I。
我 觉得 大家 开始 的 时候 已经 上升到 哲学 层面 的 讨论 了。 我问 一些 稍微 具体 一点 的 问题, 可能 我们 在座 的 各位 大家 都有 使用过 特斯拉 V 12的版本 冰。 我知道你 今天 是从 旧金山 一路 是用 自动驾驶 开 到 我们的 办公室 来 的。 大家 也 用过 之前 的 比如说 微 11V10 的 版本。 因为 开始 我说 大家 赞 不 赞成 这个 是一个 自动驾驶 的 GPT moment, 大家 都说 赞成。 那 现在 每个人 说 1到2个 点, 你们 觉得 他 哪些方面 的 巨大 的 提升, 让 你们 突然 有了 这样的 一个 意识? 我们 先谈 一下 体验。
对我 刚 开 过 我 就说, 首先 它 之前 的 版本 我 只能 用 危险 来形容, 就是 他 会 很多 东西 看不到, 有时候 会 在 没有 看到 的 情况下, 比如说 一些 左转, 它 有可能 是 一些 比较 危险 的。 另一方面, 在 危险 的 同时, 它 也 很多 时候 又 非常 的 胆小。 在 他 看不到 的 时候 他 不动, 或者 在那 磨磨蹭蹭 很久 动 不了。
现在 整体 上 来说, 这 一代 我 觉得 第一 自信 的 多, 第二 他 整体 我 觉得 他的 perception 相关 的 技术 明显 有了 突飞猛进, 他 看到 了 很多很多 以前 明显 看不到 的 东西, 所以说 他在 这个 信息 上 他 也 足够 自信。 就 这两点 上 来说, 整体 他的 体验 流畅 了 很多。 但 仍然 还是 得 说 刚才 说 的 从 3Francisco 回来的 这条路 上, 我 全程 都是 非常 专注 的 在 关注 他的 行为。 高速 上 问题 不大, 在 低速 上 还是 犯 了 很多 错误。 包括 刚才 转进 这个 院子 的 时候, 他 转进 了 隔壁 院子, 然后 卡 那儿 不动 了, 必须 我 接管 才 得 过来。 这里 边 我 觉得 还是 有 很多 缺少 的 地方 的, 但 整体 上 表现 确实 是 就像 我 当年 在 高速 上用 auto bia 的 一样。 他 现在 可以 基本 用 类似的 感受 去 把 它 在 高速 之 下来 用了。
我 来说 一下 我的 体验, 我们 就 不 比较 V 11以前 的 版本 了, 就 从 V 11到V 12来做 比较。 其实 V 11的话 我 已经 每天 用来 上下班。 当然了 可能 在 具体 的 一些 城市 路段 上面 的 路况, 可能 或者 靠近 办公室 的 路况 会 需要 去 接管。
我 举 一个 很 具体 的 例子, 之前 我们 公司 附近 门口 在 修路, 它 会有 很多 路障, 相当于 去 把 可 行驶 的 空间 绕 到 一个 不正常 的 一条 1V11 的 时候, 因为他 会 非常 犹豫。 对于 每一个 的 路障, 它 更多 是一个 单独 识别, 所以 可能 有 连续 左右 两排 加起来 二十几个 路障。 他 那 一段 处理 的 非常 的 艰难, 不停 的 在 左右 转 的 改动 和 调整 当中。 我 抱着 尝试 的 心态, 她 短短 100米的 路 可能 开 了 快 将近 五分钟 到 V 12。 在 类似的 这个 情况 当中, 它的 处理 会 非常 的 顺滑。 在 有 路障 的 前提 下, 它 可以 真的 像 人类 操控 一样。 老司机 可以 根据 这个 有 路障 规划 出来 的 路线 做 一个 很 好的 一个 控制。 所以 我 觉得 在 这一点 上 让 我的 感触 会 比较 深。
当然 就 好像 刚刚 大卫 说 的, 可能 是因为 我 对于 他的 期望值 不高, 所以 我 对 他的 评价 可能 也会 更大。 所以 我 觉得 可能 会有 一些 我的 期望 上面 的 偏差 的 一些 影响。 可能 再举 一个 例子, 就是 在 日常 所有的 驾驶 当中, 比方说 我 太太 在 开车, 我 低头 看 手机, 我可以 明显 感觉到 什么时候 是 F S D 开, 什么时候 是 她 接管。
F S D 开 的 比 你 太太 好。
对不对? 是的, 绝大多数 程度 上 不光是 我承认, 我 太太 她 自己 也 承认 F S D 的 表现 可能 会 比 他 开 的 更好。 好, 大卫。
我 来 谈 一下 两个 点。 第一个 就是 关于 感知 部分, 其实 感知 一直 不是我 对 特斯拉 特别 担心 的 地方。 虽然 说 纯 视觉 相对 我们 用 这种 多 传感器 融合, 比如说 高 精 地图 加 激光雷达 这种 比较复杂 的 系统 来说, 它 表现 确实 没有 那么 好啊。 比如说 有的 时候 对于 分类器 的 表现, 就是你 明明 前面 是一个 公交车, 它 可能 会 把 它 识别 成 一个 大卡车, 但 这种 都 无所谓 的, 因为 它 不会 真正 影响到 你 后面 的 规划 部分。
真正 让 我 觉得 进步 的 是 这个 planning, 就是 规划。 比如说 过 环岛, 因为 过 环岛 其实 是在 传统 的 planning 方向 上面 是 挺 难 做 的。 因为你 要 面对 你 前面 的 车 要 cut in, 然后 你 还要 出去, 这 中间 如何 设置 优先级? 你 即使 设置 优先级, 那你 跟前 车 和 旁边 的 车 保持 多少 的 距离 你 才能 出去, 这 是一个 其实 挺 复杂 的 逻辑。 但是 这个 在 新版 的 F S D 上 表现 确实 让 我 觉得 很 惊艳, 这是 给我 一个 很大 的 惊喜。
而 其他 方面 我 觉得 就会 让 我 觉得 放心。 这 什么 叫 放心 呢? 你知道 他 肯定 不会 撞, 但是 你 总是 觉得 不 放心。 就 比如说 我们 回到 早期, 在 百度 阿波罗 的 时候 做 robot taxi, 当然 他 肯定 不会 撞, 因为 还有 好几道 保险。 最后 让 他 把 车 直接 强行 杀 停。 但是 总是 有 那种 顿挫 感, 总是 有 那种 急刹车 或者 急行, 或者 跟 旁边 的 车 保持 了 危险 的 距离。 但是 这种 体验 在 新版 的 F S D 上 我 觉得 是 少了 很多。 就 两个 方面。
在 用户体验 上, 我是 一直 想 试图用 我的 语言 或者 文字 来 告诉 大家。 然后 有一个 可能 是 大家 最 喜欢 的, 就是我 说 因为 现在 大家 压力 很大, 你 如果 是 开车 到家, 然后 你 常常 你 在 车 里面 待 着, 你 不想回家, 再加上 车上 释放 你的 压力。 但是 有了 V 12之后, 你 不用 到 你 回家 停车场 再 释放。 你 从 一开始 打开 F S D, 你 就 开始 释放 压力 了, 这个 是 以前 不 具备 的。 以前 的话 开 V 11会有 惊吓 感, 你 完全 不用 释放 压力, 你 还 觉得 会 害怕。 但是 V 12你真的 是 有 这种 释放 压力 的 感觉, 是一种 可以 放空 了。 我只是 希望 有 这样的 比较 形象 的 例子 来 告诉 大家。
但是 实际上 你 不去 试, 不去 开, 你 真的 非常 难 体会。 因为我 知道 很多很多 北美 以外 的 特斯拉 的 粉丝 爱好者, 非常 想 了解 V 12, 这个 很难 去 体会。 包括 一些 竞争对手, 比如说 华为 的 余承东, 他说 他 派 了 二十多个 工程师 来 硅谷 驾驶。 包括 今年 英伟 达 开启 D C 的 时候, 因为 很多 国内 的 券商 在 二级 市场 的 分析师 投资者, 他们 也 来到 开 G T C。 然后 他们 来 的 时候 说 一定要 测试 一下 V 12, 我 觉得 这是 对的。 他 包括 国内 有 元戎启行 周光, 然后 他 大赞 V 12, 他说 做 30秒就 上瘾 了, 一 做 就 上瘾 了, 因为他 就是 做 自动驾驶 的。 所以 就 这些 例子, 我只是 想 告诉 大家, 它 确实 是一个 节约 的。 但是 具体 好 在哪里, 要 每个人 亲自 去 体验 才知道。
是从 用户体验 上, 从技术上 来讲, 首先 我要 告诉 大家 是 用户体验 好了, 我们 再 谈 技术。 我不会 说是 单纯 谈 技术, 我 觉得 这个 是 太 书生气 了。 就是 在 用户体验 好的 基础上, 我想 试图 给 大家 解释一下, 为什么 V 12变成 了 一个 节钺。 因为 它是 大家 所说 的 端 到 端的 一个 大 模型。
这个 是在 A I 的 历史上, 在 计算机视觉 到 规划 控制 的 第一次 落地 的 尝试。 这是 第一次 是 A I 历史上 就是说 在 以前 的话, 在 语音识别 已经 实现 了, 自然语言 处理 和 大家 可以 说 chat G D P 也 已经 实现 了。 但是 在 计算机视觉, 就是说 所谓 的 video in 视频 输入 规划 控制 输出, 这是 第一次。 而且 最为 关键 的 是, 它是 一个 非常 大范围 的 一个 部署。 在 北美 全境, 包括 夏威夷, 包括 阿拉斯加, 一个第一次 大范围 的 部署, 180 多万辆 的 车 具备 这样的 功能。 然后 特斯拉 数据 说是 100万辆, 他们 下载 了 尝试 了, 我 觉得 这个 是 非常 了不起 的。 所以 在 这一点 我想 有 一点点 反驳。
刚才 陈胜 说 特斯拉 F S D 不如 chat G P 的 使用 的 比率。 首先 我们 没有 一个 明确 数据, 这是 第一第二 ChatGPT 如果 大家 看 ChatGPT I G P 的 使用 比率 真的 很高 吗? 在 C 端 的话 可以 说 每一个 有 手机 的 人都 可以, 是对 吧? 你的 分母 就是 每一个 有 手机 的 人, 你 都 可以 使用 ChatGPT。 但是 我们 这些 科技 爱好者 或者 在 硅谷 的 人 喜欢 使用。 但是 你 要 比如说 在 我 所在 的 texas, 比如说 在 I O, 在 这些 地方 还有 更多 的 地方, 你们 真的 认为 很多人 在 使用 吗? 这个 比率 真的 很高 吗? 但是 特斯拉 是 需要 特斯拉 车, 而且 在 北美 你 才能 使用。
我 想做 这个 对比, 想 强调 的 并 不是说 H I P D 不好, 而是 说 你 不 能够 因为 在 今天 这个 阶段 用户 的 使用 比率 来 评判 一个 技术 的 好 或者 坏。 这个 是一个 新的 产品, ChatGPT 也是, F S D 也是。 他 需要 一个 相当长 的 时间 去 教育 用户, 让 用户 慢慢的 去 熟悉 这个 产品, 然后 这个 产品 本身 也要 进行 一个 进展。
对, 郑华 你 刚刚 其实 提到 了 F S D 这一次 主要 的 V 12的版本 跟 之前 的 版本 不一样, 是 在于 它是 一个 端 到 端的 技术。 这个 端 到 端 到底 是 指 什么? 就 给 比如说 像 我 这样的 不太懂 的 技术 小白 解释一下, 为什么 他 那么 有 革命性 或者 那么 重要。
首先 端 到 端 它 不是 一个 新的 概念。 我想 每一个 做 A I 的 人都 会 想到 端 到 端, 包括 自动驾驶。 其实 2016年 英伟 达 就有 这样的 paper 说 端 到 端 了。 但是 我 认为是 这样的, 就是 A I 的 一个 很 严重 的 问题 就是 它 在 理论 的 性 是 远远 滞后 的。
理论性 之后 在于 没有人 能够 告诉你 某 一个 东西 一定 会 work 或 一定 不 work。 我 曾经 这么 比较, 我说 特斯拉 的 FSDV12, 它 在 A I 的 地位 相当于 原子弹 在 量子 物理 的 这个 地位。 后来 我想 不对, 完全 不对。 因为 量子 物理 是一个 非常 有 体系 的 一个 学科, 人家 已经 早就 在 理论上 就 给你 指明方向 了。 但是 A I 没有 给你 指明方向, 没有 告诉你 这个 一定 work, 一定 不 work。 所以说 它是 一个 实验性 的 学科, 它 不算 科学。 我 认为 是一个 实验性 的 学科, 就 需要 一个 大量 的 验证, 它 不是 一个 新的 概念。
我 必须 说 第二点 就是 它 和 非 端 到 端 它 有什么 一个 不同 呢? 首先 我们 验证 端 到 端 已经 work v 12是远远 的 超过 V 11, 就是 在 各方面 的 全面 的 碾压。 我们 才会 再来 评价 说 哪里 好 哪里 不好。 为什么? 我 觉得 这也是 一个 逻辑顺序 上, 我想 跟 大家 讲清楚, 是因为 太 work 了 我们 才 去 解释。 如果 他 不 work 之前, 其实 你 也可以 用 同样 的 去 找 理由 说 解释 他 为什么不 work, 对 吧? 那么 他 work 了 首先 在 非 端 到 端的 感知 和 控制 规划, 它是 两个 模块。 而在 过去 的 十年 里面, 我想 各 大公司 都 着力 于, 比如说 在 感知 内 让 A I 充分 的 去 展现 他的 能力, 在 控制 规划 内 也 用 A I 来 全力 的 展现 他的 能力。
但是 这个 两个 模块 始终 是 分离 的这 会 带来 一个 什么 问题 呢? 首先 你 要 两个 模块 分离, 你 就要 人工 的 定义 这 两个 模块 之间 的 接口。 给 大家 举 个 例子, 你的 感知 模块, 你 就 必须 要求 它 能够 检测 所有 物体 的 位置 速度。 这个 是一个 非常 难 的 一个 问题, 特别是 对于 纯 视觉 来讲。 如果你 有 lida 可能 还 简单 一些, 但 你 就 对于 纯 视觉 来讲, 去 检测 一个 物体 的 速度, 这个 就是 非常 难 的 问题。 但是 我们 想 在 我们 人类 的 驾驶 过程中, 你 真的 需要 知道 前面 的 物体 是 多少钱 吗? 你 真的 知道吗? 你 根本 就 不需要 这 过程。
这个 是一个 人为 定义 的 一个 接口。 既然 已经 定义 好 这个 接口 了, 你 如果 不去 把 它 做好, 那么 你 后面 的 控制 规划 做 的 再 好 也没有 用。 所以 端 到 端的 就是说 把 这两块 给 完全 的 连接 在一起 了。 我们 不需要 去 定义 任何 一个 接口, 它的 神经网络 A I model 就能 可以 自助 我的 学习, 你 也 不需要 figure 去 研究 它 怎么 work 的。 它 这个 信息流, 它的 求导 就 完完全全 通过 自己的 大 模型 来进行 展现 了。 这 一个 方面 我想 强调 的 就是 把 这个 人工 定义 接口 给 去掉, 然后 信息 自由 流通 了。
还有一个 就是 在 分 两个 模块 的 时候, 我 认为 这个 技术 是 很难 scalable 的, 为什么呢? 你 每次 要在 一个 现实 的 复杂 场景 中, 你 如果 新 加 一个 task, 那么 你 就要 新 加加 一些 接口。 新 加 的 接口 你 就要 去 改变 感知, 改变 控制 规划。 比如说 我们 特斯拉, 你 举 个 例子, 前几年 N H T S A 美国 的 监管 要求 特斯拉 不 能够 检测 到 紧急 车辆, 就 emergency veco, 比如说 消防车、 救护车 之类 的。 这样的话, 其实 每个 公司 都会 遇到 这 阶段。
你 如果不是 端 到 端, 你 怎么办 呢? 你 在 感知 上 你 就要 要求 要 去 检测 这个, 控制 规划 也要 做 说 这 只是 一个 例子, 这 只是 一个 task, 可能 会 成百上千 这样的 task, 你 要 去 scale。 所以说 在 华为 你们 知道 有 几千个 工程师, 6000个工程师, 好像 是 这样 一个 数据。 为什么 会要 这么 工程师? 因为他 你 会有 这么 多 不断涌现 的 新的 task 出现。 环境 越 复杂 task 越多, 我 认为 这 不是 一个 scalable 模式。
在 真正 的 端 到 端系统 中, 不需要 人为 定义 这些 task, 不需要 只要 采集 数据, 然后 我的 数据 里面 有 这样的 emergency vico, 它 就会 自己 figure out。 所以 我 认为 端 到 端 从技术上 来讲 是一个 革命性 的。 但是 它 不是 新的 概念, 但是 它 被 特斯拉 验证 成功了, 推送 给 了 一百多 万辆 的 特斯拉 的 车。
对我 这里 想 补充, 振华 说 的 当然 是一个 big yes 和 一个 small no。 首先 说 这个 big yes, 我是 特别 认同 振华 刚才 讲 的 这个 端 到 端 它的 scalable。 无独有偶, 我 之前 看 了 一本书 就是 专门 讲 仿生学 的。 然后 他 讲到 这个 蜻蜓, 这个 蜻蜓 捕捉 蚊子 双方都 飞 得 很快, 他 怎么能 精准 的 捕捉到 这个 蚊子, 而且 它的 捕捉 率 基本上 是 99% 点 几, 就 非常 准。 是因为 清廷 的 大脑 是一个 小的 端 到 端, 从 看到 到 执行, 它 就是 很少 的 new one 去做 的。 而 不像 人, 我们 要 先 识别 前面 是什么, 再 用 我们的 执行 单元, 然后 再 挥动 手臂 去 打 这个 文字, 蜻蜓 就是 非常 快 的 一个 小的 端 到 端 神经网络。
还有 另外一个 就是 章鱼。 就 我们 之前 比如说 做 机器视觉, 我们都知道 我们是 把 物理 世界 的 图像 转成 RGB。 然后 我们 从 RGB 再 通过 分割, 再 通过 其他 神经网络 去 把 物体 把 它 做 感知 做出来。 那 章鱼 是 怎么做 的? 章鱼 其实 不是 RGB, 章鱼 的 大脑 可以 同时 分辨, 包括 他的 眼睛 是 八个 维度 的 颜色 信息, 就是 八个 维度 的 颜色 信息。 所以 他 丢 到 他 这个 脑子里, 哪怕 他的 脑容量 不大, 但是 它 可以 分辨 出 非常复杂 的 色彩 信息。 比如说 在 海底, 我们 人眼 无法 分辨 出 不同 的 海参, 因为 我们 觉得 它 长 得 都 一个 颜色, 但是 对于 章鱼 来说, 它 就是 不同 的 颜色。
当然 这是 两个 例子, 就 说明 其实 端 到 端的 神经网络 确实 是一种 比较 革命性 的 创新。 这个 创新 其实 是我 觉得 很大程度 我们 之前 在 看 论文 的 时候, 更 多是 研究 人脑 或者 类 人脑。 其实 在 自然界 有 很多 这样的 应用。
第二个 small no 是什么 意思 呢? 就是 当时 特斯拉 他 标榜 自己 用 纯 视觉, 然后 也有 自己的 自 研 芯片。 但 这件 事情 对于 大多数 主机厂 汽车 公司 来说 都是 比较 奢侈 的那 我们 要 考虑 三个 维度, 就 做 自动驾驶。 一个 是 软件 层面, 一个 是我的 芯片, 还有一个 是我的 硬件。 其实 在 整个 中国 来说, 大部分 公司 的 芯片 其实 都 差不多。 无论是 买 英伟 达 还是 买 其他 的, 很少 有 公司 像 我自己 造 的 一个 芯片。
这个 是 第一, 就是说 它 比较 领先。 但是 在 软件 层面, 实际上 中美 之间 在 这方面 的 差距 确实 不是 特别 大。 当然 说 美国 肯定 有一个 几个 月 或者 一年 左右, 但是 实际上 在 大陆 来说, 大陆 的 这些 自动驾驶 公司 追赶 的 也是 很快 的, 但 我 觉得 还有一个 区别 的 不同 在于, 其实 在 中国 的 自动驾驶 圈 为什么 这么 卷, 是因为 我们 很快 的 就 把 这些 硬件 可能 是 美国 和 欧洲 用 不 起 的。 比如说 激光雷达、 毫米波 雷达, 我们 就 把 它 做成 了 白菜价。 那么 在 这种 状态 下, 是不是 还要 维持 像 特斯拉 那样 做 纯 视觉?
其实 很多 公司 现在 就在 犹豫 了。 我是 一千多块 钱 买 一个 固态 激光雷达, 还是 说 我 用 纯 视觉, 但是 对 算 力 上 会 造成 很大 的 浪费。 但 这件 事情 实际上 跟 刚才 振华 说 的 端 到 端 是 不 冲突 的。 因为 端 到 端 也可以 做 多 模态, 我 也可以 用 激光雷达、 毫米波 雷达、 超声波 雷达 whatever, 我 把 它 加 到 我 这个 大 模型 当中。 所以 这个 其实 也是 很多 业内 的 人士, 包括 一些 观众 朋友 会 问 说 那 是不是 端 到 端 一定 是 纯 视觉, 这个 是一个 smaller。
那你 这 真是 问 到 专家 了, 因为 陈胜 就在 这儿。 我 觉得 1000块钱 太贵 了, 特斯拉 连 雨量 传感器 都 不舍得 用, 你 问 陈胜 省 了 多少钱 一辆车?
对, 但是 我 觉得 随着 供应链 scale 的 上升, 成本 的 大 下降。 在 激光雷达 能 做到 和 一个 摄像头 相似 的 价格 的 时候, 特别是在 端 到 端的 这样 一个 应用 场景 下, 是不是 纯 视觉 还是 一个 唯一 的 路径, 而 有没有 其他 的 一个 传感器 来 作为 一些 补充 或者 补足, 我 现在 不知道 是不是 全世界 还是 一条路。 我 其实 想 问 振华 的 一点, 就是说 我可以 理解 端 到 端的 这个 模型 对于 整体 从 感知 到 in control 路径 规划 的 当中 的 从 编程 角度 或者 从 人为 定义 角度 的 优化。 我 觉得 这个 是我 非常 赞同 的。 但是 反过来说, 你 作为 把 这 两个 模块 做成 一个 全局 化 的 反向 传播 做 优化 的 同时, 就 好像 正华 你说的, 在 很多 情况下, 因为 有 个 更多 的 信息, 从 第一个 模块 传递 到 第二个 模块, 你 会有 更多 信息。 但是 同时 你 也有 很多 不可 解释 的 地方。 对于 像 自动驾驶 这个 对于 安全系数 要求 这么 高 的 行业 来说, 端 到 端 模型 带来 的 不可 解释性 是不是 硬币 的 另外 一面? 无论是 scaling law 还是 怎么样, 有什么 办法 可以 去 解决 这个 硬币 的 另外 一面 吗?
我 还 很快 加 一个 问题。 在 这儿 实际 就 刚才 说到 这个 不可 解释性, 或者说 这个 模型 的 可 观测 性 的 这个 问题。 因为 这里 边 还有 非常 有意思 一个点, 就是 大家 看到 这 12里头, 他在 那个 屏幕 上 的 显示 也好 了 很多。 就是 他 对 周围 的, 比如说 这里 有 一辆车, 这里 有一个人, 这方面 的 显示 好了 很多。 但是 如果你 仔细想 一下, 它 所谓 的 端 到 端, 这个 显示 从 哪儿 来 的? 如果 这个 显示 来自于 原来的 这个 模型, 那 牵扯 到 一个 问题, 就是 我们 实际上 在 这个 模型 里边 已经 加 了 一层 人为 定义 的 接口。 使得 你可以 从 这个 模型 中的 某 一个 位置 中间 位置 提取 出 这个 信息。 也就是说 是从 这个 意义 上 来说, 你 在 这 一层 接口 上, 这个 模型 就 必须 能够 输出, 能够 用来 做 显示的 数据 了。
另一种 我 觉得 是 更 恐怖 的 事情 就是 这个 显示 是 完全 走了 另外 的 一个 路径。 那 也就 告诉 的 是 车上 显示 说 他 看到 前面 有 一辆 大卡车, 不 代表 它的 模型 真的 认为 前面 有 一辆 大卡, 就是 用来 做 控制 的 模型, 前面 真的有 辆 大卡车。 之前 我 认为 特斯拉 做 的 非常 好的 一点 就是 当 你看 他的 visitation 做得 非常 好。 你 看到 前面 有 辆车, 你知道 OK 他 前面 有 辆车 他 应该 会 刹车。 如果 这一点 也 被 破坏 了, 那 将是 非常 恐怖 的。 也就是说 是你 看到 他 前面 看到 有 一辆车, 但是 他 也有 可能 虽然 说 概率 非常 小, 但是 你 现在 不能 确定 就是 他 不会 撞 上去 了, 这也是 另 一点 非常 恐怖 的 点。
端 到 端的 这 一方面 问题, 这是我 想 问 第一个 问题。 第二个 问题 相对 简单 一些。 第二个 问题 就是 关于 刚才 你说的 这个, 大家 都在 讨论 纯 视觉 与否 的 问题。 这一点 上 实际上 我是 非常 坚定 的。 纯 视觉 派 有 个 非常简单 的 一个 原因, 就是 这个世界 的 道路 都是 给 人和 视觉 设计 的。 也就是说 除了 视觉 之外, 你 采集 的 信息 你可以 认为 都是 noise。 当然 你可以 采集 到, 但是 这些 信息 提供 的 noise 和 它 提供 的 真正 的 价值 到底 最终 是 什么样 的 分布?
我 觉得 在 视觉 越做越 好的 情况下, 可能 反而 是 完全 相反 的。 就是说 是 这些 信息 可能 更多 的 是你 不 关注 的。 包括 比如说 激光雷达, 大家 一直 知道 的, 比如 在 雨雪 天气, 在 各种 情况下 出现 的 问题, 激光雷达 不同 车 之间 的 干扰, 各方面 的 问题。 所以说 我 实际上 是 比较支持 这种 纯 被动 视觉。 这 样子 的 方向 是 能够 通向 一条 很好 录 的。 第三个 就是 关于 端 到 端的 一个 问题, 回到 刚才 说 的 这个, 他 是否是 真正 的 端 到 端, 我 实际 有点 怀疑, 或者说 也许 不是 怀疑, 但是 就是说 这里 边 可能 有 别的 危险性。
第三个 跟 端 到 端 相关 的 问题是 端 到 端 从 engineer 的 角度 来说 也许 更好 skill, 就是说 代码 写 的 可能 会 少 一些。 但是 如果我们 现在 在 讨论 未来 的 模式 来说, 端 到 端 有一个 非常 严酷 的 问题, 就是 他 对 sensor 对 传感器 会 更 敏感。 也就是说 当你 换 了 传感器 或者 换 传感器 的 分布 的 时候, 你 这个 模型 可以 说得 完全 冲过去。 这是 也是 另外一个 比较 麻烦 的 问题。
更 关键 的 就是我 再 补充 一下 我 刚才 说 的 关于 视觉 的 这个 事情。 我相信 纯 视觉 是 一条 道路。 但是 我 非常 确定 现有 的 特斯拉 的这 几个 车型 都有 非常 明确 的 盲区, 就是 视觉 不可 达 的 盲区。 而 这个 盲区 就 造成 如果 他 想 实现 最终 的, 不管 是 L4L5 的 自动驾驶, 它的 下 一款 车 一定 需要解决 这个 盲区 问题。 而 解决 这个 盲区 问题, 回到 我们 像 刚才 说 的, 一旦 要 解决 这个 盲点 问题, 它 一定要 调整 相机 传感器 的 位置。 而 调整 这些 位置 立刻 带来 的 结果 就是 之前 这个 模型 会 完全 失效。 所以 这个 skill 也就 说是 每 换 一款 车 你 都 需要 重头 训 这个 模型, 这 我 觉得 是一个。
从 另一个 角度 来说, 工程 上 不可 接受, 或者说 我们 无法 想象 之后 全世界 路上 跑 的 都是 同 一款 车。 这种 千篇一律 的 世界, 可能 大家 也 并不是 特别 希望, 对 吧? 所以 这是我 对 n to n 的 几个 问题。
对我 特别 认同 你 刚 他 讲 的 这个。 其实我 觉得 激光雷达 是 降低 了 自动驾驶 公司 进入 这个 行业 的 门槛 的。 因为你 头顶 一个 大 激光雷达, 实际上 你 能 用到 很多 模型, 而且 这个 数据 的 泛化 性 比较 好, 因为 大家 基本上都 是 顶 在 头上。 但是 就 像你 刚才 说 的, 如果 用 纯 视觉, 你 不同 的 车, 这个 内参 外 参 就是 这个 calibration, 它 差异性 很大。 所以 你 录 的 ground true data 就是 真值 数据, 也 不一定 能 用。 所以 反过来 讲, 我 觉得 大 模型 当然 是个 好东西。 但是 这个 炼丹炉 不 适合 可能 90% 以上 的 汽车 公司 OK。
所以 你的 意思 是 这条 路径 可能 给 特斯拉 提供 冲向 未来 的 路径, 但是 很多 公司 可能 是 做不到 的。
对我 觉得 因为 特斯拉 其实 是 这条 路线 的 开拓者, 并且 它 布局 的 很早, 路上 有 很多 车。 因为 我们在 跟 国内 的 主机厂 打交道, 这里 我 就 不说 名字 了。 他们 会 认为 说 OK David 你 帮 我们 去做 一些 真实 数据 的 采集 可不可以? 我 说好 吧, 什么 数据量? 他说 100万帧, 然后 我说 拿来 干嘛? 他说 我们 要 训练 一个 大 模型, 然后 我 就 满脸 问号。 我 觉得 你 这个 数据量 别说 训练 大 模型 了, 可能 训练 一个 原来的 决策树, 基于 ruba e 的 还 差不多, 或者 基于 激光雷达 做 这种 分类器 还 差不多。 但是 在 大 模型 面前 啥 都 不是。 所以 我 才有 了 一个 结论, 就是 很多 主机厂 因为 盲目 的 追求 特斯拉 那 套 方法论, 导致 有点 被 忽悠 瘸 了。 这套 东西 确实 不 适合 90% 的 主机厂。
我 作为 特斯拉 股东, 听到 你 这么说 我 非常 开心。 丁 彦 你 提 的 问题 真的 非常 专业, 特别的 好。 但是 我 不太想 回答, 是因为 现在 端 到 端 整个 业界 都是 盯 着 他, 盯 着 盯 到 什么 程度 呢? 第一个 业界 的 人 希望 特斯拉 开 A I day。 因为 特斯拉 开开 过 两次 A I day, 手把手 的 教 业界 怎么做 自动驾驶 特别的 细节。 他们说 什么时候 再 开 A I day, 我 想开 什么 A I D A I day 不 开 了, 结果 他们 就 直接 派 工程师 来 硅谷 了。 我相信 如果 是 业界 的 工程师, 可能 会 收到 这样的 他们的 邀请, 说来 跟 我们 聊聊, 我想 聊 啥, 谁 也 不知道 这 怎么做 的, 我 觉得 非常 好啊, 神秘性 现在 神秘性, 并且 你 刚刚 提 的那 几个 质疑, 我 觉得 都 特别 好, 让 这个 成为 一种 神秘 的 感觉, 让 它 继续 存在 下去。
陈胜, 你 关于 端 到 端 和 不可 解释性 的, 我 觉得 这也是 一个 特别 好的 问题。 这也是 为什么 今天 最近 一年 两年 特斯拉 才 开始 做 端 到 端。 我相信 在 过去 的 10年 里面, 绝对 有 公司, 绝对 有 学校, 绝对 有人 尝试 过端 到 端。 对对对。
韦 某 之前 专门 说过 这个 事情, 他是 怎么说 的, 韦 某 应该 是 有 一年 购物 I O 上 提到 过 这个 事情, 就是 他们 用 端 到 端的 模式 来做 这个 事情。 当然 中间 也 出现 过 一些 问题, 包括 他们 对 端 到 端 这种 训练, 自然 会 存在 一些 你 没有 一些 hard room, 所有的 你 设置 的 不能 做 的 事情, 他 都 可以 尝试 去做 一下。 于是 就会 在 模拟 里边 就 出现了 很多 一头 撞 过去 的 现象。 当然 现在看来, 至少 特斯拉 在 一定程度 上 解决 这个 问题 了, 至少 没有 发生 很 明显 的 一些 事情。 所以说 这 都是 故事 了, 很多年 前 薇 莫 提 过 这件 事情。
是的, 对 端 到 端 它是 一个 非常 好的 概念, 也是 一个 非常 美好的 想象。 我想 绝大部分 A I 的 人 都在 梦想 着 一天 我会 要 做 得到 的。 但是 真要 你 做了, 你 其实 不太 敢 做你的 顾虑 是 非常 多。 最大 的 一个 顾虑 就是 他 不 work, 他 做 不 出来。 因为你 在 训练 模型 的 时候, 你 经常 会 效果 不好, 你 就会 质疑 自己, 不太 对, 这 肯定 这条 路线 不对, 就会 出现 这样的 质疑。
所以说 今天 特斯拉 是 把 它 做出来, 最 关键 还是 我 刚才 说 的, 就 V 一二 是 全面 碾压 V 11。 所以说 这是 结果 说话的 一个 问题。 那 难道 你 还去 会 想, 端 到 端 有 这个 不可 解释性, 那一个 什么什么, 因为 它 全面 碾压 对 吧? 那 就是 一个 非常 无脑 的, 你 就 应该 往下走。 我 觉得 这个 是 慢慢的, 大家 也 在 会 看我 想像 威猛, 威猛 是我 非常 尊敬 的 公司, 我 必须 强调 这一点, 因为 特斯拉 这个 真的 是 太 具 震撼 效果 了, 所以 我相信 对 整个 A I 学术界 进展, 我 觉得 都 是一个 很 好的 促进。
我 有一个 问题, 老 于 我 觉得 这个 往下走, 从 工程 角度 上 来说, 如果 在 短期 之内, 你 没有 遇到 一个 最后 小数点 后 多少 个 酒 的 这样 一个 ceiling 的话。 我 觉得 他 其实 从 刚刚 你们 说 的 resource 的 角度, 从 所有的 rubes scaling 的 角度, 我 觉得 是 合理 的。 但是 如果我们 去 定义 F S D, 这个 如果 真的 是 full self self driving, 以 L 5来去 限制 的话, 它 一定要 过 一些 监管部门, 他们 需要 有一个 可 解释性 或者 可预测性。 99.8 的 这个 数据 is not good enough, 对 吧?
同时 的话 这个 是我 觉得 对于 特斯拉 投资者 会最 关心 的 一个 问题。 不是 在于 说 你 现在 路上 有可能 六七百 万台 车 在 开, 有 多少 人 愿意 去 花 8000块 或者 99块 美金 一个月 去 订阅 一个 L2P5 的 F S D。 而是 这个 robot taxi 在 没有 司机 的 情况下, 你会不会 放心 用 它 去 接 你的 小孩 上下学。 所以 我 觉得 可 解释性 是 很 重要。 再加上 对于 世界上 有 这么 多多 的 城市, 就在 美国 来说, 它 每个 城市 就 我们 现在 录制 的 mountain view 和 旁边 的 Sunny will, 它 可能 都 会有 不一样的 法律法规。 你的 车 从 旧金山 一路 开 到 3 will 可能 会 经过 4到5个 城市, 那 他们 之间 是不是 会有 相同 的 法律法规? 这个 车 无论 从 硬件 软件 上 额外 的 基础 模型, 上面 的 小 模型 是 不需要 去 适应 当地 的 法律法规, 变成 了 能不能 scale 的 一个 很大 的 问题。
所以 我 觉得 之后 我 就 以 股东 的 角度, 我 来看 特斯拉 股票 到底 值 多少钱。 当然 this game 不是 一个 投资 的 建议 或者 投资 的 节目, 但是 我 从 股东 角度 我会 去 关心 这个 落地 当中 的 最大 的 风险。 所以 可 解释性 变成 了 是我 可能 在 这 当中 最 关心, 或者 我 现在 并没有 看到 一个 有效 解释 的 一个点。 或者 从 哲学 上来 问, 老 于 你 相信 scaling law 最后 会 解决 这个 L 5的F S D 吗?
首先 我 现场直播, 就是 在 我们 聊 的 过程中, 我 收到 了 12.4.1 的 更新。 这 是一个 马斯克 说 又是 5到10倍 的 一个 好的 一个 更新。 所以 我在 想 是不是 会 不 录 了, 我 出去 测试 去 算了。 然后 陈胜 你 这个 问题 非常 的 好。 但是 我 跟 你 开 个 玩笑, A I 工程师 或者 A I 科学家 真正 做 事情 的 人, 在 公司 里面 最烦 的 就是 搞 A I 伦理 的 人。 开开 个 玩笑。
我 觉得 这话 说 的 不是 regulation。
我 觉得 当我 是 特斯拉 编外 A I 超级 队 奇 员。
这 在 所有 行业 我 觉得 都是 这样的。 包括 生物学 医学伦理 协会 就会 过来 讲。
你说的 这些 话题 确实 超过 我 能 解答 的 能力 范围, 但是 确实 很好。
问题 其实 关于 端 到 端 我 有一个 问题, 就是说 现在 大家 看到 的 是 特斯拉 的 V 12用, 端 到 端 做出来 的 效果 非常 好。 然后 刚刚 冰焰 其实 也 提到 了, 像 韦 某 他们 之前 也 尝试 过端 到 端。 振华 你 有 提到 很多 的 公司, 他们 都在 测 这个 车, 然后 要 关注 这个 技术。 你 觉得 这个 技术 它是 可以 复制 跟 移植 到 其他 的 自动驾驶 公司 上去 的 吗? 它的 门槛 在哪里? 还是 说 特斯拉 它 其实 有 通过 他的 车 收集 到 很多很多 的 用户 数据, 这是 它的 一个 门槛。
我 觉得 现阶段 门槛 还在 算法 层面。 就是说 你看 OpenAI 为什么 领先 其他 公司? 为什么 大家 追不上 OpenAI, 还是 有 一些 独家 秘籍 的。 你是 他 算 力 别人 赶不上 吗? 还是 说 他 数据 别人 赶不上? 我 觉得 不是我 觉得 它 在 算法 层面 还是 有 独家 秘籍 的。
但是 我会 想 强调 的 是, 就是 OpenAI 的 这个 架构 其实 百分之七八十 都 已经 开源 了。 ChatGPT 这个 整个 的 通用 模型 架构 大家 都 知道 了, 但是 特斯拉 这个 可不是 百分之七八十 开源, 可能 百分之七八十 你 都 不知道 是 啥, 你 10% 知道 就 不错 了。 这 意味着 什么 呢? 就是说 他的 保密性 和 他的 现在 的 算法 领先 性, 而且 特 裁 也 不会 公布 在 这个 阶段, 我们 认为 还是 算法 领先型。
数据 上 当然了 肯定 是 非常 大。 但是 算 力 上 现在 的 模型 你 要 知道 是 跑 在 第三代 硬件 上, 这个 神圣 了解, 这是 第三代 硬件, 是 2018年 上车 的, 已经 多少 年 了, 这个 硬件 居然 今天 还能 这么 丝滑 的 跑 V 12。 我 难以想象 等待 这个 模型 再 变大 五倍 十倍 到 第四代 硬件, 第五代 硬件 会 带来 什么样 的 效果。
对 这个 地方 我要 补充 振华 一点, 这也是 国内 主机厂 在 追赶 方面 遇到 的 最大 的 问题。 他们 有时候 会 问, 为什么 特斯拉 芯片 这么 少 的 算 力 可以 实现 这么 好的 效果? 但是 我们 买 n video orin 或者 下一代 star 要 1000T的 算 力, 还 达不到 这样的 效果。
后面 我 一会儿 再聊 的话, 聊到 O B E R taxi 关于 成本 的 时候, 我会 再 讨论 这个 问题。 同样 的 道理, 大家 用 苹果 的 产品, 你 这个 要是 什么 去 跑分 的话, 永远是 安卓 或者 intel 的 东西 比 苹果 要 牛, 对不对? 这就是 软硬件 vertical integration, 就是 要 软硬件 结合。 大家 不能 只看 去 吹 算 力, 看 未来 的 车, 四颗 二 芯片 在 上面。 但是 今天 特斯拉 的 2018年 的 第三代 硬件 居然 还在 跑 V 12, 所以 这个 是一个 非常 强大 的 优势。 还有 端 到 端, 其他 能不能 复, 是我 认为 迟早会 赶上来 的。
我 非常 同意 dav 说 国内 竞争对手 他们的 软件 能力 非常 强, 确实 是。 其实 这 里面 最难 的 还是 我 刚才 说, 就是 这件 事情 被 证实 work 了, 就是 端 到 端 是 全 方面 碾压 的。 这就是 什么 问题 呢? 就 把 一个 开放式 问题 变成 一个 命题作文 了。 而且 我 认为 绝大部分 公司 特别 擅长 做 命题作文。 就是你 告诉我, 我是 这么 做 的, 你 给我 往 下 做 下去。
他 就 这么 做 下来。 其实 中国公司 最 擅长 做 命题作文, 这也是 就是说 在 博弈论 当中 智 猪 博弈 为什么 中国企业 赶 得 快? 因为 这个 小猪 跟着 大 猪, 它 省 成本。
虽然 老 于 说 这个 端 到 端的 算法 最后 大家 都会 赶上, 但是 特斯拉 一直 到 现在 做了 一个 很大 的 赌注。 他 每辆车 在 卖 的 时候 都会 配套 一个 F S D capable 的 硬件, 而 作为 一个 必 选项。 但 客户 买单 与否, 他 都会 送到 车上。 但是 绝大部分 车 企 他们是 不会 去做 这样 一个 投入 的。 也就 在于 说, 虽然 有 这么 多 的 不同 品牌 的 车 在路上 跑, 但是 他们 并 不能 服务 于 收集 数据。
无论是 从 data center 算 力 角度。 马斯克 也 说 今年 4月份 earnings school 的 时候, 他 又说 之前 特斯拉 大概 有 35000张 h one hundred equivalent 的卡, 到 年底 可能 会 到 85000张卡。 就 从 算 力 的 角度 来说, 它 其实 已经 不再 是一个 被 算 力 constraint 的 一个 阶段。 我们 今天 的这 几位 嘉宾 都是 有 自己 开 特斯拉, 然后 一直 会有 F S D 的 更新。 从 V 11每1个 版本 的 更新 可能 动辄 要 用 月 做 单位 的话, 现在 V123点 几 基本上都 是以 周来 做 单位 去 更新 的。 所以 它的 每一次 的 迭代 的 速度 会 大大的 加快。 所以 如果我们 真的 相信 scaling law, 而且 在 短期 并 不会 遇到 一个 天花板 的 情况下, 我相信 以 现在 的 数据 算 力 和 软硬件 的 结合, 客制化 的 硬件, 他 都会 为 特斯拉 带来 一个 短期 之内 比较 领先 的 地位。
对 振华 有一个 问题 我 特别 想 问 你, 因为 我们 今天 在 提到 端 到 端的 时候, 你 也 说 了, 他 其实 内部 在 尝试 这个 项目 也有 几年 了。 你 觉得 为什么 马斯克 敢 赌 端 到 端 这件 事情? 我们 其实 一直都在 说 vivo 他 也有 端 到 端, 他 一开始 他 尝试 出来 的 效果 可能 也没有 那么好。
马斯克 堵 了 那是 很多年 前 的 说法。 现在 具体 怎么样, 包括 是不是 他们 已经 在 用了, 这 我 觉得 也有 很多 真正 懂 的 人 可以 有 机会 可以 站 出来 说 的。
好的, 对我 其实 最 好奇 的 就是 首先 是 为什么 马斯克 敢 赌, 其次 是 为什么 特斯拉 证明 了 这个 东西 它 可以 做成。 为什么 是 特斯拉 首先 端 到 端?
据 我 了解 不是 马斯克 由 上 到 下 的 一个 尝试, 而是 由 下 到 上 的。 所以说 这就 看 特斯拉 的 人才 首先。
在 是谁 主导 的。
这个 不能说 太细, OK, 但是 它是 一个 由 下 至上 的。 在我看来 端 到 端 发生 在 特斯拉, 我 觉得 也是 一个 必然。 因为 纯 视觉 是一个 非常 难 的 一件 事情。 如果不是 端 到 端, 说实话 感知 这 一块 纯 视觉 很难 做到 超过 激光雷达 或者 激光雷达 加 摄像头。 因为 大家 知道 特斯拉 在 A I D 所 公布 的 占用 网络, 它的 占用 网络 是 干嘛 的? 就是 它 用 摄像头 来 估计 周围 的 点 云, 类似 于 激光雷达, 它的 ground truth 就是 它的 真值。 训练 神经网络 增值 就 来自于 激光雷达。 也就是说 你的 上限 就是 激光雷达。
都 做到 这 一步 了, 你 再往下 做 你 还能 怎么 提升? 所以说 特斯拉 因为 他用 城市 觉, 它 做到 V 11再往下, 因为 你的 感知 也就是 这样 了, 你 后面 的 planning control 也就是 这样, 你 能 怎么做? 那 必须 往 这条路 走, 这个 是一个 必经之路, 做 也得 做, 不做 也得 做。
特斯拉 属于 具体 的 这样 一个 位置。 当然 马斯克 也很 重要, 因为 这 是一个 很 烧钱 的 尝试, 代价 非常 大 的 尝试。 在 任何 一个 公司 都 是要 一个 有 绝对 拍 版权 的 一个人 来 决策。 在 没有 任何 一家 公 只 能够 像 特斯拉 一 这样, 这个 团队 就是 马斯克 直接 管理 的。 说白了 就是 他 来 直接 管理, 就是 他 拍板, 他 决策, 他 承担责任。
在 其他 的 一个 公司, 我说 了 A I 这个 东西, 由于 它 不可 解释。 你 就算 是 A I 中 最牛 的 学术界 的、 工业界 的, 也 不敢 说是 轻易 的 去做 一个 选择。 但是 在 特斯拉 就 具备 这样的 一个 条件。
我 从 商业 的 角度 来说 一下。 从 技术 角度 来说, 就像 老 于 说 的, 它是 一个 必经之路。 但是 从 商业 角度 来说, 其实 它的 成本 没有 很高。 因为 就像 我说 的, 数据 硬件 预埋 都 已经 是 沉没成本 了, 特斯拉 已经 付 了。 对于 F S D 的 使用 来说, 推行 的 V 11基本上 是一个 大家 beta 的 版本 给 客户 去 使用。 V 一二 在 训练 的 当中, 它 其实 只是 说 我 额外 去 训练 一个 不一样的 模型, 就像 GPT2和 GPT3同时 去 训练。 我 选择 是不是 要 去 推 到 多少 的 客户 上面, 是不是 会有 员工 预先 去做 测试 等等等等。
从 数据 的 角度, 因为 之前 有 公布 过 的 数据, 有一个 论调 说 每一个 模型 它 要 去 到 一个 比较 好的, 可以 被 客户 接受 的 一个 程度, 至少 需要 300万还是 500万英里 以上 的 数据。 特斯拉 最近 公布 的 F S D 之后 的 数据 已经达到 10个亿 英里 了, 可能 每天 还 会有 几百万 英里 的 增长。 其实 这 是一个 很 可观 的 数据, 它 有 它 自己 一定 的 门槛, 并 不说 其他 公司 就 很 容易 去 做到。 但是 对于 特斯拉 来说, 因为 有 之前 的 这些 提前 的 布局, 或者 提前 下 赌注 给 特斯拉 一个 先天 的 优势, 说 他 可以 去做 不一样的 尝试, 大不了 就是 没有 这个 V 12或者 V 12用另外 一种 方式 去 实现 罢了。
还有一个 问题 想 问 振华, 因为我 知道 其实 你 加入 特斯拉 自动驾驶 非常 的 早期。 我 挺 想 从 你 在 内部 的 视角 来看 一下, 你 觉得 整个 特斯拉 的 自动驾驶, 它 会有 哪几个 大 的 阶段, 它 能 产生 的 比如说 前后 的 一些 巨大 的 变化, 或者说 当然 是 已经 出现 在 公众形象 里 的 人, 比如说 Andrew kaci, 它 对 整个 自动驾驶 最 重要 的 一些 贡献 是什么?
对我 在 特斯拉 自动驾驶 待 了 一共 七年, 但是 后 两年 我 其实 是 离开 软件 组 了, 我去了 自动驾驶 的 硬件 组。 所以 应该说 我 有一个 更加 全局 的 一个 认识。 我 觉得 特斯拉 的 高 自动驾驶, 其实 它 就是 马斯克 在 管理。 所以 中间 有 一些 V P, 其实 都是 很 尴尬 的对 吧? 因为 马斯克 就 直接 管理 下面 的 工程师, 所以 到 后面 很长 的 一段时间, 截止 到 今天 都 没有 一个 自动驾驶 的 V P 就是 马斯克 在 进行 管理。 其实 这 是一个 挺 有意思 的 话题, andry 其实 是 OpenAI 过来 的。 是 其实 当年 我在 的 时候, 就是我 其实 是 比 andrey 还要 早 加入 特斯拉。
在 特斯拉 刚 开始 做 自动驾驶 的 时候, 其实 是 一开始 总是 非常 难 的。 但 那个 时候 就有 一个 很 有意思 的 事情, 就是 因为 马斯克 还有 OpenAI。 有一天 我们 收到 通知 说 OpenAI 派人 来 给 我们 问诊 自动驾驶, 来 帮 我们 看看 有什么 帮 我们 有什么 问题 快 赶紧 交流, 这 都是 大牛, A I 大牛。 然后 那天 来了 之后, 我们 这个 会议室 我 还 清晰 的 记得, 我 就 挤 呀 挤 呀 挤 到 那个 会议室 里面, 你 要不 早 进去 的话, 后面 你 只能 call in 了, 就是 这些 我们 今天 所 知道 的 一些 open a 大家 那天 都 来了, 来了 之后 的 结论 也 非常 出乎 我的 意料, 就是 这 你们 做 的 挺好, 你们 做 的 挺好。 所以 这件 事情 给 我的 一个 很大 的 感触 就是 AI 或者说 自动驾驶 产品 这个 东西, 他 难 的 不是 训练 神经网络 本身, 他 难 的 是 把 这个 问题 变成 分解, 变成 一个 A I 问题。 也就是 在 今天 来看, 端 到 端 成型 了。 但是 当时 的那 一天 我 做 一个 交通线 的 识别, 是不是 用 A I 都 是一个 问号, 都 没有人 能够 明确 的 告诉 你是不是 应该 这么 做。 所以 android 后面 从 OpenAI 离开, 然后 加入 特斯拉 变成 AI director。
我 觉得 他 做 的 最大 的 贡献 就是 不断 的 带领 团队 去 探索 A I 的 边界。 就是 告诉 大家, 我们 这个 有 A I 这个 A I 然后 一段 一点一点 的 让 A I 扩充 到 绝大部分 的 系统 的 里面 的 部分。 对我 觉得 这是 他 对 特斯拉 的 整个 的 自动驾驶 一个 最大 贡献。 后面 在 整个 过程中 就 培养 了 很多 人才。 我 觉得 特斯拉 主要是 内部 培养人才, 这个 机制 特别 重要。 所以说 在 Angel 离开 之后, 端 到 端的 出现, 我 刚才 说是 自下而上 的。
其实 你 刚刚 也有 提到, 在 整个 这个 过程中, 其实 自动驾驶 是 直接 向 马斯克 汇报 的。 我也 挺 好奇 马斯克 他在 进入 到 自动驾驶 这样的 一个 领域 的 时候, 首先 这个 领域 它是 全新 的, 当时 对 你们 来说 所有的 问题 都是 未知 的, 它 其实 也是 在 一个 学习 的 状态 中。 那 他是 怎么 去 综合 你们的 这些 信息 来 给出 判断 的? 你 觉得 他的 一个 思考 逻辑 是什么 呢? 他是 怎么 来 做决定 跟 做 决策 的?
我 觉得 大家 对于 马斯克 研究 都 肯定 比 我 更 充分。 我也是 经常 看 你们 频道, 然后 看 一些 专家 来 分析 马斯克。 我 觉得 从 我第一 视角 来看 他 的话, 其实我 觉得 他 一直 是在 参与 这个 团队 的 技术管理, 是一个 非常 深度 的 参与。 所以 你说 他的 一些 所谓 第一性 原理 或者 他 信息 来源, 你 不 参加 这个 团队 的 管理 或者 技术 会议 怎么 行 呢? 所以 经常性 的 你说 他在 推特 上 X 上 发布 一些 大家 认为 非常 匪夷所思 或者 石破天惊 的 一些 timeline, 大家 觉得 非常 的 不可思议。 其实 可能 就是 他 刚 参加 一个 会议, 他 觉得 这个 东西 他 对 自己 有一个 心理 的 估计。
其实 你说 他在 整个 特斯拉 的 管理 过程中, 有没有 战略性 严重 的 错误? 我 觉得 在 自动驾驶 这边 确实 是 几乎 没有, 确实 是 非常 的 把 每 一点 都 踩 准 了。 最后 也 确实 是, 比如说 这个 纯 视觉, 我 就在 想 如果我们 今天 的 A I 技术 没有 达到 这个 层次, 但是 真的 就是 他 都 猜 准 了。 但是 我要 在 model 3的量产 的 时候, 这个 陈胜 可以 补充。 就是 model 三 他 一开始 他 希望 的 全自动 化工厂, 全 自动化, 我 觉得 太过 高 的 估计 了。 我 觉得 它 技术 上 就 完全 没有 实现, 最后 还是 变成 了 一个 比较 正常 的 一个 生产线 这样 一个 流程。 所以 并 不是说 他 天马行空, 总是 在 特别 不切实际 的 进行 决策。 我 觉得 他的 决策 还是 非常 理性 的。 这种 理性 一方面 来源 他 不断 的 在 深度 参与 整个 队伍 的 管理。 然后 另外一个 方向, 他是 会 及时 纠错。
而且 我 觉得 虽然 大家 说 马斯克 会有 很多 公司, 平摊 到 每个 公司 的 时间 可能 不够。 但是 对于 他 关注 的 无论是 A I 机器人, 他 每周 固定 会有 周会, 会 花 很多 时间 去 看 所有的 细节, 深入 到 具体 的 管理 过程 当中。 而且 我 觉得 很多 人是 以 结果 来去 看 或 去 调侃。
从 说 今年年底 实现 自动驾驶 已经 到 第七个 年头 了, 对 吧? 但是 我 觉得 每一次 伊朗 去 说 这个, 他 真的 是因为 更 多是 他 自己 相信 这个 事情, 而 超过 于 他 作为 一个 marketing 的 一个 效用。 因为 是 他 一个 发展 的 眼光, 他 看到 了 有 一些 我们在 不断 的 去 进步, 就像 振华 等 其他 的 这些 优秀 的 工程师 在 不断 的 去 进步。 所以 他 其实 坚信 说 OK 我们 从 一个 进步 的 眼光 或者 迭代 的 进程 来看, 他是 相信 我们是 越来越 好的。
我 觉得 很多很多 网友 们 从 一个 结论 去 来看, 他 其实 并没有 实现 马斯克 说大话。 我 觉得 这一点 其实 并不是。 如果 他 自己 不相信, 然后 他 就 发 了, 那 我 觉得 这个 可能 会 很 不一样。 但是 我 觉得 他是 自己 也是 坚信 说 这个 技术 是 能 实现 的。 当然 它 确实 很难。 这也是 为什么 我们 花了 很长 的 时间 去 做到 现在 这个 V 12的这样 一个 chat P T moment。 但是 我 觉得 就像 老 于 说 的, 在 真的我 意识到 错误 的 时候, 他是 会 及时 去 纠错 以及 承认 的。
他 对 时间线 的 估计 可能 不太 准, 但是 vision 是 非常 准的。
我 觉得 对 时间线 的 估计, 他 有一个 是 他 我 觉得 他是 有意 的, 在 提前 也是 给 团队 压力, 包括 8月8 号 就 Robert taxi 这件 事情, 其实 内部 的 人我 猜测 你 他 并不是 纯粹 的 压力。 其实 这 对于 保留住 人才 也是 很 重要 的。 就是 今天 自动驾驶 人才 大量 的 外流 到大 模型 领域, 特斯拉 在 战略 上 你 都 没有 一个 清晰 路线图 的话, 我 觉得 这 对于 人才 是 有 损耗 的。 所以 8月8 号 这件 事情 也是 向 内部 在 喊话。 我们 下一步 阶段 下一个 目标, 我们是 真的 正要 开始 做 Robert xi 了, 这是 玩 真的 了。 我们的 公司 的 资源 要 大部分 向 这个 上面 倾斜 了。
包括 我记得 之前 其实 振华 你 有 说, 你说 马斯克 他说 要 走 纯 视觉 的 方案, 不上 激光雷达。 他 这些 话 他 也 不完全 是 说 给 外部 听 的, 其实 也是 说 给 内部 听 的。
是的, 其实 我们在 想, 如果当时 特斯拉 用 激光雷达 了, 只要你 激光雷达 在车上, 那么 你 工程师 就 肯定 会 用 激光雷达。 因为 激光雷达 太好 用了, 所以 他说 他是 一个 拐棍儿, 对 吧? 像 雷军 他 就说 了, 他说 了 终于 是个 大实话, 就是说 我们 使用 激光雷达 是因为 我们 纯 视觉 达不到 特斯拉 水平。
如果 特斯拉 当时 用 激光雷达 或者 用 高清 地图 了, 那么 今天 所有的 一切 全都 要重 来。 所有的 它 不是说 简单 的 拿掉 就 拿掉 了。 它 激光雷达 和 视觉 绝对 不是 冗余 性 的 问题。 所谓 冗余 是 指 你 拿掉 任何 一个, 另外一个 还 像 原来的 一样 work。 不是 这样的, 拿掉 了 就 不 work 了。 所以 这 一系列 的 技术 上 的 难关, 包括 今天 端 到 端 和 那一刻 都是 有关系 的。 如果 有 那时候 有 激光雷达, 到 今天我 觉得 特斯拉 的 位置 肯定 远远不如 现在。
关于 刚刚 别人 说 的 这个 时间线, 对 吧? 我们 很多人都 说, 我 觉得 就像 我们 今天 的 讨论, 其实 更多 也 不是 纠结 于 技术路线, 或者 最终 是不是 会 达到 某 一个点。 而 更 多是 说 他 什么时候 能 落实, 这个 其实 更 多是 可能 我会 关注 的 一个 探讨 点, 就是 短期 或者 中期 会不会 对于 特斯拉 会有 一些 股价 上 的 促进作用, 但是 对于 长期, 我 觉得 我们 刚刚 也 探讨 了, 从 ressource 的 角度, 从 工程 实现 的 角度 等等等 这些 角度 或者 scalability 的 角度。 其实我 觉得 这就是 反过来 去 证明 说 我们 去掉 拐杖 去 走 对的 路。 但是 不管 它 多难, 但是 坚持 在 这条路 上, 我 觉得 这个 是 特斯拉 一贯 的 坚持 的 一个 方向。
对, 振华 还有一个 想 问 你的 就是你 在 做 整个 特斯拉 自动驾驶 期间, 有没有 过 什么时候 是你 质疑 过 马斯克 的 决定? 你 觉得 他 那个 东西 不可能 达到, 但是 最后 证明 他是 对的, 或者 有没有 什么时候 是 他是 错的, 但是 你是 对的。
这些 时刻 我 从来 没有 质疑 过, 因为我 自身 能力 也 有限, 我 觉得 我 一直 说 我是 代表 特斯拉 AI 最低水平 的 工程师, 这 太 谦虚 了。 我 对 他是 完全 的 是, 但是 确实 是在 整个 过程中, 我们 有 同事 有 很多 同事 质疑, 最简单 就是 就 离开。 其实我 在 特斯拉 刚 加入 的 时候 是 主管 视觉 叫 David mr 他 后来 他 带着 几乎 整个 组 都 去 英伟 达 了。 所以 英伟 达 今天 他的 自动驾驶 的 雏形, 或者说 创始 的 组, 其实 完完全全 是 来自 特斯拉 的。 其实 就是 一个 你可以 说 路线 上 的 不同 意见。 比如 戴 维尼斯, 他 就 强烈 认为, 因为 他是 做 计算机 纯 视觉 几何 出身 的, 他 对 all in A I 的 态度 就 不如 斯克, 他的 要求 也没有 达到 他的 要求。 这 两人 完全不同, 意在 这个 技术 输入线 就 完全 不 同意, 那么 就 离开。
他是 不 认为 应该 完全 all in A I 对。
或者说 他 对 all in A I 的 这个 理解 还是 太 保守 了。 从 一开始 解决 这个 问题, 他 就 不是 想 用 A I 来解决。 所以 这个 其实 是 很多 在 传统 领域 非 A I 领域 做 的 久 的 一些 比较 有 成就 的 很 资深 的 人的 一些 他们的 问题。 其实 今天 也是 这样, 前不久 我在 看 李开复 关于 他在 和 一个 频道 对 谈 的 时候, 他说 他 需要 三类 人。 这个 三类 人 具体 有一个 我 忘记了, 他说 但是 有 一类 他说 的 我 挺 有 同感 的, 就是 叫做 原生态 的 A I 工程师。
这个 A I 工程师, 他 原来 没有 任何 的 背景, 其实 李开复 他 也是 A I 出身, 他在 语音识别, 但是 他 认为 自己 都 不算 原生态。 因为 他们的 以前 那 套 A I 理论, 还是 有 很多 大量 的 什么 feature engineering 在 里面 的。 今天 的 A I 工程师, 原生态 A I 工程师 上来 就是 端 到 端, 我没有 任何 的 理论 背景, 我没有 任何 的 me knowledge, 我 除了 端 到 端 我也 不会 别的。 他 认为 这样的 人才 是 非常重要 的。 我 觉得 这 也 不是 不能说 是看 谁对谁错, 我们 还是 以 结果 来看。 所以 在 整个 的这 过程中, 因为 就像 有 马斯克 这样的 人, 有 这样的 领导, 他 所 吸引 的 人, 所 招来 的 人和 配合 的 人, 那 才是 愿意 all in AI 的。 我 觉得 这也是 一个 很 有意思 的 一件 事情。 以后 如果我们 特斯拉 的 F S E Robert xi 商业化 之后, 我 觉得 这 是一个 很 好的 纪录片。 我 觉得 硅谷 101一定要 做 一些 这样的 视频, 然后 来 记录 一下 特斯拉 的 整个 F S E 的 成长史。
好的, 我们 争取 也 希望 你们 能 给 我们 提供 更多 专业 的 指导。 然后 其实 还有一个 问题是 关于 上 一期 侯 晓 迪 在 我们的 节目 中 聊到 的, 他 其实 有 提出 质疑, 他 就 觉得 特斯拉 并不是 一个 端 到 端的 模型。
你怎么看? 首先 小笛 他 自己 本身 就是 一个 在 A I 领域 非常 有名, 非常 有 建树 的 一个 科学家, 对 吧? 他 后来 创业, 关于 他说 的 这个 并行 这个 surge tree 这个 技术, 确实 是 他是 有所 本 的, 他 不是 随便 说 的。
在 特斯拉 自动驾驶 的 负责人 叫 a shock。 他在 去年 上半年 的 时候, 在 CVPR1个 workshop 里面 给 了 一个 presentation。 然后 他在 有一个 slide 里面 讲到 在 规划 模块 神经 网络化 的 这么 一部分, 就是 把 并行 树 这个 地方 变成 神经网络, 就 这 一部分。
确实 不是 今天 的 端 到 端 完完全全 不同。 所以说 可能 有 一些 包括 小迪 在内 一些 人, 可能 行内 的 人 误解 为 这个 就是 特斯拉 端 到 端。 所以 这个 我 来 澄清 一下, 我可以 向 大家 保证, 这个 绝对 不是 特斯拉 端 到 端。
所以 他 看到 的 那个 东西 不是 特斯拉 真正 在 做 的 这个 东西。
对 吧? 他 看 的 东西 是 特斯拉 V 11的1个 模块。
不是 V 12的模块。
对对对, 不是 V 12。 所以 他说 的 也 对, 那个 不是 端 到 端, 是 没有 问问题 的, 只不过 那个 是一个 过时 的 一个 特斯拉 的 技术。 特斯拉 今天 的 V 12和那个 不是 一 回事。
小迪 其实 在 我们 跟 他 录 自动驾驶 的那 期 节目 里面, 也 提到 了 很多 对 特斯拉 的 质疑。 关于 其他 的 部分 你 有什么 想说 的 吗?
对我 觉得 小迪 我 能够 体会 他, 我 能够 共情 他 一部分。 就是 作为 一个 L 四 自动驾驶 公司 的 一个 创始人, 对于 马斯克 的 一些 言论 的的 一些 就 我 能够 共情 一部分。 但是 我 觉得 是 这样的, 我 替 特斯拉 说 几句话。 首先 第一 就是 特斯拉 的 所谓 L2L3, 绝对 不是说 是 吹牛, 说是 把 它 任意 的 拔高 成 rob taxi。 不是 这样的, 我 从 加入 特斯拉 这一天 起, 我 就 知道 这个 产品 的 终极 的 目的 目标 就是 robot taxi。 中间 只是 我们 要 通过 L2L3 这些 渐进性 的 高级 辅助 驾驶, 达到 最终 robot taxi。 在 今天 这一刻, 历史上 任何 一刻 都 距离 robo taxi 非常 的 近。 所以 这也是 我们 整个 行业 内 的 人我 也 大量 了解。
比如说 我们 有一个 网友 是 cruise automation, 他说 我们 对于 特斯拉 的 东西, 我们 知道 它的 存在, 我们 知道 它 不是 log test。 但是 我们 知道 他 存在, 我们 对它 还是 一直 在 关注。 但是 最近 开始 在技术上 对他 产生 敬畏 了。
因为 大 模型 这件 事情, 端 到 端 这件 事情 确实 让 它 具备 了 这个 robot taxi 雏形。 就是 以前 大家 觉得 这 一套 这么 廉价 传感器, 这 一套 完全 不需要 高 精 地图, 是 完全 mission impossible 的 一件 事情。 但是 在 V 一二 确实 是 非常 接近 了。 我 觉得 小迪 他 做 一件事 挺好, 就是说 他说 他 也 开始 开 特斯拉 了, 对 吧? 他用 特斯拉 来 体验 这样 一件 事情, 所以 这个 我 觉得 是 一件 挺好的 一件 事情。
我 其实 鼓励 整个 行业 的 工程师, 只要 你是 尊重 驾驶 的, 你 真的 是 需要 开 特斯拉 V 12, 这 是一个 最 接近 市场 的 一个 产品。 还有一个 就是 他 所 质疑 的, 比如说 马斯克 吹牛 说是 开车 从 西岸 开 到 东海岸, 对 吧? 他说 他 要 赌 这么 一件 事情, 我 觉得 这个 事情 整个 的 细节 我是 非常 清楚 的。
你说 特斯拉 今天 能不能 完全 的 无人驾驶 的 从 西岸 开始, 东岸 这个 技术 上 的 难点 是什么 呢? 难点 其实 就是 下 高速 充电, 然后 再 回去, 其实 在 高速 上 已经 根本 就 不是 什么 问题 了。 所以说 在 当时 提出 这个 目标 的 时候, 特斯拉 的 autopilot 在 高速 上都 很 不完美, 差距 非常 的 大。 所以 这 更 像是 提出 一个 内部 的 激励, 就是我 的 短期 的 目标 是什么 呢? 就是 西岸 到 东岸。 因为 它 主要是 高速 上 会 完成, 等到 真正 我们 实现 高速 是 基本上 没有 什么 问题 的 时候, 我们 还有 没有 必要 花费 这个 精力 要 解决 这个 下去 充电 上来 这个 过程, 这个 当然 也很 重要。 但是 在 那个 时候 我们 要 知道 特斯拉 面临 一个 更大 的 难题, 就是 城市道路。 就是我 只是 把 高速 解决, 我 城市道路 还没有 解决, 我 是不是 要 最后 为了 这个 所谓 demo 的 承诺, 又 花费 大量 的 精力 把 它 实现, 还是 说 我应该 赶紧 去做 城市道路。
我 稍微 来 解释一下 这件 事情, 就像 今天 大家 说 去 拉斯维加斯 来做 马斯克 的 这个 隧道。 为什么 特斯拉 车 还要 人工 开? 为什么 不能 自动驾驶?
其实 还是 一个 问题, 就是 我们 有没有 必要 花费 这个 时间 来 专门 解决 这个 隧道 的 问题。 如果 解决 他 这个 问题, 对于 自动驾驶 的 整个 的 这个 软件架构 算法 是 有 帮助 的那 可以。 但 如果 它 不是, 它 只是 有 耗费 更多 的 精力 来解决 这么 一个 小的 问题, 是不是 有 这个 必要? 对我 觉得 这是 一脉相承 的。 所以 并 不是说 他在 吹牛, 而是 说 已经达到 了 一个 阶段, 那么 就要 去 攻下 一个 阶段。
整体 上 来讲, 我 认为 整个 行业 对于 特斯拉 的 今年 的 进展, 是一个 既 欢迎 的 然后 又 紧张 的 一个 状态。 因为他 确实 是 以前 他在 辅助 驾驶 这 一块 在 玩 自己的 事情, 但是 现在 他的 目标 变成 robot taxi 了, 这个 可能 就 会对 整个 行业 会 发生 一个 非常 的 变化。 但是 我 觉得 这 其实 是 请 大家 这么 理解, 如果 没有 特斯拉 在 做 这件 事情, 可能 自动驾驶 行业 真的 是 冰冰凉 了。 我 觉得 这 是一个 整个 行业 起死回生 的 一个 重大 的 一个 转机。
这个 总结 非常 好。 因为 今天 其实 我们 提到 了 很多 V 12的进步, 也 聊 了 大家 很多 的 主观 感受, 我 还是 想 给 听众 一个 大概 的 印象, 我们 如果现在 拿 特斯拉 的 V 12技术 跟 整个 v mo 的 自动驾驶 技术 来 比 的话, 你们 觉得 哪个 更好 一点点? 就是 我们 想 给他 一个 大概 的 行业 定位。
好, 这个 问题 太好了。 我 一再 重申, 我 对于 韦 某 是 非常 敬畏 的, 我很喜欢 这家 公司, 我 认为 它 对 整个 的 行业 是一个 引领 作用。 而且 它 包括 这个 regulation, 包括 这些 整个 的 刚才 我们 所 谈到 的 opt taxi 所 面临 的 一系列 的 社会问题、 法规 问题, 他 都 在帮 大家 踩 这些 坑。 所以 vivo 做到 今天 是 相当 不容易。
我也 认识 很多 vivo 的 工程师, 我 对于 他们的 能力 我是 非常 敬重 的。 而且 我 经常 看 vivo 的 paper 到 今天 我们 就 用 直接 比较 的话, 当然 特斯拉 V 12在比如说 在 旧金山 当然 是 不如 威谋。 所以说 这个 一定要 就 非常 clear。 如果说 特斯拉 的 V 12, 假设 它 能够 达到 vivo 水平, 我 觉得 这就是 已经 基本上 说明 这个 事儿 就成 了。 就 我 刚才 说 的 行业 重大 转机 就 已经 成 既成事实 了。
那 如果 不说 vivo, 比如说 我们 说 cruise, 说 像 pony 类似 于 其他 的 这些 公司。 因为我 觉得 可能 很多 L 4的自动驾驶 公司, 它 在技术上 有 差距, 但是 我们 说 它的 差距 其实 不是 那么 大。
是的, 这是我 同意 业界 的 说法, 包括 小迪 说法 就是说 特斯拉 没有 到 L 4, 就 这些 公司 他们 已经 在 奥斯 了, 这是 完全不同 的 产品。 但是 硬是 拿 今天 特斯拉 V 12和他们 相比, 我 觉得 是 非常 不公平 的。 因为 L 四是 有 限定 条件 的, 不是你 哪儿 都能 开 的。 而 特斯拉 是用 一个 大 模型, 在 北美, 包括 阿拉斯加, 包括 夏威夷 都能 开 V 12。 到 今天 他们 L 4的差距 在 我 心目 中 是 有 清晰 的 路线图 能够 弥补, 能够 补足 的。 首先 最 重要 的 就是 整个 大 模型 能力 的 提升, 然后 还有一个 很 重要 的 补足。 其实 刚刚 David 提到 了 说 特斯拉 的 F S D 进入 中国 有 百度 的 地图, 比较 高质量 的 导航地图 的 补足。 其实 在 美国 也是 有的。
你们 如果 看 A I 电影 的话, 特斯拉 不是 用 高德地图, 但是 用 导航 及 地图 的。 那么 就是说 从 特斯拉 今天 V 12到L 四级, 别的 一个 非常重要 的 一个 事情 就是我 只要 把 它 变成 本地化 了, 变成 一个 特定 区域 的 一个 服务 的话。 我 就有 这样的 能力, 能够 在 我的 导航 及 地图 里面 任意 的 扩充 我的 信息。 其实 这个 本质 上 就是 一个 从 线上 detection 转到 线下 的 这个 问题。 地图 的 本质 就是这样 一个 事情。 我 已经 谈到 两点 了, 一个 是 大 模型 本身 的 一 演进, 还有一个 是 导航地图 的 更加 细节 信息。
第三个 就像 Chat GPT1样, 就是我 大 模型 在 针对 具体 的 任务 的 时候, 比如说 我 大 模型 想 对 医学 上 的 相对 法律上 的 具体 区域 路径 的 一个 微调, 这样的 事情 又是 第三个 级别 的。 然后 第四个 级别 的 就是 运营, 就像 今天 所有 S 公司 的 运营。 所以 我 认为 这 四个 级别 的 进步 会 能够 让 特斯拉 的 V 12达到 L 四 这样 一个 水平。 只是 他 今天 还是 没有 做, 还是 在 做 第一个 级别 的 事情, 因为他 有 很大 潜力, 端 到 端 大 模型 完 只是 刚刚开始, 还有 非常 大 的 潜力。 我 觉得 等到 那个 时候 遇到 瓶颈 的 时候, 或者说 即将 出现 一些 瓶颈 的 时候, 我 觉得 特斯拉 就会 考虑 后面 的 路径, 然后 达到 今天 的 L 4。
所以 我们 要 看 动态, 因为我 注意到 小迪 在上 一期 讲, 他说 他 特斯拉 开 十分钟 接管 一次, 这个 就 看你 怎么 看待 了。 如果我们 是 V 11过来 的 人, 我们会 觉得 十分钟 就有 一次 很 不错呀, 这个 很 不错, 对 吧? 你 如果 看到 是 他的 一个 进步 的 一个 曲线, 但是 你 如果 是 按照 一个 L 4公司 的 这么 一个 高度 来 看待 这个 怎么回事? 十分钟 接管 一次 对 吧? 这个 是一个 完全不同 的 视角, 我 还是 非常 乐观 的。 当然 我是 代表 特斯拉 A I 最低水平, 而且 我是 非常 biased 的。
对我 这里 补充 一点, 就是 刚才 jane 你 也 提到 像 跟 国内 的 L 4的公司 怎么 进行 比较, 我 觉得 这个 其实 不在 一个 维度 上。 其实 国内 的 L 4公司, 当然 我说 这个 话 其实 也是 有 根据 的, 就 非常 像。 为什么 要 非常 的 像 呢? 首先 大家 来自 的 公司 都很 像, 对 吧? 来自 共同 的 一个 老东家。 然后 其次 我们 用 的 传感器, 我们 用 的 硬件 芯片, 方方面面 的 方法论 也都 很 像。 所以 实际上 大家 已经 在 技术 层面, 没有人 敢 说有 绝对 领先 了。 更多 的 是 开始 铺 车队, 然后 用 这种 room base 的 方式 去 不停 的 开城, 今天 开 一个 城, 明天 开 一个 城, 然后 去 各地 开始 拿 牌照。
我 觉得 特斯拉 完全 不会 在 这个 领域 这么 笨, 跟 中国公司 这样 去 竞争。 所以 还是 回到 大 模型 本身 的 一个 disruptive innovation, 就是 一种 破坏 式 创新。 在于 它 并不需要 再 重新 做 很多 L 4公司 在 中国 干 的 这件 事情, 我 觉得 是一个 非常 革命性 的 创新。
然后 另外 一点, 我想说 也 是因为 国内 这些 L 4公司 已经 没有 办法 再去 开城 了。 为什么 我说 没有 办法 开城 呢? 因为你 开成 是要 自己的 车队 去 铺 的那 你每 台车 的 成本, 从 头顶 的 激光雷达 到 你 车底 下 的 高 精 地图, 它的 成本 其实 是 相当 高 的那 你 在 这种 资本 行情 下, 你 还有 没有 能力 去 每个 城市 至少 干 100台robot taxi, 对 吧? 100台robot taxi 我们 现在 按照 基本上 100万人民币 左右, 加上 Operation cost 就是 一个 城市 一个亿 人民币。 那你 融 了 多少钱? 你 有没有 足够 的 时间 和 金钱 去 跟 特斯拉 这样 竞争, 而且 你 还是 本土 竞争。 所以 我 其实 是对 这方面 不 乐观 的。 我 非常 看好 特斯拉 的 F S D 进入 中国, 并且 是在 robot taxi 领域, 可能 跟 中国公司 掰掰 手腕子。
大家 去 验证 一下 什么 叫 真正 成熟 的 商业模式。 刚才 其实 振华 也 讲 了, 我 很 赞同 他 这个 观点。 就是 如果我们 不 考虑 经济性, 我们 单纯 强调 技术 的 领先, 或者说 最终 客户 的 体验, 其实 是 不对 的。 因为 经济性 的 背后 你 才能 证明 你 这个 business model 是不是 能 work。
我 借着 刚刚 大卫 和 振华 的 观点, 因为 刚刚 最 开始 老 于 有 提到 过 一个 雨刷 传感器 的 事情。 从 一个 小点 来说, 其实 刚刚 我们 谈 的 两类 公司, 它的 技术 实现 的 路径 和 商业模式 是 非常 不一样的。 特斯拉 从 精益生产 经营 运营 的 角度, 我 能 用 视觉, 用 已有 的 设备, 比方说 camera 去 做到 不需要 激光雷达, 不需要 雷达, 不需要 雨刷 传感器, 可能 就 只有 几块钱。 但是 你 做到 每年 180万台 车, 200万台车, 它 其实 就有 很多 钱。 那 可以 去 给 自动驾驶 这样 一个 future 去 造血。
我 觉得 刚刚 大卫 讲 的 就是 对重 资本 去 铺 城市 或者 去 收集 数据。 如果我们 相信 scaling law 的话, 这 是一个 大前提。 如果我们 相信 scaling law 最后 能 解决 F S 的 情况下, 那 特斯拉 现有 的 资产 其实 是 非常 宝贵 的。 而且 是 会 让 一些 没有 太多 深厚 资金 资本 的 初创 公司 完全 没有 办法 去 compete 的 这样 一个 很深的 一个 护城河。 当然 这个 前提 是 我们 相信 这个 数据。
对他 甚至 让 其他 主机厂 都 没有 办法 compete。 就是 哪怕 像 国产 的 第二 梯队 的 造 车 的 势力 都 没有 办法 compete。
但是 我们 看到 了 一个 起点。 就是 一个 chat G P P T woman, 我们 可以 去 相信 他, 但是 有 多少 人 会 去 相信 这个 最后 一定 能 达到 这个 for self driving。 这是我 现在没有 看到 有 数据 可以 给我 证明 的 现在 这样 一个 状况。
接下来 我 觉得 大家 很 关注 的 还有 一个点, 就是 F S D 的 入 华 中国 的 道路 的 特别 状况 特别的 多。 比如说 我 经常 有 看到 逆行 的 外卖 员, 我不知道 你们 会 怎么看 F S D 入 华 落地 的 问题。
其实 因为我 平时 更多 时间 是在 中国 做 自动驾驶, 我们 也是 做 L 4的, 所以 对 中国 的 路况 是 相当 的 了解 的。 路况 的 复杂程度 我 觉得 美国 可能 要 乘以 个 10。 所以 大 概率 我在 想 F S D 入 华 肯定 会有 一些 底层 的 基础设施 的 支持, 比如说 还是会 选装, 或者说 一个 somehow 一个 高 精 地图, 或者 叫 S D 版本 的 地图 或 S D pro。 这个 取决于 百度 怎么 命名 这个 地图, 肯定 是 有 这方面 的 加持 的。 因为你 完全 在 中国 的 公开 道路, 而且 中国 之前 的 车主 实际上 是 F S D, 几乎 这个 功能 是 没有 的那 在 这种 状态 下, 你 直接 说 上 F S D 或者 把 端 到 端 模型 上 过来, 他 肯定 表现 不如 本土 作战 的, 像 华为 其他 公司, 那 肯定 不能说 一 入 华 就 翻车。 那 为了 保证 不 翻车, 也会 采用 跟 其他 公司 大 概率 相同 的 策略。 就是我 也会 把 你们 有的 东西, 尤其是 地图, 包括 合规性 是 要求 于 有 地图 的 我给你 加上。 然后 在 这个 上面 我 先 做 一些 数据 和 跑 一些 样子, 然后 咱们 再看。
我 实际 对 这个 事情 也是 非常 相反 的 观点。 这就是 又 回到 我 刚才 那会儿 说 的 这个 regulation, 就是 准入 的 这个 问题。 一旦 准入 的 问题 解决, 中国 反而 是 最 典型 的 一个 统一 大 市场 了。 只要 准入 的 问题 解决, 如果我们 认为 这个 端 到 端的 大 模型, 特斯拉 现在 在 国内 的 车 也都 一直 有 收集 数据 的 能力。 虽然 它 可能 没有 开 F S D, 但是 我 觉得 对于 训练 角度 来说, 我 强烈 怀疑 这个 实际上 关系不大。 就是 只要 有时候 这个 数据 能力 就 够了, 重新 训练 或者说 只是 分寸, 就是说 把 现有 的 模型 微调 适应 于 中国 这个 道路, 反而 很有可能 可以 推 得 非常 快。 尤其是 在 有 中国 的 统一 市场准入 的 前提 下, 很有可能 会 更快。
当然 中国 路况 之 复杂, 那 当然 是 了, 但是 这 未必 是 坏事 儿。 经过 了 最 复杂 的 路况, 可能 有了 这 一条路 之后, 世界上 别的 地方 可能 铺 的 会 更快。 如果 这条 技术, 尤其是 我们 现在 讨论 的 是一个 不需要 L 5只, 需要 能 对人 比较 好 进行 辅助 驾驶 的 一个 技术。
说实话 我不 觉得 中国 的 路况 真正 麻烦 到了 无法 解决。 因为 所有的 时候 在 一个 随时 可以 被 人 接管 的 状态 下, 大不了 处理 不了 就 交给 人 就行了。 这个 事情 一直 还是 存在 的, 就是 这条路 一直 存在 的。 所以说 我 觉得 只要 市场准入 这个 事儿 已经 完成 的话, 实际上 很 容易。
我 觉得 这个 分 短期 和 长期。 刚刚 文燕 说的是 对于 长期 的 展望, 那 也是 在 基于 解决 了 F S D 的 适用 场景 之前, 短期 的话 我 觉得 中国 消费者 还是 很 挑剔 的。 以及 对于 这个 市场 教育, 我们 之前 所谓 的 比方说 刹车 门, 或者说 对于 一个 动力 回收 的 系统, 它 其实 在 现在 几乎 所有 主流 中国 电车上 都 已经 是一个 必备 的 功能 了。 但是 国家 还是 推出 了 政策, 说 要 给 动力 回收 加 一个 刹车, 就是 一定要 踩 刹车 做 刹 停。 所以 其实 对于 用户 是不是 会 愿意 经常 接管, 或者说 去 为 这个 事情 买单, 我的 观点 可能 更加 悲观 一点。 因为我 觉得 我们 今天 again, 我们 今天 都是 特斯拉 的 长期 的 使用者, 以及 偏 可能 学术 或者 偏 tag 一点。 所以 对于 特斯拉 的 表现, 或者说 它的 一些 失效, 我们 能 去 分析 原因 以及 容忍 程度 能 更高 一点, 并不 代表 大部分 的 用户 都会 去 相信 这个 事情。 以及 大家 对于 所谓 自动驾驶, 或者 辅助 驾驶, 或者 全自动 驾驶 怎么 宣传 的 这个 理解 和 期望值 会 是 非常 不一样的我 没有。
看到 这里 边 的 特异性, 就是说 是 中国 在 这一点, 比如说 美国 也有 各种 刹车 门, 乱七八糟 的 事情, 什么 调查 这些 的。 我 觉得 在 做了 一些 基本 的 模型 的 适配。 当 他说 这个 已经 从技术上 基本 准备 好的 情况下, 我不 觉得 中国 的 市场 相比 美国市场 对于 F S D 的 接受程度 会有 特别 明显 差异。 当然 出了 价钱。
我想 问 大卫 一个 问题, 我们 假设 F S D 入 华 是 基于 model 3Y的 现有 的 硬件 去做 的 入 华, 对 吧? 因为 它 要 涉及到 robot taxi, 可能 要 很久 之后 的 事情。 那 基于 现有 的 硬件 的 条件, 以及 你 对于 特斯拉 硬件 的 了解, 或者说 你 对于 中国 路况 的 了解, 你 觉得 他 有 具备 像 美国 表现 的 这个 F S D 这样的 能力 吗?
实际上 硬件 刚才 也 讲 了, 就是说 你 这个 F S D 不管 是 12点几 的 版本, 在 HW3.0 上 也能 跑。 所以 中国 现存 的 车主 的 HW3.0 也是 能 跑 的那 我 觉得 更 关注 的 是在 软件 或者说 云端 的 这些 infrastructure 方面 的 支持。 因为 之前 这部分 几乎 是 空白, 在 这个 空白 的 基础上, 一旦 你 开启 了 这个 F S D, 就 客户 开始 用。 我们 先 不说 是 付费 用, 还是 特斯拉 免费 让 你 用, 给你 一个 T 那 你的 表现 一定 是要 一 炮 走红 的, 不能 上来 就 哑炮。 那你 要 保证 它 不是 哑炮, 之前 又 没有 做 这些 积累, 那 肯定 是要 有 地图 这方面 的 支持。 所以 其实我 觉得 最 关键 的 就是 这个 地图。 我 刚 好像 无独有偶, 这 两天 看到 特斯拉 中国 的 官方 账号 推送 了 基于 百度 地图 的 高 精的 版本。 所以 我 觉得 大 概率 是 沿着 这个 方向 去 走 的。
可是 我会 做 一些 不一样的 观点。 因为 从 官方 数据 来讲, 特斯拉 的 绝大部分 的 用户 车主 都 是在 一 二线 城市。 一 二线 城市 有 更多 复杂 的 高架路。 在 同 一条 路上 它 可能 有 上下 好几层 的 这样 一个 折叠 的 效应。 有 隧道、 有 高架、 有 正常 公路, 以及 它 会有 很多 的 地下 车库。
F S D 在 重庆 就算。
你 有 高 精 地图, 它 会 受到 很多 关于 GPS I M U 以及 对 类似 于 重庆 上海 这些 复杂 的 路况, 会 受到 现有 的 硬件 的 影响。 他 是不是真的 能 达到 大卫 所谓 的 一 炮 走红 的 这样 一个 效果, 我是 存疑 的。
实际上 您 说 的这 一点 在 因为我 现在 手里 有 百度 的 车 极 越 01, 它 就是 基于 百度 高 精 地图。 当然 它 其实 整个 的 方法论 跟 特斯拉 还是 有 很大 的 区别 的。 虽然 都是 纯 视觉, 因为 它的 这个 planning 模块 还是 基于 u base 的。 But anyway 刚才 你说的 这个 问题 实际上 并 不难 解决。 我 有 足够 的 图 高价 不 高价 的, 实际上 哪怕 有 这些 G P S 的 峡谷 也是 能 解决 的, 也是 可以 靠 高 精 地图 加 卡车 道 线 这种 或者 特征 点 匹配 等等 都 可以 完成 的。
我 觉得 这个 倒 不是 个 大问题, 主要 的 问题 还是 说 应对 中国 复杂 场景 这个 planning 如何 去做。 因为 车主 最终 坐在 车里, 他 对 感知 这些 东西 其实 是 很难 感觉到 的, 他 也 不可能 盯 着 这个 dashmore 上 一直 看, 前面 有 个 车, 你 居然 把 校车 感知 成了 卡车, 他 不会 这么 感觉。 他 只是 会对 你 这个 车 的 顿挫 感、 上下 匝道、 红绿灯 等 行人 斑马线 等等 这些 体感 他 比较 在乎。 而 这个 体感 在 中国 比较复杂 的 场景 下, 我也是 存疑 能不能 做 的 像 美国 这么好。 因为 美国 毕竟 交通 参与者 对于 路权 是 很在乎 的, 谁 先 走 谁 不能 先 走, 大家 都很 follow 的 住, 对 吧? 那 中国 是 另一种 情况。
实际上 有人 还 专门 提 了 一下 这个 事情, 就是说 在 V 一二 里边 他 还是 非常 乖 的, 在 那个 stop 上。 会 等 的这。
因为你 数据 是在 美国 的, 你的 司机 是在 美国 塞子。
不不不, 但是 我想说 的 是, 美国 实际上 大量 的 车, 我可以 说 很高 比例 的 车 它是 不等 的。 也就是说 这个 地方 它 并不需要。
因为 五星级 司机 不是 用户 的, 他是 测 特斯拉 自己的 司机。 这里 我 其实 F I C 入 华, 我 觉得 这个 信息 我 觉得 从 特斯拉 层面 上 来讲, 特斯拉 中国 来讲, 它 绝对 是一个 最大 的 项目, 因为 影响力 太大 了, 对 吧? 马斯克 这个 总理 一切 的 这种 铺天盖地 的 报道, 现在 的 压力 在 特斯拉 中国 是 非常 强大 的。 而且 我也是 在 离开 特斯拉 之后, 开始 做自己 的 业余 自媒体。
我 和 大量 的 国内 的 特斯拉 车主 和 他们 聊天, 我 能够 体会到 国内 的 特斯拉 的 车主 对于 F S 的 渴望 和 他们的 关注 远远超过 我的 想象。 也是 基于 这个 原因, 我 认为 国内 的 用户 其实 对于 自动驾驶 或者 高级 辅助 驾驶 的, 他们的 尝鲜 的 渴望 其实 是 远超 于 美国 的。 我们 有 一些 博主, 他 就在 B 站上 发 一些 关于 美国 自动驾驶 FA12 的 视频。 你可以 想象 到 国内 的 人 他 就 光 看 这个 就有 多少 点击量, 大家 多么 喜欢 看 这个。 从这一点 来讲 是 市场 是 存在 的, 特斯拉 必须 做好 的, 这个 压力 也是 极其 的 大。
那么 为什么 迟迟 到 今年 才 开始 说 要 入 华 呢? 这个 信息 为什么 到 今年 才 开始 呢? 我 觉得 首先 最 重要 的 还是 法律法规 的 问题, 数据 问题。 我 有一个 同学 他在 上海电力 工作, 他说 终于 我的 车 可以 开进 我们 公司 的 停车场 了。 他他 的 特斯拉 这么多年 就 不让 他 进去, 这是 国企 的 特斯拉, 不让 他 进去 最 重要 的 问题 就是 它的 数据采集。 特斯拉 是 不 具备 资质 的, 今年 是 把 这条路 终于 走 通 了。
数据 先 到 百度, 百度 脱敏, 脱敏 是什么? 把 车牌, 然后 把 一些 有 用户 相关 的 或者 国家安全 相关 的 数据 去掉。 然后 这个 数据 才 从 百度 再到 上海 数据中心, 就是 特斯拉 智慧 中心, 这条路 才 刚刚开始 打通。
你 没有 这 一条 根本 就 不可能。 现在 恰恰 巧。 V 一二 研发 出来 了, 端 到 端 研发 出来 了, 我 觉得 又 把 这个 可能性 增强 了, 为什么呢? 我 非常 同意 David 的 这个 看法, 就是 感知 上 来讲 差别 不 大难 的 是 planning control。 但是 planning control 如果不是 端 到 端 的话, 你 必须 铺 大量 的 人 在 做 这件 事情。 根据 国内 如此 复杂 的 路况, 华为 有 几千个 人, 知道 吧? 华为 几千个 人, 包括 你 刚才 说 的 百度, 他们 在 想 华为 这么 多人, 我们 是不是 应该 也 招聘 这么 多人。
但是 端 到 端 这件 事情 之后, 改变 了 整个 行业 格局。 我可以 告诉 大家, 我们 特斯拉 的 原来 做 planning control 的 老大, 他 自己 先 离职 了。 我 觉得 离职 的 非常 对, 激流勇退 不需要 你 了, 你的 planning control 不需要 你 了, 进入 神经网络 了, 进入 A I 了。 现在开始 国内 有 大量 公司, 他们 在一起 开会, 在一起 讨论, 或者说 再 重新 来 复盘 这个 问题。
比如说 理想 他 要招 多少 人我 听说 也 是因为 特斯拉 端 到 端 这件 事情 之后, 影响 他们 整个 的 人才 布局, 他们 体系 架构 的 布局 都 变了。 因为 planning control, 现在 我不需要 那么 多人 了, 以前 确实 是 大家 人海战术, 因为 你的 场景 太 复杂 了, 直接 就是 一个 规则 的 写, 非常复杂。 你 如果 在 这种 情况下, 我 觉得 特斯拉 根本 没有 任何 优势。 特斯拉 怎么 拼, 怎么 去 竞争? 先 不说 我 能不能 招 到 这么 多人, 关键 一点 就是 特斯拉 最大 的 concern 入 华 concern。 对于 特斯拉 来说, 他 担心 他的 安全, 他的 埃 批, 他的 知识产权, 他 不愿意 放 真正 的 具备 代码 阅读 权限 的 工程师。
在 上海 这 是一个 特斯拉 的 一个 问题。 但是 我 非常 同意, 如果 要是 充分 的 市场竞争, 大家 愿意 没有 这个 concern 的话, 中国 是一个 最好的 实现 自动驾驶 一个 竞争 的 场合。 中国 搞定 了, 其他 都是 迎刃而解。
但是 这就是 有 这个 问题, 也就是 特斯拉 它 不可以 把 具备 代码 阅读 权限 公式 放在 上海。 那么 在 端 到 端 之前, 这 简直 是 难以置信 的。 你们 能 想到 大家 把 有问题 的 数据 发到 美国, 然后 大家 一开始 看, 这是 planning, 这 怎么弄? 这 中国 的 是 怎么弄?
这是 美国 工程师 在 这 学习 这 玩意儿, 这 不可思议, 对 吧? 那么 现在 端 到 端, 现在 就是 变成 了 一个 David 刚才 说 的, 就是 变成 一个 infrastructure 问题。 我 只要 从 0到1把 一切 欠 的 账, 把 infrastructure 数据采集 标注, 反正 这 一套 把 它 走 完, 后面 就 简单 了。
但是 现在 最难 的 就是 这 一部分, 但是 我 觉得 这个 是 没有 问题 的。 以 他们 猪 的 执行力, 以 我们在 北美 我们 还是 有 非常 棒 的 华人 工程师 在 配合。 所以 我 觉得 这 一套 0到1 应该 是 可以 完成 的。 而且 现在 抓住 这个 政策 窗口 极大 的 支持, 从 上海 到 总理 都是 非常 支持 特斯拉 F I C E 落地。 所以 我 觉得 这个 窗口 抓住, 我相信 特斯拉 也 非常 明白, 必须 不能 是 哑光。 像 David 的 手 一 出来, 原来 就 这么回事, 这 还是 对 吗? 对, 原来 还 不如 我 那个谁谁谁 谁谁谁。
对 吧? 我 都能 想到 这个 哑炮 之后。
B 站 和 微博 上 就 老 美 就 这 我 都不 对对对, 没错。 所以 我 觉得 一个 是 时机 政策 上 的 出来 的 时机 窗口, 还有一个 最 重要 是我 端 到 正好 出现了, 所以说 我 认为 这个 事情 就 变得 有 希望 了。
我 还有一个 非常 小的 问题是 想 跟 听众 简单 解释一下 autopilot 跟 F S D 的 区别。 因为我 觉得 听到 这里 可能 还有 一些 听众 他是 不能 分 清楚 这 两者 的 区别。 因为 F S D 的 全称 是 for self driving, 它 可能 会有 一个 它是 完全 的 自动驾驶 的 迷惑。 所以 我们 简单 跟 听众 做 一个 科普。
autopilot 是 卖 一辆 特斯拉。 Autopilot 是 免费 的, 自带 的 就是 它的 功能 仅仅 是 车道 保持, 可以 和 大部分 的 cruise 比较 类似。 F S D 才是 真正 的 所谓 的 高级 辅助 自动驾驶, 是 我们 刚才 所说 的 这些 8000美金, 或者说 每个 月 的 九十九 美金, 都是 指 F S D。
刚刚 我们 讨论 了 很多 V 12, 我 觉得 今天 大家 想听 我们 这 期 节目 可能 很大 的 一个 关注点 就是 8月8 号 特斯拉 的 robot taxi, 马斯克 说 会 推出 rob taxi。 我不知道 他的 意思 是 说 我们 要 推出 robot taxi 的 硬件 车 给 大家 展示 一下, 还是 说 我们 可以 去 上线 这个 业务 了。
我 觉得 应该 是 硬件, 因为 它 用 的 是 on will 这个 词, 我 觉得 它 应该 是一个 硬件 的 展示, 比较 符合 特斯拉 以前 的。 比如说 model 3 cyber r truck 这些。
推出 以 新的 车型 就是 展示 车。
对我 觉得 他 现在 说 的 这个 所谓 robot taxi, 明显 就是 想做 一个 能够 真正 在路上 跑, 开始 赚钱 的, 真正 作为 一个 taxi 出现 的 一个 产品。 而 这个 东西 你可以 想象, 就 是从 musk 喜欢 做 的 事情, 就是说 优化 的 这个 角度 来说, 现有 的 给 家庭 用 的 这个 车 是 不 适合 做 这个 robot tax。 就是 有 很多 事情, 比如说 少 一个 座位, 比如说 里边 各种 空间 的 优化, 各种 使用 的 场景。 更 重要 的 就是我 刚才 提 的, 我 非常 相信 的 一点 就是 现有 的 车 从 视觉 摄像头 架构 的 角度 来说, 是 不可能 达到 可以 完全 无人 接管 的 F S D 的。 从 这个 角度 来说, 它 必须 有 一款 新的 硬件 出现。 所以 robot taxi 我 觉得 放 一款 新的 一个 完全 为了 当 出租车 而 设计 的 一个 硬件 是 非常 必要, 也 非常 自然 的。
所以 它 其实 是要 做 一个 robot taxi 的 原型车。 在 那个 时间点。
就 是从 特斯拉 作为 一个 车 公司 这么 长时间 来说, 它 这个 点放 出来 应该 就是 已经达到 类似 当年 说 放出 model 3的时候 的 那个 状态, 就是说 一个 ready 可以 推出 的 一个 版本 了。 对。
冰焰 刚刚 提 的 一点 就是 车 肯定 是 会 需要 有 新的 硬件, 最 基本 如果 它 要 自动 运行, 它 车门 至少 会 自己 开关 等等。 刚刚 老叶 说 了 这是 N V L, 所以说 是一个 新品 的 发布。 如果我 去 套用 过去 的 时间, model 3从发布 到 交付 花了 16个月 的 时间, model y 花了 十个月 的 时间, cyber ur 花了 45个 月 的 时间, roster 还没有 发布, 到 现在已经 72个 月 的 时间 了 and counting。 所以 如果我们 去 按照 以 model 3或者 model y 的 这样 一个 车型 去做 预计 的话, 可能 也 从 今年 的 8月8 号, 可能 你 真的 要 看到 也要 到 明年 的 下半年。 如果 做 一个 合理 的 估计 的话。
这里 我 有一个 大胆 的 猜测, 也是 补充 一点。 Robot taxi 这个 品类 相较 于 auto mobile maker 或者 O E M 这些 主机厂 来说, 他 其实 更 在乎 的 是 我们 叫 mobility as a service, 对 吧? 就是 提供 出行 服务。 那么 一个 出行 服务 的 车 或者说 这个 硬件 载体, 还有 没有 必要 长 得 跟 现在 的 车型 很 像? 这 其实 是一个 delima。 因为你 跟 现在 的 车型 很 像, 就 意味着 你 还是 要有 方向盘, 对 吧? 还是 要有 座位。 当然 你可以 把 方向盘 拆 了, 就像 威猛 它 现在 在 弯曲 跑 的 捷豹 路虎 这款车, 它 当然 是 有 方向盘, 只是 方向盘 那个 位置 不 坐 人, 这 其实 是一种 巨大 的 浪费。
如果我们 不 这么 造 车, 不做 Rachel feeding, 我们 要 从 ground zero 开始 建立 一个 车。 比如说 像 zooks, 像 之前 cruise origin, 就是 cruise 做了 一款 也是 对称 设计 的 车, 这个 周期 是 很长 的。 但是 它的 好处 就是说 它 确实 是 为 mobility as service 这件 事情 打造 的。 刚才 回到 像 振华 说 的 这个 大 模型, 端 到 端 有没有 足够 的 泛化 性能 适配 这么 多 车, 这个 我 觉得 是 打 个 问号。 所以 综上所述, 我 觉得 这个 robot xi 大 概率 不会 跟 现有 的 车型 有 太大 的 出入。 不会 是真的 像 zooks 或者 cruise origin, 或者 其他 的 专门 做 robot taxi 的 公司 做 的 这种 对称式 的, 或者说 完全 没有 方向盘 的 设计, 而是 还会 参考 现在 的 乘用车 的 设计标准 来做。 这样 才能 把 几件 事情 合一, 既 能 满足 大 模型, 又能 利用 现有 的 这些 整个 的 supply chain。 如果 有人 接管, 还能 开 一下。
大卫。 如果你 看过 cyber trunk, 读 过 伊隆 马斯克 传, 如果 对 马斯克 有 一定 的 了解, 你 从 他的 审美, 他 可能 是 不会 允许 有 这样 一个 方方 的 像 校车 一样的, 像 斯 鲁克 或者 卡牛 的 车带 着 一个 特斯拉 的 标 在路上 开 的。
但是 我 觉得 也 恰恰 是 按照 所谓 的 第一性 原理 出发, 如果 要 设立 设计 这 一辆车 的话, 他 一定。
没有 方向盘。
一定 没有方向, 一定要 为了 这个 东西 而 打造。 但是 同时 对我 支持 你说的 这个 就是 形状 不能 太丑。 甚至于 他 可能 也 需要 考虑 manufacturer, 第三方 manufacturing? 它 供应链 的 复用 各方面 肯定 也是 要 考虑 的。 还有 非常重要 的 就是 比如说 美国 的 车 是 不能 没有 后视镜 的对 吧?
这个 为什么 为 为什么 在 robot taxi 上 需要 有 后视镜?
Regulation 就 regulation, 这是 很 蠢 的 一件 事情, 技术 上 早就 可以 不用 了, 对 吧? 但是 美国 所有 车 必须 有 核实 性, 这是 另外 一套 问题 了。 一定程度 上 我们 可以 说 我们 可以 很 好的 预测 这辆 车 将 会 是什么 样子。 它 什么 地方 可以 改, 什么 地方 不能 改, 将 会 怎么 改。 我 觉得 如果我们 想 花时间 的话, 今天 我们在 这儿 聊 几个 小时, 基本 都 可以 把 这 样子 聊 出来。
说到 robot taxi 的 问题 的话, 我 觉得 大家 其实 最 关注 的 还是 说 特斯拉 什么时候 能 真正 的 实现 无人驾驶 的 能力, 哪怕 是 他在 一个 城市 中 无人驾驶 的 能力。 我们在 录 今天 的 节目 之前, 我 跟 陈胜 我们 两个 是 有 花 大概 一个 下午 的 时间 专门 去 试 这个 V 12的版本。 我们 就 发现 他 现在 比如说 找 停车位 的 能力, 进出 停车场 的 能力, 就是 他在 停车场 里面 完全 是 蒙 圈, 停车楼 完全 不行。 对对对, 还有 比如说 我们 当时 是 有一个 路牌, 然后 他 那个 路牌 写 着 right turn only 只能 右转 这个 车 因为 导航 告诉他 就是 刚 出 一个 停车场, 他 就 直接 就 左转 了。 就 是从 我们 现在 的 体验 来看, 我 觉得 他在 整个 路上 的 顺滑 程度 还是 有 非常 大 的 提升 的。 但是 如果你 真的 要 做 robot taxi 的话, 就是 你的 起步 的那 几秒 你 要 找到 路, 然后 你 要 出 停车场, 你 要把 车 停下来。
我的 体验 对对对。
距离 对我 觉得 他 好像 是 完全 没有 任何 的 忧患。
就 很有可能 会 回到 那个 问题, 就是我 对 这个 事情 的 观点 实际上 是 比较 悲观 的。 就是 让 它 作为 一个 非常 好的 辅助 驾驶, 能够 提供 这 样子 整个 的 服务。 没有 问题。 但是 包括 韦 某, 如果 大家 了解 的话 也都 会 知道, 他 这里 边 实际上 是 有 很多。 比如说 背后 人 接管, 比如说 微 某 在 san Francisco o 你说 远程 接管。 对, 比如说 他在 三方 co 运行, 它的 停车点 是 有 非常 多 的 限制 的, 就是 很多 地方 是 不可以 停, 他 只能 在 某些 地方 停车。
可以 这么说, 包括 他 这个 的 泛化 能力, 就是 vivo 实际上 已经 拿到 了 license。 但是 它 相当于 在 加州 应该 只在 sympathetically 一个地方 的 运行, 就是 非常 实际上 非常 小的 一个 范围内 运行。 甚至 连 去 机场 接 人 这件 事 他 都 不可以 的对 吧? 就是说 如果 这个 东西 可以 那么 泛化 的话, 为什么不 这么 做?
从 另一个 角度 来说, 就是 tesla 的这 套 技术路线 实际上 是 想 能够 泛化 的。 但是 我 觉得 会 面临 非常 多 的 问题。 而 我 一直 对 这个 事情 的 观点 是在 达到 强 人工智能 之前, 一个 完全 可以在 所有 路上 跑, 可以 达到 不需要 不 限高, 只需要 和人 近似 或者 是 相对 比 人 好 一些, 比 普通 的 人 更 安全 的 一辆 自动驾驶 车, 是 需要 A G I 这样的 技术 的。 也就是说 我 觉得 在 这 两个 问题 收敛 之前 不可能 实现。
对 我们 简单 的 来说 还是 一个 城市 一个 城市 的。 因为他 如果 要 做 rob taxi 的话, 它 其实 也是 一个 城市 一个 城市 的 拿 牌照, 然后 在 一个 固定 区域 内 运行。 甚至 像 你说的, 它 会有 一些 固定 划 出来 的 停车位。
包括 还有 充电 各方面 的 很有可能。 但是 其实 这样 对 也 应该 还是 有 不少。
路 要 走 的对。 Robot taxi 这件 事情 其实 在 中国 基本上 就是 一个 一个 城市 肯 一个 一个 城市 调, 一个 城市 拿 牌照, 属于 一个 非常 重 运营 的 活儿。 但是 我 很 期待 看到 tesla 用 它的 大 模型 和 整个 O T A 的 这个 架构, 把 其他 robot taxi 公司 重新 暴打 一遍。 让 你看 一下 原来 这种 方式 可能 是 完全 走 偏 了。
其实 是 这样, 就是我 认为 首先 我是 非常 敬重 威猛, 包括 cruise automation, 我 认为 他们 在 rob taxi 这个 行业 就是 这个 领先者, 就是 在 走 0到1 的 这样 一个 过程。 其实 今天 的 威猛 在 他的 用户体验, 你 坐在 上面, 其实我 觉得 已经 至少 不比 人 差 了。 但是 一个 问题 就是 其实 这个 产品 已经 存在 了 V I V O 的, 已经 实现 自动驾驶 了, 已经 实现 robot taxi 了。
为什么 这个 市场 完全 没有 培育 起来? 我 觉得 这 才是 一个 很 要命 的 一个 问题, 还是 它的 成本 出现问题。 就是你 打车 你 最 重要 的 一件 事情 就是 车 要不 赶紧 来。 我 常常在 旧金山 机场 打车, 我 uber live 同时 要 哪一个 先来, 我 上 哪个, 把 另外一个 取消。
我 觉得 这是 很 关键 的那 意味着 什么 呢? 就是 robot taxi 它 本 是个 taxi, 它 必须 有 网络 效应。 你 不能说 我 推出 十辆车 赚 十辆 的 钱, 推出 100辆车 赚 100辆的 钱, 不可以 的。 你 必须 要 足够 的 规模, 你 可能 要 一 千辆 才 有人 愿意 用 你的 车。 因为我 不想 等, 我希望 你 马上 来, 而且 你的 价格 必须 要 便宜。
所以 我 觉得 这次 robo taxi 发展到 今天, 它 在 商业 上 它 不成立 的 一件 事情。 一个 很 重要 的 原因 就是 它的 成本 它 还是 下不来。 所以 大家 为什么 今年 大家 又 开始 有 一点点 关注 自动驾驶? 比如说 wave 它的 融资, 它是 一个 B 点对 吧? 它 融资。 然后 我 听说 的 一些 国内 自动驾驶 公司 开始 准备 今年 在 美 股 上市 了。
就是说 有 一点点 大家 愿意 再去 关注 它, 我 认为 还是 拜 特斯拉 所 赐, 就是 特斯拉 这个 端 到 端 给 人 看到 了 一个 希望。 那么 wave 大家 看 它 就是 完全 端 到 端。 业内 的 人 对他 其实 嗤之以鼻 的 说, 你 就 几个 demo, 几篇 paper, 你 就 融 了 这么 多 钱。 但是 为什么 大家 愿意 给他 钱? 就是 特斯拉 帮助 他 证明 了 端 到 端 是 可以 大规模 部署 的, 是 可以在 一百多 万辆 车上 使用 的。 而 特斯拉 的这 套 模式 是 有 希望 在 成本 上 远 低于 今天 的 人工 的。 刚才 陈胜 也 聊到 了, 说 单车 价格 什么的。 其实 有一点 大家 要 注意 的, 就是说 马斯克 对于 robt t taxi 的 运营模式, 他 有 自己的 畅想。 他 不是 希望 有一个 像 vivo 今天 一个 集中 自己 重 资产 模式, 我 一个 公司 我 管理 这么 多辆 车, 那你 想想 如果 假设 5万美元, 10万美元 一辆车, 我 刚才 所说 的 1000辆车 才 形成 一个 规模 效应 的话, 那你 这 公司 你 受得了 这么样 一个 重 资产 吗?
说 马斯克 他的 理念 叫做 L B N B 模式, 就是我 的 车 是一个 比较 便宜 的 车, 绝对 比 今天 vivo 的 这辆 车 要 便宜。 但是 我的 车 是 卖给 普通 的 大众 消费者, 你们 来 持有 这辆 车, 再 加入 我的 无人 出租车 网络, 这 一切 的 前提 就是我 这个 车 要有 绝对 低 的 成本。 所以说 刚才 所 谈 的 一切 什么 激光雷达, 包括 我说 的 雨量 传感器, 包括 第三代 硬件、 第四代 硬件, 特斯拉 垂直 整合, 都会 归结到 一个 成本 问题 上。 就是 大家 看似 说 这 省 一点 钱 再 省 一点 钱, 但 最后 我 竞争 的 就是 一个 成本。 如果 成本 到 不到 一定 的 限度, 你的 技术 在 今天 vivo 它 就是 可以 无人驾驶, 它 就是 出租车。 但是 在 商业 上 可能 非常 渺茫, 让 大家 看不到 希望, 这是 今天 大家 非常 悲观 的 一个 原因。 而 特斯拉 的 端 到 端 给 了 业界 一点点 希望。 好, 感谢。
好了, 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 可以在 你 所 收听 的 音频 渠道 来 定阅。 我们 中国 的 听众。 可以 通过 小宇宙、 苹果 播客、 喜马拉雅、 网易 云 音乐、 Q Q 音乐、 蜻蜓 F M、 荔枝 F M 来 收听 订阅 我们。 海外 的 听众 可以 通过 苹果 播客、 spotify 还有 youtube 来 收听 订阅 我们。 大家 在 youtube 上 可以 搜索 硅谷 101播客 来 找到 我们。 感谢 大家 的 收听, 谢谢。