大家好,欢迎收听尼海克,我是赛头,我是依夏
我是龟龟本期节目由 Podwise 赞助播出 Podwise 是一款为播客听众制作的 AI 学习软件产品的 slogan 是 Read Before ListenPodwise 通过 AI 对播客内容进行转录提取总结分析等一系列操作帮你掰开了揉碎了硬核的播客内容同时与 Notion、Readwise 等平台的打通嵌入知识管理工作流协助您的其他包括新闻 Newsletter、Vlog 的内容帮你打造第二大岛
Podwise 也为本期听众准备了三个五折优惠码针对本期在小宇宙与我们互动的精选回复欢迎大家踊跃来玩好的那开始我们本期的节目吧不知道大家有没有发现啊就前几年火热的 Spark Flink 这些大数据的热门概念这两年好像因为 AI 的出现啊就听到好像越来越少了
现在大家听到的可能更多的都是什么 LIM 然后 RAG 向量等等这些名词好像大数据这个概念一下就给不火了那我们今天非常荣幸邀请到我们的老朋友也是在数据平台的企业服务领域就盛庚了多年从 Hadoop 一直玩到 AI 的侯总然后来跟大家一起聊聊大数据是不是真的不火了然后 AI 时代跟大数据到底是个啥关系所以刚开场要不然侯总先给大家打个招呼吧
大家好,我叫侯乐瑶,现在是在一家数据独角兽公司做产品经理也是在数据行业里边大概玩了大概有十年了可能更多的是在 2B 行业里边去做这种数据平台以及数据相关产品的交付包含产品的研究等等刚好我们刚开始讲了一堆跟数据平台跟 AI 相关的这些东西你能不能给大家解释一下就现在的这些很 fancy 的名词
对吧大语言模型然后 RAG 然后限量数据库等等这些东西到底跟我们以前的大数据有没有关系有的话是个什么关系大数据平台本身还是对上层去提供存储和计算的两种能力只不过是说 AI 时代对大数据平台的要求
那么结合的一些名词那么 LM 应用本身就是大语言模型它其实通过算法是对海量的数据进行这种训练那么本质来说这些数据其实就是来自于大数据那么 RAG 其实我的理解里边它是一种检索技术与大模型的结合那么核心还是从这种海量的数据里边找出关联的问题那么这个里边也是大数据可以提供存储那么向量我的理解里边它是一种
存储格式或存储方式它其实是更多的能够提供多模态的存储所以逻辑上来讲的话那么我觉得它还是大数据本身还是对于上层去提供支撑 OK 所以从你的这个角度上来讲其实现在的这些 AI 应用跟大数据其实也是分不开的我们刚才也在聊说你其实从 Hadoop 就开始玩了嘛那相当于其实从 Hadoop 到现在 AI 的这个时代你其实一直都在做数据然后你能给大家分享一下
这些年大数据也是因为你看 Google 的那个三篇论文嘛对吧然后发完之后大数据这个行业才开始开始有所谓开源的发展然后有各种各样后续的直接实现你能给我们讲一下就是这些年这个数据平台它的发展趋势是怎么样是不是它越来越实时然后数据量越来越大等等之类的它背后有没有什么样的逻辑好的可能在内部至少说对外去讲的时候经常会提到什么第一代数场第二代数场到第四代数场
解释的话有两种解释方式一种是所谓的偏技术性的表达一种是偏传统的表达偏技术性的表达来说的话第一代数仓其实就是以 Teradata 或者 Oracle 代表的这种传统型关系型数据库来去做数仓因为数仓存在很久了
它并不是说现在才出现的以前用官行数据库或传统的这种数据库去来做数据藏是完全可行的那么第二代数据藏的话其实是由于数据量的激增对于存储和计算提出了更高的要求那么的话结合谷歌的这几篇论文那么除了这种 Hadoop 体系它可以降低
存储和计算的这种成本你比如说像第一代数仓当中的 Oracle 那么它在做这种 Oracle Rack 的时候它的成本会非常高存储和计算量提升了之后那么它其实第二代数仓还是维持在这种离线的角度或者批量计算的角度那么后面随着业务的发展客户对于实时有更高的需求那么这个时候的话第三代数仓我们讲的其实是实时数仓那么这个时候也可以传统理解成什么 Lambda 架构
本质上来说的话是实时一条线然后呢离线一条线那么本质上来说的话实时和离线各自有独立的一条数据处理的流再往后的话由于第三态数仓里面特点它是实时和离线分离的那么的话同样一份数据肯定会存两份那么会造成
存储或者计算资源的浪费那么很多人就会想能不能去融合在一起所以说会有第四代储藏那么就混合架构或者流批一体或者说现在比较流行的糊仓一体比如说传统意义上的卡帕架构 OK 这是技术上的表达那么后面还有一种业务性的表达业务上的表达的话第一代其实逻辑是一样的只不过二到四代是有一定的区别的呃
二代可能就是传统的数据平台三代就是所谓的数据中台四代其实就是类似于 Snowflake 这边的一种云上的这种树仓本质上来说其实是这些 OK 那我就想问一下你看在现在各种比如说时序数据库对吧然后现在又来了向量数据库等等之类的一系列的然后这些东西跟现在的像 Flink Spark 就它们之间是怎么结合的或者它们有没有结合点嗯
有的首先包括 Spark 和 Flink 他们其实专精的还是数据流的处理过程那么他们其实还是维持在各自的场景里边虽然有些扩展但是还是维持在这个过程比如说像 Flink
他专门做实时嘛那么他最开始其实就是真正的实时流处理然后呢慢慢去做流批一体就是离线和实时处理一个过程里面然后再往下那么他其实专门去做这种去解决实时流处理过程的一旦问题比如说像 CDC 就是实时的从
各个引擎里面去读取这些数据然后呢包括他现在说胡文件就是胡仓一体嘛他提供了胡文件包括从去年开始孵化了一个无文件的存储格式就类似于 iceberghoodie 这些他们内部叫派蒙嘛然后 spark 这里
它其实是从批处理它刚开始的发展场景其实是为了解决传统意义上就是 Hadoop 的 MapReduce 整个计算的时效性问题慢慢那么慢慢发展到实时那么它的实时其实当时叫做 VP 就是把一个时间流切成一个一个小段它
并不是真正的实时然后呢他今年在因为他现在 Spark 到三了嘛 Spark 四这里边他还在孵化过程中那么他提的一些包含做真正的实时也好去支持 Python 的高阶函数也好其实更多的在优化他们都在做 AIAI 相关的话
Flink 的 Alink 其实现在迭代基本上放缓了他们最近一次版本的发布还在二三年的 11 月份 Spark 里边和 AI 相关的有一个叫 Spark MLMotion Learning Lab 然后迭代里边它其实迭代也没有增加很多的新功能它更多的包括在 Spark 4 里边 Roadmap 里边它也没有很大的比如说和大模型相关但是它的母公司 Datebreaks 里
其实有很多和 AI 相关的东西但是我感觉他并不会把这些东西放到 Spark 4 里面 OK 了解我就想问一下一个是从 P 到流一个是从流到 P 就这两个然后 Flink 因为前些年也不是前些年了就反正很多年前已经被阿里收购了然后你们现在在业界里面在给客户去实施干嘛的时候你们会去两个都推呢还是去推 Spark 还是去推 Flink 两个都推我们现在还是说特定的引擎去解决特定的问题
就 Flink 的就是他虽然支持了支持了就是说是那个流 P 一体但是我们在真实场景里边其实还是来说的话结合着去用就是还是以 Spark 加 Flink 这种计算引擎为主然后根据客户的需求来决定
了解所以说其实你看像你们去给客户去实施的时候底下的数据存储引擎上个四五个然后前面的数据框架上个四五个然后客户的机器就对吧是的摆台打底是吗是的那倒不至于大部分企业可能是维持在 10 这个数量级的这个级别就已经很不错了了解嗯
谈到企业的这一端因为我们其实现在在做 Podwise 这样的产品其实我们是属于在消费端对吧然后其实消费端对于 AI 的采用其实还蛮高的对吧各大互联网公司你看大家都在做像最近的小米手机我最近还在看他们做的什么澎湃 OS2.0 然后里边都有拿一个图片然后直接用类似 Sora 那样的东西然后帮你生成一个动态背景其实大家的采用度其实都还蛮高的因为你们一直在跟企业打交道对吧
我不知道现在企业对于这种 AI 的这些能力等等这些东西然后现在是一个什么样的态度我觉得这个要去分开说首先从意愿上来说的话所有的企业都愿意和大模型或者是和 AI 进行结合
但是实际上的业务它里面的业务来说的话和 AI 相关的结合还处于一个比较前期或者说初期的阶段我觉得它其实所有的算法都会经历这个阶段就是这个其实我的理解里边所有的 B 端都有这样的一个现状就是它需要去找到一个杀手级的应用或者说是找到算法和现在核心业务的结合点
我分开说就是容易结合的或者说准确来说的话比如说大模型和容易结合的场景比如说像知识图谱包括像助手客服等等我记得李开复在前几天的那个演讲里面说这些场景其实是低垂的果实就是容易拿到的嗯
那么他也其实讲到真正大模型应该去解决的问题其实是那种企业的核心业务也就是说大模型要去结合客户的核心业务场景所以说这个里边的话就是核心业务场景的结合方式其实还没有出现我觉得其实来说的话还有距离
而且我自己也发现了一点算法其实现在也有一个问题就是很多的算法并不是说是业务去找算法而是说去算法去匹配场景就是为什么这么说就是前两天我去在一个国内
比较大的水厂公司那么他们其实现在就有一个需求就是运筹相关的需求本质上来说就是由于经济形势的这种下滑所以说企业内部需要更精细的管理那么这个里面就是需要运筹其实解决的问题就是把企业内的资源更精细的分配让它产生更多的价值那么其实有这样的需求之后再推动整个算法的落地就非常非常顺利
但是反而现在很多算法其实是由后端或者说由技术人员去往前匹配场景那么整个落地还有整个业务这边的愿意配合的程度其实就非常低 OK 我理解你这个逻辑就是大家都是拿着锤子找钉子对吗
是不是其实你这样子去跟企业去聊的时候其实企业的接触度也低的是的我的理解里边其实现在我自己在和客户或者和企业去聊的时候因为现在的企业来说由于现状所以他们其实会变得很务实花出去的每一笔钱每一分钱客户都很在意
其实就是我花出去的钱必须要去结合我的场景必须能解决我实际的业务问题我才会花这个钱否则我不会花 OK 挺有意思的就是我其实现在还想问一个因为大家对 IOM 的企业端的需求其实还是有的嘛包括你看文心一言都说自己什么 API 调用多少多少量嘛对吧有没有公司他因为数据保密的问题要自建 IOM 呀
有的有的所谓的刚才讲的低垂的果实里边那些场景里边这些数据本质上对于企业来说并不是核心的这些数据所以说他们愿意比如说去结合而且它本身从所谓的涉密性或者安全性来说的话这些数据即使出去或者说从获得和就是这种 RY 产出比来说的话是高的但是它内部的这些核心数据来说的话
比如说像传统的经营的数据等等来说的话它其实是希望我完全在企业内部不对外而且随着这两年我发现一个问题就是 B 端客户对于安全性的要求其实越来越高并不是传统像前几年可能国外的公司来说或者说是在外企对于安全要求是极高现在国内的公司要求越来越高了
他们客户的需求来说我很明显的发现到就是可能以前数据平台产品或者算法产品那客户可能问的是场景以外其他的问题就不问了那么现在可能会问要数据怎么来甚至说是那个安全是怎么你怎么保证我的数据安全等等这些问题就接踵而至了
OK 然后因为你们一直在做包括我们以前啊就是一直在做企业服务嘛其实我们都是销售嘛对吧我们不管怎么说不管是不是真的一线销售其实我们都是卖东西的嘛对那我们去跟客户聊的时候肯定都说你看我这个能干这个能干那个就是 18 万 5 亿啥都能干嘛对吧然后是不是对客户真的有用反正我们没有说过违心话都是销售说的销售都是把那个东西卖了再说嘛对吧
对我就想问一下你啊你看现在 AI 时代也来了嘛做什么应用是有投产比的我们不违心地说不管销售卖了什么对吧我们不违心地说到底做什么应用是有投产比的对就是对企业是有收益的还有就是说搞什么是真的浪费钱啊但是有些企业你想搞吧你又不好反驳对吧可能是领导项目对吗你这个能不能跟我们分享一下对啊
首先这个问题很大就是我只能站在纯个人的角度去说一下我个人的理解那么我理解来说现在企业关心的其实还是两个维度但是这两个维度终究来说都和钱挂钩那么第一个维度是说政府和投资的要求比如说这里面上市融资一些国家的政策等等我要匹配
等等然后第二块是我自己的核心业务去解决我核心业务场景当中的一些问题这两部分其实是我理解里边基本上客户的所有需求都能挂在这几个方向上嗯
我自己有个不成熟的话就是只要不满足老板虚荣心的产品或者说事情都不算浪费钱就是对我举个简单的例子这个可能是我个人的理解今年很多的大屏型产品都在和虚拟人结合本质上来说的话我去做大屏上面呈现的指标然后我和虚拟人这种数字人进行结合然后数字人可以在
我看大屏的时候在旁边讲解但是这里面就有一个悖论就是我看大屏的时候一般来说大屏其实会挂在一些场景里边或者是那些视察的场景里边那么旁边一般来说会有专人去讲解那么你虚拟人真正在或数字人在里面承担的真正的价值是什么
其实这个其实很有意思我觉得它其实会有一种简单的悖论的感觉当然它其实也是有场景但是我是觉得大部分场景里面其实都不是一个强业务场景的结合
OK 真正那个虚拟人在讲的时候理论上那个导引也可以讲对吧是的只不过那个导引可能台词没有那个虚拟人背的好但是实际上来说的话虚拟人上现在虚拟人的交互语气其实都已经做到一定程度了但是本质上来说他在交互上还是线下的导引其实给的更直接他情绪价值给的更足嘛
对其实你刚才讲的那个两方面的业务啊就一方面是说上市融资就是对外搞钱的嘛对吧然后还有一部分就是你企业内部的业务但是企业内部的业务其实我们以前在搞的时候也分嘛也分说到底我是挣钱的还是我是内部降本提效的对吧
到底我是运营的呢还是我是 CRM 对外搞钱的就这些东西你们这两年在做的这个情况下面你们觉得说 CRM 的产品还会比较多呢还是说就是类似于内部做 ERP 做内部运营体校的这种产品会比较多就跟数据结合的
我自己的理解里边现在偏提效的会多一点现在经济形势下大家企业的人数在下降那么就不管怎么样子的话提效是就是我先不说降本那么提效来说的话其实是一个必然的
人少了必然要提效同时呢一些客户因为现有的可能这个企业的赛道里边大家已经卷的不行了为了扩展新的赛道我也需要去快速的去了解或介入到一个新的赛道当中以及去融入进去所以说都是需要提效性的这种产品
OK 所以说提效的话就是类似于我们做运营层面上面的对吧找到企业的卡点啊等等然后想办法去把企业的资金效率啊库存效率啊等等之类的提高对吧我们刚才提到的这些企业内部提效的嘛这个其实是可能是你现在在做的过程里边这些数据平台大家可能会在上面再去做投入嘛然后因为大家也知道说这两年其实经济状况也不太好嘛那
那不太好的情况下面当前的企业在这些数据平台的资金投入上面有没有什么变化就是我说一下我个人的体感现在我觉得数据平台的产品都在面临一定困难
我觉得分几方面先说一下这个原因我个人理解的原因那么首先前几年数据平台新产品大家在鼓吹的概念来说其实是数据中台那么都在说数据中台能解决万物或者所有问题都能被解决我觉得这已经被吹得天花烂坠但是实际上来说数据中台本质上解决的是一个所谓的数据的附用问题或者数据使用的问题
那么它能够解决的问题其实并不是特别多还是要匹配客户的场景所以说在真正数据中台交付的项目中满意的客户屈指可数即使说客户满意也是说在客户的前期真正解决客户一到两个实际问题但是大部分的数据中台项目更多的其实是在解决被所谓的概念所
所吸引了并不是解决问题本身所以这个差距就很大所以说现在很多企业对于输入中台这四个字是避而远之的那么再下一个现状来说的话这两年的经济形势就不多说了那么我们自己内部来看的话会呈现几个特点就是客户整体的市场的容量没太变但是大家其实在疯狂的内卷单个产品的单价已经降得非常狠
各个企业不管大小厂其实都在卷价格疯狂的卷价格然后再往后一个地方是其实刚才讲到数据中台那个逻辑上其实有一定的关联就是数据平台型产品距离客户太远了怎么解释呢就是数据平台型产品基本上是在
企业的就是底层或者后端那么它本身是去串联整个企业的这个数据流它的价值不容易被客户看到你比如说我做个数仓客户真的去希望比如说业务客户他真的去理解数仓吗他并不是很理解他具体做什么他更关心的其实是你要解决我什么的问题但是数仓直接能解决的问题场景非常少
它更多的是支撑场景所以说它需要一些像就是上层的业务系统也好或者一些数据应用产品也好去做中间的承接去嵌入到那个上层的业务当中这是反正现状是这样子的然后解决方法的话就是我自己一个潜见来说的话其实就两条路第一个路其实就是降低成本
那么现在各个就是各个行业里边来说的话我说这个成本是产品成本并不是指的人力或其他成本那么这个成本来说的话现在各个厂家做数据平台产品都在推出一个所谓的敏捷版或者说轻量版或者说是单引擎版的这个东西本质上来说就是把原先部署的成本或使用的成本降低把单价卷起来
然后第二个方向其实就是刚才讲到的和拉近和业务的距离这里边有两个一个是做数据应用就是可能我原先只做数据中台但是我要去结合上层的业务去去去陈列一些数据应用产品比如像 CDP 啦之类的这样的产品去能够尽可能的切入到客户的核心业务流当中然后呢
然后再往一个方向是和 BI 结合但是 BI 结合这个话就很多了反正是本质上也是去解决客户的业务场景问题反正总结一下就是现在的客户我感觉变得越来越务实所以说就导致了就是整个数据平台产品的这个困境吧
了解其实你刚才有提到数据中台那数据中台跟业务中台前几年也是造了一批公司对吧然后这两年从你的观察上面来看是不是其实业务中台跟数据中台这两个概念在企业端大家已经不太认可了
是的就是我们现在出去给客户讲东西的话都不敢提数据中台了在这数据中台的四个字就已经不再提了我们都说自己是数据平台然后都已经把词汇都变得尽可能的务实一些了就在我的手里 OK 你觉得这个事是客户都逐渐觉醒了呢还是说其实是大家的舆论环境等等之类的
我觉得是大家看到了真相客户成熟了他应该对数据中台有一定合理的预期了就是之前是对于数据中台的预期太高了他并不能解决所有事情而是现在大家知道数据中台是干这个事情的就是他能把数据进行做汇集处理研发然后提供给上层的数据应用做处理然后结合场景等等等等
就是客户已经知道他大概是做什么了不像以前被忽悠的已经不行了
OK 了解对我知道企业有一个很大的问题就是不管做数据中台也好做业务也好其实企业内部的数据就是它永远都理不清楚而且数据永远在各个地方我不知道就最近这些年到底有没有大家因为应用上面的改进啊迭代啊之类的就是大家在数据层面上面其实更好处理一些了在数据的这个来源上面然后数据的丰富度上面数据的整理上面这些年有什么变化吗
分两个方面首先第一数据种类是越来越多可能以前的话我们在做数据相关的这种数仓或者说是这种数据平台的时候给客户交付那么数据来源可能就是关系型数据库但是现在来说由于客户的基础设施的不同
那么其实比如说客户的一些业务场景他需要实序数据那他需要图数据比如说他里边一些设备信息你需要 IOT 采集等等就是客户的场景会越来越多那么后面你适配的这些引擎或者说你的采集方式也要越来越多这是一个方向然后第二个地方就是我觉得这个问题来说还是要去看客户的规模
本质上来说的话,现在一些中小企业来说的话,他们的数据更多的,我的理解里边还是偏半结构化和结构化数据,就是像数据库表或 Excel,或者说是这些文件性质的,而在网上的一些客户里边,他的一些场景里边会用到,就是非结构化数据,但是我觉得非结构化数据的这个比例还是相当少的,
OK 刚才有提到去帮别人去抓数据啊等等之类的因为这个东西在实时数据平台的时候可能是必不可少的吧帮别人去汇集数据做 ETL 嘛对然后我想问一下你们现在做一个数据平台的项目就是实时人数大概是个什么规模大概都有些什么人
一个项目来说的话我们还是以额度去划分的话就一般的话平均一个额度的话大概是 200 万以内的话那么基本上是需要五到六个人那么角色的话其实包含除去授权就授权的所有角色以外那么包含业务分析师数据本身其实在理解业务所以说需要有业务分析师去理解业务帮助理解业务第二部分其实是数据架构师
那么它本质上去结合业务场景去选行底层到底用什么样的引擎或者计算方式等等处理最合适再往下其实就是数据开发公司就是传统意义上的 Circle Boy 然后去编写逻辑然后去实现然后最后的话其实是运维公司去解决后续的产品运维也好包括业务运维也好等等一些问题
基本上是这样的一个角色配置整体周期的话估计基本上平均起来三个月左右但是这个三个月也是要结合着具体交付的场景我们只是一个平均的一个大概的一个时间 OK 你其实前面提到的那些角色应该都是专人专用嘛但愿为工程师是不是其实一个人可以怼好几个项目是的是的是的
OK 了解你也知道像我们在应用端 GitHub CopilotCursor 这些东西其实已经能帮程序员完成很多事情了实际上 Circle 要比我们自己写程序写 Java 写 TypeScript 等等这些东西是要简单很多的而且 Circle 本身也不是图令完备的对就是我想问一下针对数据平台的这些 Circle 的需求是不是其实 AI 已经可以做得很好了
首先肯定是能做很多说一下我们现在可能就是和业界在和 AI 结合的场景里边具体有哪些比如说像编写 Circle 的时候我可以通过自然语言然后生成一段 Circle 然后第二个是代码优化我写好了 CircleAI 能够帮忙优化第三个地方是我相关的这种作业或任务在运行的时候一些报错情况 AI 能够告诉我到底给我一些建议
然后让我去快速的去处理这些问题但是基本上这些场景里面无外乎就是在研发或者说在智能运营上这两个场景的维度上去解决问题那么面临的问题是什么就是本身我的理解里边 Copilot 和 Cursor 这些产品都在面临一个问题就是
业务上或者说对于业务的理解就是本身 Circle 本身其实就是对于去实现业务场景那么本身的话那么但是 Copilot 和 Cursor 这些产品来说它其实对于业务的场景其实是有一定距离的然后第二往下的话就是包含就是我生成的东西之后的一些性能或者说是一些运维的方案的可解释性的这些问题其实
都是现在可能面临的问题就是所有的算法我的理解里边在实际场景使用的时候都需要把所谓的可解释性去做好只有这样子的话那么客户才能更加去信任算法而不是说当做一个黑盒一样那么给一个输入给一个结果但具体你怎么运行的我不知道那么我无法去信任你的输出结果
OK 我大概理解了就说即使像 Circle 这种比较简单的大家再去做真正的这样的 Circle 补全或者让 LM 帮我去干一些事的时候其实离业务还是稍微有点距离的对吧那我其实就想到一个场景以往的所有的类似 BI 相关的产品其实大家都会有一个类似 Circle Builder
对吧然后大家在里面去选说我到底哪个酷然后我哪个字段跟另外一个酷的哪个字段做 joinjoin 完之后出一个什么的结果但是大家不会把它变得非常的 circle base 还把它变得有一点带业务逻辑对吧他会给你把它的 column 的 nametitle 等等之类的写在上面对吧让你不会说看起来在写一个 circle 对现在因为有 AI 了嘛如果你能用那个东西 build 的话我相信 AI 可能也能搞个八九不离十但我不确定现在效果到底好不好
对现阶段里面有没有类似这样的产品已经在实现类似这样的功能了可视化建模或者可视化生成其实现在很多产品都在去做这个东西但是还是回归到那个问题
还是需要人去理解业务就是你不管是建模也好还是配置也好还是可视化的去拉取一个什么样的东西本质上其实是一种业务的表现你为什么 A 表要 join B 表那么可能是说我要去取什么样的数据然后呢这上层的业务要去使用那么为什么上层的业务要使用这个数据其实是最核心的点那么
就是是上层的指标或者是上层的标签要去使用等等它是一个完整的从业务推导到数据的过程但是这个来说现在所有的产品来说有但是那是另外一个方式就是说
刚才说的这些这些所谓的可说话里边他们距离这一块是有距离的那么去解决这个问题来说的话其实是要从刚才说的比如说从指标到底层那需要上层的比如说类似于指标平台或者是标签平台那么他对于底层的数据和业务做一定的标注然后去推导到下层他其实一个串行的或者一个链路上的
整个节点里面的相关的这些系统都 OK 他才能做到一个完整的链路对其实我就想问一下因为以往其实所有的数据需求的提出除了 CEO 要看结果指标之外可能财务的人就会提说我需要哪些细项指标因为财务的人理解业务但是他可能不理解底层的数据库是怎么存的
对吧所以说才需要我们下方做数据平台的人然后把那个数据真的提出来对吧就你觉得说离财务真实的写几段东西可能底下还是需要有人去标注一下那个数据数据具体内容是什么你觉得离财务
写一段自然语言去拿到那个结果还需要多久那个我可能要引用一篇论文之前获得图灵奖的那个数据库大师叫 Michael Stonebrake 他和他的学生好像发表一篇论文他核心那篇论文里面说的点里面主导点就是第一个地方是说传统的 circle
或者说是 relation model 就是关系型这个 model 它们还是会在将来的市场里边占据主导地位同时 circle 的发展方向是不断去吸收其他的就是 no circle 或者之类的优点为持续发展然后同时他还讲到一点是 AI 和 motion learning 对于就是这种传统性关系数据库和 DBMS 的影响那么就是他里面提到了一点我觉得是非常现在业界非常遇到的问题就是自然语言无法很精确地
表达含义而 circle 可以所以说他提出了一个观点是说就是自然语言难以替代 circle
所以说他是这里面表达的点所以说就回归到刚才问题上就是我的理解里边就是说自然语言现在遇到的问题真的是在一些像财务这种很需要精确表达的场景他没办法最精确化的去解释整个逻辑就是自然语言那么他更多的是站在一个高层的说我需要什么或者我需要什么类型的数据但是要精确表达的话还是需要类似于 circle 这样的东西在下层
这个中间的转化是有个过程的 OK 了解所以说我理解你刚才这篇论文的意思就是说其实自然语言跟 Circle 没法一比一嘛对吧就总是得需要有一个人来负责把它精确化对吗对是的那刚好就提到这个人了就是因为我们现在会有很多的这种数据从业者嘛他们的工作其实就是把财务体的需求用 Circle 精确的描述跟表达出来
对然后但是现在因为 AI 的出现嘛包括我们自己其实现在程序员也是一样的就是其实很多低阶的程序员写 CRUD 的现在已经不太需要写了嘛对吧那我不确定说就现在 AI 的出现就类似 Cursor 类似对吧类似 Cloud 等等这些东西后续它持续不断的发展之后对于现在的这些我们用 Circle 来实现业务逻辑的同学会有什么样的影响吗
这个问题很好我们内部有一个结论可能稍微激进一些传统意义上的 circle boy 在三到五年必然消失那么他们的出路来说的话是必须转型或者说是必须更好的去理解使用 AI
大模型说白了来说的话其实也讲到了 Circle Boy 本身去解决的还是说是业务表达的问题那么 Circle Builder 毕竟是建立在数仓和业务的描述上短期之内刚才虽然讲到论文了短期之内自然语言的这种特点它不会让 Circle Boy 消失但是它会让 Circle Boy 的数量大大降低
本质上来说就是这些工具会体效那么从长久看来它必然消失毕竟我认为 AI 是一种新的这种生产力革命所以说它肯定会消失的所以说你看你刚才又讲过了从财务的那一端到下方因为自然语言跟它没法一比一所以说其实你还是需要有一个翻译但是你刚才又讲说 circle boy 必然消失那这个新角色是啥呢
我觉得那就是我个人里边还是觉得是使用 AI 或创造 AI 的人去代替掉这一个角色那么中间来说的话其实是中间有个桥梁业务和最终不管是 Circle 也好或最终实现业务的这种最终落地的这种东西中间我觉得它其实落地的一点就是创造 AI 或使用 AI 的人在里边去代替到这一层
然后呢 circle boy 本身他会往上或者说是往下去发展往上就是更偏业务专家往下去解决一些性能或者技术底层的问题等等刚好讲到这个是不是说理论上人家做财务的人稍微学点数据也能够兼容这个角色或者说业务专家往上搞点财务对吧是不是这个角色可能如果在大家钱都没有那么多的情况下可能一个人就兼了对吧对
本质上来说在现在 AI 的介入的情况下的话它如果只是不考虑性能不考虑其他的维度的情况下上边向下兼容的难度现在来说的话不是那么的高它当然不考虑调优这些优化的情况下其实是非常低的现在来说
了解因为其实最近 AI 也一直在发展然后你做数据平台也一直在做数据平台跟 AI 本身又是一个比较强结合的一个东西就现阶段里边你有没有看到一些比较前沿的但是业界或者说大众其实还没有太听说或者还没有大规模采用的但是你个人是比较看好的
这个分两点我的理解里边说大模型也好 AI 也好现在面临的一个问题是说它还是维持在因为数据平台解决两个问题一个是数据本身的问题第二是理解业务那么所有的包括公司平台或者是部门数据平台都照驳这个点就是说是业务所以说我认为其实现在 AI 的一个痛点来说的话那么和业务结合里面痛点就是所谓的数据质量或者是数据的理解
我觉得现在有一个方向是说我个人比较看好是说
去做数据和 AI 的桥梁为 AI 提供更有价值的数据那么比如说一个公司是叫 EluMax 的这个公司里边他们去做了一个事情本身是通过 AI 能够帮助企业将他自己的数据和 AI 建立桥梁他能够自动的去识别 AI 当中就是他企业数据当中的业务然后转化成 AI 所需要的数据去提供什么
业务术语表包括指标库等等一些这种 AI 所需要的这种所谓的知识图谱也好或者这种训练的这种数据也好是非常非常高效的去提供的所以说我比较看好现在的这个路径然后一些其他的东西的话我因为自己的视角里边还是在数据平台方向所以说我觉得这个方向是比较看好的然后包括这家公司其实也融了一轮钱了嘛融了不小 OK 我理解其实就是一个 AI 打标
对吧 AI 数据打标自动打标然后 AI 数据自动打标之后然后让企业的数据能够
不经过我们刚才讲的 Circle Boy 的打标然后自己打标对吧是的 OK 但其实很多企业内部的业务因为它都是 SAP 啊等等之类的它产出的那个数据嘛其实大家的数据相似性极高所以说其实如果真的你用 AI 去打标去弄一弄的话说不定可能还弄得更好说不定还能拿出来一个相对标准化的一个方案可能能帮那个行业去分析数据说不定啊
是的就是像 SAP 这个场景来说应该就类似于这种企业经营类数据应该是没什么问题但是我自己的感觉里边非经营类或非标的数据来说的话那市场其实更大都不小然后呢这方面其实刚才又回归到刚才的问题里边这方面的 AI 其实也是一个潜在的吧我的理解
OK 了解最后我还想问一个跟我们 IndieHack 相关的话题因为我们自己毕竟对吧今天聊了半天聊的都是数据平台的事对吧还没有聊跟我们相关的事对因为我们自己你知道大家都在做创业然后都在做小生意然后现阶段里边像 RAG 相关的技术的采用其实还蛮多的然后 RAG 的话里边就涉及到很多比如说我项链数据库怎么存怎么搜等等之类的对吧一系列的结合下面对
然后我就想问一下就是类似相关的需求你们是怎么玩的你们有钱人是怎么玩的对然后你会推荐我们没钱的人怎么玩对这个也不是现在在就是首先我可能要说一下有钱和没钱现在在企业哪怕在企业内部就是去做这个所谓的和 AI 相关的东西大家都处于一个探索性
或者说是这些东西钱也是没有的可能就是一到两个人然后大家去看一看做一做然后和现有的产品看怎么结合本质上大家其实是一模一样的没有什么区别都是在没钱的情况下来去做现在没人敢说有钱然后我们自己其实也在做和 AI 相关的结合但是总结来说数据平台相关的和 AI 的结合无外乎就是提效
给树开或相关的过程中提效第二智能运维就是过程中发生的问题我能快速的事前事中事后去解决和 AI 结合这个点基本上还是围绕这两个地方去解决当然我们可能还有一个方向是说去做就是所谓的 auto dev 这个就真正去将需求转换成最终的目标这个我们自己内部也在做探索过程中
因为资金不充足就是开发不充足的情况下的话我们在去解决场景的问题的时候我们需要一些工具能够快速的去验证我们这个逻辑是不是对以及因为在验证过程中其实要大量的去修改那么我们自己其实在就是内部在去就调研了包括像 Diffy AI 这个产品它提供私有化的包括那个公务员上的这个产品都提供它本质逻辑来说其实就是
提供这种可视化的编排流程同时它里面又内置了很多的 AI agent 就是包括一些节点它可以和各个大模型就天然的直接集成好了然后同时它里面也提供了什么提示词的管理能够快速的发布 AI 服务包括一些简单的 ETL 过程等等所以说我们在这种资源不充足的情况下用
这个产品快速的去验证我们自己内心的想法不需要有界面吧就是最终的成品可能就是一个 API 然后我们快速的验证这个效果是如何即可所以我觉得这个产品其实是在我们自己在前期调研的过程中其实帮了我们很多的忙 OK
了解所以说你们也是跟我们一样没钱的对吗对 是的没钱的 OK 跟侯总聊反正总是时间过得特别快然后最后给侯总一分钟时间看你要不要跟我们 Podwise 打个广告哈哈哈
因为现状因为现在在公司的这个场景里边所以说没办法去打什么广告自己性格稍微内敛一点所以说个人的这种渠道上会比较少
大家如果说有什么需要交流的或者是需要探讨的因为自己的可能这些经验可能对大家稍微有点价值的话大家交流那么大家可以加我的微信或者说是在这个小宇宙播客下面然后评论我个人会回复好
好的好的我们后期也会把侯总的相关微信然后放在我们本期节目的 shownotes 里面那我们本期节目非常感谢侯总啊给我们带来了很多数据平台跟 AI 相关的一些新的认知那我们本期节目就先到这里吧然后我们下期再见拜拜感谢侯总好拜拜
以上就是我们本期播客的全部内容感谢大家收听也欢迎大家踊跃留言如果你喜欢我们欢迎点赞并分享给感兴趣的朋友如果你在用苹果播客收听也希望你花几秒钟给我们一个好评这会让更多的人了解到我们要是能再点击一下订阅那就再好不过了我们下周见