cover of episode EP 60. 全英文对话CRV投资人与LanceDB创始人:向量数据库下半场,大模型和多模态需要怎样的数据基建?

EP 60. 全英文对话CRV投资人与LanceDB创始人:向量数据库下半场,大模型和多模态需要怎样的数据基建?

2024/9/13
logo of podcast OnBoard!

OnBoard!

AI Deep Dive AI Insights AI Chapters Transcript
People
B
Brian Zhan
C
Chang She
Topics
Chang She: 在AI时代,数据基础设施需要处理音频、视频、图像等多模态数据,这给传统数据库带来了挑战。LanceDB作为一款开源向量数据库,旨在解决AI应用中快速搜索和获取信息,以及管理TB和PB级数据的问题。LanceDB采用新的列式存储格式Lance,能够高效地处理多模态数据,并支持多种数据处理和分析模式,例如搜索、OLAP和Blob处理。 Brian Zhan: 向量数据库市场竞争激烈,但LanceDB在速度和数据存储格式上具有优势,并有潜力成为一个平台。LanceDB被许多主要AI公司采用,证明了其在多模态AI数据处理方面的实力。投资LanceDB的原因在于其技术优势、强大的团队以及其在多模态AI数据处理方面的巨大市场潜力。 Brian Zhan: 向量数据库市场竞争激烈,但LanceDB在速度和数据存储格式上具有优势,并有潜力成为一个平台。LanceDB被许多主要AI公司采用,证明了其在多模态AI数据处理方面的实力。投资LanceDB的原因在于其技术优势、强大的团队以及其在多模态AI数据处理方面的巨大市场潜力。 Chang She: LanceDB的开源特性使其从社区获得了大量反馈,并帮助其发展。Lance格式是一种新的列式存储格式,专门为AI数据设计,能够高效地处理多模态数据,并支持多种数据处理和分析模式。LanceDB解决了AI应用中数据访问速度慢的问题,并提高了模型迭代速度。

Deep Dive

Key Insights

为什么CRV投资了LanceDB?

CRV投资LanceDB主要因为其快速的向量检索能力和高效的存储格式Lance。LanceDB是唯一能够支持大规模多模态AI数据的公司,且其用户包括头部GenAI公司。此外,创始团队的技术背景和开源贡献记录也增强了投资信心。

Chang She为什么创立LanceDB?

Chang She创立LanceDB是为了解决AI数据管理中的技术难题,特别是在处理TB和PB级数据时的快速检索和高效管理问题。这些问题在LLM出现之前就已经存在,尤其是在自动驾驶和推荐系统等领域。

LanceDB如何从竞争中脱颖而出?

LanceDB通过其独特的Lance存储格式和快速的向量检索能力脱颖而出。与其他向量数据库相比,LanceDB在处理多模态数据时表现出色,尤其是在大规模数据检索和存储方面,提供了10倍于竞争对手的性能。

为什么向量数据库可能会在未来几年内消失?

向量数据库可能会消失,因为向量搜索功能将逐渐成为传统数据库的一部分,而不是独立的产品。随着技术的发展,向量搜索将变得更加集成和标准化,减少对独立向量数据库的需求。

为什么RAG系统类似于推荐系统?

RAG系统类似于推荐系统,因为它们都依赖于多重复结果的组合和优化。RAG系统通过多种检索方法(如全文搜索、SQL过滤等)获取数据,然后像推荐系统一样,根据用户反馈不断优化结果。

为什么开源模式不应该是数据基础设施初创公司的默认选择?

开源模式对于初创公司来说很难平衡开发量和商业化。如果开源过多,用户可能直接使用而不付费;如果开源过少,则难以吸引用户。成功的开源公司需要找到明确的商业化路径,而不仅仅是依赖开源代码。

为什么OpenAI收购Rockset?

OpenAI收购Rockset是为了增强其数据基础设施,特别是在实时分析和大规模数据处理方面。Rockset的技术可以帮助OpenAI更好地管理和处理其模型所需的海量数据。

AI如何改变数据基础设施的格局?

AI正在推动数据基础设施的变革,特别是在多模态数据处理和实时分析方面。AI公司需要更高效的数据管理和检索工具,这为新的数据基础设施公司提供了机会,同时也对传统数据公司提出了挑战。

为什么LanceDB不选择完全开源?

LanceDB选择不完全开源是因为其企业版功能(如分布式数据处理和训练)不适合开源。开源可能会导致用户直接使用免费版本,而企业版的高级功能则难以商业化。

未来1-3年AI领域最令人兴奋的机会是什么?

未来1-3年AI领域最令人兴奋的机会包括AI代理、医疗健康和机器人技术。特别是AI代理和多模态生成(如语音和视频生成),这些领域有很大的创新潜力,并将改变现有的应用场景。

Chapters
本节讨论了硅谷数据基础设施投资热点,特别是向量数据库在生成式AI浪潮中的竞争格局变化,以及多模态数据对数据基础设施带来的机遇和挑战。CRV投资LanceDB的原因,以及LanceDB的独特优势和平台潜力成为讨论重点。
  • 向量数据库成为生成式AI应用的重要数据基础设施
  • CRV投资LanceDB,看重其在多模态数据处理上的优势和平台潜力
  • LanceDB采用独特的Lance格式,提升性能,并已获得头部GenAI公司的采用

Shownotes Transcript

OnBoard! 又一期全英文访谈来啦!去年采访 MosaicML ($1.3Bn 被Databricks 收购)的CTO Hanlin Tang 和 Sapphire Ventures 合伙人 Casber Wang 的那期节目很受欢迎,创始人和投资人从不同角度探讨一个话题的形式看来很值得再尝试一次。这次的两位嘉宾,Monica 也是期待已久啦!

Hello World, who is OnBoard!?

这次我们来聊聊硅谷一直以来的投资热点:大模型应用的数据基础设施。去年方兴未艾的 vectorDB (向量数据库),现在竞争格局有了怎样的演变?AI应用场景中多模态数据的增加对于 data infra 会带来怎样的挑战和机遇?

这两位身处硅谷一线的嘉宾,太适合深入探讨这个话题了:

创始人嘉宾** Chang She,LanceDB 的 Co-founder & CEO**。LanceDB 是一个为多模态数据设计的开源向量数据库。Chang 是 data infra 的老兵了:他是著名的 Pandas library 的核心贡献者之一,他创立的 Datapad 几年前被Cloudera 收购。2022年,Chang 又开始了第二次创业征程,创立了LanceDB.

VC 嘉宾 Brian Zhan,是硅谷50年历史的顶尖老牌早期基金 CRV的投资人。他们最新一期基金超过$1.5Bn, 投资过的 startup 包括DoorDash、Airtable, Vercel 等等。Brian 曾在 Meta 做 data infra 产品经理,后来加入了开源数据库独角兽Starburst。少有的有技术和产品背景的 infra 投资人!

Brian 在2023年底领投了 LanceDB $8M seed轮, LanceDB 至今总融资额超过$11M. 现在,LanceDB 的用户已经囊括了一众头部 GenAI 公司,包括 Character.ai,Midjourney,Harvey 等等。

我们还畅谈了Chang作为连续创业者的心得,以及两位对开源商业化模式和 data infra 热点话题的一些犀利观点,他俩的配合也是非常有趣。Enjoy! 嘉宾介绍

  • Chang She (推特 @changhiskhan): Co-founder & CEO @LanceDB. 曾任 Tubi VP Engineering, 2013年创立的 Datapad 被Cloudera 收购。Pandas library 的核心贡献者。
  • **Brian Zhan(推特 @brianzhan1):**Investor @CRV. 加入CRV 之前,在 Meta 和 Starburst 担任 Presto 产品经理。
  • **OnBoard! 主持:Monica:**美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学

我们都聊了什么

02:15 Speakers' self-intro, which data infra project Chang found interesting

05:20 Why CRV invested in LanceDB

07:50 Why Chang started LanceDB, and why customers use Lance and LanceDB

18:36 Investor's view on VectorDB - how LanceDB stand out from the competition? Why does it have the potential to become a platform?

27:47 Will there be a convergence of vectorDB? How do we think about competition from incumbent databases such as PGVector by Postgres?

32:57 Takeaways from the announcements from Databricks and Snowflake summits in June 2024

36:15 When do we need a new data format? Why is opensource important for data format?

43:14 How will AI change the data infra landscape? What will stay, what will be replaced, and what will emerge?

52:31 Why does Chang think that RAG is similar to recommendation systems?

55:34 How to evaluate if a new opportunity is for incumbents or startups?

57:57 What are some common mistakes in building data infra? Why does Chang think that opensource is not a default mode?

60:05 How to view OpenAI's acquisition of Rockset?

74:14 Is RAG system here to stay?

79:11 Chang's lessons as a second time founder? Advice to technical founders.

87:04 Brian: What early investors look for in early stage startups

90:47 What do the speakers find exciting about AI in the next 1-3 years? AI agents, healthcare, robotics, multimodal (voice, video gen)

99:36 Quick-fire questions: book recommendations, what's underrated and overrated, oat milk and pressure relief

我们提到的内容

  • LanceDB: An open-source vector database designed for multi-modal data.
  • Lance format: A storage format that improves the performance of LanceDB.
  • Panda: A popular Python library for data analysis and manipulation.
  • HDFS: The Hadoop Distributed File System, a scalable storage system for large datasets.
  • Cloudera: A leading provider of enterprise data cloud solutions.
  • Data fusion: The process of combining data from multiple sources into a unified view.
  • Presto: A distributed SQL query engine for big data analytics.
  • Parquet: A columnar storage format that is efficient for data analysis.
  • Postgres: A powerful, open-source relational database management system.
  • PGVector: An extension for PostgreSQL that adds support for vector embeddings.
  • Unity catalog: A centralized metadata management platform for data discovery and governance.
  • Prefect: An open-source workflow orchestration platform for data engineering pipelines.
  • Dag works: A cloud-based data orchestration platform for building and managing data pipelines.
  • Airflow: A popular open-source platform for programmatically authoring, scheduling, and monitoring workflows.
  • Voyage AI: A startup focusing on building a platform for autonomous vehicle development.
  • Reflection AI: A startup that uses AI to help people understand and improve their communication skills.
  • Decagon AI: A startup that builds AI models for scientific discovery.
  • Rockset: A real-time analytics database built for the cloud.
  • RockDB: A high-performance embedded key-value store.

参考文章

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

***最后!快来加入Onboard!听友群,****结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。****添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。***期待你来!