硅谷知名风投：人工智能数据基础设施的兴起

文摘财经 2024-07-26 14:31 上海

Felicis Ventures是一家知名的风险投资机构，成立于2006年，总部位于美国旧金山。该机构专注于早期和成长期的投资，涵盖技术、消费品、医疗健康、金融科技、人工智能等多个领域。近年来，Felicis Ventures募集了9亿美元的新资金，知名投资案例包括Canva、Plaid、Rovio和Shopify等公司。

根据硅谷科技评论（SVTR）AI 创投库，除了OpenAI之外，其在 AI 领域投资了近20家初创企业，包括10家基础层和模型层初创企业，具体投资名单见文末表格。

Felicis Ventures最近在公司官网发布“The rise of AI data infrastructure”，阐明AI基础设施兴起的逻辑，在非结构化数据提取和管理、检索增强生成（RAG）、数据策展、数据存储和人工智能记忆等领域看到的发展趋势和投资机会。这也是继Menlo Ventures半年前，发布现代人工智能堆栈市场地图以来，硅谷风投再次将研究聚焦在AI基础设施。

“我们正处于新工业革命的开端。但我们不是在发电，而是在产生智能……[开源]激活了每家公司。让每家公司都成为人工智能公司。”

— NVIDIA 首席执行官黄仁勋

我们钦佩那些拥有大胆愿景、希望改变世界的创始人。

目前，各团队正在为即将到来的智能革命构建基础设施。从半导体到数据中心，再到云服务提供商，我们已经看到了其价值。我们相信，下一波基础设施投资将集中在数据基础设施层，从而实现定制的人工智能应用。

尽管从文档中提取信息的需求并不新鲜，但生成式人工智能的出现大大增加了这种需求。高质量的数据对于训练和推理至关重要，公司需要有效获取这些数据的方法。不仅数据规模在变化，数据类型也在从文本和表格扩展到视频、图像和音频。我们还看到了空间数据的增长，如卫星图像和机器人传感器数据。

然而，我们必须关注一个关键问题：在数据层中，哪些领域因人工智能而有最直接的重塑机会？

人工智能数据基础设施格局

在制作这个图表时，我们想尽可能简单地展示数据在人工智能价值链中的流动，包括用于训练和推理的数据流。

当我们查看数据基础设施价值链时，我们看到五个领域：

数据源（Sources）
数据摄取与转化（Ingestion & Transformation）
数据存储（Storage）
模型训练（Training）
模型推理（Inference）
数据服务（Data services）

1、数据源（Sources）

数据源和类型因使用案例而异。传统上，公司的业务数据主要存储在像Salesforce这样的业务应用程序中，而事务数据则存储在PostgreSQL或Oracle数据库中。此外，实时拉取数据进行分析还需要其他数据源，比如传感器、制造业数据及一些医疗数据，我们统称为“实时”数据。

具体到人工智能，我们看到合成数据和网络数据的重要性不断增加。合成数据是人工生成的，而不是从现实事件中收集的。与获取、清理和标注真实数据相比，合成数据提供了一种替代方案，其成本显著更低，并且能保持数据合规性。我们看到合成数据在机器学习训练中的应用逐渐增多；根据一些非正式反馈，我们了解到合成数据在优化模型性能方面效果不佳，因为它不能很好地代表异常统计数据。由于这个原因，训练数据集并不完全是合成数据，但我们看到合成数据因NVIDIA最近推出的Nemotron-4 340B系列开放模型的公告，而更趋于主流，开发者可以使用这些模型生成合成数据以培训大语言模型。

网络数据为训练或微调模型提供了访问任何公共数据的渠道。网络抓取已不是一个新概念，但新颖之处在于，需要抓取大量数据才能收集到足够的高质量数据来训练大型模型。根据Epoch AI的一项研究，预计技术公司将在2026年至2032年间耗尽可用于人工智能语言模型的公开训练数据。网络抓取的数据在大型基础模型的训练数据集中发挥了核心作用。

2、数据摄取与转化（Ingestion & Transformation）

选择数据源后，公司需要处理数据、转换数据，并将其移动到目的地以便利用。

数据管道的总体目标很简单：将数据从源头传输到目的地，以便于分析或操作。在数据工程领域，这通常是ETL或ELT。在机器学习领域，由于大多数数据是表格形式的，这被称为特征工程/管道。随着生成型人工智能的发展，我们需要提取、解析和准备非结构化数据。我们将这些统称为数据管道（pipelines）。数据管道是一项已有几十年的技术；新变化是在需要转移的数据种类和规模上。

传统上，数据管道分为两类：批处理（ batch，在特定时间间隔提取和加载）和流处理（streaming，在数据可用时加载）。然而，处理非结构化数据的新管道类别已经出现；这些管道提供从非结构化数据到存储的端到端工作流程。

转换依赖于管道。批处理管道通常使用像dbt这样的工具。我们遇到过的团队使用dbt来创建机器学习特征。这在处理结构化数据时效果不错。流处理管道将使用消息队列来摄取数据，并使用像Flink这样的计算引擎对数据进行转换。

像Airflow这样的调度器管理这些工作流程，包括调度、执行和组织。

在训练工作负载中，数据可能会被过滤和标记。数据标记是为数据分配标签或上下文，以便机器学习模型能够从这些标签中学习。任何监督学习都需要适当标记的测试数据，以便模型能够学习什么是“对”的，什么是“错”的。大规模获取标记数据具有挑战性，这导致了一些优质初创公司的崛起，如Scale AI和LabelBox。开源选项包括CVAT、LabelMe和Stanford Core NLP。

3、数据存储（Storage）

传统上，分析数据存储在数据仓库中。但越来越多的数据则存储在数据湖中，并通过湖屋架构的开放表、目录和查询引擎进行查询。数据通常以嵌入的形式存储在向量数据库中，用于处理非结构化数据的AI工作负载。

4、模型训练（Training）

人工智能算法主要使用三种类型的训练方法：监督学习（supervised）、无监督学习（unsupervised）和强化学习（reinforcement learning）。

在监督学习中，模型会被提供带标签的数据，并学习输出与这些标签数据相匹配的结果。无监督学习中，模型会接触大量数据，并自行学习数据间的关系。

对于大型语言模型，“预训练”通常由无监督学习组成，使模型能够识别数据集中的模式。然后，模型通过监督学习进行训练，以优化其性能。定制的机器学习模型通常使用监督学习进行训练。

接下来，模型将进行强化学习，也称为通过人类反馈进行的强化学习（RLHF）。顾名思义，模型生成输出，并从人类那里获得反馈，以改进其输出。

在整个过程中，模型会不断被评估，以查看其在特定情境下的表现。它会考察诸如准确性、精确度、损失最小化、过拟合、欠拟合以及其他与模型使用案例相关的统计变量。

最后，模型将经历各种最终步骤，包括安全测试、治理和审计，以确保它们生成安全的用户输出，并且没有安全或合规问题。

5、模型推理（Inference）

对于大型语言模型（LLM）的推理过程，模型首先接收一个提示，然后对该数据进行分词和向量化（也称为预填充prefilling）。这些数据随后会通过模型运行，以生成用户所需的输出（也称为解码）。

当LLM需要个性化时，这个过程会变得更加有趣。如前所述，公司可能会将数据存储在向量数据库中，并使用LLM定制平台将其连接到LLM。当用户在应用程序中输入提示时，数据还会从公司的向量数据库中提取，以使用LLM生成独特的答案。类似的架构也可以用于AI代理，以了解公司或用户的环境背景，并代表用户采取行动。

在整个过程中，数据必须被跟踪和管理，以确保数据安全、模型质量和合规性——因此，需要数据服务。

6、数据服务（Data services）

数据服务是一个广泛的类别，负责组织和保护数据。随着AI需求的增加，数据的种类和规模以及围绕应用程序的数据工具也在不断增长。这带来了管理数据、确保数据安全以及在数据实践中实施治理的挑战。

数据安全传统上涉及保护数据访问，确保其不被恶意行为者访问或窃取。鉴于当今数据的数量和重要性，这些原则依然有效，只是规模更大。如今，数据安全公司的关键类别包括数据安全姿态管理、数据访问控制、数据丢失防护以及数据检测和响应。

数据可观察性是指对数据质量和数据管道性能的监控。这些工具可以检测异常，维护对数据管道的可见性（如模式变化、计算密集型查询、关键对象），并跟踪数据的流动。

最后，数据目录是数据管理的核心。它们集中存储元数据，使公司能够组织其数据资产。从这里开始，像可观察性、数据沿袭和数据发现这样的工具可以访问这些元数据并提供洞察。

数据安全、可观察性和管理是紧密相关的；一个公司越是有条理地管理其数据，它在这三个方面就会越成功。

人工智能正在重塑数据行业

在人工智能领域，我们看到了以下创新：

1、非结构化管道用于AI代理和应用

我们在数据基础设施中看到最快的变革是，用于AI应用的非结构化数据管道的兴起。企业利用其内部的非结构化数据来驱动对话式AI和代理应用。

这些管道包括类似于传统数据管道的步骤：提取、转换、索引和存储。如今，最常见的非结构化数据是PDF中的文本、知识库和图像，因为它们支持对话式AI的用例。通常，团队会根据其文档类型构建专用解析器，并寻找能够提供更准确和可靠提取的解决方案。转换是这些产品与传统管道不同之处。非结构化数据的转换包括数据分块（将数据分成小组件）、提取元数据（用于索引）和嵌入每个块（以便将其存储为向量）。分块策略和嵌入模型可以显著影响检索的准确性。

在我们的研究中，我们发现团队尝试了许多分块策略。我们还看到了一些垂直领域的专用嵌入模型的出现，这些模型在特定领域的数据上进行训练，如代码或法律内容。然后，这些数据存储在兼容向量的数据库中。有几种工具可以使公司将数据转换为可查询的格式，以便通过检索增强生成（RAG）和代理来个性化LLM。

2、检索增强生成（RAG）

检索增强生成（RAG）是一种通过利用定制数据提高大型语言模型（LLM）应用效率的架构流程。在RAG中，数据会被加载并准备好进行查询，或者说“索引”。查询作用于索引，将数据过滤到最相关的上下文。这些上下文和查询一起传递给LLM，LLM再根据提示提供响应。RAG使数据能够作为产品体验的一部分被激活。

通过实施RAG，LLM应用能够显著提升其信息获取能力和响应质量，使得用户体验更加可靠和可信。这种方法不仅扩展了模型的知识库，还增强了其事实准确性和信息的可追溯性，从而更好地满足用户需求。

3、整理数据以改善训练和推理性能

数据整理是过滤和组织数据集以实现最佳训练和推理性能的过程。这个过程包括文本分类、不适宜内容（NSFW）过滤、去重、批量大小优化以及不同来源的性能优化。数据整理的最后一步是使用合成数据进行增强。

从Meta的Llama-3公告中的两段话可以看出我们对数据整理的信念：

“要训练出最好的语言模型，关键在于整理出一个大规模、高质量的训练数据集……为了确保Llama 3在最高质量的数据上进行训练，我们开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW过滤器、语义去重方法和文本分类器来预测数据质量。”

“我们在模型质量上取得的一些最大改进来自于仔细整理这些数据，并对人工注释人员提供的注释进行多轮质量保证。”

Meta的AI研究团队去年发布了一篇论文，详细说明了数据整理如何能节省高达20%的训练时间，并提高下游的准确性。更重要的是，论文指出了一条当模型公司耗尽互联网数据进行训练时的模型改进路径。

所有进行模型训练和微调的公司都会希望获得自动化的高质量数据过滤、去重和分类工具。为了实现这一愿景，Ari Marcos创立了Datology AI，我们期待看到他将这一愿景变为现实。

4、数据存储用于人工智能

人工智能领域的数据存储正受到三大趋势的驱动：向量存储、数据湖的兴起以及对湖仓的投资。

向量数据库已经成为人工智能浪潮中的宠儿之一。这是因为向量数据库能够存储嵌入或数据的数值表示形式，包括非结构化数据。

以下是向量数据库的简要背景介绍：

在数学中，向量具有大小和方向，使其适合表示空间中的值。在人工智能中，向量是数据的数值表示形式，能够将图像、音频和视频等非结构化数据转换为有意义的数字，并将这些数字存储在向量数据库中。这些数据被处理生成向量嵌入，用于语义检索相关术语，例如在查询“dog”时找到“wolf”或“puppy”。

向量数据库有两种形式：

1) 原生向量数据库，即专门构建的数据库；

2) 增加了向量支持的现有数据库。向量数据库的流行是由于其能够个性化大语言模型（LLM）。企业可以将其定制数据作为嵌入存储在向量数据库中，从而在个性化体验中进行检索。AI代理也可以利用这种架构。

另一个AI数据存储的趋势是湖仓的兴起。由于大多数企业将大量数据存储在数据湖中，定制AI需要使用这些数据。湖仓为管理和查询数据湖中的数据提供了一种架构。首先是使用开放表格式（如Iceberg、Delta Lake或Hudi）来组织数据。Databricks收购Tabular非常重要，因为它结合了两种最大的开放表格式（Delta Lake和Iceberg）的创建者，同时阻止了竞争对手轻易进入该领域。

5、人工智能记忆（AI Memory）

自ChatGPT引入记忆功能以来，人工智能记忆已成为热门话题。标准的AI系统缺乏健全的情景记忆和连续性，在不同的交互之间基本处于“失忆”状态。这种孤立的短期记忆阻碍了复杂的顺序推理和多代理系统中的知识共享。

随着我们向多代理系统迈进，需要一个能够在不同代理之间管理记忆的健全系统，同时还要执行访问和隐私控制。每个代理的记忆应在会话期间和会话之间进行存储和访问。更复杂的记忆机制需要存在，例如在代理之间共享记忆池，这可以提高代理的决策能力，因为一个代理可以从其他代理的经验中受益。记忆存储将需要根据访问频率、重要性和成本进行分层管理。

MemGPT是目前领先的开源记忆管理框架，他们的愿景是让大语言模型（LLM）成为操作系统的下一次进化。其基本架构如下所述：

MemGPT受操作系统启发的多级记忆架构划分为两种主要的记忆类型：主上下文（类似于主存储器/物理存储器/RAM）和外部上下文（类似于磁盘存储/磁盘存储）。

记忆的创新对推进人工智能应用至关重要，因为这将有助于个性化、学习和反思。

硅谷科技评论（SVTR）AI创投社区覆盖人数超过10W，其中AI从业者超过10000人，大都来自全球科技大厂、顶尖投资机构和高潜创业企业。欢迎联系凯瑞（pkcapital2023），加入我们创业工作室，成为导师、顾问、创业合伙人等。文末扫码访问AI创投库。

AI周报：

001	002	003	004	005	006	007	008	009	010
011	012	013	014	015	016	017	018	019	020
021	022	023	024	025	026	027	028	029	030
031	032	033	034	035	036	037	038	039	040
041	042	043	044	045	046	047	048	049	050 ‍
051	052	053	054	055	056	057	058	059	060
061	062

AI创投

AI工程师有多强？3天上线全球首个AI数据库
“AI张雪峰”诞生，北大团队用 AI 重塑教育咨询
1人团队，百万营收的AI套壳
独立创始人的崛起：如何独自创办公司
全球七大科技巨头的 4000 亿美元 AI 战略布局
性格决定创业成败	顶尖VC投的AI公司
如何寻找创业方向	中美AI创投异同
如何聘请CEO	应该关注哪些AI公司
如何确定CEO的薪水	如何评估AI初创公司
如何分配股权和头衔	海外投资人谈AI新趋势
如何组建和召开董事会	做通才还是专才风投人
如何写商业计划书	红杉资本如何做投资
初创公司估值	如何及早识别独角兽
如何找到创业合伙人	如何避免7大投资陷阱
AI初创公司商业模式	合伙人是怎么炼成的
选择自己的创业导师	Souring的艺术
创始人如何做电梯演讲	精品基金VS超级基金
YC给年轻创始人建议	初创工作室
如何成为亿万富翁	颜值如何影响VC决策
如何做出困难的决定	如何快速解读对方性格
如何在海外启动新产品	硅谷投资人的武器库
如何确认真实投资意愿	VC改变世界？
找这种人实现快速裂变	AI 创投七大新趋势
AI原生公司定价策略	微软（M12）投资策略
GTM指南	ICONIQ小扎的朋友圈
如何选择VC	Cowboy：AI大势所趋
YC：如何独立思考	SOSV: 从草根到帝国
如何打造AI驱动的公司	风投界的水晶球
不要像投资人那样思考	Coatue：AI革命
谁是全球创业之都？	全球AI投资机构Top10
什么决定创业成败？	General Catalyst
AI驱动VC	全球AI创投生态

AI行业

全球 Gen AI 独角兽大盘点，中国4家大模型上榜
大模型系列：海外 \| 数学 \| 性价比 \| 编程 \| 医疗 \| 评估 \| 训练成本
AI 公司创始人 \| 华裔创始人 \| 北美科技人才中心地图
AI 公司地理和行业分布 \| 以色列 \| 德国 \| 旧金山湾区 \| 欧洲
福布斯AI 50 \| 斯坦福AI指数 \| 企业科技AI 30 \| 高增长AI 50 \| C端AI 50 \| 工具AI 50 \| SVTR AI 100 \| 自力更生AI 25
AI+编程 \| 医疗 \| 企服 \| 电商 \| 设计 \| 勘探 \| 教育 \| 写作 \| 客服 \| 法律 \| 视频 \| 3D \| 音乐 \| 搜索 \| 心理精神 \| 消费者科技 \| 安全 \| 生产力工具 \| 浏览器 \| 游戏 \| 会计 \| 数据分析
人工智能能做什么？	LLMOps
AI是否会被垄断	AI未解之谜
开源AI，开发者工具	AI域名
生成式 AI 六大趋势	巨头的AI战争
AI Agent，自动化	具身智能
AI专利	2023年AI总结和展望