人工智能时代的数据平台架构模式

王建峰·2025年05月19日 14:45

当前的人工智能革命对实时数据、语义理解和集成操作有着独特的需求，因此需要迈出下一步：构建现代数据平台。

数据时代的往事：打造人工智能家居

还记得数据发展的早期吗？感觉更简单，或许只是表面看起来简单。企业主要想知道已经发生了什么。“发货了多少件？”“上个月的销售额是多少？”为了回答这些问题，我们构建了数字世界中第一个重要的解决方案：数据仓库。

精心组织的图书馆（数据仓库时代）

传统的数据仓库就像一个宏伟而精心组织的图书馆。来自运营系统（销售、财务、库存）的数据并非只是被堆放在那里。它们要经过一个称为 ETL（提取、转换、加载）的严格流程。数据经过清洗、标准化，并被构建成预定义的格式（模式），然后才被放置在特定的、有标签的架子上。您确切地知道在哪里可以找到季度销售数据，因为它们总是以相同的方式分类。

这个系统非常出色，因为它的目标就是提供可靠、一致的商业智能报告。决策者可以信赖这些数字（大多数情况下！）。但图书馆墙外的世界开始变得复杂起来。

我们不再只是处理整齐的行列。突然之间，网站点击数据、电子邮件中非结构化的客户反馈、机器的传感器读数、社交媒体流，甚至图片和视频都如潮水般涌来。我们原本井然有序的图书馆，原本是为固定的书籍而建，却无法轻松应对这种混乱的涌入。试图强行将一条推文或视频脚本通过僵硬的 ETL 流程，就像试图将瀑布搁置起来——缓慢、昂贵，而且通常无法完全容纳。对复杂数据科学和机器学习探索的需求也使其僵硬的结构不堪重负。

一切皆可摆脱（数据湖的兴起）

面对数据洪流和新的分析的需要，我们构建了一个截然不同的东西：数据湖。忘掉那些严格的摆放规则吧。数据湖被设想为一个庞大且经济高效的存储空间，通常使用 Hadoop HDFS 或云对象存储（例如 Amazon S3 或 Azure Data Lake Storage）等技术。其理念发生了巨大转变：“先获取所有数据，然后再考虑如何使用。” 原始数据以其原生格式（结构化、半结构化、完全非结构化）直接加载（通常使用 ELT 【提取、加载、转换】方法）。结构是在读取数据时应用的，而不是在写入数据时应用的（读取时模式）。

这提供了令人难以置信的灵活性和可扩展性。数据科学家终于可以访问和探索全部原始信息。然而，这种自由是有代价的。缺乏强有力的组织和治理，许多数据湖最终演变成了可怕的“数据沼泽”。寻找可靠、高质量的数据变成了一场寻宝之旅。这个数据集干净吗？它值得信赖吗？它在其他地方重复了吗？性能可能会很差，而且缺乏事务保证（ACID 合规性，在数据库中很常见），这使得构建可靠的链式数据管道（对于生产系统和值得信赖的 AI 至关重要）变得非常具有挑战性。

数据湖屋（Lakehouse 模式）

我们需要找到一个更好的平衡点：既要拥有湖的规模和灵活性，又要拥有更接近数仓的可靠性和性能。这催生了Lakehouse的诞生。

其核心理念并非要取代经济高效的湖存储，而是在其基础上构建智能和结构。DeltaLake、Apache Iceberg 和 Apache Hudi 等技术成为关键的推动因素。它们将类似数据库的功能（ACID 事务、数据版本控制、模式实施和性能优化）直接引入到数据湖中的文件中。

Lakehouse 中一种流行的组织模式是Medallion 架构。它强制执行逻辑流程和质量进度：

青铜区：获取的原始数据，基本未经修改——历史档案。

白银区：数据经过清理、过滤、合并或标准化，更加可靠，更适用于分析和特征工程。

黄金区：数据经过聚合、功能设计和业务就绪，通常针对特定的 BI 仪表板或 ML 应用程序进行优化。

Lakehouse 代表着一次重大的飞跃。它提供了一个统一的平台，能够支持传统的 BI 报告（通常来自 Gold 表）和许多数据科学/机器学习工作负载（通常利用 Silver 和 Gold 数据），所有这些都基于同一个底层存储。它解决了原始数据湖的诸多问题。

然而，就在我们感到安心之时，人工智能的格局再次发生了翻天覆地的变化。强大的基础模型、生成式人工智能（例如 ChatGPT、DeepSeek）、复杂的推荐系统以及自主人工智能代理概念的兴起，带来了新的、更严苛的要求。这些系统需要的不仅仅是干净的批量数据；它们需要实时上下文、理解非结构化数据含义的专门方法，以及与整个机器学习生命周期的无缝集成。

人工智能时代的数据架构（现代数据平台）

这就引出了我们对AI 时代现代数据平台的需求。它并非必然要完全取代 Lakehouse 的基础架构；通常，它是在 Lakehouse 基础上的演进和整合。可以将其想象成将井井有条的 Lakehouse 工棚升级为一个先进的、互联互通的车间，专门用于构建、部署和运行复杂的 AI 系统。

现代数据和人工智能平台框架：Databricks

这个“现代”平台有何不同？它集成了以下关键功能：

1.实时与流式集成：人工智能通常需要实时更新的数据。流式技术（例如 Apache Kafka、Pulsar，以及 Flink 或 Spark Streaming 等处理引擎）深度嵌入，可实现低延迟数据提取和处理，为分析模型和实时 AI 模型提供数据。

2.无缝 MLOps 集成：数据团队和 ML 团队之间的脱节是一个主要瓶颈。该平台紧密集成了整个 ML 生命周期的工具：

特征存储：用于精选的、版本化的 ML 特征的集中存储库，可以低延迟访问模型训练和实时推理，从而减少训练服务偏差。

模型注册表：对已部署的模型进行版本控制、管理和跟踪。

实验跟踪：记录参数、指标和代码以实现可重复性。

部署和监控：将模型推入生产并持续监控其性能和偏差的管道。

3.对向量和矢量数据库的原生支持：这对于现代人工智能至关重要。除了存储文本或图像之外，平台还需要处理向量向量 ——意义的数学表示。平台集成了专用的矢量数据库（例如 Pinecone、Weaviate、Milvus 或现有数据库中的功能），以实现高效的相似性搜索，并为 LLM 的检索增强生成 (RAG)、语义搜索和高级推荐提供支持。

4.稳健的治理与可观察性：随着人工智能承担起越来越关键的任务，信任至关重要。嵌入式数据质量检查、沿袭追踪（了解数据的来源和转换方式）、访问控制以及覆盖整个平台的全面监控（可观察性）都至关重要。

5.可扩展性和成本效益：利用云原生设计、无服务器组件和自动扩展来有效处理 AI 工作负载经常突发的计算需求。