人工智能时代的数据平台架构模式

王建峰·2025年05月19日 14:45
当前的人工智能革命对实时数据、语义理解和集成操作有着独特的需求,因此需要迈出下一步:构建现代数据平台。

数据时代的往事:打造人工智能家居

还记得数据发展的早期吗?感觉更简单,或许只是表面看起来简单。企业主要想知道 已经发生了 什么。“发货了多少件?”“上个月的销售额是多少?”为了回答这些问题,我们构建了数字世界中第一个重要的解决方案:数据仓库。

精心组织的图书馆(数据仓库时代)

传统的数据仓库就像一个宏伟而精心组织的图书馆。来自运营系统(销售、财务、库存)的数据并非只是被堆放在那里。它们要经过一个称为 ETL(提取、转换、加载)的严格流程。数据经过清洗、标准化,并被构建成预定义的格式(模式),然后才被放置在特定的、有标签的架子上。您确切地知道在哪里可以找到季度销售数据,因为它们总是以相同的方式分类。

这个系统非常出色,因为它的目标就是提供可靠、一致的商业智能报告。决策者可以信赖这些数字(大多数情况下!)。但图书馆墙外的世界开始变得复杂起来。

我们不再只是处理整齐的行列。突然之间,网站点击数据、电子邮件中非结构化的客户反馈、机器的传感器读数、社交媒体流,甚至图片和视频都如潮水般涌来。我们原本井然有序的图书馆,原本是为固定的书籍而建,却无法轻松应对这种混乱的涌入。试图强行将一条推文或视频脚本通过僵硬的 ETL 流程,就像试图将瀑布搁置起来——缓慢、昂贵,而且通常无法完全容纳。对复杂数据科学和机器学习探索的需求也使其僵硬的结构不堪重负。

一切皆可摆脱(数据湖的兴起)

面对数据洪流和新的分析 的需要 ,我们构建了一个截然不同的东西:数据湖。忘掉那些严格的 摆放 规则吧。数据湖被设想为一个庞大且经济高效的存储空间,通常使用 Hadoop HDFS 或云对象存储(例如 Amazon S3 或 Azure Data Lake Storage)等技术。其理念发生了巨大转变:“先获取所有数据,然后再考虑如何使用。” 原始数据以其原生格式(结构化、半结构化、完全非结构化)直接加载(通常使用 ELT 【 提取、加载、转换 】 方法)。结构是在读取数据时应用的,而不是在写入数据时应用的(读取时模式)。

这提供了令人难以置信的灵活性和可扩展性。数据科学家终于可以访问和探索全部原始信息。然而,这种自由是有代价的。缺乏强有力的组织和治理,许多数据湖最终演变成了可怕的“数据沼泽”。寻找可靠、高质量的数据变成了一场寻宝之旅。这个数据集干净吗?它值得信赖吗?它在其他地方重复了吗?性能可能会很差,而且缺乏事务保证(ACID 合规性,在数据库中很常见),这使得构建可靠的链式数据管道(对于生产系统和值得信赖的 AI 至关重要)变得非常具有挑战性。

数据湖屋(Lakehouse 模式)

我们需要找到一个更好的平衡点:既要拥有湖的规模和灵活性,又要拥有更接近数仓的可靠性和性能。这催生了Lakehouse的诞生。

其核心理念并非要取代经济高效的湖存储,而是在其 基础上构建智能和结构。DeltaLake、Apache Iceberg 和 Apache Hudi 等技术成为关键的推动因素。它们将类似数据库的功能(ACID 事务、数据版本控制、模式实施和性能优化)直接引入到数据湖中的文件中。

Lakehouse 中一种流行的组织模式是Medallion 架构。它强制执行逻辑流程和质量进度:

青铜区:获取的原始数据,基本未经修改——历史档案。

白银区:数据经过清理、过滤、合并或标准化,更加可靠,更适用于分析和特征工程。

黄金区:数据经过聚合、功能设计和业务就绪,通常针对特定的 BI 仪表板或 ML 应用程序进行优化。

Lakehouse 代表着一次重大的飞跃。它提供了一个统一的平台,能够支持传统的 BI 报告(通常来自 Gold 表)和许多数据科学/机器学习工作负载(通常利用 Silver 和 Gold 数据),所有这些都基于同一个底层存储。它解决了原始数据湖的诸多问题。

然而,就在我们感到安心之时,人工智能的格局再次发生了翻天覆地的变化。强大的基础模型、生成式人工智能(例如 ChatGPT、DeepSeek)、复杂的推荐系统以及自主人工智能代理概念的兴起,带来了新的、更严苛的要求。这些系统需要的不仅仅是干净的批量数据;它们需要实时上下文、理解非结构化数据 含义 的专门方法,以及与整个机器学习生命周期的无缝集成。

人工智能时代的数据架构(现代数据平台)

这就引出了我们对AI 时代现代数据平台的需求。它并非必然要完全取代 Lakehouse 的基础架构;通常,它是在 Lakehouse 基础上的 演进和整合 。可以将其想象成将井井有条的 Lakehouse 工棚升级为一个先进的、互联互通的车间,专门用于构建、部署和运行复杂的 AI 系统。

现代数据和人工智能平台框架:Databricks

这个“现代”平台有何不同?它集成了以下关键功能:

1.实时与流式集成:人工智能通常需要实时 更新的数据。流式技术(例如 Apache Kafka、Pulsar,以及 Flink 或 Spark Streaming 等处理引擎)深度嵌入,可实现低延迟数据提取和处理,为分析模型和实时 AI 模型提供数据。

2.无缝 MLOps 集成:数据团队和 ML 团队之间的脱节是一个主要瓶颈。该平台紧密集成了整个 ML 生命周期的工具:

特征存储:用于精选的、版本化的 ML 特征的集中存储库,可以低延迟访问模型训练 和 实时推理,从而减少训练服务偏差。

模型注册表:对已部署的模型进行版本控制、管理和跟踪。

实验跟踪:记录参数、指标和代码以实现可重复性。

部署和监控:将模型推入生产并持续监控其性能和偏差的管道。

3.对向量和矢量数据库的原生支持:这对于现代人工智能至关重要。除了存储文本或图像之外,平台还需要处理 向量向量 ——意义的数学表示。平台集成了专用的矢量数据库(例如 Pinecone、Weaviate、Milvus 或现有数据库中的功能),以实现高效的相似性搜索,并为 LLM 的检索增强生成 (RAG)、语义搜索和高级推荐提供支持。

4.稳健的治理与可观察性:随着人工智能承担起越来越关键的任务,信任至关重要。嵌入式数据质量检查、沿袭追踪(了解数据的来源和转换方式)、访问控制以及覆盖整个平台的全面监控(可观察性)都至关重要。

5.可扩展性和成本效益:利用云原生设计、无服务器组件和自动扩展来有效处理 AI 工作负载经常突发的计算需求。

为什么这对人工智能代理很重要

自主人工智能代理旨在感知、推理和行动,严重依赖于这种现代基础设施:

情境理解:他们需要即时访问相关信息。这需要查询结构化数据、利用实时数据流,以及至关重要的是,通过矢量数据库使用 RAG 提取相关文档或过往交互信息以获取上下文。

一致的决策:他们从特征存储访问特征,确保用于实时决策的数据与用于训练其底层模型的数据相匹配。

记忆与学习:该平台作为他们的知识库和长期记忆,记录他们的行动和结果,并通过 MLOps 管道提供持续改进所需的反馈循环。

驱动人工智能引擎:多样化数据源

这个现代化的 平台要能存储 多样化的数据:事务数据库(通常通过变更数据捕获)、应用程序日志、用户交互流、物联网传感器数据、非结构化文本、图像、音频、视频、第三方 API、公共数据集,以及越来越多的用于处理边缘情况或隐私问题的综合生成的数据。

该平台必须善于 采集 、处理、管理和转换 所有 这些,将原始输入转化为可用于人工智能的燃料,包括那些重要的向量嵌入。

故事还在继续……

我们数据架构的历程反映了我们不断发展的愿景。从数据仓库的结构化报告,到早期数据湖的灵活混乱,再到湖屋的有序可靠性,我们一直在不断适应。

当前的人工智能革命对实时数据、语义理解和集成操作有着独特的需求,因此需要迈出下一步:构建现代数据平台。它不再仅仅关乎单一技术,更在于构建一个 集成、智能、可靠的生态系统 。对于致力于真正驾驭人工智能力量的组织而言,构建这种先进的数据基础正变得至关重要。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
特邀作者

TA没有写简介,但内敛也是一种表达

下一篇

2025「投资界TOP100」投资人正式启动,记录创投风云人物。

2025-05-19

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

Baidu
map