AI 打破了数据堆栈。 大多数企业在过去十年中构建了复杂的数据堆栈。ETL 管道将数据移动到数据仓库。转换层清理数据以进行分析。BI 工具向用户提供洞察。 这种架构适用于传统分析。 但 AI 需要不同的东西。它需要持续的反馈循环。它需要实时嵌入和上下文检索。 考虑一个在 ATM 取出零花钱的客户。移动应用上的 AI 代理需要在几秒钟内了解这笔 40 美元的交易。数据的准确性和速度不是可选的。 Netflix 重建了整个推荐基础设施,以支持实时模型更新1。Stripe 创建了统一的管道,使支付数据在毫秒内流入欺诈模型2。 现代 AI 堆栈需要根本不同的架构。数据从不同的系统流入向量数据库,在那里嵌入和高维数据与传统结构化数据并存。上下文数据库存储着为 AI 决策提供信息的机构知识。 AI 系统消耗这些数据,然后进入实验循环。GEPA 和 DSPy 使跨多个质量维度的进化优化成为可能。评估衡量性能。强化学习训练代理在复杂的企业环境中导航。 一切的基础是可观察性层。整个系统需要准确且快速的数据。这就是为什么数据可观察性也将与 AI 可观察性融合,为数据工程师和 AI 工程师提供对其管道健康状况的端到端理解。 数据和 AI 基础设施并不是在融合。它们已经融合。 参考文献 Netflix 技术博客。(2025 年 8 月)。 “从事实和指标到媒体机器学习:在 Netflix 发展数据工程职能。” ↩︎ Stripe。(2025 年)。 “我们是如何构建它的:Stripe Radar。” ↩︎