每个大型企业组织都在尝试加速其数字化转型战略,以更加个性化、相关和动态的方式与客户互动。在创建和收集数据时对数据执行分析(也称为实时数据流)并生成即时洞察以加快决策制定的能力为组织提供了竞争优势。
组织越来越多地从实时数据流构建低延迟、数据驱动的应用程序、自动化和智能。欺诈检测、网络威胁分析、制造智能、商务优化、实时报价、即时贷款批准等用例现在可以通过将数据处理组件向上移动来满足这些实时需求。
Cloudera 流处理 (CSP) 通过提供分析流数据的复杂模式并获得可操作的情报的功能,使客户能够将流转化为数据产品。例如,一家大型生物技术公司使用 CSP 通过分析和警告超出规格的分辨率颜色不平衡来制造符合精确规格的设备。许多大型金融服务公司使用 CSP 为其全球欺诈处理管道提供动力,并防止用户在贷款审批过程中利用竞争条件。
2015 年,Cloudera 成为首批为 Apache Kafka 提供企业支持的供应商之一,这标志着 Cloudera 流处理 (CSP) 产品的起源。在过去七年中,Cloudera 的流处理产品不断发展,以满足我们 700 多家企业客户及其多样化用例不断变化的流分析需求。如今,CSP 由 Apache Flink 和 Kafka 提供支持,并提供完整的企业级流管理和状态处理解决方案。Kafka 作为存储流媒体基板,Flink 作为核心流处理引擎,以及对 SQL 和 REST 等行业标准接口的一流支持,使开发人员、数据分析师和数据科学家能够轻松构建实时数据管道为数据产品、仪表板、商业智能应用程序、微服务和数据科学笔记本提供动力。
CSP 最近在2022 GigaOm 雷达流数据平台报告中被公认为领导者。
本博客旨在回答两个问题,如下图所示:
1) 随着越来越多的组织转向“流优先”架构并尝试构建流分析管道,流处理需求和用例如何演变?
2) Cloudera 流处理 (CSP) 如何与客户不断变化的需求保持同步?
图 1:Cloudera 流处理产品的演变基于客户不断演变的流用例和需求。
更快的数据摄取:流式摄取管道
随着客户开始为多功能分析构建数据湖和湖仓(甚至在它被命名之前),围绕数据摄取开始出现大量期望的结果:
- 支持流数据的规模和性能需求:用于将数据移动到数据湖中的传统工具(传统的 ETL 工具,Sqoop)仅限于批量摄取,不支持流数据源的规模和性能需求。
- 减少摄取延迟和复杂性:需要多点解决方案将数据从不同的数据源移动到下游系统。这些工具的批处理性质增加了分析的整体延迟。需要更快的摄取来减少整体分析延迟。
- 应用程序集成和微服务:实时集成用例要求应用程序能够订阅这些流并与下游系统实时集成。
这些期望的结果引发了对分布式流存储基板的需求,该基板针对实时摄取和处理流数据进行了优化。Apache Kafka 专为满足这一需求而构建,Cloudera 是最早提供支持的供应商之一。分别由 Apache Kafka 和 NiFi 提供支持的 Cloudera 流处理和 DataFlow 的结合帮助数百名客户构建了实时摄取管道,并通过如下架构实现了上述预期结果。