本文简要介绍了三种数据管道(Data Pipeline)类型。中兴数据智能为您翻译如下。
选自Algorithmia
数智君 | 翻译
数据管道(Data Pipeline)是一种允许数据通过数据分析过程从一个位置高效流向另一个位置的软件。数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其它此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。
理解数据管道的最佳类比是一条传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。
为什么数据管道很重要?
这种高效流程是数据驱动型企业中最关键的操作之一,因为在步骤之间存在很大的错误空间。数据可能会遇到瓶颈、损坏或产生重复项和其他错误。数据集越大、涉及的源越多,就越有可能发生错误,而且整体上的错误会更大、更有害。
数据管道从确定数据收集的内容、位置和方式开始。它使提取、转换、合并、验证、进一步分析数据和数据可视化的过程自动化。通过消除错误并避免瓶颈和延迟,数据管道可提供端到端效率。一个数据管道甚至可以一次处理多个数据流。这些特性使数据管道对于企业数据分析不可或缺。
由于数据管道将所有数据视为流式数据,因此它们考虑了灵活的架构。无论数据来自静态源还是实时源,数据管道都可以将数据流分割成更小的片段,以便并行处理,从而提升了计算能力。
管道中数据的最终目的地不一定是数据仓库。管道还可以将数据发送到其他应用程序,例如Tableau等可视化工具或Salesforce。
数据管道有什么用?
数据管道可用于自动化公司使用的任何数据分析流程,包括更简单的数据分析和更复杂的机器学习系统。它可以将用户行为或销售数据自动流动到Salesforce或可视化中,以提供对用户行为和销售趋势的洞察。这些见解在营销和产品策略中非常有用。
例如,数据管道可以从用户在企业网站上留下产品评论开始。然后,这些数据会进入一个实时报告,将评论数量、情感分析报告以及留下评论的客户的位置图表显示在一张地图上。这些都是一条管道中的独立方向,但是都是自动且实时的,这要归功于数据管道。
数据管道架构
数据管道架构是指管道结构的设计。有几种不同的方法可以构建数据管道。以下是数据管道架构最基础的三个例子。
基于批处理的数据管道
这是一种最简单的数据管道架构。数据经过几个简单的步骤即可到达一个最终目的地。
流式数据管道
这种类型的数据管道架构可以在数据生成伊始就对其进行处理,并可以立刻将输出馈送给多个应用程序。这是一种更强大、更多功能的管道。
Lambda数据管道
这是三种管道中最复杂的一种。它将另外两种架构合二为一,兼顾了实时流处理和批处理。这种数据管道架构以原始形式存储数据,以便新的分析和功能与数据相结合来纠正错误或创建新的目标和查询。
企业数据管道选项
如果您的公司需要数据管道,那么您可能想知道如何着手。这里有两种选择,本质上是构建或购买。
为了在内部构建数据管道,您需要雇佣一个团队来构建和维护它。构建数据管道包括开发检测传入数据的方法,自动连接和转换来自每个源的数据以匹配其目标格式,以及自动将数据移入数据仓库。
然后,维护您构建好的数据管道又是另一个故事了。您的团队需要准备好添加和删除字段,并随着要求的变化更改架构,以便持续维护和改进数据管道。这个过程在资源和时间上都十分昂贵。
如果考虑成本效益和简便性,购买数据管道服务是个不错的选择。
原文链接:
https://algorithmia.com/blog/what-is-a-data-pipeline
* 本文为中兴数据智能翻译文章,转载请注明出处。
来源:oschina
链接:https://my.oschina.net/u/4330611/blog/4595773