Sergey Galushko - Fotolia

评估 权衡你正在考虑的技术、产品和项目的利弊。

分析管道是由什么组成的?

分析管道传统上是隐藏的,但随着越来越多的组织关注数据的敏捷性,它们正在发生变化。了解成功的分析管道的组成。

在今天的数据驱动的经济中,公司无法承担与数据相关的问题,但许多人仍然存在。尽管数据组织的爆炸量继续达到二氧化碳,但它们仍然无法访问和使用该数据。

为了加快数据分析洞察的速度和准确性,数据工程师正在构建数据分析管道——或数据管道——来运作数据。

什么是数据分析管道?

分析管道简化了数据流以提高洞察力的速度和质量。与A类似持续集成和持续交付(CI/CD)流水线由DevOps团队使用,分析流水线的速度优势取决于自动化任务。

啤酒花农场洛夫特斯实验室(Loftus Labs)工程与分析主管丹•梅科克(Dan Maycock)表示:“如果一家金融集团的所有者要求我提供一份现金流报告,我可能不得不手动提取数据(并)亲自更新这些记录。”“当我每次被请求时都手动提取数据时,这种情况不会频繁发生。如果我有一个管道,这就会自动发生。”

流程现代化咨询公司PWV Consultants的管理合伙人Pieter Vanlperen表示,在分析流程中至少需要一些自动化的其他事情包括数据治理、数据质量、数据可用性和分类,这取决于管道有多先进

出于各种原因,拥有多个分析管道是很常见的,因为每个管道可能服务于不同的目的。Starburst Data是一家分布式SQL查询引擎平台提供商,该公司的工程总监Colleen Tartow表示,数据工程对于管道功能至关重要,因为它们通常很复杂,成熟度也各不相同。

她说:“你可以使用现代数据堆栈建立一个简单的原生云管道,或者你可以建立一个基于数据中心的基础设施,除了实际的数据管道本身,还需要不断的管理。”

Maycock使用一个管道将数据从原始来源传输到中央存储库以及将数据从中央存储库传输到地图、BI工具或数据模型的另一个管道。

“21世纪初,当我开始工作时,你基本上是在自己建设和维护(管道),但现在已经不是这样了,”他说。

分析管道的其他好处

分析管道可以帮助组织实现目标更高的灵活性和弹性,特别是当它们是迭代构建的时候。

“我们的理念是,你通过构建管道的画布来迭代设计。收益是更高的生产力,”数据操作平台提供商StreamSets的CTO Arvind Prabhakar说。

分析管道,如CI/CD管道,也提供了跨工程和运营功能的可见性,这可以实现持续的反馈循环,更快的迭代和更快的问题解决。Prabhakar表示,上一代平台和工具将数据操作视为隐藏的工作负载。

Prabhakar说:“在这个数据ops的新世界中,每个端点、每个管道(可能)都是最薄弱的环节,你需要持续监控和管理的能力,因为管道本身就是你的数据架构如何演变的反映。”

分析管道的交叉功能可见性可以帮助启用过程改进。Prabhakar说,数据可观察性确保业务需求和流程也在分析管道中建模。

“这些管道不仅仅是数据工程师所做设计选择的产物,”他说。“它们实际上反映了根植于企业数据架构结构中的业务流程。”

创建分析管道的挑战

分析管道的目的是加快数据的交付,但一个常见的障碍是数据本身。

“我可能已经建立了一个管道,但我真的没有任何更多的信息,因为我建立的数据仓库或数据湖管理不善,它是一个沼泽,”Vanlperen说。

他说可怜的治理可以很快使数据无法使用。他说,重要的是要了解哪些数据源是重要的,并对它们进行调整,使它们变得有用。

数据源的多样性也会带来问题。

“每个软件平台都可以拥有自己的API和他们自己的数据模型[因为]软件开发中不一定是一个角色,指定数据如何呈现给数据流水线或ETL平台,”Maycock表示。“能够连接到和提取数据,具体取决于平台的平台如何难以困难,并且能够以一致的方式访问信息。”

另一个问题组织面临的是,没有人负责理解内部和第三方来源的全部资料的全部清单。有些人认为这是一个需要a的迹象首席数据官或者至少是负责理解和操作数据的人。

“十年前,人们期望数据工程师什么都知道,他们得到了一份包含数据基础设施所有规格的大摘要,”Prabhakar说。“现在,数据工程师不知道数据来自哪里,谁拥有它,或者它来自哪里,更不用说模式、结构和语义了。”

同样在10年前,数据工程师和运营人员经常在数据竖井中工作,这应该不再是这样,因为断开团体之间会产生摩擦,减缓价值交付。跨职能的脱节也会对业务运营产生负面影响。例如,如果分析管道开始丢失10%的数据,那么下游分析结果将是可疑的。

“当你谈论连续操作时,管道的目标是在数据工程师和运营商之间建立一个紧密的反馈循环,”Prabhakar表示。“你希望管道自动开始提高一些改变的旗帜。”

底线

分析管道对于任何洞察力驱动的组织都是必不可少的。如果设计和实施得好,它们可以帮助公司更快地实现其战略目标。

挖掘商业智能架构和集成

搜索数据管理
搜索AWS
搜索内容管理
搜索甲骨文
搜索SAP
搜索SQL服务器
关闭