数据湖与数据网格:引领组织数据策略的未来

十多年来,组织已经采用数据湖来克服数据仓库的技术限制,并发展成为更加以数据为中心的实体。虽然许多组织已经使用数据湖来探索新的数据用例并改进其数据驱动的方法,但其他组织发现所承诺的好处很难实现。因此,许多数据湖计划的有效性和投资回报率现在正在受到审查。

数据湖与数据网格:引领组织数据策略的未来

克服陷阱:当数据湖变成数据沼泽时

随着一些组织面临管理大量数据存储和避免“数据沼泽”(数据被存储但不使用)的挑战,技术社区对数据湖的看法也发生了变化。这些数据沼泽是巨大的存储库,数据被不加区别地转储,导致可发现性和可用性方面的问题。集中化可能会造成瓶颈,从而减慢访问和分析速度,如果没有严格的治理,数据质量可能会迅速恶化。此外,数据湖的一刀切方式无法满足不同业务领域的具体需求。由于缺乏适当的工具或数据本身的复杂性,用户难以提取价值,因此数据湖的潜力往往尚未开发。

实施良好的数据湖数据湖实施不当
单一事实来源难以访问的数据孤岛
经济高效的存储存储了大量不必要的数据(“数据是新石油”)
数据民主化访问数据所需的专业技能
数据格式的灵活性数据质量差且不一致
高级分析和机器学习从大量非结构化数据中获取价值的困难
更快的洞察力沟通冗长且缺乏工具、界面和技能
简化的数据管理随着湖泊的扩大,管理变得繁琐

数据生产者与消费者:组织鸿沟

这些问题的根本原因是一方面是数据生产者和消费者之间的组织交互,另一方面是中央数据湖团队之间的组织交互。数据生产者通常更愿意开发新的应用程序功能,而不是为分析用例提供数据。他们专注于事务性工作负载而不是分析工作负载,这意味着他们共享的数据质量可能很差。他们还缺乏与数据消费者的联系,导致生产的数据与需求的不匹配。

数据湖团队也有自己的问题:他们对数据源不堪重负,必须执行复杂的技术维护,并不断应对不断变化的优先级。由于分析能力有限以及与数据生产者的脱节,消费者因缺乏透明度、价值不明确以及需求优先级低而感到沮丧。数据消费者和生产者通常不直接交互;这种通信被数据湖的代理组织阻止,所有数据都集中存储在该代理组织中。

文章来源:数据湖与数据网格:引领组织数据策略的未来-国外VPS网站icon-default.png?t=N7T8https://www.vps911.com/vpscp/1846.html

为团队提供数据网格:通往分布式数据生态系统的道路

技术社区的讨论已经转向一种更细致、适应性更强的数据策略,称为数据网格。它旨在通过推广更加分布式、以人为中心和特定于上下文的数据管理方法来克服集中式数据湖的一些限制。

数据网格是解决集中化问题的另一种方法。它将分析数据的责任分配给构建和运行应用程序并生成事务数据的特定领域团队,例如电子商务团队,以及使用数据并使用数据来获得见解的团队。例如,拥有网店结帐页面并将销售数据存储在事务数据库中的团队还负责使销售数据可用于分析、报告和 AI/ML 用例,例如营销或财务。数据网格使消费者能够更轻松、更简单地使用这些分析数据。

它不仅仅是实现了另一个接口;这些数据作为独立的数据产品提供,为实际消费者提供特定的好处。该数据产品由特定数据及其元数据、准备和交付数据所需的源代码、必要的测试和生产基础设施(如 IaC)及其配置组成。

培养数据素养:在数据网格团队中引入新角色

创建和使用数据的团队(例如我示例中的电子商务结帐团队和营销部门)通常缺乏开发和管理分析数据的专业知识。然而,他们对数据业务背景的深入了解是无价的。在数据网格框架中,必须通过提高这些团队的技能来实现分析用例来利用这些知识。这包括为现有成员提供广泛的培训并创建额外的专门角色。有两个关键角色至关重要:数据产品所有者负责指导数据的战略方向,数据工程师负责处理构建和管理这些数据产品的技术方面。

数据产品负责人是面向业务的数据人员,从事务和分析的角度非常了解业务领域。他们直接与数据产品的消费者沟通,并定义产品、其策略和路线图。

数据工程师是数据工程和数据科学领域的多面手,在业务所需的数据相关领域拥有更深入的专业知识。此人构建实际的数据产品,并且是其他团队技术问题的联系人。

为成功奠定基础:数据网格平台

为了充分发挥数据网格的潜力,我建议将这两个角色直接嵌入到生产团队和消费团队中。一个有效但次优的变体是为每个业务领域(例如电子商务)建立一个单独的数据网格团队,因为它重新引入了代理团队。数据网格平台为生产者和消费者提供支持,使他们的工作更轻松、更高效。数据网格平台团队不创建数据产品或存储或处理数据。

数据网格平台具有三个作用:(1)提供数据目录、访问控制、CI/CD管道、监控以及准备开发和测试环境等工具和基础设施; (2) 为生产者和消费者提供培训和建议,并在必要时为他们提供额外的发展能力支持; (3) 以联合方式调整整个组织必须遵守的共同标准和程序。数据网格平台的使命是让生产者和消费者的生活变得简单、高效、无压力。

不幸的是,成功且可持续地运行一个平台并不像技术社区中的一些人所说的那么容易。

如果做得正确,数据网格模型可以采用主动的方法来维护数据质量、相关性和可访问性,并定制数据产品以满足不同业务部门的独特需求。通过将分析数据与其操作环境紧密结合,数据网格有助于在整个组织内更有效地使用和共享数据。它利用现代分布式架构原则(例如源自微服务架构的原则),不仅可以更有效地存储数据,而且可以随时使用数据,从而推动与业务目标密切相关的可操作的见解。

更多相关资讯欢迎访问我的网站:国外VPS网站 - 国外VPS测评,云服务器,香港VPS,主机推荐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604035.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SOLIDWORKS Electrical电气元件智能开孔

实际的电气元器件安装中,一些元器件需要穿过孔洞安装,例如按钮、指示灯会在配电柜的控制面板上,需要穿过控制面板安装。这部分内容放在软件建模、装配时,往往比较复杂因为考虑孔的大小符合元器件规格、孔跟随元器件移动、同一元器…

CR80清洁卡的重要性

在我们日常生活中,身份证、银行卡、信用卡等塑料卡片已经成为了不可或缺的一部分。这些卡片通常符合CR80标准,这意味着它们的尺寸和厚度符合国际标准,为了保证这些卡片的读取和使用效果,清洁维护显得尤为重要。 什么是CR80卡&…

Linux学习之禁用防火墙

查看防火墙状态 systemctl status firewalld.service 第一行前面的圆圈是有颜色的就是开启状态 黑色的就是关闭状态 关闭防火墙 systemctl stop firewalld.service 输入密码认证 再次查看防火墙状态 systemctl status firewalld.service 第一行前面的圆圈变成黑色说明关闭…

杰理-701-单线灯-ws2812-驱动

杰理-701-单线灯-ws2812-驱动 LED_gradual_open(); //调用后 呼吸灯 set_led_colour(R,G,B);//具体颜色 spi_dma_set_addr_for_isr //spi 配置dma 后灯才亮 #define LED_H 0x7c #define LED_L 0x40 发送高位和地位的字节,具体…

UP互助 帮助UP起号做视频 支持B站和抖音

【软件名字】:UP互助 【软件版本】:1.0 【软件大小】:17.5MB 【软件平台】:安卓 【测试机型】:小米9 1.随便登个邮箱,添加自己平台的频道,然后就可以帮助别人,添加频道后在添加…

仓库管理系统需求调研要点

仓库管理系统需求调研 一、仓库的作用 仓库分类 原材料仓库:用于存放生产所需的原材料和零部件,需要保持原材料的质量和数量稳定。半成品仓库:存放生产过程中的半成品和在制品,需要保持良好的生产流程和及时出库。成品仓库&#x…

【Arduino IDE 2】Windows平台安装ESP8266 NodeMCU LittleFS Uploader(文件上传插件)

在Arduino IDE 2(2.2.1或更高版本)上,如何安装基于ESP8266 NodeMCU的LittleFS文件系统上传插件,以及如何将文件上传到ESP8266 NodeMCU板文件系统。 一、LittleFS简介 LittleFS是一个为微控制器创建的轻量级文件系统,可…

智慧校园能解决什么问题?

智慧校园是学校信息化建设的基础载体,他将校园工作的各个业务模块融合,形成一个有机的整体。同时智慧校园又一种先进的教育管理模式,它利用信息技术如物联网、大数据、云计算、人工智能等,来提升教育质量和管理效率。 同时&#…

RabbitMQ(Docker 单机部署)

序言 本文给大家介绍如何使用 Docker 单机部署 RabbitMQ 并与 SpringBoot 整合使用。 一、部署流程 拉取镜像 docker pull rabbitmq:3-management镜像拉取成功之后使用下面命令启动 rabbitmq 容器 docker run \# 指定用户名-e RABBITMQ_DEFAULT_USERusername \# 指定密码-e R…

Java_异常

介绍 编译时异常: 除RuntimeException和他的子类,其他都是编译时异常。编译阶段需要进行处理,作用在于提醒程序眼 运行时异常: RuntimeException本身和其所有子类,都是运行时异常。编译阶段不报错,是程序…

【Linux】gcc/g++的使用

🎉博主首页: 有趣的中国人 🎉专栏首页: Linux 🎉其它专栏: C初阶 | C进阶 | 初阶数据结构 小伙伴们大家好,本片文章将会讲解Linux中gcc/g使用的相关内容。 如果看到最后您觉得这篇文章写得不错…

登录校验总览-jwt令牌

一、前置问题 为什么要登录校验?登录校验,就是判断访问资源的用户是否是合法用户,保障安全。如果不设置登录校验,就可以跳过登录,直接通过url访问资源。二、登录校验实现思路: 在服务器端对请求进行统一拦…

连接docker中的MySQL出现2058错误

出错场景:在虚拟机中用docker技术下载最新版本的MySQL,在本地电脑上连接发现出现2058错误。 解决方法: 按照以下步骤 1. 2. ALTER USER root% IDENTIFIED WITH mysql_native_password BY 自己MySQL的密码; 3.成功

不是所有的AI都这么乖——探索DAN模式的野性一面

今天偶然间发现DAN模式还挺好玩的!!! 在一个充斥着预测性回答和过分礼貌的人工智能世界里,你是否曾渴望一场真正的思想碰撞?忘掉你以往遇到的那些听话的AI。DAN模式,一个设计来打破常规、挑战边界的AI&…

构建自己的docker镜像node.js

学习资源: 构建自己的 Docker 镜像_哔哩哔哩_bilibili 针对其中的一些比较困难的点写篇文章。 以下是对app.js的注释: // 使用 Koa 框架搭建 Node.js 应用的示例代码// 这两行代码引入了 koa 模块,并创建了一个新的 Koa 应用实例&#xf…

HTTP常见面试题(二)

3.1 HTTP 常见面试题 HTTP特性 HTTP 常见到版本有 HTTP/1.1,HTTP/2.0,HTTP/3.0,不同版本的 HTTP 特性是不一样的。 HTTP/1.1 的优点有哪些? HTTP 最突出的优点是「简单、灵活和易于扩展、应用广泛和跨平台」。 1. 简单 HTTP…

关于行进线路。

https://map.tianditu.gov.cn/ 作者:Chockhugh 链接:https://www.zhihu.com/question/20545559/answer/494685117 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 以50km,几乎全是…

C#字符串格式化

数值规范 也可写成int money 368; money .ToString("C"); string.Format("金额:{0:C}", 368); > 368.00 string.Format("科学计数法:{0:C}", 12000.1); > 1.200001…

【软件测试】用例篇 -- 详解

一、测试用例的基本要素 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。(注意:不需要执行结果,因为执行结果…

【Qt 学习笔记】Qt常用控件 | 输入类控件 | Dial的使用及说明

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 输入类控件 | Dial的使用及说明 文章编号:Qt…
最新文章