月亮链 月亮链
Ctrl+D收藏月亮链

ATA:如何理解元数据、数据堆栈和数据目录3.0?_Data Transaction Token

作者:

时间:1900/1/1 0:00:00

2020年给我们的日常词汇带来了很多新词汇——想想冠状病、封锁、大流行、退款。但在数据世界中,另一个短语一直在流传……现代数据堆栈。

数据世界最近汇集了处理海量数据的最佳工具集,即“现代数据堆栈”。这包括在同类最佳工具上设置数据基础架构,例如用于数据仓库的 Snowflake、用于数据湖的 Databricks 和用于数据摄取的 Fivetran。

现代数据堆栈的优点:现代数据堆栈非常快,很容易在几秒钟内扩展,而且需要很少的开销。缺点:在数据治理、信任和上下文方面,它仍然是个新手。

那么,现代元数据在今天的现代数据堆栈中应该是什么样子呢?基本数据目录如何发展成为数据民主化和治理的强大工具?为什么要进行元数据管理需要一个范式的转变来满足今天的需求?

几年前,数据主要由组织中的 IT 团队使用。然而,今天的数据团队比以往任何时候都更加多样化——数据工程师、分析师、分析工程师、数据科学家、产品经理、业务分析师、公民数据科学家等等。这些人中的每一个都有自己喜欢的、同样多样化的数据工具,从 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。

这种多样性既是一种力量,也是一种斗争。这些人都有不同的解决问题的方式、工具、技能组合、技术堆栈、工作方式……本质上,他们每个人都有独特的“数据 DNA”。

结果往往是协作中的混乱。令人沮丧的问题,例如“此列名称实际上是什么意思?” 和“为什么仪表板上的销售数字又错了?” 在需要使用数据时让快速团队陷入困境。

Digital Insights Ventures 创始人:为了使Web3成功,人们需要了解辅助系统将如何蓬勃发展:金色财经现场报道,在Coinlive举办的峰会上,新加坡区块链协会 (BAS) 可持续发展与影响小组委员会创始主席兼Digital Insights Ventures 创始人 Krishna Ramachandra 以主题演讲“Web3 和人工智能 (AI):助力去中心化技术的代币化和可持续性。”他分享了 Digital Insights 采用的核心见解:交互、互操作性、集成和互连。

此外,他还谈到了网络的语义,并解释说Web3,当你分解它时,它只是指你对数据使用方式的控制。他解释说,为了使Web3成功,人们需要了解辅助系统将如何蓬勃发展。他在演讲结束时说,如果有影响力或权力的人不帮助可持续发展的叙述,我们将永远不会看到Web3的全部力量。[2022/12/22 22:00:35]

这些问题并不新鲜。毕竟,Gartner 发布元数据管理解决方案魔力象限已经超过 5 年了。

但是仍然没有很好的解决办法。大多数数据目录只不过是 Hadoop 时代的创可贴解决方案,而不是跟上当今现代数据堆栈背后的创新和进步。

就像数据一样,我们思考和使用元数据的方式在过去三年中一直在稳步发展。它可以大致分为三个演进阶段:数据目录 1.0、数据目录 2.0 和数据目录 3.0。

时间:1990 年代和 2000 年代初

产品:Informatica、Talend

观点:无论与SEC的诉讼结果如何 对Ripple而言都不是致命打击:1月27日消息,针对美国SEC对Ripple发起的诉讼,律师Jeremy Hogan表示,如果诉讼最终对Ripple有利,在诉讼结束时,XRP价格将上涨2至3倍将只是一个“保守估计”。无论诉讼得出什么结论,对Ripple来说都不是致命的打击。如果诉讼结果不佳,导致Ripple关闭,XRP可能会归零,但这种情况不太可能发生。因为Ripple是一个技术公司,不太依赖实物资产运营。最糟糕的情况可能是其商业模式遭破坏,最终可能退出美国市场。Jeremy Hogan称,SEC诉讼最可能的结果将是双方达成和解。SEC可能会对Ripple包括其2013-2014年度(甚至2015年)的业务处以巨额罚款,以及对托管XRP销售业务进行某种控制或限制。(AMBCrypto)[2021/1/27 21:48:59]

元数据在技术上自古以来就存在——例如 附在亚历山大图书馆每卷卷轴上的描述性标签。然而,元数据的现代概念可以追溯到 1900 年代后期。在 1990 年代,我们庆幸将软盘放在一边,并拥抱了这种称为互联网的新奇工具。很快,大数据和数据科学风靡一时,组织正试图弄清楚如何组织他们的新数据集合。

随着数据类型和格式以及数据本身的爆炸式增长,IT 团队负责创建“数据清单”。像 Informatica 这样的公司在元数据管理方面处于领先地位,但是对于 IT 人员来说,建立和保持新的数据目录一直是一项艰巨的任务。

数据仓库团队经常花费大量时间谈论、担心元数据,并为元数据感到内疚。由于大多数开发人员天生厌恶文档的开发和有序归档,因此尽管每个人都承认元数据很重要,但元数据通常会从项目计划中删除。”

直播|小琬 > 挖矿小白如何区分Filecoin众多矿商的优劣:金色财经 · 直播主办的《 币圈 “后浪” 仙女直播周》第9期15:00正在直播中,本期“后浪”仙女Blocklike CEO 小琬将在直播间聊聊“挖矿小白如何区分Filecoin众多矿商的优劣”,感兴趣的朋友扫码移步收听。[2020/7/15]

– 拉尔夫·金博尔,2002

时间:2008-2020

产品:collibra,Alation

随着数据变得越来越主流并扩展到 IT 团队之外,数据管理的想法开始生根发芽。这指的是一组专门负责管理组织数据的人员。他们将处理元数据、维护治理实践、手动记录数据等。

与此同时,元数据的想法发生了变化。随着公司开始建立大规模的 Hadoop 实施,他们意识到简单的 IT 数据清单已经不够了。相反,新的数据目录需要将数据清单与新的业务环境相融合。

就像这个时代超级复杂的 Hadoop 系统一样,Data Catalog 2.0 很难设置和维护。它们涉及严格的数据治理委员会、正式的数据管理员、复杂的技术设置和冗长的实施周期。总而言之,这个过程可能需要长达 18 个月的时间。

这个时代的工具基本上是建立在整体架构上并部署在本地的。 每个数据系统都有自己的安装程序,公司无法通过推送简单的云更新来推出软件更改。

技术债务不断增长,元数据管理开始稳步落后于其他现代数据栈。

币情观察室 | 全球经济萧条 如何抓住币圈投资机会:4月2日10:00,金色盘面邀请行情大V币业生做客金色财经《币情观察室》直播间,将分享《全球经济萧条 如何抓住币圈投资机会》,敬请关注,扫描下图二维码即可观看。[2020/4/2]

尽管其他数据基础架构堆栈在过去几年中得到了发展,而且 Fivetran 和 Snowflake 等工具让用户可以在不到 30 分钟的时间内建立一个数据仓库,但数据目录却跟不上。即使尝试使用 Data Catalog 2.0 时代的元数据工具也需要花费大量的工程时间进行设置,更不用说至少与销售代表进行 5 次通话以获得演示

由于缺乏可行的替代方案,现代数据堆栈的最早采用者和大多数大型科技公司都诉诸于构建自己的内部解决方案。 一些著名的例子包括 Airbnb 的 Dataportal、Facebook 的 Nemo、LinkedIn 的 DataHub、Lyft 的 Amundsen、Netflix 的 Metacat 和 Uber 的 Databook。

然而,并不是所有的公司都有这样的工程资源,而且构建几十个类似的元数据工具并不是特别有效。

今天,我们正处于元数据管理的转折点——从缓慢的内部部署数据目录 2.0 转变为新时代数据目录 3.0 的开始。就像从 1.0 到 2.0 的跳跃一样,这将是我们对元数据的看法的根本转变

Data Catalog 3.0 的外观和感觉与 Data Catalog 2.0 代的前辈不同。相反,数据目录 3.0 将建立在嵌入式协作的前提下,这是当今现代工作场所的关键,借鉴了 Github、Figma、Slack、Notion、Superhuman 和其他当今司空见惯的现代工具的原则。

声音 | 中国市场学会理事张锐:无论Libra命运如何 Facebook都是大赢家:7月18日,中国市场学会理事、经济学教授张锐发表文章《无论Libra命运如何,Facebook都是大赢家》。文章指出,由于Libra锚定了银行存款、政府债券以及一篮子货币,完全可以量度商品的价值,同时可以充当商品交换的媒介,并作为标的进入公众财富的储藏范畴。因此,即便是Libra不能获得全球性法定货币的身份,但它完全能够以数字货币的身份像比特币那样在商品与服务流通领域长袖善舞,而且庞大的用户群体为其创造的价值空间一定比任何一种数字货币要广阔宽泛得多。不仅如此,Libra还可像微信和支付宝那样打开数字金融与数字社会的入口,从而将Facebook带入新的商业模式。[2019/7/18]

1.《数据资产》表格

Data Catalog 2.0 生成的前提是“表格”是唯一需要管理的资产。但现在完全不一样了。

如今,BI 仪表板、代码片段、SQL 查询、模型、功能和 Jupyter 笔记本都是数据资产

3.0代元数据管理将需要足够灵活,以便智能地存储和将所有这些不同类型的数据资产链接在一个地方。

2.端到端数据可见性,而不是零碎碎的解决方案

数据目录 2.0 时代的工具在改进数据发现方面取得了重大进展。然而,他们并没有为组织提供数据的“单一事实来源”。有关数据资产的信息通常分布在不同的地方——数据沿袭工具、数据质量工具、数据准备工具等等。数据目录 3.0 将帮助团队最终实现圣杯,即组织中每个数据资产的单一事实来源。

3.元数据为“大数据”的世界而构建

我们正在快速接近元数据本身就是大数据的世界。 能够处理和理解元数据将有助于团队更好地理解和信任他们的数据。

这就是为什么新的数据目录3.0应该不仅仅是一个元数据存储的原因。

它应该从根本上利用元数据作为一种数据形式,可以以与所有其他类型的数据相同的方式进行搜索、分析和维护

今天,云的可扩展性使这成为可能,这是前所未有的。 例如,查询日志只是当今可用的一种元数据。 通过解析 Snowflake 中查询日志中的 SQL 代码,可以自动创建列级沿袭,为每个数据资产分配流行度分数,甚至可以推断每个资产的潜在所有者和专家。

4. 嵌入式协作已经成熟

Airbnb 在分享他们在推动采用内部数据门户方面的经验时说了一些深刻的话:“设计数据工具的界面和用户体验不应该是事后的想法。”

由于数据团队的基本多样性,需要设计数据工具以与团队的日常工作流程无缝集成。

这就是嵌入式协作理念真正活跃的地方。嵌入式协作是指在您所在的位置进行工作,摩擦最少。

如果可以在获得链接时请求访问数据资产,就像使用 Google Docs 一样,并且所有者可以在 Slack 上获得请求并立即批准或拒绝它,该怎么办?或者,当您检查数据资产并需要报告问题时,您可以立即触发与工程团队的 JIRA 工作流程完美集成的支持请求,该怎么办?

嵌入式协作可以统一数十个这样的微型工作流程,这些工作流程会浪费时间、造成挫折并导致数据团队的工具疲劳,反而让这些任务变得有趣!

为什么保护元数据如此重要?

连接元数据是您在线进行操作时生成的数据,例如访问网站、使用应用程序或发送消息。此元数据记录信息,例如谁发送了数据(以 IP 地址的形式)、他们将数据发送到何处(另一个 IP)、何时以及发送了多少数据。简而言之,它是关于数据的数据。

就其本身而言,这似乎并不多,但每次在线互动都会生成数十个元数据,几乎都是公开的或易于查找的。如果有人收集了足够多的元数据,他们很快就会清楚地了解你的在线活动,并了解你的线下生活。即使连接是端到端加密的,这也是可能的。

为什么存在连接元数据?

因此,如果存在这样的问题,为什么不停止创建所有这些元数据,或者至少将其设为私有?不幸的是,事情并没有那么简单:公共元数据对于互联网目前的运作方式至关重要,这是一个没有人能够想象互联网会发展到多大的时代的遗物,或者恶意行为者可能会如何滥用它。

基本上,可以把它想象成邮寄一封信。内容可以密封在信封中,但要到达目的地,信封需要清楚地注明地址。任何人都可以读取此地址信息。如果他们愿意,他们可以记下信封的去向、信封有多大以及何时寄出。随着时间的推移,他们可以建立这些信息的数据库并开始寻找模式。所有这些都无需打开信封。

如果我可以看到您在哪些商店购物、您正在使用哪些应用程序以及您向谁发送消息,我实际上不需要知道您的消息内容或您购买的完整详细信息来推断很多关于你的信息。

但是谁真正看到了这个元数据?每次上网时,数十家不同的公司和服务都会看到并可能记录此元数据。有互联网服务提供商 (ISP)、电信公司、使互联网正常工作的 DNS 服务器和内容交付网络 (CDN),例如 Cloudflare,它们实际上为大部分 Web 内容提供服务。大多数情况下,这些服务都在未经您同意的情况下收集和存储有关您的信息。

现代网络服务相互关联的方式意味着这个列表只会增加。例如,如果访问一个嵌入了 YouTube 视频的网站,那么即使不点击视频,Google 也会收到访问通知。这些信息可以通过IP 地址轻松链接到用户的姓名,谷歌通过用户的谷歌帐户知道用户的姓名,并添加到谷歌维护的关于用户的详细档案中。不仅仅是谷歌。同样的事情也发生在 Facebook,或者像 Medium 这样的博客托管网站,或者即时消息平台。这一切都不需要 cookie 或任何额外的代码,更改您的隐私设置也不会阻止它。这就是当今互联网的运作方式。

那时我们甚至还没有遇到黑客、政府过度干预等问题,以及如果用户是在线企业,如何安全地处理和保护元数据的巨大问题,现在监管机构已经开始注意到这一点。但这些是未来剧集的主题。

公共连接元数据在 Internet 的工作方式中根深蒂固,因此没有简单的解决方案。解决它的唯一方法是采用全新的数据传输方法。

目前,区块链项目开始关注这一领域。即使得用户、公司和设备在完全隐私的情况下,进行在线交换信息。通信和交易的人可以确保没有人能够知道正在共享哪些数据、谁正在发送或接收数据,甚至有多少数据被发送。

最重要的是,具备去中心化的、完全透明且无需信任的特点,意味着永远不必依赖第三方,也永远不会被锁定在服务中或不得不放弃对数据的控制。

DAOrayaki DAO研究奖金池:

资助地址: 0xCd7da526f5C943126fa9E6f63b7774fA89E88d71

投票进展:DAO Committee 3/7 通过

赏金总量:120 USDC

研究种类:DAO, Metadata, Data Stacks, Data Catalog 3.0

原文作者:  Prukalpa

贡献者: Dewei, DAOctor @DAOrayaki

原文: Data Catalog 3.0: Modern Metadata for the Modern Data Stack

标签:ATADATDATATALATA币databasexData Transaction TokenFermat Capital Management

狗狗币最新价格热门资讯
TER:Terra:进入主流应用的DeFi巨人_HOR

原文:Messari Research以下为全文翻译:自今年年初以来,Terra原生代币LUNA呈爆炸式增长,从3亿美元的市值飙升至60亿美元.

1900/1/1 0:00:00
ITA:在风投VC的投资组合中寻找财富密码_TAL

众所皆知,今年下半年相对主流的财富密码可能当属链游 Axie Infinity(AXS)了,不管是代币收益回报还是协议基本面,都极其惊艳!就其代币收益回报来看,近一个月来,其涨幅超过 10 倍.

1900/1/1 0:00:00
NFT:Corra.Finance:为NFT赋能金融属性 让普通人也能玩转NFT_YFiGlobal Finance

无论是从市场参与度,还是销售额来看,NFT无疑是今年风头无量的投资“新宠”。迅速走红的NFT正不断汇聚着圈外前所未有的关注度,艺术、游戏、体育、娱乐等行业纷纷为之疯狂.

1900/1/1 0:00:00
ETH:Ethernity Chain:一个具有慈善属性的名人堂_ERN

NFT艺术收藏品交易平台Ethernity Chain,云集了全球名人的支持,在很大程度上推动了NFT艺术收藏品的发展.

1900/1/1 0:00:00
ICP:一文了解ICP通证市场流通量情况_Lilith Swap

DFINITY项目热度不断,市场中关于ICP市场流通量的讨论更是火热。鉴于此,本文将从ICP分配比例详情、ICP分发公告解析,进行ICP市场流通情况介绍,并且对于ICP的领取进行简单介绍,希望本.

1900/1/1 0:00:00
MEME:表里不一:Sanshu Inu的Memestake合约遭袭事件分析_MEMEDOGE币

北京时间2021年07月21日03:40,我们的攻击检测系统检测到某个交易异常。通过对该交易进行扩展分析,我们发现这是一起利用通缩代币(deflation token)KEANU的机制对Sans.

1900/1/1 0:00:00