2020年给我们的日常词汇带来了很多新词汇——想想冠状病、封锁、大流行、退款。但在数据世界中,另一个短语一直在流传……现代数据堆栈
数据世界最近汇集了处理海量数据的最佳工具集,即“现代数据堆栈”。这包括在同类最佳工具上设置数据基础架构,例如用于数据仓库的Snowflake、用于数据湖的Databricks和用于数据摄取的Fivetran。
现代数据堆栈的优点:现代数据堆栈非常快,很容易在几秒钟内扩展,而且需要很少的开销。缺点:在数据治理、信任和上下文方面,它仍然是个新手
数据堆栈-元数据的来源
那么,现代元数据在今天的现代数据堆栈中应该是什么样子呢?基本数据目录如何发展成为数据民主化和治理的强大工具?为什么要进行元数据管理需要一个范式的转变来满足今天的需求?
为什么现代数据堆栈比以往任何时候都更需要“现代”元数据管理?
几年前,数据主要由组织中的IT团队使用。然而,今天的数据团队比以往任何时候都更加多样化——数据工程师、分析师、分析工程师、数据科学家、产品经理、业务分析师、公民数据科学家等等。这些人中的每一个都有自己喜欢的、同样多样化的数据工具,从SQL、Looker和Jupyter到Python、Tableau、dbt和R。
这种多样性既是一种力量,也是一种斗争。这些人都有不同的解决问题的方式、工具、技能组合、技术堆栈、工作方式……本质上,他们每个人都有独特的“数据DNA”。
结果往往是协作中的混乱。令人沮丧的问题,例如“此列名称实际上是什么意思?”和“为什么仪表板上的销售数字又错了?”在需要使用数据时让快速团队陷入困境。
国务院:推进科普与区块链技术深度融合:为贯彻落实党中央、国务院关于科普和科学素质建设的重要部署,依据《中华人民共和国科学技术进步法》、《中华人民共和国科学技术普及法》制定《全民科学素质行动规划纲要(2021-2035年)》,其中要求实施智慧科普建设工程。推进科普与区块链等技术深度融合,强化需求感知、用户分层、情景应用理念,推动传播方式、组织动员、运营服务等创新升级,加强“科普中国”建设,强化科普信息落地应用,与智慧教育、智慧城市、智慧社区等深度融合。(新华社)[2021/7/10 0:40:52]
这些问题并不新鲜。毕竟,Gartner发布元数据管理解决方案魔力象限已经超过5年了。
但是仍然没有很好的解决办法。大多数数据目录只不过是Hadoop时代的创可贴解决方案,而不是跟上当今现代数据堆栈背后的创新和进步。
元数据管理的过去和未来
就像数据一样,我们思考和使用元数据的方式在过去三年中一直在稳步发展。它可以大致分为三个演进阶段:数据目录1.0、数据目录2.0和数据目录3.0。
数据目录1.0:IT团队的元数据管理
时间:1990年代和2000年代初
产品:Informatica、Talend
元数据在技术上自古以来就存在——例如附在亚历山大图书馆每卷卷轴上的描述性标签。然而,元数据的现代概念可以追溯到1900年代后期。在1990年代,我们庆幸将软盘放在一边,并拥抱了这种称为互联网的新奇工具。很快,大数据和数据科学风靡一时,组织正试图弄清楚如何组织他们的新数据集合。
欧易OKEx将于3月18日推出DeFi系列科普视频:据欧易OKEx官方消息显示,欧易OKEx将正式推出DeFi系列科普视频《欧易DeFi20讲》,本系列节目由欧易OKEx亚太区CEO马克金主讲。该视频首期将于3月18日11:00(HKT)推出,用户可以在欧易OKEx官方学院、金色财经观看。
《欧易DeFi20讲》主要包含DeFi入门指南、全景解读DeFi生态及如何参与DeFi三个篇章,可以轻松使用户了解DeFi原理,洞察DeFi价值,掌握DeFi热点,更多详情请关注欧易OKEx官方学院。[2021/3/18 18:55:59]
随着数据类型和格式以及数据本身的爆炸式增长,IT团队负责创建“数据清单”。像Informatica这样的公司在元数据管理方面处于领先地位,但是对于IT人员来说,建立和保持新的数据目录一直是一项艰巨的任务。
数据仓库团队经常花费大量时间谈论、担心元数据,并为元数据感到内疚。由于大多数开发人员天生厌恶文档的开发和有序归档,因此尽管每个人都承认元数据很重要,但元数据通常会从项目计划中删除。”
–拉尔夫·金博尔,2002
数据目录2.0:由数据管理员提供动力的数据库存
时间:2008-2020
产品:collibra,Alation
随着数据变得越来越主流并扩展到IT团队之外,数据管理的想法开始生根发芽。这指的是一组专门负责管理组织数据的人员。他们将处理元数据、维护治理实践、手动记录数据等。
IMF今日发布的加密货币科普视频实为两年前旧闻,且存在诸多疏漏:国际货币基金组织IMF今日在推特上发布了一条关于加密货币的科普视频,这段时长两分钟的视频最初发布于2018年6月。该视频称加密货币是“货币进化的下一步”,但没有特别提到DLT、区块链,甚至是代币名称等术语。BTC、XRP和ETH只出现在说明加密交易的图形中。尽管这段视频到目前为止已经获得了超过13.7万的点击量和2900个赞,但来自加密社区的许多反应都是批评的,他们指出了信息中的漏洞和似乎具有误导性的措辞。
Reddit用户nanooverbtc称:“他们犯了很多错误,比如把私钥称为密码。”该视频也没有讨论挖矿或加密货币供应。Kraken策略师Pierre Rochard等知名人士表示:“可证明的稀缺性是比特币有趣的原因,你忘了提这一点。”(Cointelegraph)[2020/8/24]
与此同时,元数据的想法发生了变化。随着公司开始建立大规模的Hadoop实施,他们意识到简单的IT数据清单已经不够了。相反,新的数据目录需要将数据清单与新的业务环境相融合。
就像这个时代超级复杂的Hadoop系统一样,DataCatalog2.0很难设置和维护。它们涉及严格的数据治理委员会、正式的数据管理员、复杂的技术设置和冗长的实施周期。总而言之,这个过程可能需要长达18个月的时间。
这个时代的工具基本上是建立在整体架构上并部署在本地的。每个数据系统都有自己的安装程序,公司无法通过推送简单的云更新来推出软件更改。
技术债务不断增长,元数据管理开始稳步落后于其他现代数据栈
元数据中范式的转变
TRON数字钱包科普资料《波场钱包的现在过去与未来》已上线:据最新消息显示,由TokenPocket联合波场TRON官方,以及 TokenPocket 社区志愿者共同撰写的《波场钱包的现在过去与未来》已正式上线。《波场钱包的现在过去与未来》又称为波场钱包小白书,详细介绍了当前TRON钱包与TRON生态密切结合的实例,是目前市面上最为详细的TRON数字钱包科普资料。波场钱包作为波场公链生态中极为重要的入口,是波场生态的重要构成要素。波场钱包从一开始只提供权限管理、转账收款、节点投票等基础功能,到如今不仅可以为用户提供法币交易、闪兑和去中心化交易所等方便快捷的交易服务,还能让用户直接在钱包上体验波场上DApp,挖矿、DeFi、Staking等资产增值服务。详情见原文链接。[2020/8/20]
尽管其他数据基础架构堆栈在过去几年中得到了发展,而且Fivetran和Snowflake等工具让用户可以在不到30分钟的时间内建立一个数据仓库,但数据目录却跟不上。即使尝试使用DataCatalog2.0时代的元数据工具也需要花费大量的工程时间进行设置,更不用说至少与销售代表进行5次通话以获得演示
由于缺乏可行的替代方案,现代数据堆栈的最早采用者和大多数大型科技公司都诉诸于构建自己的内部解决方案。一些著名的例子包括Airbnb的Dataportal、Facebook的Nemo、LinkedIn的DataHub、Lyft的Amundsen、Netflix的Metacat和Uber的Databook。
然而,并不是所有的公司都有这样的工程资源,而且构建几十个类似的元数据工具并不是特别有效。
金色财经独家分析 监管机构、媒体、业界提示风险 区块链科普道阻且长:新华社今日发文表示,近来“区块链”类案件频发,不法分子以“投资虚拟货币周期短、收益高、风险低”为借口,取用户信任并诱使其转账进行投资。无独有偶,同日消息,腾讯手机管家安全专家也提醒此类风险,并从技术上提出防建议。在美国,监管机构警示加密货币欺诈现象普遍承诺高收益而不披露潜在风险。金色财经独家分析,不法分子假借新技术之名进行,一方面是抓住民众趋利的心理,一方面反映出区块链科普的欠缺。区块链是新兴科技和底层技术并有改变社会生产关系的潜力,应该进行系统性的科普教育,当前,部分大学已经开始设置了区块链课程,但对于普通民众仍然有科普的需求,人们应该了解到系统和正确的知识,不仅要了解区块链的好,也要明确局限和弊端,以在高收益的诱惑下,保持清醒客观。[2018/4/11]
数据目录3.0:面向不同数据用户的协作工作区
今天,我们正处于元数据管理的转折点——从缓慢的内部部署数据目录2.0转变为新时代数据目录3.0的开始。就像从1.0到2.0的跳跃一样,这将是我们对元数据的看法的根本转变
DataCatalog3.0的外观和感觉与DataCatalog2.0代的前辈不同。相反,数据目录3.0将建立在嵌入式协作的前提下,这是当今现代工作场所的关键,借鉴了Github、Figma、Slack、Notion、Superhuman和其他当今司空见惯的现代工具的原则
数据目录3.0的4个特征
1.数据资产》表格
DataCatalog2.0生成的前提是“表格”是唯一需要管理的资产。但现在完全不一样了。
如今,BI仪表板、代码片段、SQL查询、模型、功能和Jupyter笔记本都是数据资产
3.0代元数据管理将需要足够灵活,以便智能地存储和将所有这些不同类型的数据资产链接在一个地方。
2.端到端数据可见性,而不是零碎碎的解决方案
数据目录2.0时代的工具在改进数据发现方面取得了重大进展。然而,他们并没有为组织提供数据的“单一事实来源”。有关数据资产的信息通常分布在不同的地方——数据沿袭工具、数据质量工具、数据准备工具等等。数据目录3.0将帮助团队最终实现圣杯,即组织中每个数据资产的单一事实来源。
3.元数据为“大数据”的世界而构建
我们正在快速接近元数据本身就是大数据的世界。能够处理和理解元数据将有助于团队更好地理解和信任他们的数据。
这就是为什么新的数据目录3.0应该不仅仅是一个元数据存储的原因。
它应该从根本上利用元数据作为一种数据形式,可以以与所有其他类型的数据相同的方式进行搜索、分析和维护
今天,云的可扩展性使这成为可能,这是前所未有的。例如,查询日志只是当今可用的一种元数据。通过解析Snowflake中查询日志中的SQL代码,可以自动创建列级沿袭,为每个数据资产分配流行度分数,甚至可以推断每个资产的潜在所有者和专家。
4.嵌入式协作已经成熟
Airbnb在分享他们在推动采用内部数据门户方面的经验时说了一些深刻的话:“设计数据工具的界面和用户体验不应该是事后的想法。”
由于数据团队的基本多样性,需要设计数据工具以与团队的日常工作流程无缝集成。
这就是嵌入式协作理念真正活跃的地方。嵌入式协作是指在您所在的位置进行工作,摩擦最少。
如果可以在获得链接时请求访问数据资产,就像使用GoogleDocs一样,并且所有者可以在Slack上获得请求并立即批准或拒绝它,该怎么办?或者,当您检查数据资产并需要报告问题时,您可以立即触发与工程团队的JIRA工作流程完美集成的支持请求,该怎么办?
嵌入式协作可以统一数十个这样的微型工作流程,这些工作流程会浪费时间、造成挫折并导致数据团队的工具疲劳,反而让这些任务变得有趣!
数据保护与连接元数据
为什么保护元数据如此重要?
连接元数据是您在线进行操作时生成的数据,例如访问网站、使用应用程序或发送消息。此元数据记录信息,例如谁发送了数据、他们将数据发送到何处、何时以及发送了多少数据。简而言之,它是关于数据的数据。
就其本身而言,这似乎并不多,但每次在线互动都会生成数十个元数据,几乎都是公开的或易于查找的。如果有人收集了足够多的元数据,他们很快就会清楚地了解你的在线活动,并了解你的线下生活。即使连接是端到端加密的,这也是可能的。
为什么存在连接元数据?
因此,如果存在这样的问题,为什么不停止创建所有这些元数据,或者至少将其设为私有?不幸的是,事情并没有那么简单:公共元数据对于互联网目前的运作方式至关重要,这是一个没有人能够想象互联网会发展到多大的时代的遗物,或者恶意行为者可能会如何滥用它。
基本上,可以把它想象成邮寄一封信。内容可以密封在信封中,但要到达目的地,信封需要清楚地注明地址。任何人都可以读取此地址信息。如果他们愿意,他们可以记下信封的去向、信封有多大以及何时寄出。随着时间的推移,他们可以建立这些信息的数据库并开始寻找模式。所有这些都无需打开信封。
如果我可以看到您在哪些商店购物、您正在使用哪些应用程序以及您向谁发送消息,我实际上不需要知道您的消息内容或您购买的完整详细信息来推断很多关于你的信息。
但是谁真正看到了这个元数据?每次上网时,数十家不同的公司和服务都会看到并可能记录此元数据。有互联网服务提供商(ISP)、电信公司、使互联网正常工作的DNS服务器和内容交付网络(CDN),例如Cloudflare,它们实际上为大部分Web内容提供服务。大多数情况下,这些服务都在未经您同意的情况下收集和存储有关您的信息。
现代网络服务相互关联的方式意味着这个列表只会增加。例如,如果访问一个嵌入了YouTube视频的网站,那么即使不点击视频,Google也会收到访问通知。这些信息可以通过IP地址轻松链接到用户的姓名,谷歌通过用户的谷歌帐户知道用户的姓名,并添加到谷歌维护的关于用户的详细档案中。不仅仅是谷歌。同样的事情也发生在Facebook,或者像Medium这样的博客托管网站,或者即时消息平台。这一切都不需要cookie或任何额外的代码,更改您的隐私设置也不会阻止它。这就是当今互联网的运作方式。
那时我们甚至还没有遇到黑客、政府过度干预等问题,以及如果用户是在线企业,如何安全地处理和保护元数据的巨大问题,现在监管机构已经开始注意到这一点。但这些是未来剧集的主题。
公共连接元数据在Internet的工作方式中根深蒂固,因此没有简单的解决方案。解决它的唯一方法是采用全新的数据传输方法。
目前,区块链项目开始关注这一领域。即使得用户、公司和设备在完全隐私的情况下,进行在线交换信息。通信和交易的人可以确保没有人能够知道正在共享哪些数据、谁正在发送或接收数据,甚至有多少数据被发送。
最重要的是,具备去中心化的、完全透明且无需信任的特点,意味着永远不必依赖第三方,也永远不会被锁定在服务中或不得不放弃对数据的控制。
DAOrayakiDAO研究奖金池:
资助地址:0xCd7da526f5C943126fa9E6f63b7774fA89E88d71
投票进展:DAOCommittee3/7通过
赏金总量:120USDC
研究种类:DAO,?Metadata,DataStacks,DataCatalog3.0
原文作者:Prukalpa
贡献者:?Dewei,DAOctor@DAOrayaki
原文:DataCatalog3.0:ModernMetadatafortheModernDataStack
标签:ROLNFTTOO区块链ROLS价格nfts币合约地址onekeytools插件常用功能区块链运用的技术中不包括哪一项技术
据中国网财经消息,8月30日,欧科云链集团宣布加入美国数字商会,成为CDC主席团成员,并将加AMLTaskForce、TokenAlliance等工作小组.
本文作者:VitalikButerin“我们需要将NFT转移到第2层生态系统以降低费用。然而,要*正确*做到这一点需要良好的跨Rollup可移植性标准,从而生态系统可以避免被锁定在一个特定的L2.
不到一年前,三支闪电网络实现团队齐心协力想为闪电网络的协议栈提出一份共同的规范。现在,这份规范和他们做出的三个实现都已稳定、可用,所以我们该继续上路了:要进一步提升协议的功能、加入新的特性、进一.
来源:财联社 作者:黄君芝 当地时间8月23日,美国在线支付巨头贝宝宣布在英国推出加密货币服务,并称从本周开始,它将允许英国客户购买、持有和出售数字货币.
1.基于Banksy作品的NFT将在Opensea上拍卖,NFT收藏家Pranksy出价100ETH2.漫威将于今晚发售5款美国队长塑像NFT及蜘蛛侠漫画NFTWemade宣布在WEMIX PL.
原标题:《DAO的漏洞:"自治“假想与治理弹性评估模型》“谁控制了基础设施,谁就控制了社会”——Burrrata.