数字化时代,企业需要知道他们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决,缺乏有效的元数据管理,企业的数据资产可能会变成拖累企业利润的“包袱”。 — 01 —什么是元数据? 元数据(metadata)是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。概念总是生涩,对于没有IT背景的人来说比较抽象,不容易理解,下面举几个例子。 示例1:歌词中的元数据有一首很多80后耳熟能详的歌曲叫《小芳》,歌词中有这么一句:“村里有个姑娘叫小芳,长得好看又善良。” 我们对这句歌词做一下分析。姓名:小芳;性别:姑娘(女);长相:好看;性格:善良;住址:村里。歌词里面,“小芳”是被描述的对象,而“姓名”“性别”“长相”“性格”“住址”就是描述“小芳”的元数据。示例2:户口本中的元数据户口本中除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等。这些信息就是描述一个人的元数据,通过户口本中的元数据,我们不仅能够了解一个人的基本信息,还能够了解其家庭关系。示例3:图书馆中的元数据图书馆都会用一个叫作“图书目录”的文件夹来管理藏书,图书目录包含图书名称、编号、作者、主题、简介、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。示例4:元数据好比字典字典包含一个字的注音、含义、组词、举例等基本信息及其字体结构、相关引用、出处等。另外,我们可以通过拼音或偏旁部首查到这个字。所有这些信息都是对这个字的详细描述,它们就是描述这个字的元数据。示例5:元数据就像地图地图是按一定比例运用线条、符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图。通过地图,你能够找到自己所处的地理位置,了解你从哪里来,到哪里去,途中要路过哪些地方。元数据也具备这样的特点,它能够帮助企业了解自己有哪些数据,这些数据存放在哪里,数据的来源、去向及加工路径等。元数据与数据的不同之处在于:元数据描述的不是特定的实例或记录,IT部门和业务部门都需要高质量的元数据来理解现有数据;元数据是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。可以用5W1H模型来理解元数据,如表16-1所示:
知识类型 | 定义 | 技术示例 | 业务示例 |
Who | 谁 | 谁负责数据接口的开发? | 谁是财务域、业务域的负责人? |
What | 干什么或是什么 | CRM和DW之间的数据血缘关系是什么? | 企业市场管理业务域的指标体系包含哪些指标? |
When | 什么时候 | 提取、转换和加载(ETL)作业什么时候运行? | 我正在分析的数据上次刷新是什么时候? |
Where | 在哪里 | 所有类型的销售订单都分布存储在哪个系统的哪些数据表当中? | 在哪里可以找到按营销活动显示我们的社交媒体分析的报告? |
How | 怎么样,怎么做 | 如何设置数据质量的管理规则? | 如何获得产品的竞争优势? |
Why | 为什么 | 出现数据质量问题的根本原因是什么? | 为什么老客户会不断流失? |
业务定义、业务术语解释等;
业务指标名称、计算口径、衍生指标等;
业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;
数据的安全或敏感级别等。
物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
数据存储类型、位置、数据存储文件格式或数据压缩类型等;
字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;
建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具适配器。
ETL工具:PowerCenter、DataStage、Kettle等ETL工具适配器。
BI工具:Cognos、Power BI等前端工具中的二维报表元数据采集适配器。
Excel适配器:采集Excel格式文件的元数据。
设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。
测试态的元数据模型,通常是关系型数据,如Oracle、DB2、MySQL、Teradata等;或非关系型数据库,如MongoDB、HBase、Hive、Hadoop等。
生产态的元数据模型,本质上与测试态元数据差异不大。
图:元数据血缘分析示例(3)元数据影响分析元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别。(4)元数据冷热度分析元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。(5)元数据关联度分析元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。
接口编码方式:接口编码方式必须在接口的头信息中注明,常用的接口编码方式有UTF-8、GBK、GB2312、ISO-8859-1。
接口响应格式:元数据接口常用的报文格式,XML或JSON
接口协议:REST/SOAP协议
连接方式:POST
接口安全:Token身份认证
接口地址:http://url/service?[query]
全部0条评论
快来发表一下你的评论吧 !