企业的数据之痛
企业的数据之痛源⾃于企业的数据处理能⼒和数据增⻓速度的不匹配。根据知名分析机构的估算,企业内部有接近四分之三的数据处于闲置的状态,仅仅只有四分之⼀的数据⽤于辅助企业决策。所以当谈到数据之痛的时候,我们发现数据之痛不是企业缺乏数据,⽽是缺乏“好”数据 - 和商业决策和业务⾃动化强相关的清洁数据。
随着企业数字化进程的加速和云计算的普及,企业数据呈现了三⼤新趋势。
01
数据分布呈现多元的趋势。随着⽣态系统的发展,数据孤岛问题会⽇益加剧。
02
数据量将持续增⻓。分析机构预测显示,在未来 3年内企业的数据将增⻓ 6倍。
03
数据保质期的缩短。数据如果不被快速使⽤,很快就会失去意义。
从上述趋势可以看出,企业如果仍然通过⼈⼯的⽅式进⾏数据迁移和集中,耗时多代价⾼,⽆法发挥数据的效⽤和价值。⽐如,由于数据的陈旧,⽣产侧的计划和库存与销售脱钩,造成了滞销,给企业带来巨⼤损失。再⽐如,产品设计和⽤户习惯不符,产品逐渐被竞争对⼿取代,市场份额进⼀步萎缩。甚⾄某些情况下,企业还要承担⼀定程度的法律⻛险,例如,通过局部数据训练出来的模型,可能对某⼀类型的⼈总是产⽣负⾯的判断,这样公平性问题可能招致诉讼。总的来说,企业如果不提升数据处理的能⼒解决数据浪费的问题,企业的未来发展是令⼈忧虑的。
企业要解决数据处理的速度,往往在两个⽅案间摇摆。我们称为“数据连接”和“数据集中”的困境。
⼀个⽅案是将数据孤岛进⾏全连接,每个数据集都和其他数据集相连。⼤家可以想象,在这种模式下,每增加⼀个新的数据源的时候,复杂度都会成倍的增⻓。在应⽤创新和混合多云的趋势下,全连接的代价⾮常⾼昂。同时,数据安全性也存在问题。⽬前的数据访问控制是由各个数据源单独进⾏的,当全连接之后数据访问的规则可能会被破坏,数据泄露将成为企业的隐患。
另⼀个⽅案就是进⾏数据⼤集中。虽然这解决了点对点⽅法的规模增⻓的问题,但它带来了额外的成本和复杂度。⽐如,随着时间的推移,复制、存储和同步数据的时间成本和技术成本成⽐例增加,很快就变得混乱不堪⽆法管理。同时,数据集中也不能解决数据保护问题,区域性的数据规则是不允许⾃⼰的数据在限定区域之外进⾏汇总的。
最后,“数据上云”也加剧了这个困境,⽆论是连接还是整合,都需要⼤量的数据提取,⽽公有云供应商对于数据提取都是进⾏收费的。从成本考虑,数据上云之后是否能够真正加速企业的数据到业务价值的转化,是值得商榷的。
什么是 Data Fabric?
那么,我们如何才能解决这⼀困境呢?有没有⼀种新的技术,⼀种灵活的解决⽅案可以实现下列⽬标呢?
01
消除数据孤岛,并且轻松扩展,以处理不断增⻓的数据量。
02
能够跨越企业内部,混合多云环境访问数据,集中协调企业内部的数据流转。
03
可以处理各种数据类型,使得 IT 和业务保持⼀致。
04
提供数据⺠主化,赋能业务⼈员。
能够实现上述⽬标的技术,我们称之为 Data Fabric。
Data Fabric 不是⼀个单⼀的产品,甚⾄不是⼀个单⼀的平台。准确地说,Data Fabric 是⼀个新兴的数据管理理念和现代化的分布式的数据架构,包括共享数据资产、优化数据管理、整合数据流程等等。实施 Data Fabric 也不⼀定需要替换现有的技术。Data Fabric 可以将您现在的技术纳⼊数据⽣态系统中。
企业如何实现 Data Fabric 呢?IBM 提出了 Data Fabric 的落地实践。
01
通过虚拟连接数据端点和简化对任何数据的访问模式,帮助减少数据拷⻉的数量。
02
提供全球⾃动策略执⾏,以提⾼数据保护和质量。
03
利⽤整合治理和主动元数据的增强,实现动态、智能和⾃动化的数据协调。
04
使⽤知识图谱,提供⾃动化的数据发现和语义识别。
在 IBM 实现 Data Fabric 的平台中,包含以下重要的组件。
01
智能化的数据⽬录 (Auto Cataglog) 发现、编⽬、集中不同来源的现有数据,创建相关数据的知识图谱。
02
从新的 SaaS 应⽤中快速加⼊新数据,这些数据以开放、敏捷的格式存储在不同的云数据仓库中,可以通过数据⽬录进⾏理解和编⽬。
03
⾃动化的数据隐私 (Auto Privacy) 为任意位置的数据资产创建并执⾏隐私保护和使⽤控制。
04
虚拟数据访问 (Virtual Data Access) 实现了对数据⽬录中发现的分布式数据的实时虚拟数据访问,并通过⾃动数据隐私进⾏隐私控制。
05
⽤户通过虚拟数据访问,使⽤相应的 BI ⼯具访问实时可信的数据。
06
AutoAI 可以消费虚拟数据,以加速数据科学的进程。
Data Fabric 不是点对点的连接或单⼀枢纽式的数据收集,⽽是在不同/混合数据源之间“跨越”⼀个虚拟或逻辑⽹络。第⼀关键词是分布式。数据⽬录是 Data Fabric 的⼤脑,控制分布式的数据源进⾏参与和协调。因为数据可以由不同的主责部⻔或业务部⻔管理,数据⽬录可以是分布式的。另外⼀个关键词是⾃动化,Data Fabric 不仅应该对数据的交付⾼度⾃动化,⽽且对消费者可⻅的数据提供⾃动化。最后,除了数据⽅⾯提升⾃动化,⽬录本身也必须⾼度⾃动化。任何任务,如数据发现、编⽬、语义充实和资产映射,都应该在最⼩的⼈机互动下完成。
Data Fabric 是⽌痛⽚还是维⽣素?
Data Fabric 是为客户打造“⽌痛药”还是“维⽣素”?让我们从客户的⻆度来审视这项新的技术。
⾸先,对于您的技术团队来说,与更传统的数据管理架构相⽐,Data Fabric 提供了显著的流程简化和成本降低。
Data Fabric 本身是基于⼀个虚拟化的环境,这意味着尽管 Data Fabric 的规模可以很⼤,但在同⼀个环境中管理,并且内置的⾃动化使得数据交付过程明显简化。⽐如,由于数据版本较少,维护数据质量标准的⼯作量减少了。⽐如,合并数据管理⼯具以及减少不需要的数据拷⻉,降低了数据设施和存储成本。再⽐如全局的数据策略,⼤⼤节省了数据权限管理所需要的时间。
对于商业⽤户来说,Data Fabric 可以更快地获得准确的数据,减少与数据打交道的时间,并且能够通过标准化的接⼝将数据快速整合到商业⽤户的 BI 分析中。商业⽤户能够把精⼒聚焦到数据分析,⽽不是⽆助地不断寻找和准备数据。同时,可以享受到全⾃助式数据购物体验,不需要为了等待数据浪费时间。同时,全⾯充分的分析技术,也提⾼了分析结果的合规性和安全性。
综上所述,Data Fabric 是客户的⼀剂良药,帮助客户摆脱⻓久以来的数据痛点。
实施路线图
Data Fabric 是混合云数据环境中实现⾼度⾃动化的数据发现、治理、保护和消费。建⽴ Data Fabric 并不是购买和部署单⼀的解决⽅案,它也不是⼀蹴⽽就的,⽽是⼀个过程。在这个过程⼤致分为如下⼏个阶段,每个阶段中所需组件按序就位。
第⼀阶段
盘点数据。明确企业的重要数据源,按照数据的类型,存储位置,数据规模,更新频率,时效性等等要素,决定数据的接⼊⽅式。
第三阶段
治理数据。定期检视数据质量,管理数据隐私,控制数据访问,建⽴数据治理流程和主责部⻔,建⽴数据接⼊,治理和消费的 KPI 以及公告板。
第⼆阶段
编⽬数据。编⽬数据是进⾏数据⾃服务的关键步骤,找到和业务需求强关联的数据才能实际上解决业务问题。
第四阶段
消费数据。通过可视化⼯具,数据科学开发平台进⾏数据消费,衡量数据在业务流程中的价值,对之前阶段的数据进⾏反馈。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !