最最最全数据仓库建设指南,速速收藏!!

in 编程
关注公众号【好便宜】( ID:haopianyi222 ),领红包啦~
阿里云,国内最大的云服务商,注册就送数千元优惠券:https://t.cn/AiQe5A0g
腾讯云,良心云,价格优惠: https://t.cn/AieHwwKl
搬瓦工,CN2 GIA 优质线路,搭梯子、海外建站推荐: https://t.cn/AieHwfX9

最最最全数据仓库建设指南,速速收藏

 

开讲之前,我们先来回顾一下数据仓库的定义。

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。这个概念最早由数据仓库之父比尔·恩门(Bill Inmon)于1990年在《建立数据仓库》一书中提出,近年来却被愈发广泛的提及和应用,不信看下图:

最最最全数据仓库建设指南,速速收藏

到底是什么,让一个从上世纪90年代提出的概念,在近几年确越来越热?带着这个问题,我们来了解一下产业真实的变化。

根据统计局的数字显示,近年来数字经济总体规模占GDP的比重越来越高,截止2018年将近35%;数字经济增速与GDP增速的差距逐渐拉大,远高于同期GDP增速。

最最最全数据仓库建设指南,速速收藏

最最最全数据仓库建设指南,速速收藏

在 2014年,“新常态”一词被首次提出,指出从当前中国经济发展的阶段性特征出发,适应新常态,保持战略上的平常心态。意味着经济新常态下,要适应GDP从高速增长转变为中高速增长的态势,吃资源饭、环境饭、子孙饭的旧发展方式正在让位于以转型升级、生产率提高、创新驱动为主要内容的科学、可持续、包容性发展,从要素驱动、投资驱动转向服务业发展及创新驱动。

在新常态下,数据经济背后的信息化正催生数据发挥着巨大价值,未来也会一样。

最最最全数据仓库建设指南,速速收藏

最最最全数据仓库建设指南,速速收藏

在这样的背景下,“数据”、“数据分析”、“人工智能”、“IOT”这些行业关键词在百度指数搜索趋势一路攀升。而随着转型的深入,人工智能和物联网技术被越来越广泛的接受和应用,这背后所产生的数据呈大规模增长态势,数据被依赖的程度越来越高。

所以,回到文章开头的问题“数据仓库,一个从上世纪90年代提出的概念,为啥近几年确越来越热了呢?”答案就是随着时代的发展,数据的价值正在被无限的索求、挖掘与放大。其价值的背后需要数据采集、存储、互通、治理、运用的一整套机制。

那么问题又来了,该怎么做才能正确构建企业数据仓库?

别慌!干货来了!接下来就是数据仓库从搭建到应用的一整套方法论详解,别眨眼别退出,看完全部如果觉得有用记得点赞收藏和分享!

先来看张体系图:

最最最全数据仓库建设指南,速速收藏

我们这里所说的数据仓库,是基于大数据体系的,里面包含标签类目,区别于传统的数据仓库。下面我们来将这张图分解,逐个做简要分析。

一、前期调研

调研是数仓搭建的基础,根据建设目标,我们将调研分为三类:业务调研、业务系统调研、业务数据调研。

业务调研内容:

业务系统调研内容:

数据调研内容:

二、数据建模

数据建模是数仓搭建的灵魂,是数据存储、组织关系设计的蓝图。

分层架构是对数据进行逻辑上的梳理,按照不同来源、不同使用目的、不同颗粒度等进行区分,使数据使用者在使用数据的时候更方便和容易理解,使数据管理者在管理数据的时候更高效和具有条理。我们推荐的分层架构是:

最最最全数据仓库建设指南,速速收藏

维度建模是Kimball在《数据仓库工具箱》中所倡导的数据建模方法,也是目前在大数据场景下我们推荐使用的建模方法。因为维度建模以分析决策的需求出发来构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

维度建模的核心步骤如下:

设计原则:

三、标签类目

标签,是数据资产的逻辑载体。数据资产,指的是能够给业务带来经济效益的数据。所以,标签类目的建设在整个数据中心的建设过程中具有核心地位。

标签的设计需要结合数据情况和业务需求,因为标签值就是数据字段值,同时标签是要服务于业务的,需要具备业务意义。假如,标签的设计仅基于业务方以往的经验得出,那么最终开发出来的标签值可能会失去标签的使用意义,比如值档次分布不均、有值的覆盖率低等。

基于标签开发方式,我们将标签分为以下三类:

基于标签应用场景,我们将标签分为以下二类:

随着大量的标签产生,为了更好的管理和使用,我们需要将标签进行分类。所有的事物都可以归类于三类对象:人、物、关系,所以我们可以对标签按照人、物、关系来划分一级类目,再按照业务特性对每个一级类目进行二级、三级的拆分,通常我们建议将标签类目划分到三级。

最最最全数据仓库建设指南,速速收藏

 

四、开发实施

经过前期调研、数据建模、标签设计之后,接着会进入到开发阶段,开发实施的关键环节由以下几部分组成:

工欲善其事,必先利其器。一个好的开发工具对开发进度、成本、质量等具有举足轻重的影响。目前市面上很多开源,如Kettle、Azkaban、Hue等多多少少具有部分功能,但是要形成一个从端到端的数据自动化生产,需要将多个开源工具进行组合并通过复杂甚至人工方式进行衔接,整个过程复杂、低效和可靠性低。数栖云一站式离线开发平台,就是为了解决上述问题而生的。

开发落地,规范先行,遵守一套标准规范是整个开发质量和效率的保障。该套数据开发规范应该具备以下几个核心内容:

通过工具+规范,促使我们的开发实施快速做好。

最最最全数据仓库建设指南,速速收藏

五、治理维护

随着调度作业和数据量的增长,管理和维护会成为一项重要任务。

数据管理的范围很大,贯穿数据采集、应用和价值实现等整个生命周期全过程。所谓的数据管理就是通过对数据的生命周期的管理,提高数据资产质量,促进数据在“内增值,外增效”两方面的价值表现。数据管理的核心内容为:

数据监控是数据质量的保障,会根据数据质量规则制定监控策略,当触发规则时能够自动通知到相关人。基础的数据质量监控维度有以下几部分:

当出现数据异常后,需要快速的进行恢复。基于异常和修复场景,有以下几种数据运维方式:

数据安全主要是保障数据不被窃取、破坏和滥用,包括核心数据和隐私数据,以及确保数据系统的安全可靠运行。需要构建系统层面、数据层面和服务层面的数据安全框架,从技术保障、管理保障、过程保障和运行保障多维度保障大数据应用和数据安全。

六、数据应用

给业务赋能,是数据价值的最终体现,也就是我们讲的数据业务化。数据业务化的方向有两种:业务优化和业务创新。在数据业务化的过程中,为了更方便的服务于上层应用,我们先将数据形成服务接口,然后让业务应用直接调用服务接口,即形成 数据服务化+服务业务化。

如何通过已有的 产品 + 方法论 + 最佳实践 去完成一个业务优化和业务创新呢?这里有一张完整的图,帮助你更快的理解全过程。

最最最全数据仓库建设指南,速速收藏

以上,就是我们对于数据仓库建设实践积累总结出的经验分享,欢迎与我们共同讨论,共同碰撞!不服来稿!同时如果你觉得这篇文章对你有帮助,别忘了把这篇文章分享出去给更多人看到~


一波小广告:年底福利来啦!如果你的企业正在焦虑不知道该使用怎样的工具,如何才能构建数据中台,加入我们的赋能计划!工具加方法论我们打包给你!扫码了解详情报名参与哦!

最最最全数据仓库建设指南,速速收藏

关注公众号【好便宜】( ID:haopianyi222 ),领红包啦~
阿里云,国内最大的云服务商,注册就送数千元优惠券:https://t.cn/AiQe5A0g
腾讯云,良心云,价格优惠: https://t.cn/AieHwwKl
搬瓦工,CN2 GIA 优质线路,搭梯子、海外建站推荐: https://t.cn/AieHwfX9
扫一扫关注公众号添加购物返利助手,领红包
Comments are closed.

推荐使用阿里云服务器

超多优惠券

服务器最低一折,一年不到100!

朕已阅去看看