这篇文档主要介绍了数据湖演进之路,其中用户画像、数据集成、数据仓库的历史和关键技术等方面的内容都是重要的知识点。
数据湖演进之路用户画像需要从数据仓库的角度来看,才能获得完整的视图。数据集成真正从大数据的角度来看,才能明白其中的挑战。一个运行了20多年的数据架构必然有其合理性,也正是因为年代久远,存量过多,才导致举步维艰。在Cloud和5G时代,超密度网络集成和大数据洞察需求给保险行业带来新的挑战,从数据仓库到数据湖,不仅仅架构的变革,更是思维方式的升级。
数据仓库历史沿革1970年,关系数据库的研究原型System R和INGRES开始出现,这两个系统的设计目标都是面向on-line transaction processing(OLTP)的应用。关系数据库的真正可用产品直到1980年才出现,分别是DB2和INGRES。其他的数据库,包括 Sybase, Oracle,和Informix都遵从了相同的数据库基本模型。关系数据库的特点是按照行存储关系表,使用B树或衍生的树结构作为索引和基于代价的优化器,提供ACID的属性保证。到1990年,一个新的趋势开始出现:企业为了商业智能的目的,需要把多个操作数据库中数据收集到一个数据仓库中。尽管投资巨大且功能有限,投资数据仓库的企业还是获得了不错的投资回报率。从此,数据仓库开始支撑各大企业的商业决策过程。
数据仓库的关键技术包括数据建模, ETL技术, OLAP技术和报表技术等。目前主要的数据仓库产品供应商包括Oracle、IBM、Microso等。
数据仓库最为核心的内容分类两部分:•基于关系数据库的多维建模( RDBMS-based dimensional modeling )•基于数据立方体的 OLAP 查询( cube-based OLAP )
数据仓库体系结构包含了从外部数据源或者数据库抽取数据的 ETL工具。ETL 还负责数据的转换,清洗,然后加载到数据仓库的存储中。为了方便复杂分析和可视化呈现,数据仓库中数据往往以多维模型建模。
数据仓库被定义成了数据湖,数据湖是数据仓库的升级版,它通过数据集成、数据建模、数据清洗、数据可视化等手段,将数据从数据仓库中解放出来,并能够更好地支持数据分析和决策。
一、数据仓库概述
1. 数据仓库的定义和历史沿革
2. 数据仓库的关键技术和概念
3. 数据仓库与其他数据库系统的区别
二、数据仓库的体系结构和关键组件
1. 数据仓库的体系结构
2. ETL 工具和数据转换过程
3. 元数据仓库的作用和内容
4. 维度建模和多维数据模型
三、OLAP 技术与数据仓库的结合
1. OLAP 的定义和优势
2. OLAP 的多维数据操作和可视化呈现
3. 数据立方体的概念和应用
4. OLAP 和数据仓库的关系和依赖
四、大数据时代的数据仓库挑战与应对
1. 大数据的时空特点和挑战
2. 数据仓库在大数据时代的病理
3. 高效处理大数据的数据库和分析工具设计
4. 数据仓库多维模型的构建原理和应用
五、总结与展望
1. 数据仓库在商业决策中的重要性和作用
2. 大数据时代对数据仓库的挑战和机遇
3. 数据仓库未来的发展趋势和展望
评论(0)