原文《企业数字化转型大数据湖体系规划及一体化运营管理平台建设方案》PPT格式。主要内容为:大数据湖的发展背景与建设理念、大数据湖体系规划与建设思路、探索新兴业务入湖建设模式、大数据湖统一访问共享规划、大数据湖一体化运营管理建设。本文仅对主要内容进行介绍。 说明大数据湖 1、数据服务 •以更加深度的数据开放, 跨行业大数据关联 。 •以更多样的应用能力, 构建针对性行业解决方案 。 2、数据应用 •智能应用 ,基于AI与机器学习分析,个性化服务提供。 •应用快速构建 ,基于数据湖进行细粒度的收集、探索和分析 3、数据分析 •从深度学习到机器学习, 从机器学习到人工智能 。 •基于数据湖的大量的原始数据, 深度训练,快速分析 4、数据治理 •入湖即治理 ,针对性对数据源系统输入数据制定入湖标准 •数据驱动治理规范 ,以数据为核心实时制定治理规范。 5、数据平台 •数据平台存储方式向数据湖模式转变, 多数据汇聚 。 •支持结构化,半结构化和非结构化数据 多数据入湖 数据湖是大数据概念的延伸 1."数据湖"是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案 2."数据湖"不仅是数据存储和处理的单元,也是释放数据价值的过程 3.企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的"数据湖",帮助企业加速提取高价值数据的速度 4.数据湖是 大数据发展方向上的高级阶段 ,是 一种建设理念, 而不是一种特定的实施方法 5."数据湖"是个架构概念,是数据仓库的一种演进,是一种 大数据概念下的延伸 数据湖体系的架构规划持久层(Persitent Layer): 存放所有从内部和外部获取的结构化、半结构化和非结构化数据 分析沙箱(Analytics Sandbox): 数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验 探索数据源(Curated): 数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师 可操作层(Operational layer): 业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之后便得到更广泛的使用