数据中台概述
产生背景数据中台是商业模式从IT时代进入DT时代的必然产物,是从流程驱动转向数据驱动的必然结果。云计算的三种服务模式分别是SaaS:Software-as-a-Service(App即服务),PaaS:Platform-as-a-Service(平台即服务), IaaS: Infrastructure-as-a-Service(基础设施即服务)。现在比较流行的数据中台,可以理解为PaaS,即数据平台提供数据服务能力支撑。在过去的10多年里,像谷歌,MicroSoft等知名企业研发了很多平台框架,但是都没有能以公共服务的方式发展成一个很强的中台支撑业务应用,主要原因是传统IT业务系统是以流程驱动,以业务为核心,提供类似SOA的服务设计框架,实现的是服务复用,由于这些SOA服务框架,都是个性化业务需求,只能实现以组件模块的形式做编写复制,无法形成正在意义的PaaS平台。
今天,随着大数据,人工智能新技术的发展,带来的一个新的窗口机遇,主要几个核心技术组件都发生根本性的变化。例如:第一传统IOE体系架构上的优化,像虚拟化超融合等技术,这些是延续性创新,是围绕IOE体系架构下各种协议标准做资源调度的优化;第二IOE大架构出现断崖式迁移,出现了像分布式计算,容器化,机器学习人工智能等技术框架,这是当前最主流的体系框架。这种变化使PaaS层开始出现以数据驱动为核心,充分利用数据价值,提供服务应用,最终形成数据中台。
数据中台作用数据中台帮忙用户快速“找到”数据,明确数据在哪里。通过数据中台相关工具,自动化抽取现在运行数据库的库表定义,字段属性和关联关系,利用图的高维展示技术,实现快速数据位置定位。分析数据使用频度和调用关系,挖掘数据血缘关系,构建网络图谱,实现数据关系高维展示,分析系统搬迁上云,容灾备份和字段变更等影响范围。
数据中台帮忙用户快速“应用”数据,明确数据如何用。通过数据中台相关工具,可以实现一份数据同时支撑TP应用和AP分析,不需要数据搬家,直接对数据进行处理应用,实现即席的数据分析服务应用,异构数据探查服务,高并发,低延时的数据服务应用。
数据中台帮忙用户快速“用好”数据,明确数据有价值。应用数据,发挥数据价值,不但采用传统BI思路实现数据报告服务,还有采用AI建模思路。更好的用好数据。采用智能算法配合规模化数据,充分挖掘数据,实现数据价值。以数据为驱动,形成数据闭环,不断优化模型算法,动态调整模型,提高模型效率和准确度,更好挖掘数据价值。
数据中台体系架构和关键技术数据中台的总体框架体系数据中台体系架构主要分三层,分别是数据融合层,技术支撑层和数据服务层。 数据融合层主要实现数据采集汇聚融合服务,支撑异构数据融合,数据管理,实时批量数据采集等功能。 技术支撑层主要是采用hadoop生态体系架构组件和相关自主研发产品来支撑数据服务应用,是数据统一管理,数据融合应用和数据建模应用。 数据服务层主要是采用微服务架构实现数据BI服务应用和模型智能服务应用,用来支撑智能业务应用。
数据中台的关键技术实现(一)Hilbert复杂网络技术: Hilbert采用B/S结构设计。在算法支撑上,内建多种图计算算法;在使用上,提供了数据加载、处理、建模、计算、查询以及展示等全方位的配套功能;在管理和开发上,具有完备的图形化管理界面和主流语言的开发接口。因此,产品在方便业务和技术人员使用的同时,能够快速帮助用户实现系统的就绪。 Hilbert总体上由三个核心部分组成,包括图谱展现工具、图计算引擎和图数据。 ➢ 图谱展现工具:通过直观、友好的图谱展示技术,展现复杂网络分析计算后的结果数据,便于用户对数据的理解。 ➢ 图计算引擎:内建有多种基于分布式技术的图计算算法,支撑在海量数据下对网络结构数据进行分析计算,快速反馈计算结果。 ➢ 图数据库:基于分布式存储技术实现对网络结构数据的建模和存储,支撑对数据的增/删/改/查等维护操作,并具备事务处理能力。 ➢ 关联性分析:研究分析网络结构数据中节点与节点之间的关系。可用于对朋友圈中关系的分析、最佳行程的规划以及网络的路由分析等分析场景。 ➢ 相似性分析:通过分析节点在网络结构中的特征,发现并找出与其相似的节点。可用于客户分群、相关产品推荐等分析场景。 ➢ 节点重要性分析:根据网络结构特点,分析评估节点或边在网络中的重要性,可用于产品传播营销,网页搜索结果排名等分析场景。 ➢ 社团分析:分析并挖掘庞大网络体系中的关系密切的子网络群。可用于供应链的发现、朋友圈的发现等场景。 ➢ 网络特征评估:用于观察并分析所研究网络的整体特征,可作为其他复杂网络分析的基础。
(二)Hubble-HTAP数据库: Hubble数据库产品以Hadoop作为底层平台,采用分布式技术,提供多种接口服务于企业中具有实时性查询要求的系统应用。为企业提供良好的海量数据实时查询的解决方案,最大程度的保障了企业业务处理的流畅,促进企业的高效运作,它同时和数据湖泊(Data Lake)具有较好的天然融合性。
基于混合数据库架构的Hubble 数据库, 具有以下主要特性: 第一是支撑实时、离线高速入库,满足各种入库需要,并支撑实时入库,支撑离线批量加载,并支撑多节点的ACID 第二支撑超高并发,即支撑大规模用户访问,支撑上万用户在线实时高并发修改和查询 第三是支撑全部标准SQL的语法,提供各种分类、汇总等统计公式,及OLAP分析。
(三)AI PaaS平台: 天云大数据在大数据领域深耕多年,对Hadoop生态系统有深入的了解和大量的项目经验。因应市场需求,结合企业为多个行业的客户研发的机器学习应用和解决方案,包括客户行为分析、客户兴趣图谱、资讯产品推荐、客户流失分析、风险预警、信用评分等,整合项目涉及的核心算法,并加入深度学习等热门模型,组成MaximAI分布式数据科学平台。MaximAI平台旨在突破Hadoop/Spark在部署使用上的瓶颈,节省在海量数据集运行机器学习算法的成本,使更多企业能够享受大数据算法预测模型带来的无限价值。
功能特性 MaximAI平台包含6个主要的功能模块: 工程化管理平台模块、数据存储和加载功能模块、数据预处理和统计分析模块、全量数据建模模块、预测建模和模型评价模块、自主编程以及特定场景开发模块。 工程化管理平台模块 工程化管理平台实现了对各数据建模整个生命周期的可视化和模块化管理,并以友好的用户界面和高级的技术特性,整合用户管理、任务管理、数据管理和模型管理等业务级管理任务。 数据建模工程界面:友好且实用性极强的图形用户界面交互Free Coding模式 数据的工程化上传、存储、加载和管理 模型的工程化创建,调优,存储,加载和管理 展示性的MaximAI模型仓库 企业级管理任务:用户进行自主管理和任务管理 企业级平台系统管理:企业各部门、各员工的权限及角色管理,平台样式、日志及配置管理 企业级工程和任务管理:企业各角色的模型管理、任务管理和工程管理
数据的快速存储和加载功能 MaximAI的数据存储和加载功能模块基于Hadoop/Spark集群,通过分布式文件系统HDFS的数据接口,提供数据整合和数据质量管理等技术,支撑海量数据的快速存储和加载。 海量数据的快速存储 : 基于分布式文件系统HDFS的集群分布式数据存储和列表显示,支撑Hadoop/Spark的访问接口 海量数据的数据质量加速器 : 交互式数据质量管理操作,包括数据拆分和数据整合 海量数据的分布式加载、数据上传和导入
数据预处理和统计分析 MaximAI平台集合了众多常用的数据处理和统计分析技术,通过交互式和可视化的工具,实现数据处理、变量分析、和数据可视化等,支撑对数据快速分析和整体把握。 数据处理 缺失值补充 数据类型转换 特征选择 海量数据的统计分析 数据的变量分析:数据特性统计,密度估计 数据可视化 数据特征的密度分布 数据特征最大值、最小值、均值零值数量以及缺失情况等 全量数据的描述性建模 MaximAI平台集合众多主流的机器学习算法,结合Hadoop/Spark平台的分布式能力,支撑基于海量数据集的全量数据描述性建模,并且提供菜单式参数调优界面,实现了企业级AI模型生产和分析。
主流的机器学习算法的描述性建模 分类:深度学习、随机森林、朴素贝叶斯模型、广义线性模型、梯度提升模型、支撑向量机 聚类:K-means 回归:深度学习、随机森林、广义线性模型、梯度提升模型 降维:主成分分析,广义低阶模型
探索性数据建模策略 建模数据的交叉验证 : N折交叉验证 菜单式参数调优选择 : 各模型各参数的提示性参数设置 描述性建模的模型评价 ROC曲线和AUC值 准确率、精准率、召回率、F1-measure 多种评判准则下的预测数结果矩阵 预测性建模及模型评判 MaximAI平台基于海量数据的描述性探究建模结果,通过对模型和数据的再处理,得到数据的独立化预测性模型,实现了对测试数据的一键式预测。 预测性建模自动化和独立化 预测模型的训练数据处理和模型建立的程式化创建和存储 训练数据所得的预测模型独立分装为分类器 模型结果的显示化表达 测试数据和标签的显示化展示 测试数据的各项结果和测试标准的展示 自主编程及特定场景开发 MaximAI集成了多种编程环境,支撑用户的自主开发,以及特定场景的多环境编程,实现针对特定客户的系列业务开发。 集成Scala/Python编程环境,用户自主编程开发 特定场景开发:特定场景的模型开发和模型仓库存储
数据中台的实现路径
21世纪的成功企业都在处理大量的数据,但他们会经常面对未文档化(没有注释)的数据源。事实上,有的数据库都是很久以前创建的(通常是15 - 30年),从那时起,这些数据库就一直在不断增长。而描述他们的文档和任何有关资料不是没有完成就是多年来丢失了。也就是说企业的数据随着企业的发展,并不是越来越齐整,而是变得越来越混乱。在此种情况下,天云的数据中台正好是该企业用户的一剂良药。 但要实现前述数据中台的各种功能,获得数据中台的智能化服务,也不是那个一蹴而就的。在实践中,天云建议用户采用三阶段的方式,以分阶段分步走的方式逐步达成最终的数据中台的建设成果。如下就是大家天云的数据中台最佳实践三部曲:
第一阶段:自动化的数据治理面对纷繁复杂的数据系统,企业就需要花费更长的时间来理解数据库的复杂性,或者通过人工的数据治理方式来梳理出业务和数据的关系,但这要花费大量的人力、物力和时间成本;而企业要为了实现利用所拥有的数据获取智能化带来的丰富价值,数据治理又是必须的。 所以,要实现智能化的数据服务,大家建设数据中台项目的第一步要做的就是自动化的数据治理。通过自动的方式,而不是手工的方式,发现、标示和度量数据资产,可以有效地理解现有数据的模式,而且可以节省大量的人力、物力和时间成本。 为此,天云推出了一种轻型的自动化数据治理产品,可以在天云的复杂网络大数据平台Hilbert上利用人工智能技术自动地发现企业各业务系统数据的架构和数据主体,并直接发现跨数据库的表和表、人财物各类数据间的关系,当用户需要做跨数据库的复杂查询时,天云产品可以根据关系图快速生成SQL语句,从而使得企业的技术人员快速从不同的数据库中提取出所需要的数据。 也就是说天云采用一种高维化手段,通过升维数据维度,使得企业可以更好地了解数据的全貌。与二维表相比,无论怎么跳,都在二维索引里面。就算有数据字典,还是用表说明其他的表,比较有效的就是从高维视角看数据。把复杂网络引入进来,用复杂网络的工具来表达复杂的数据结构,用复杂网络的方法来自动获取业务调用关系,我知道你这个部门和那个部门的关系,然后有哪些业务系统,那些业务系统下有哪些表,然后他们之间的业务逻辑是怎样的。 天云ADG采用自动化的数字手段,采集属性,表的主键、外键,SQL可以被解析,SQL解析和存储过程可以自动化地定义到你的业务的连接,这些方法就可以快速构建高维的数据结构。 此外天云采用机器学习的方法自动发现数据关系,这对数据的文档化、理解、管理和保护至关重要。更具体地说,ML可以帮助企业自动发现整个组织架构中的数据的位置、数据的移动和流向。这种增强的数据发现可以更有效地揭示复杂的数据关系、改进数据可视化和加速数据准备过程成为可能。
天云的ADG应用程序采用机器学习方法可以超越人类管理数据的能力,因为这些它能够: • 检测某些人类难以识别的特征类型 • 快速分析大量数据,即使是TB级的数据 • 识别模糊匹配模式,即识别在特定数据集中具有的可能的隶属关系,而不是由清晰数据集关联定义的绝对隶属关系 • 容易识别数据中的错误,从而避免错误结论
实际上,天云的ADG产品远远超出了简单地理解数据目录和业务术语表,它本质上使数据能够通过识别自然产生于数据的分类来为自己说话。因此,这些解决方案将理解底层数据并实际定义所需的元数据类型,而不是试图将数据分组到已建立的元数据分类中。 通过采用天云ADG产品实现的自动化数据治理只需要几周的时间,比传统按年计的人工数据治理在时间上缩短。以油田交换油环节的一个实际项目为例,要在一周内完成两个业务系统8000多张表的数据导入和关系构建,传统的业务咨询,大概要30个人要干1年的时间,而天云用了自下而上的自动发现的方法和ADG产品,在2周内就完成了。 3.2.第二阶段:数据的融合和流动数据治理完成后,相当于与企业知道了要在哪里取数据,为前台业务提供数据服务,但如果还是采用每做一次服务都做一次数据的ETL,显然会影响工作进度,如果能够不再移动数据,而是只需要让各种各样的新型业务围绕着数据工作,就能够更好地为用户服务。也就是大家是移动代码还是移动数据。 以某银行的客户积分为例,需要将客户的积分分析进行统计计算,首先要花1个半小时把数据移动到数仓,再等待数仓计算一个半小时之后,再将结果返回应用系统提供联机事务处理。这种时效性难以满足即时反馈的客户需求。 伴随着用户对数仓消费化的需求,数据的鲜活性与复杂性出现日益交错的矛盾,因此在技术上一款能够同时支撑OLTP(在线事务处理)与OLAP(在线分析处理)的数据库应运而生,这即是Gartner提出的HTAP数据库,涵盖大部分行业应用的需求,一站解决数据鲜活性与复杂性的交错矛盾。而天云的HTAP分布式系统融合了TP联机事务和AP的分析引擎,使得效率更优,架构更优;融合之后完成和联机、分析、建模一体功能。保持了数据鲜活性需求。 再以某商业银行实时流水交易业务可视化展示项目为例,在该项目中使用了Kafka 和Spark Streaming流式处理框架,在该框架中成功地引入了天云大数据HTAP Hubble 数据库, 在大数据环境下通过和Kafka,SPARK Streaming 等组件的深度融合,成功地实现了对互联网用户交易报文数据的实时采集,经过一系列的处理之后,最终有HTAP 数据库提供数据可视化展示的支撑, 达到了预期功能目标。 通过使用HTAP数据库,首先,数据不必从运营数据库转移到数据仓库。其次,交易数据在创建时可用于分析。第三,从分析聚合中挖掘总是指向新的HTAP应用程序数据。最后,您可以消除或至少减少对相同数据的多个副本的需求。从而达到了数据的融合和流动。 3.3.第三阶段:提供人工智能化服务在解决了从哪里取数据,如何更好地读取数据的情况下,下一步就是如何能更好地利用好这些数据。答案就是将人工智能引入到数据分析中,就是用AI替代BI。 2017年,AMAZON CEO Jeff Bezos在致股东的公开信中,指出“人工智能已经进入到一个能够准确概括复杂商业实践和流程的阶段。”。机器的角色从自动化实行人类意识、人类的指令,已经进化到可以面向不确定性的过程,通过给定输入和输出,通过训练和学习,帮助人类编出用于预测的程序——数学模型。 在AI中,包括聪明的AI和有学识的AI两种。聪明的AI是具备计算推理能力的机器学习,是无记忆载体的;有学识的AI就是具备表示学习能力的图计算/常识图谱和复杂网络,是有记忆载体的。 天云从2014年开始投入人力研发AI产品工具,打造了特征工程,模型孵化平台和模型运行平台三款产品,实现模型自动化流程线。即Kaleido——MaximAI——Gare。这些就是机器学习的平台。 天云还从2016年开始投入研发了复杂网络Hilbert产品。该产品是基于主流的Hadoop大数据技术,并结合网络科学技术应用的需求,自主研发了的一套完整支撑海量“网络拓扑结构数据“存储和管理的集群平台系统,底层采用分布式存储和处理技术,可以根据增加的数据集大小和用户访问量弹性扩展,支撑图数据的在线和离线分析和查询。 这些AI技术融合入数据中台,就可以让用户获得智能化服务的能力。非人工智能专业的行业专家,可以熟练使用天云开发的系列人工智能工具,不需要编写一行代码,就可以以托拉拽的方式,构建自己的业务模型,开发基于真实数据的AI业务应用。
|