****大数据平台技术架构设计实践与应用
为了能更好的实现大数据平台的业务功能和预期的目标,我们采用了自顶向下的方式对大数据平台进行功能设计,同时在业务应用过程中不断优化调整大数据平台业务功能,形成了满足离线处理及数据消费、实时运算及决策两类应用场景,多个物理集群的平台技术架构。 平台总体技术架构设计 技术架构上从下至上分别为数据源层、数据采集交换层、数据存储与计算层、数据能力层、数据服务层以及配套的数据管理能力和批次管理能力等。 数据源包含了行内与大数据平台进行实时对接的系统、或者为业务系统提供业务数据来源的系统。主要由账务类系统、渠道类系统、决策支持类系统等。 数据交换层,分为应用系统实时接口对接采集、实时旁路数据采集、离线批量数据采集等三个部分。实时接口对接采集需要业务系统配合改造将需要采集的业务信息存放在消息队列中,为了实时业务场景提供事件输入;实时的旁路采集在网络通讯层面进行数据数据旁路采集,相对实时接口采集来讲,业务系统不需要配合改造,是一种业务系统无感知的采集方式,比较适用于基于事件的准实时营销和推荐类的场景;离线批量数据采集在****系统中比较成熟,传统BI系统以及建设了比较完备的数据采集工具,直接复用现有数据采集工具进行行内数据的采集,对于已有工具未采集的数据,采用自定义开发程序采集的方式,业务空闲时段定时生成数据文件,供数到大数据平台。三类数据采集方式基本上能覆盖大数据平台相关业务应用场景。 数据存储与计算层的主要工作是将采集的数据进行存储和计算,根据大数据平台的业务应用场景,这一层按照业务特点的差异划分了三个不同的区域,离线数据存储与计算区、实时计算区、数据应用区。 离线数据存储与计算区将批量采集的数据加载Hadoop集群进行集中存储,同时通过Hive和Spark程序进行批量数据处理工作,主要进行数据清洗、标准化、指标标签加工等。实时计算区进行基于事件的实时指标计算以及实时决策,能够满足事中风控决策、个性化推荐、事后营销等业务场景需求。数据应用区有几项功能定位: 一是同步离线处理的结果数据,通过接口提供给行内业务系统进行数据访问,主要提供用户的360°画像数据的消费。 二是将大数据平台数据的加工结果进行数据展示,便于业务应用,比如客户之间的关系的查询和展示,比如用户的画像展示和客群筛选等。 三是提供基于大数据平台加工结果进行自助化报表分析等。 数据服务能力输出设计 大数据平台具备了几种对外开放的能力,由数据开发和运行能力、自助分析能力、数据快速消费能力组成。为行内的各类数据使用人员提供支撑服务。 一是数据开发和运行能力,具备基于开发模板的进行可视化和规范化的进行数据批量处理程序开发能力;具备指标设计和管理能力,支持按照不同主键进行指标设计和加工,基于平台已整合存储的数据进行指标口径配置,每天自动生成指标并将指标下发给下游业务系统。 二是自助分析能力,是一种让用户能够自助进行数据理解及分析的能力。主要由数据探查工具、灵活自助分析工具、客户360°视图服务等提供核心的自助分析能力。 通过数据探查工具能让行内各数据应用开发人员能快速了解大数据平台已整合的数据、数据的组织形式、加工口径等信息,方便应用开发人员基于已加工的数据结果或者基于整合数据进行二次加工,开发针对应用场景的数据消费应用。向行内的数据开发人员、数据分析人员、业务应用人员等提供统一的数据检索引擎,为各类用户提供无差异的数据检索服务,将灵活自助分析的报表、平台内各种数据、平台应用产品、甚至平台仍未整合的行内业务数据进行统一检索和展示。灵活自助分析工具为行内的业务用户提供灵活、自助的报表分析工具,报表工具分析的是加工后的指标数据或者经整合后的数据。报表分析工具提供报表分享功能,报表制作完成后能根据底层数据情况自动刷新报表,提供美观的图表展示功能。 数据探查工具与灵活自助分析工具进行深度的应用整合,灵活自助分析工具设计制作的报表可在数据探索工具进行发布,发布后的报表可被全行用户检索到,在检索结果中仅展示报表的业务属性描述以及对应的属主等信息,对于没有报表访问权限的用户无法访问报表内容,并提示获取授权的途径;对于已被授权的用户能通过检索结果“一键直达”报表展示页。 基于客户维度的指标体系和离线区的加工结果形成了客户360°视图,通过客户基本信息、客户持有产品信息、客户交易行为信息、客户与客户之间的关系、客户理财偏好、客户风险属性等等多维度的指标和标签对客户特征进行全面的描述,通过维度和指标不断丰富完善使得客户画像越来越清晰,客户的形象越来越具体。提供了基于客户360°视图自助进行客群定义和筛选的能力。 (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |