导 读
为解决水务集团传统生产运营管理存在的问题,采用数据规范化、数据采集、数据仓库、数据集市、可视化分析等技术,建设了集数据动态监测、阈值报警、监督管理、可视化统计分析、报表多级上报功能为一体的水务集团生产运营管理平台,服务于水务集团、水司、厂站、第三方监管单位等多级用户。平台建成后对减少人工提高生产运营管理效率,促进水务生产运营管理向自动化、智慧化转变具有重要的意义。
关键词:数据规范化;数据采集;数据仓库;数据集市;可视化分析
引用本文:周宁,周浩然,骆东辉. 水务集团生产运营管理平台设计与实现[J]. 给水排水,2022,48(1):156-161.
相关阅读:
智慧水务专栏 |大数据 → 大智慧:水务大数据平台系统设计实践
水务集团下辖水司、供水厂、污水处理厂数量多、分布广,传统的生产运营已实现了基本的信息管理及统计分析,但存在报送时效低、数据不准确、综合分析结果简单、可视化效果单一、无法挖掘数据深度价值、用户业务交互应用不足等问题。
为解决传统生产运营管理模式产生的问题,构建了集数据动态监测、阈值报警、监督管理、可视化统计分析、报表多级上报功能为一体的水务集团生产运营管理平台(见图1),实现对水司、供水厂、污水处理厂生产运营数据的全面实时在线监测、采集、管理,以提高生产运营效率减少人工为重点,满足集团各生产部门的综合业务需要和运营管理需要,为决策者提供快速、高效、专业、科学的数字支撑平台。
图1 水务集团生产运营管理平台
该系统服务于水务集团、水司、厂站、第三方监管单位等多级用户,以生产运营管理部门业务需求为出发点,着重增强数据综合分析能力及多级用户的协同管理,最终实现各水司、厂站的统一监管。为加强水处理设施规范运营管护工作,提高设施运行效率,保障城乡水环境安全提供技术支撑。
该平台的建设主要分为:数据规范化体系、数据采集系统、数据中心、可视化分析系统。
01
数据规范化体系建设
数据规范化能够提高数据的通用性、共享性、可移植性及数据分析的可靠性,便于数据采集、传输、存储、处理、集成、共享,参照国标及水务行业标准,制定生产运营的各项数据标准和数据接口标准。
1.1 生产运营数据标准
该标准涵盖业务范围完整内容的信息化标准体系建设成果,包括但不限于业务涉及的数据的完整定义(如数据类别、名称、编码规则、单位、获取周期、计算公式等)、业务涉及的管理事项的完整定义(如事项名称、涉及数据项目名称和非结构化附件的名称、涉及的工作流程、流程涉及的标准角色、与其余事项数据交互的规范)、各级单位、部门、人员的绩效考核规则、各级单位的标准报表体系等。通过数据标准化工作执行,能够有效防止用语的混乱使用,进一步保障数据的质量和正确性,同时为后续的质量检查提供标准支撑。
建设了数据全生命周期标准化管理系统,提供数据标准录入、查询、使用以及管理,同时提供了维度编码、字段命名、数据项内容和安全特征等多方位的映射管理和清洗处理能力。
1.2 数据接口 标准
数据接口标准化建设主要分为数据采集接口标准化和数据共享接口标准化。前者建设各类自动化监测系统数据采集的标准化数据接口,各水司、水厂、污水处理厂按照接口标准将各异构系统数据上传至水务集团数据管理平台。后者在数据中心层面提供标准的对外共享和访问的数据接口。
数据接口标准化在充分考虑扩展性和通用性的基础上,遵循统一命名规范和报文规范建设。数据报文格式要统一、逻辑清晰,报文的传输要符合业务规则,只有经过校验的报文才能被接受处理。
数据接口标准主要包括:接口描述、接口属性、接口规约。
1.2.1 接口描述
使用与平台/技术实现无关的语言对接口功能、调用方法等信息集中描述,包含对使用者有意义并可理解的概要和详细服务信息,是在数据接口提供方和调用方之间的规约。
1.2.2 接口属性
提供组织和性能相关要求,是接口提供方和接口消费方之间服务协议的依据,应包含以下属性项:
(1)必选项:①接口编码:遵循统一编码规则,是接口的唯一标识;②接口中文名称:简单概括接口意义的名称;③接口描述:清晰描述接口服务的业务功能;④服务等级:划分低级、普通、紧急;⑤接口提供方:提供此接口服务的业务系统;⑥报文文件名:遵循统一命名规范,命名请求报文文件名和响应报文文件名;⑦报文格式:统一采用json;⑧数据量:运行期间单次访问的数据量均值和范围;⑨调用说明:提供调用此接口服务的必要条件;⑩超时说明:提供超时时间及其说明;返回码说明:提供返回码和返回码说明给服务消费方;技术方式:明确此接口的技术方式;调用权限:对接口调用权限的说明;安全要求:对接口安全要求的说明。
(2)可选项。①接口消费方:可能会使用到此接口服务的业务系统;②支持并发:最大并发访问量;③运行效率:单次访问的响应时间均值和范围;④是否可重:接口能否被多次重复调用。
1.2.3 接口规约
定义所有绑定和传输信息,以及所有支持的操作及相关输入、输出的格式,是接口及参数的技术描述,包含:数据类型、消息格式和结构、绑定的传输协议和服务的位置。
02
数据采集系统建设
目前各水厂、污水处理厂已配备自动化监测的物联网设备,能够监测各类生产运营数据。生产运营监测的数据对象主要有以下几类:
仪表数据:水质、水压、水量、水位、水温;进水水质监测(pH、氨氮、COD、总磷、TOC、电导率、悬浮固体等);出水水质监测(pH、氨氮、COD、总磷、总氮、碱度、余氯、硝氮、有机物、悬浮固体、浊度等);生化池(DO、ORP、悬浮固体、碱度、污泥指数、氨氮、硝氮、pH、TOC、硝酸盐、污泥活性等);水厂生产、污水处理厂相关的工艺参数监控数据等。
设备运行状态数据:温度、转矩、振动、速度等。
配电数据:电气参数、状态参量等。
常用的数据采集方式有两种,一种是通过在各接入点配置智能网关,对现有的设备层硬件进行改造以便适配智能网关,由智能网关负责读取各设备内数据。另一种是在各站点配置前置采集服务器,由自动化采集程序实时采集数据库数据,并通过Restful API上传数据至水务集团数据中心。
由于各厂站使用的设备联网率较低,工业通信协议标准繁多、互不兼容,智能网关不能全部接入,同时智能网关缺少有效的安全防护措施,存在较大的安全隐患,其故障也可能导致接入点自动化设备故障联动。从安全性、稳定性方面考虑,采用第二种方式建立统一的数据采集系统,数据由数据库自动采集和手工填报,按数据接口标准定义标准化的数据采集接口,各水司、厂站按标准接口接入。
03
数据中心建设
为了解决数据来源广、种类多、体量大、质量差、结构化数据和非结构化数据并存等问题,便于数据的存储和管理,快速、充分的挖掘数据潜藏价值,基于大数据思想,运用数据仓库技术,建设水务集团级数据仓库,对权属公司各类监测数据经过提取、清洗、转换后进行汇集存储,面向业务分析整合,实现填报测算、统计分析、多样化展示的集成管理,形成协同有序的数据中心(见图2)。
图2 水务集团数据中心
数据中心具备灵活可扩展的接口能力,按照标准数据接口规范制作数据后端统一接入接口、前端统一输出接口。后端接入接口向下对接数据采集系统,通过标准的数据采集接口,能够应对各类系统的灵活接入。前端输出接口对外提供数据输出能力,向可视化层、报表层、第三需求方等传输数据。
数据中心建设内容主要分为:数据仓库、主题数据集市、数据共享。
3.1 数据仓库
3.1.1 数据仓库逻辑分层
数据仓库的组织体系结构对于数据的管理、信息质量、分析决策等具有重要的影响,采取分区分层存储的数据组织形式,实现数据分门别类的分布式存储,并按数据处理层次划分为ODS、DWD、DWS、ADS、DIM层,其主要功能为:
ODS原始数据层:按水司、厂站等数据源划分存储区域,存放和备份采集到的原始数据,数据保持原貌不做处理,按数据采集源分别建表。
DWD明细数据层:对ODS层数据进行清洗[去除空值,脏数据(字段缺失、不统一,格式错误等),超过极限范围的数据等],做低粒度汇总加工。
DWS数据服务层:以DWD为基础,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于后续的业务查询,OLAP分析,数据分发等。
ADS应用服务层:这是对DWS层数据抽离分析程度最高的一层,提供数据集市、数据产品、数据分析直接使用的数据。
DIM 公共维度层:基于维度建模理念思想,建立整个系统的一致性维度,降低数据计算口径和算法不统一风险,其他各层直接抽取调用维度表数据。
3.1.2 数据仓库建设流程
3.1.2.1 数据采集
业务数据采集策略:数据来源分为在线仪表数据和手工填报数据,针对这两类数据采用不同的采集策略。在线仪表数据已接入厂区各类SCADA系统,可从数据库中直接读取;手工填报数据包括化验室检验检测数据、药剂用量、污泥处置、各类生产报告等不能由仪表直接采集的数据,为获取这类数据开发了专门的数据填报接口,统一数据填报单位及标准,由相关工作人员按时录入填报。
3.1.2.2 数据仓库开发
基于Hadoop框架,采用Datagrip作为开发工具开发数据仓库系统,采用5台服务器搭建运行生产任务的生产集群,数据仓库系统架构见图3。
图3 数据仓库系统架构
用于数据同步主要完成两项工作:①使用sqoop每天导入业务数据库数据至HDFS集群存储中;②为便于高效读写数据,使用sqoop将Hive数据仓库中用于分析的数据存储在Mysql中,通过echarts渲染展示分析结果。
采用Hive on spark的计算模式搭建数据仓库,Hive既作为存储单元又负责SQL解析优化,语法是HQL语法,执行引擎是Spark,采用RDD执行。
使用kylin进行多维分析,数据查询结果存储在Hbase中。
Azkaban做定时任务调度,定义了20个脚本每天处理40个任务,并建立了自动重试机制,以便任务挂掉后可重试执行。
Atlas分析整个数仓运行过程中任何一个任务出现问题之后的影响范围。
使用Ranger做权限管理,针对Hive中的每张表、每个字段进行权限管理。
为便于对数据质量的管理,使用Python+Shell编写了数据质量管理脚本实现对数据质量监控。
3.1.2.3 集群资源规划
从内存、数据间关系、依赖关系等方面对集群资源进行规划,将内存开销较大的分开;数据传输紧密、存在依赖关系的放在一起;为便于外部访问,将hive、mysql、spark、Azkaban等客户端放在两台服务器上,集群资源分布见表1。
表1 集群资源分布
3.1.2.4 Hive数仓分层
基于数据仓库逻辑分层,将数据仓库系统分为DIM、ODS、DWD、DWS、ADS五层。
3.2 主题数据集市
在数据仓库的基础上,根据特定部门、用户的使用需求,按业务应用进一步划分3个数据集市:供水数据集市、污水数据集市、运营数据集市,每个集市下又包含若干主题或二级主题,用以支持可视化分析、报表统计、数据共享等服务 。
3.2.1 供水数据集市
本集市存放的是与供水生产分析相关的主题模型,包括供水量、制水量、耗电量、耗矾量、耗氯量、助凝剂、原水量、制供水差、上限制供水差、供水耗电率、供水耗矾率、供水耗氯率、供水电耗、制水电耗、同比、环比等。
3.2.2 污水数据集市
本集市存放的是与污水处理分析相关的主题模型,包括日处理污水量、处理污水总量、日污泥转运量、污泥转运量、产泥率、日厂区耗电量、厂区耗电量、厂区耗电率、日厂区用水量、厂区用水量、厂区用水率、日耗矾量、耗矾量、耗矾率、同比等。
3.2.3 运营数据集市
本集市由总体核心指标、供水情况分析、污水处理情况分析组成。①总体核心指标。其二级主题为制水费用、利润增加额、成本、折旧、吨水折旧、营业收入、产能、售水量、产能利用率、售水均价、吨水毛利、供水毛利率、污水处理毛利率、污水处理价格、污水处理均价、城市供水运营水费、水资源费、污水处理费、终端价格等。②供水情况分析。其二级主题为供水量、供水能力、年平均增量、增量占比、供水量占比、产能利用率、自来水均价、产能、售水量、阶梯水价、水量基数等。③污水处理情况分析。其二级主题为污水处理量、污水处理量增速、污水处理增量贡献率、污水产能年均增量、污水年均增量、污水年均增量占比、污水处理毛利率等。
3.3 数据共享
数据中心为了实时应对不同的数据需求,按照数据资源标准体系建立了Open API管理系统(见图4),API 管理者可利用可视化的配置工具生成各类API 服务,并发布到API市场,管理者可监控调用情况,让数据资产价值对外输出的过程中,做到数据服务可见、可管。与此同时,对于API 使用者,可以看见API 市场中所有的API,根据需求自助选取合适的API,极大的提高了使用效率与易用性。建立了身份认证机制、访问授权机制、数据脱敏策略、返回数据筛选机制、异常行为监测、特权账号管理、第三方管理等安全策略,确保数据API 的安全性。
图4 Open API管理系统
04
数据分析系统
建设以业务主题为中心的数据可视化分析系统和统一报表系统,通过功能权限分级,实现水务集团到各子公司、厂站的管理查看,最终以运营管理一张图的形式展示出来。
4.1 数据可视化分析系统
基于数据集市主题分析模型,对生产类、经营服务类等综合指标快速可视化展现,并通过丰富的图表组件和过滤条件展现数据,提供对历史数据的回放查看、阈值报警;建立企业分析模型,构建大数据决策分析平台,发掘更多功能和信息效应,切实发挥大数据的作用,为领导决策提供支撑。
4.2 报表系统
建设统一报表系统,系统当中预制了各种格式的报表,按日、周、月、季、年等汇总数据生成所需要的各类报表。并支持报表定制,可根据实际需要定制报表内容和结构。通过按周期自动生成以及手工填报的方式,完成报表的生成下载,并可查看历史报表,报表可按报送规则自动报送到相关领导和部门。
05
结语
水务集团生产运营管理平台将各水司、水厂、污水处理厂各自为政的生产数据进行面向分析的整合,形成一个面向决策分析的统一集成的数据中心,解决了来源广、类别多、数量大、共享性差的异构生产运营数据综合分析的难题,切实发挥了大数据的作用。该平台建成后各水司、厂站通过平台自动上报数据,系统自动挖掘分析和上报报表,提供的阈值报警功能能实时掌握设备的整体运行状况。
平台提供多种科学、专业、高效的数据分析方法,结合专业运营人员的丰富知识和经验,根据历史数据自动挖掘数据本身、数据与数据之间、数据与其他隐藏要素之间的价值,为生产提供数据参考,为领导科学决策提供数据支撑。提供的多种直观、简单易用的数据可视化图表展现数据,使用者从多个角度展现和分析数据,让以往需要很多专业人员耗费大量时间来完成的工作交由系统自动完成,大大节约了时间提高了生产效率。
平台用户与平台之间逐渐形成了双向互动,平台用户在获得运营结果的同时,也逐步学习到更多的数据分析方法,逐渐形成数字思维,学会用数据驱动生产。平台用户也反向为平台注入新的知识和经验,倒推平台的改进,贡献的知识和经验通过平台得到共享,供其他用户使用。
该平台的建设不仅能够全面提升生产运营的监管水平,还大幅度提升管理人员的工作效率,降低了人力、物力及业务管理成本,为科学决策提供了更有效的支持,促进了水务生产运营管理向自动化、智慧化的转变。