论文

作者:左大鹏(四川省交通运输厅信息中心)

摘要:随着交通运输信息化应用的不断丰富更新,行业内外应用间高效协同需求强烈,为进一步提升群众办事服务与行业管理质量和效率,迫切需要建设高效率高质量的交通运输资源汇聚治理与交换共享体系。本文基于四川省交通运输行业信息化的现状与问题,梳理了数据流需求,介绍了数据汇聚与治理机制和数据中心存储设计,针对行业内外数据交换共享需求提出了数据交换共享平台逻辑架构,最后对数据资源汇聚治理与交换共享体系在实际项目中的应用情况进行了简要说明。

随着信息化技术在交通运输行业的深入推广,各级交通运输管理部门为满足行业发展管理需求积极建设了相应信息系统,包括公路建设、路网管理、水路、运管、航空、铁路等许多业务应用系统[1],应用协同数据需求越来越多,数据协同的效率和质量直接关系到应用的使用效率和准确性,更关系到交通运输行业公众服务和政务管理的质量与效率。为满足交通运输数据资源交换共享需求,进而提升数据资源利用效率和业务应用协同效率,推进交通运输行业的公众服务、政务管理,综合分析的高质量发展的关键在于发展对应的高质量高效率交通运输数据资源共享交换体系。

现状及问题

随着近年来信息化建设的不断深入,四川省交通运输各级业务部门根据自身业务管理需求已经建设了相应的信息系统,涉及行业包括公路交通、路网运行、道路运输、水路交通、综合服务管理等[1]。

不过,这些系统的建立只服务于独立的业务部门,且在不同时期完成,缺少统一的管理规划,业务系统各自掌握的数据不能及时有效提供给相关需求单位,在数据交换共享方面仍然存在问题。

通过四川省交通运输厅数据中心的建设,已对现有交通运输省直部门业务系统数据进行了汇聚,包括公路交通、水路交通、道路运输、城市交通、综合管理等[1]。通过对以上汇聚数据资源进行分析,发现基础类数据资源存在数据标准不统一、一类数据存在多个数据源、数据质量不高、数据更新不及时等情况,导致在业务系统间无法有效互联互通,业务数据协同应用效率不足,质量不高。

数据流需求

为提高交通运输数据资源交换共享效率,首先需要掌握数据中心交换共享整体需求,从数据生产源到数据需求端进行了全面梳理。全省行业交通运输数据流如图1所示。

交通运输资源配置(交通运输数据资源共享交换体系探究与实现)(1)

图1 交通行业数据流示意图

1、底部为数据生产源,包括四个部分,分别是省级云上信息系统、省级云外业务单位信息系统、行业外信息系统、市州交通运输局数据分中心;

2、各个环节数据交互通过省级数据交换节点实现;

3、汇聚数据分别根据结构化与非结构化属性将行业内外各类数据采集到省级数据中心和大数据平台;

4、通过省级数据资源交换共享平台将数据中心汇聚数据进行数据管控,通过融合治理、元数据管理等,构建行业人车户路四类基础数据库、建管养运四类业务数据库,形成包括公众出行、电子证照、空间地理、应急指挥等行业主题数据库;

5、省级数据资源交换共享平台通过编制目录、对接数据、注册资源、形成数据服务,对外依申请共享或直接开放;

6、省级数据资源交换共享平台通过交换管理实现对数据服务状况;

7、最后到达顶部数据需求端,包括交通运输部、省大数据中心、省级其他单位、省级云上(外)信息系统、市州交通运输局、交通运输行业互联网企业。

数据汇聚与治理

(一)数据汇聚

为实现高效率汇聚数据,主要通过大数据etl工具实现数据汇聚,大数据ETL工具功能丰富,涵盖了数据库、各类数据文件、接口等多种数据对接方式,是比较主流高效的数据汇聚工具。大数据ETL具体功能如图2所示。

交通运输资源配置(交通运输数据资源共享交换体系探究与实现)(2)

图2 大数据ETL工具功能示意图

(二)数据治理

数据治理主要从目录管理、数据管控两方面入手,通过运用数据治理规则建立一套数据准入和准出机制,以保障数据准确性、一致性、完整性和可用性,从而提供高质量的数据资源用于交换共享支撑应用协同[2]。

1、目录管理

目录项管理:根据交通运输部行业资源分类及目录编制指南,对汇聚的数据资源编制行业资源目录。创建的目录项结构中一级目录对应六大行业分类,包括:公路交通、道路运输、水路交通、城市交通、综合管理、行业外管理[1];二级目录对应各个一级目录下的业务分类。

目录信息项编目:对目录进行信息项各项内容进行编目、并进行审核后发布,保持对目录信息更新维护。

数据标准:形成我省交通运输行业标准数据模板。提供标准数据模板的查询、新增、编辑、删除、保存、取消、启动/停用、下载模板等功能,保持标准数据模板的更新维护和使用。

2、数据管控

元数据管理:实现不同数据源情况下的元数据汇聚,进行元数据编码,实现数据关联,提供对元数据增删改查及批量导出等功能;

质量审计:提供审计规则制定、审计方案制定(多个规则生成一个方案)、审计质量分析、审计质量报告的数据质量管理全过程的功能。根据数据质量审计结果,判断数据是否准入。

数据清洗:对已汇聚数据按照数据清洗规则进行转换、清洗、融合等处理。数据清洗规则包括非空检查、非法代码、非法值、格式核验、逻辑错误、关联性验证等

数据融合:主要有递增、覆盖、全量三种方式。

多源数据处理:针对相同数据资源,具有多个业务系统来源,各自业务系统相对独立,数据规则不统一,仅满足自己业务需求应用,无法实现数据同步统一更新。以收费站基础信息为例,公路局、高管局及监控结算中心相关业务系统均有一份收费站数据,以满足各自的业务需要。从3个业务数据采集汇聚后的数据质量、数据结构均不完全一致,采用的收费站编码规则也不一样。建议一是采纳由实际业务应用最广泛最频繁业务系统为基础;二是统一采用JT/T132-2014公路数据库编目编码规范针对公路网基础设施定义编码规范;三是制定融合规范,进行数据升级,定义设施设备唯一标识,实现对不同业务系统同样设施设备进行数据升级,并逐步实现其他差异消除。

数据存储设计

数据资源经过汇聚治理后需要分门别类进行储存以便进行提高数据读写效率,提高数据可用性,一致性。数据中心存储设计如图3所示。

交通运输资源配置(交通运输数据资源共享交换体系探究与实现)(3)

图3 数据中心存储设计图

核心生产系统结构化常量增量数据(非海量增量数据)可以通过oracle一体机进行采集存储,根据标准数据资源目录模型进行数据存放,存放数据形式为清单级数据。同时利用其性能优势,支撑高并发、时效性要求高的应用场景。

生产系统海量数据以及非结构化数据可以直接进入大数据平台进行数据存储。利用大数据平台计算组件选择多样、多租户模式提供各应用租户大数据加工和分析能力。

数据交换共享平台设计

数据资源交换共享与开放应用平台按数据的流向自下而上分为五层,分别为外部数据资源层、数据汇聚层、数据融合层、服务管理层和服务门户层。数据交换共享平台系统架构如图4所示。

交通运输资源配置(交通运输数据资源共享交换体系探究与实现)(4)

图4 数据交换共享平台系统架构图

(一)外部数据资源层

外部数据资源层即源数据库,为系统外部数据的来源,其主要包括行业内系统共享数据、行业外系统共享数据及互联网数据。

(二)数据汇聚层

数据汇聚层主要实现对外部数据源层的数据整合,其主要根据获取数据的特性不同而采用不同的采集方案。对离线批处理数据,实时性要求不高的情况下,采用传统的etl工具来实现。对数据实时性要求高、采集频度较高的数据(如GPS、传感器、移动终端发送数据等),采用实时数据接入方案。

(三)数据融合层

数据融合层为工程数据提供持久化存储和访问的场所。通过“一体机数据库 分布式数据库 Hadoop大数据库”的混合架构形成平台的数据融合层。其中核心生产系统结构化数据存储查询等通过一体机数据库提供,实现高并发的数据查询分析能力;非结构化数据通过分布式存储架构的存储节点上部署的数据库提供。

(四)服务管理层

主要包括目录管理、资源管理、服务管理、交换管理等功能。

目录管理提供目录编制、目录维护、目录变更、目录审核、目录发布等操作功能,能够方便快捷检索到交通行业不同分类信息资源目录情况。

资源管理部分主要是进行资源注册,根据已编制完成的信息资源目录,在进行了数据接入后进行资源的注册操作,将目录编目时录入的“标准化”信息项与数据接入时的实际信息项建立的匹配信息进行注册以便发布服务使用。

服务管理提供服务发布,服务启用/停用,服务监控,服务调用日志,统计分析等管理能力,实现服务的全生命周期管理,从开发、测试、发布、调用、注销,到服务监控、安全等的管理。

交换管理提供资源服务共享申请,交换管理,任务监控等功能,通过接口、数据库、文件等不同方式提供数据服务以满足不同数据需求,对共享任务动态监控告警方便跟踪数据链路的联通性[3]。

(五)服务门户层

通过服务门户和接口支持,提供标准化服务给应用系统调用,满足各种场景下应用系统对数据的使用和共享交换需求。

应用实例

本文以四川省交通运输政务信息资源交换共享与开放应用平台为例,通过两个基础应用平台、一个存储中心、多个数据交换节点形成全省交通运输数据交换共享与开放应用体系。四川省交通运输数据交换共享与开放应用平台逻辑架构如图5所示。

交通运输资源配置(交通运输数据资源共享交换体系探究与实现)(5)

图5 四川省交通运输数据交换共享与开放应用平台逻辑架构图

两个基础支撑平台:一是共享交换平台,依据四川省交通运输行业资源现状完成数据资源目录体系建设,形成数据资源交换标准编制规范,并提供目录管理、资源注册、资源服务、共享交换等功能,完成数据中心各库之间、与大数据平台之间、与行业业务局之间等的数据共享交换,并向所有业务应用系统提供数据服务支撑;二是大数据平台,一方面提供大数据量的存储服务,包括非结构化、半结构化、结构化大数据存储;另一方面一方面是提供大数据组件计算服务以及数据挖掘分析功能。

一个数据存储中心:由大数据平台存储计算服务器与oracle一体机存储服务器共同组成厅数据存储中心。

数个省级数据交换节点:即数据采集平台,采用了东方通交换共享平台,根据交通行业数据和应用特征,定制开发数据采集方式、转换方式,并对现有各类行业数据进行汇聚整合,打通各业务单位间不同数据结构、不同网络环境的数据交换工作。

数据工程:主要通过数据交换节点,结合共享交换平台,完成数据资源接入,依托大数据平台存储服务器和oracle一体机形成的数据中心完成资源存储,通过数据融合处理,形成交通运输行业数据资产,支撑数据资源目录体系建设以及上层的业务应用。

四川省交通运输政务信息资源交换共享与开放应用平台:通过数据工程整合基础支撑平台、数据存储中心、数据交换节点为一个整体平台,实现从数据资源采集汇聚、数据资源编目、数据治理管控、数据服务发布、数据交换共享等数据全流程的监控服务与分析,通过信息资源目录提供统一的数据视图,为行业各级管理部门、行业相关企业、其他政府部门以及社会公众提供文件、接口、数据库表等方式的标准数据服务,形成高效的数据交换共享体系。

在采集汇聚资源成果方面,采集行业内数据主要包括厅公路局、省航务海事中心、厅运管局、厅高管局、省交通质监站、路网中心、厅监控结算中心、厅信息中心、物资储备中心共9个相关业务单位的28个业务系统,合计超过600项资源。

在管理治理成果方面,通过数据管控治理,整合形成公路基础数据,包括经营业户、从业人员、营运车辆、资质证书;水路运输基础,包括船舶、船员、船公司、渡口、码头、航道;空间地理信息等基础库;养护数据、工程建设、道路运输、信用数据、行政审批、隐患上报等业务库;公众出行、综合分析、应急指挥、动态数据、统计分析、电子证照等主题库;形成目录资源服务259项。

在共享交换成果方面,通过四川省交通运输政务信息资源交换共享与开放应用平台向交通运输部政务信息交换共享平台、四川省政务信息共享网站、四川公共数据开放网、四川省“互联网 监管”平台提供行业相关数据;向省大数据中心、省公安厅等其他十多个省直单位提供行业相关数据;向全省22个市州交通运输局共享所属区域交通运输行业数据;通过政务公开、高德等行业企业对接等方式向社会开放提供各类数据查询服务。

结束语

交通运输数据资源共享交换体系在进一步发展过程中,本文提出的交通运输数据资源共享交换体系在四川省交通运输应急指挥与运行监测系统工程(二期)中完成了建设实践,有效支撑了四川省交通运输行业当下政务信息资源共享工作,促进了行业政务服务和行业协同监管能力的提升。为进一步推进政务信息资源共享工作,满足新的政务服务和协同监管需求,将继续深入优化交通运输政务资源共享交换体系,加强交通运输数据资源共享交换体系在数据质量管控和共享效率等方面能力,促进交通运输管理部门政务服务和行业监管能力与效率的提升。

参考文献

[1] 郭明多,魏彬.交通运输政务信息资源目录编制方法及应用[J].交通运输研究,2018,4(2):37-43.

[2] 刘天须,王子昂,张雪扬.交通运输行业数据治理体系研究[J].交通与信息化,2020,10:135-136.

[3] 王永明,王林,李聪,岑春.数据采集交换体系及其在交通运输数据中心建设中的应用研究[J].交通信息与安全,2013,3(31):108-112.

(原文刊载于2022年第1期《中国交通信息化》)

,