**政务大数据交换共享平台建设方案
目 录
第一章 需求分析和项目建设的必要性 ...........................................4
1.1 项目建设目标、内容..........................................................................4
1.1.1 项目建设目标.........................................................................4 1.1.2 项目建设内容.........................................................................4 1.2 编制依据 ...........................................................................................5 1.3 与政务职能相关的社会问题和政务目标分析......................................6
1.3.1 社会问题分析.........................................................................6 1.3.2 政务目标分析.........................................................................8 1.4 业务功能、业务流程和业务量分析 ..................................................11
1.4.1 用户角色分析.......................................................................11 1.4.2 业务功能分析.......................................................................12 1.4.3 业务流程 ..............................................................................14 1.4.4 业务量分析...........................................................................14 1.5 信息量分析和预测 ...........................................................................15
1.5.1 存储量分析...........................................................................15 1.5.2 处理量分析...........................................................................19 1.5.3 网络流量分析.......................................................................20 1.6 系统功能和性能需求分析 ................................................................20
1.6.1 系统功能指标.......................................................................20 1.6.2 系统性能指标.......................................................................22 1.7 信息系统装备和应用现状与差距......................................................22
1.7.1 现状 .....................................................................................22 1.7.2 差距 .....................................................................................23 1.8 项目建设的必要性 ...........................................................................23
第二章 总体建设方案 .................................................................. 26
2.1 建设原则 .........................................................................................26
2.1.1 统一性原则...........................................................................26 2.1.2 可靠性原则...........................................................................26 2.1.3 可伸缩和可扩展性原则.........................................................26 2.1.4 开放性原则...........................................................................27 2.1.5 安全性原则...........................................................................27 2.1.6 高效性原则...........................................................................27 2.1.7 友好性原则...........................................................................27 2.1.8 可管理易维护性 ...................................................................28
-I-
--精品
精品---
**政务大数据交换共享平台建设方案
2.2 总体目标与分期目标........................................................................28 2.3 总体建设任务与分期建设内容 .........................................................29 2.4 总体设计方案 ..................................................................................30
2.4.1 基础设施层...........................................................................32 2.4.2 信息资源层...........................................................................33 2.4.3 应用支撑层...........................................................................34 2.4.4 应用层..................................................................................34 2.4.5 服务层..................................................................................34 2.4.6 安全保障体系.......................................................................34 2.4.7 标准规范体系.......................................................................35
第三章 项目建设方案 .................................................................. 36
3.1 标准规范建设 ..................................................................................36
3.1.1 管理制度建设.......................................................................36 3.1.2 标准规范建设.......................................................................40 3.1.3 数据标准建设.......................................................................43 3.1.4 标准规范索引.......................................................................46 3.2 信息资源规划和数据库设计.............................................................47
3.2.1 信息资源规划.......................................................................47 3.2.2 数据中心建设.......................................................................53 3.3 门户系统建设 ..................................................................................69
3.3.1 信息资源政务门户................................................................69 3.3.2 信息资源开放门户................................................................73 3.4 应用系统建设 ..................................................................................74
3.4.1 数据汇聚平台.......................................................................74 3.4.2 数据治理平台.......................................................................89 3.4.3 数据运营平台.....................................................................102 3.4.4 数据应用平台.....................................................................104 3.5 四大基础数据库管理平台 ..............................................................108
3.5.1 人口库................................................................................108 3.5.2 法人库................................................................................ 111 3.5.3 经济库................................................................................ 114 3.5.4 地理库................................................................................ 115 3.6 应用支撑系统设计 ......................................................................... 116
3.6.1 统一用户管理..................................................................... 116 3.6.2 统一应用管理.....................................................................120 3.6.3 统一服务管理.....................................................................121 3.6.4 统一消息服务.....................................................................123 3.6.5 统一日志服务.....................................................................124
-II-
--精品
精品---
**政务大数据交换共享平台建设方案
3.7 安全保障体系建设 .........................................................................124
3.7.1 建设目标 ............................................................................124 3.7.2 安全体系架构.....................................................................125 3.7.3 安全防护体系建设..............................................................125 3.7.4 安全管理体系建设..............................................................133 3.8 主要软硬件选型原则和详细软硬件配置清单..................................136
3.8.1 主要软硬件选型原则 ..........................................................136 3.8.2 详细软硬件配置清单 ..........................................................137
第四章 效益分析 ....................................................................... 138
4.1 经济效益 .......................................................................................138 4.2 社会效益 .......................................................................................140
第五章 项目风险与风险管理 ..................................................... 142
5.1 风险识别和分析.............................................................................142
5.1.1 组织风险 ............................................................................142 5.1.2 管理风险 ............................................................................142 5.1.3 业务风险 ............................................................................142 5.1.4 技术风险 ............................................................................142 5.2 风险对策和管理.............................................................................143
5.2.1 组织风险防范对策..............................................................143 5.2.2 管理风险防范对策..............................................................143 5.2.3 业务风险防范对策..............................................................144 5.2.4 技术风险防范对策..............................................................144
-III-
--精品
精品---
**政务大数据交换共享平台建设方案
第一章 需求分析和项目建设的必要性
1.1 项目建设目标、内容 1.1.1 项目建设目标
电子政务公共数据开放共享平台项目建设目标是,依托统一的 “云”数据中心建设统一的公共数据开放共享平台。集中机关各部 门业务应用进行,制定相关的数据规范和信息交换标准,使机关各 部门业务系统依托统一的开放平台进行开发建设。确保部门之间系 统之间的互联互通、数据共享,为大数据分析提供数据依据。
1.1.2 项目建设内容
电子政务公共数据开放共享平台项目建设内容包含:一套标准 规范、两个数据门户、四大应用平台、四大基础数据库和一个应用 支撑平台。
具体建设内容包括: 1、一个应用支撑平台
为了对需要调用电子政务公共数据开放共享平台信息资源的政 府部门应用系统进行有效管理,面向各类电子政务应用,规划建设 统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、 服务管理等核心组件,可以对接入系统有效管理、实现统一认证及 单点登录、统一消息服务。
-4-
--精品
精品---
**政务大数据交换共享平台建设方案
2、两个数据门户
针对政府部门用户建设信息资源政务门户,针对企业、公众用 户建设信息资源开放门户。
3、四大应用系统
建设承载电子政务公共数据汇聚平台、数据治理平台、数据运 营平台和数据应用平台。
4、四大基础数据库
通过电子政务信息资源梳理,制定四大基础数据库的建库、入 库和管理规则,建立四大基础数据库管理平台,提供基础库内容管 理、数据处理、共享和应用功能。
四大基础数据库包括人口库、法人库、经济库和地理库。 5、一套标准规范
形成标准规范体系,包括管理制度、标准规范、数据标准等。
1.2 编制依据
1、中办、国办《2006-2020年国家信息化发展战略》; 2、国办《关于促进电子政务协调发展的指导意见》; 3、国务院《促进大数据发展行动纲要》; 4、《国家电子政务总体框架》;
5、《国家电子政务“十二五”规划》(工信部规〔2011〕567号); 6、《关于印发“十二五”国家政务信息化工程建设规划的通知》 (发改高技〔2012〕1202号);
-5-
--精品
精品---
**政务大数据交换共享平台建设方案
7、《GB/T 21063-2007 政务信息资源目录体系》 8、《GB/T 21062-2007 政务信息资源交换体系》 9、《国家电子政务工程建设项目管理暂行办法》 10、《政府信息公开条例》
1.3 社会问题和政务目标分析 1.3.1 社会问题分析
作为世界人口大国,理论上我国数据资源储量极为丰富,但大 部分政府数据(例如:交通、社保、税收等),属于结构化数据,距 离海量(volume)、速度(velocity)和多样性(variety)的 3V属性还 有一定距离,但从战略角度而言差距并不大。
从数据规模来说,政府拥有国内最为庞大的数据储量。政府数 据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不 同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待 存储与处理。
从数据来源来说,由于各行业、各地采用的法律法规和标准并 不统一。传统的电子政务信息系统,仅为满足特定功能而生,数据 结构差异性大,大量数据存放于历史遗留应用中,委办局间碎片化、 零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极 为复杂。
从数据质量和价值来说,企业的数据种类单一化程度较高,而 政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁
-6-
--精品
精品---
**政务大数据交换共享平台建设方案
多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十 分可观。
如上所述,政府数据的特点可以概括为:数据规模大、数据来 源和结构复杂、数据价值高但利用率低。
政府收集了大量有价值的数据,通过这些数据,可以更好地了 解国家资源使用情况,政府开支情况,土地交易和管理情况,这些 将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为 人民提供更多更好的服务选择。
1、政府数据体量越来越大
截至 2014 年,中国共有 664 个城市,2852 个行政县,40446 个行政乡。当前,中国中央和省级政务部门主要业务电子政务覆盖 率已经达到 70%。据粗略估算,全国政府大数据加起来相当于数百 个阿里巴巴的体量。而随着硬件技术的进步,对于数据采集精度、 采集频率、数据存储等能力在增强,使得数据规模仍有提升空间, 近几年数据中心的新建和扩容呈现井喷式的发展,这是以硬件基础 设施带动的变革,促使软件技术也得到了快速发展。
随着数据体量的增长,大数据处理、大数据应用分析的门槛将 会逐渐提高。
2、多部门协作成为常态化
复杂的城市治理问题,对跨部门的协作提出了更高的要求,过 去个别部门间存在的职责交叉分散、协调运行不畅等问题。随着“大 部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部
-7-
--精品
精品---
**政务大数据交换共享平台建设方案
门、一个政府”目标。随着部门与部门的边界越来越模糊,政府数 据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为 政府大数据建设的入门。
3、国家治理不能仅仅依靠政府
由于时间和技术的局限性,以往国家治理基本是政府下达指令、 向下逐层执行的“开环过程”。如今随着互联网发展,人民对于政 府的期望越来越高,国家不仅要在政策出台前广泛征求、准确把握 民意;出台后还需要获得执行反馈,并适时调整,政府治理变为下 达指令—执行—反馈的“闭环过程”,需要借助社会各方面力量参 与到国家治理过程之中。无论是社会自治还是合作共建,政府数据 共享开放都是大前提。
4、社会普遍开始重视数据安全和隐私
数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐 患,随着全球各地用户信息安全事件频出,让人们开始感受到“数 据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极 大的威胁。数据安全和隐私保护不仅是公民个人的责任,对采集数 据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过 程中,政策、技术、意识缺一不可。需严格依照相关规范文件,将 安全运营意识渗透到政府数据开放中。
1.3.2 政务目标分析
1、实现政务公开,打造透明政府
-8-
--精品
精品---
**政务大数据交换共享平台建设方案
电子政务公共数据开放共享促进政府和公众互动,让政务透明, 帮助政府进行社会管理和解决社会难题,大数据时代下,政府是整 合开放的平台,是一个大数据共享平台, 它建立了公众与政府间的 沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线 交互让民众成为政务流程的节点,透明政务,让公众参与到政策制 定与执 行、效果评估和监督之中,使民众参政议政成为可能。大数 据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促 进经济社会快速发展。
2、实现数据融合,打造智慧政府
电子政务公共数据开放共享真正跨越了政府内部协同的鸿沟, 大大提高工作效率,降低政府运行成本。其一,政府内部协同除思 想理念上的障碍外,技术上也存在一定障碍,随着大数据技术发展, 跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部 纵向、横向部门得以流畅协同。其二,由于利用大数据技术,数据 获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降 低了政府开支。例如,政府利用大数据对社会人群进行细分,对不 同人群进行针对性服务和政策施行。
3、实现科学决策,打造责任政府
电子政务公共数据开放共享提高政府决策的科学性和精准性, 提高政府预测预警能力以及应急响应能力,越来越多的政府摈弃经 验和直觉,依赖电子政务的数据和分析进行决策。现在大数据又超 越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图
-9-
--精品
精品---
**政务大数据交换共享平台建设方案
表等都可以进行深度挖掘、人工智能。大数据的深入及广泛应用会 给政府带来科学和精准的决策支持。
4、为**电子政务提供一个安全可靠的信息资源存储中心 对各部门的共享交换的数据资源进行统一的规划管理和应用, 建设集约化的数据资源存储中心,从而避免了各部门重复建设工作; 同时提高数据安全方面的建设,从硬件设备、网络、信息资源、应 用系统、管理平台、数据库等方面的全面保证数据的安全性,并根 据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的安全 设计,并在应用服务上提供安全检测服务。
5、为**电子政务提供一个高效的应用服务平台
**电子政务公共数据开放共享平台的建设,为政府应用系统和 信息资源的高效管理和服务提供手段,通过对相关的基础信息、业 务信息、服务信息进行管理,实现**电子政务公共数据开放共享平 台的信息管理和服务功能。城市级交换共享平台则对各部门的信息 资源提供交换共享支撑,以提高信息资源的综合利用水平。通过整 合各部门数据信息,建设基础信息库,并提供对外服务,实现**电 子政务公共数据开放共享平台的服务功能。
6、为**电子政务提供一个长效和可维护的信息服务体系 **电子政务公共数据开放共享平台的建设要对**电子政务体系 提供长久的服务,因此在管理和运维上必需配备相应的支撑。这一 方面取决于管理制度的完善、管理手段的完备和对管理本身的技术 支撑,另一方面,也取决于人员的配备和运维体系的建立。
-10-
--精品
精品---
**政务大数据交换共享平台建设方案
1.4 业务功能、业务流程和业务量分析 1.4.1 用户角色分析
**电子政务公共数据开放共享平台的用户分为:领导、各部门、 企业单位及社会公众。 1.4.1.1 政府领导
**电子政务公共数据开放共享平台有价值的数据、行政地图、 决策方法和应急进行融合,采用大数据分析技术,有利于各级领导、 管理决策人员方便、直观、形象地进行各种分析,从而使统计决策 的科学化、人性化、智能化管理走上一个新台阶。 1.4.1.2 政府部门
可以向**电子政务公共数据开放共享平台提供数据或使用平台 提供的数据;业务部门之间可以通过系统平台交换共享数据;遵循 标准规范进行业务系统的建造和改进,可实现业务系统和数据开放 共享平台的对接。 1.4.1.3 社会公众
可以依托**电子政务公共数据开放共享平台提供的应用服务对 公众需求做出快速反应,公众可以更直接广泛的获得政府提供的服 务,如证照协同、社保电子传递等。 1.4.1.4 企业单位
通过**电子政务公共数据开放共享平台提供的应用服务可以方
-11-
--精品
精品---
**政务大数据交换共享平台建设方案
便企业进行业务级信息查询,并可通过业务协同对企业提供事项审 批、信息推送服务。
1.4.2 业务功能分析
1.4.2.1 数据共享
在政府部门内部强调的是共享共用。先把政府部门内部及部门 之间数据共享的工作做起来。各级政府都以数据应用为导向,需要 什么数据就共享什么数据。
部门间的信息共享,综合考虑管理难度和技术难度建议分为三 个阶段:“条线内部门共享”、“平级跨部门共享”、“跨层级和跨区域 的共享”,通过统一规划,逐步推进的策略,打造部门间信息资源共 享共用的新格局。 1.4.2.2 数据开放
对社会的数据开放,先从方便百姓生活又不是很敏感的数据开 始。特别是涉及公共安全、公共利益的数据,提供公共服务的机构 或企业有义务在一定前提条件下开放,这样一些可以预警、预防的 群体性事件就能够避免。
按照社会关注程度、数据量大小和具体实施难度,数据开放建 议分为三个阶段:“业务统计数据”、“少量高频数据”、“重点业务数 据”。通过以安全为前提,重点关注优先试点,逐步扩大范围为原则, 稳步推行数据服务开放。
-12-
--精品
精品---
**政务大数据交换共享平台建设方案
1.4.2.3 数据融合
政务大数据归根结底,还是要面向行业应用的,需要基于不同 的业务部门开展,并和现有平台建立联系。
融合应用可以分为“数据融合”、“业务融合”、“产业融合”三个层 次:其中,数据融合是把本单位数据、从其他单位共享的数据,以 及互联网等社会相关的数据,相互融合,相互比对,建立融合数据 资源中心,统一数据标准和口径。
业务融合主要围绕各行业的特定业务场景,比如交通出行、医 疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分 析体系,支撑城市运行和城市治理的方方面面。
产业融合,随着一大批大数据处理、大数据分析、大数据运营 企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平 台,数据交易平台等形式,引入社会资本共同参与城市建设和社会 治理,实现向集约型、服务型、智慧型政府的转变。
-13-
--精品
精品---
**政务大数据交换共享平台建设方案
1.4.3 业务流程
开 始
从 缓 冲 区 增 量 数 据 表 中 获 取 人 口 增
量 数 据
否
根 据 证 件 类 型 判 断 证 件 号 是
否 符 合 规 范
将 该 条 增 量 数 据 插 入 异 常 表 中
通 过 证 件 号 判 断 该 人 是 否 存
在 于 人 口 主 表 中
是
否
将 人 口 库 【 人 口 增 量 数 据 表 】
中 该 人 口 记 录 删 除
通 过 【 部 门 业 务 系 统 提 供 字 段 配 置 表 】 得 到 该 业 务 系 统 需 采 集 的 字 段
且 循 环 这 些 字 段
是
否
根 据 证 件 号 码 和 类 型 更 新 【 人 口 基 础 信 息 表 】 及 【 专
题 表 】 的 字 段
判 断 人 口 库 该 字 段 值 的 来 源
是 否 是 该 业 务 系 统
否 判 断 新 采 集 的 字 段 值 是 否 为
空 否 判 断 人 口 库 库 该 字 段 值 是 否
为 空 是
否 是
根 据 证 件 号 码 和 类 型 更 新 【 人 口 基 础 信 息 表 】 及 【 专 题 表 】 的 字 段 值 更 新 【 字 段 来 源 表 】 中 该 字 段
的 来 源 循 环 人 口 库 需 采 集 该 业 务 系
统 的 字 段 是 否 结 束 将 人 口 库 【 人 口 增 量 数 据 表 】 中 该
人 口 记 录 删 除
结 束
否
是
将 该 人 口 记 录 插 入 到 【 人 口 基 础 信 息 表 】 及 【 专 题 表 】
否
判 断 该 业 务 系 统 的 数 据 是 否 是 业 务 上 的 新 增 ?
是
判 断 该 业 务 系 统 是 否 为 该 字 段 的 权 威 来 源
将 该 人 口 记 录 字 段 来 源 插 入 到
【 字 段 来 源 表 】
1.4.4 业务量分析
业务量分析可以从平台交互量、每天总用户数(个)、每天每个 用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高 峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进 行综合估算。**互联网大数据分析平台的业务量估算如下表所示:
表 3-1 业务量估算
序号 1 2 3 4
数据名称 平台交互量 每天总用户数(个) 每天每个用户平均执行操作数 高峰时段交互量占全天交互量的
百分比
-14-
--精品
数据量 200(日均)
100 1000
60%
精品---
**政务大数据交换共享平台建设方案 数据量
4(9:00-11:00,15:00-17:00)
60(日均)
序号 5 6 数据名称
高峰时段持续时间(小时) 高峰时段在线用户数(个)
1.5 信息量分析和预测 1.5.1 存储量分析
本项目中存储的数据主要包括两大部分:系统网站群的在线行 为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内 容数据。在线用户行为数据以符合 W3C格式标准的日志形式进行存 储。网站内容更新数据直接存到关系型数据库或其他非关系型数据 库中。
1、在线行为数据存储量
网站群的在线行为数据存储主要分为三部分: (1)接收数据,是系统储存的原始数据。
(2)结构化数据,将原始数据进行数据清洗和去重后进行结构 化后存储。
(3)分析数据库,将结构化的数据进行分析预计算后存储。 按照本项目需要涵盖**系统网站群的 500个网站,每个网站的 日平均访问按照 10000个 PV计算,预计每日需要处理的总的 PV数 为 500万。
接收数据的测算依据及结论
其中接收数据库的主要条目占用空间,如下表所示:
单个 PV所要储存的信息 访问路径信息
-15-
--精品
空间大小(字节)
1600
精品---
**政务大数据交换共享平台建设方案
1120 256 2976 512 1120 128 256 2016
来源路径信息
其他信息(会话标识、Cookie标识、时间信息等) 汇总
单个 Session所要储存的信息(1个 Session大约产生 4PV) 访问路径信息 来源路径信息
客户端信息(IP、浏览器等)
其他信息(会话标识、Cookie标识、时间信息等) 汇总
单个 Cookie所要储存的信息(1个 Cookie大约产生 1.25Session) 访问路径信息
其他信息(Cookie标识、时间信息等) 汇总
512 256 768
例如:
按照其他同类项目的数据估算,PV和 Session数量比为 4:1, Session和 Cookie的数量比为 1.25:1。则 500万的 PV会产生 125 万 的 Session 以 及 产 生 100 万 的 Cookie, 总 占 据 空 间 为 5000000*2976+1250000*2016+1000000*768=18G,包括索引以及其他 表占用的空间之后,约为 20G。原始日志存储到 SQL Server中会采 用压缩技术,大小将降为 5G。
结论:对于接收数据库,采用了压缩和优化技术后,每 500 万 PV 至少需要 25G 的储存空间。
结构化数据的测算依据及结论
**系统政府网站群监测分析调度系统的结构化数据库和原始数 据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结 构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原 始数据的一半,也就是 2.5G。
-16-
--精品
精品---
**政务大数据交换共享平台建设方案
结论:对于结构化数据库,采用了压缩和优化技术后,每 500 万 PV至少需要 2.5GB的储存空间。
分析数据的测算依据及结论
**系统政府网站群监测分析调度系统的分析数据库内容基本是 结构化数据库的拷贝,大小与结构化数据库基本一致,也为 2.5G。
结论:对于“决策支持系统”的分析数据库,采用了压缩和优 化技术后,每 500万 PV至少需要 2.5GB的储存空间。
综上所述,在不做任何备份的情况下,每 500万的 PV,需要文 件存储空间为:25GB + 2.5GB + 2.5GB=30G。
到 2015年底的存储量为 10.5T,到 2019年底的存储量为 52.5T, 具体测算如下表所示:
单月数据量(G) 保留周期(月) 一年内需要存储 五年内需要存储
接收日志 25*30=750
60 9000 45000
明细 汇总数据 2.5*30=62.5 2.5*30=62.5
60 60 750 750 3750 3750
合计
875G 60 10.5T 52.5T
2、在线内容数据存储量
国内外互联网重点渠道和信息源
按照本项目需要面向国内外互联网重点渠道和信息源进行在线 内容采集爬取,按照覆盖包括主流媒体在内的 200个信息源,每个 信息源爬取 3级计算,平均每天可以爬取更新的总的页面数约为 30 万 个 , 每 个 页 面 按 照 100KB 计 算 , 共 需 要 占 用 的 空 间 为 30W*1000KB=30G。
-17-
--精品
精品---
**政务大数据交换共享平台建设方案
到 2015年底的存储量为 10.8T,到 2019年底的存储量为 54T, 具体测算如下表所示:
单月数据量(G) 一年内需要存储 五年内需要存储
国内外互联网重点渠道和信息源
30万*30=900G
10.8T 54T
**级以上政府网站群
**级以上政府网站群网站内容更新数据主要包括以下三部分: 网站更新页面、网站更新的入口,网站更新的白名单。
按照本项目需要涵盖**系统网站群及**各级政府网站群的 6500个网站,平均每个网站每天更新 10个页面,就是 6.5万个。
如果每天爬取 10次,就是 10×6500=6.5 万个入口,每个网站 算 10个白名单,那就是 10×6500×10=65 万个白名单。
总共是 6.5万+6.5万+65万=78万,共需要占用的空间为 78万 页*100KB/页=78G。
到 2015 年底的存储量为 28.08T,到 2019 年底的存储量为 140.4T,具体测算如下表所示:
单月数据量(G) 一年内需要存储 五年内需要存储
更新页面数据 6.5*30=195 2.34T 11.7T
网站入口数据 白名单数据 合计 6.5*30=195 65*30=1950 2340G 2.34T 23.4T 28.08T 11.7T 117T 140.4T
综上所述,系统的数据存储总量如下表所示:
表 3-2 数据量估算表
序号
1 2 3 合计
数据名称 在线行为数据
互联网重点渠道和信息源 **团以上政府网站群
初始量 10.5T 10.8T 28.08T 49.38T
5年内的增量
52.5T 54T 140.4T 246.9T
-18-
--精品
精品---
**政务大数据交换共享平台建设方案
1.5.2 处理量分析
(1)网站群用户访问行为数据处理量分析
以每天 725万个客户端访问(包括 500万 PV、100万 Session、 125万 Cookie)并发计算,结合在线行为数据的接收主要集中在工 作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务 器接受每秒钟接收日志请求 251个,远远低于系统的每秒接收到的 正常数(该值通常为 7000-9000)。
根据日志接收每秒钟的并发量为 251,因此系统的数据接收只 需要再用两台服务器做负载均衡即可。但是为了防止数据接收网站 的域名出现单点故障,因此系统的数据接收采用双域名备份,即每 个域名对应两台数据接收服务器,一共四台。
根据系统需要满足**政府网站智能分析系统诊断的需要,目前 系统的单台服务器的数据处理能力为 400家左右,因此需要 4台数 据库服务器,另外需要两台相同配置的数据库服务器作为备份。
(2)其他在线内容数据处理量分析
一是系统需要支持对不少于 108万个数据采集点每天至少一次 轮询抓取,同时对抓取回的数据进行数据预处理和清洗入库工作, 二是需要实现对存量数据和增量数据的指标自动抽取和更新工作, 三是需要支持前台交互系统的交互分析挖掘需求。
结合以上几部分需求,预计所需的内容数据处理服务器约 50 台。其中较高性能处理服务器(单机 20 核服务器 CPU:2660*2 MEM:144G DISK:SSD 480G*2+SAS 4T*6,万兆网卡,远程管理,双电
-19-
--精品
精品---
**政务大数据交换共享平台建设方案
源)10 台,中等性能处理服务器(单机 12 核服务器,CPU:2620*2 MEM:32G DISK:4T*10,万兆网卡,远程管理,双电源)10台。较低 性能服务器(单机 12 核服务器,CPU:2620*2 MEM:72G DISK:SSD 480G*2+SAS 600G*4,万兆网卡,远程管理,双电源)30台。
1.5.3 网络流量分析
按每天处理 725万在线行为数据,每条数据为 10KB大小,108 万条在线内容数据,每条 100KB计算,需要的平均带宽为 17Mbps, 高峰时期按 3倍带宽需求计算为:51Mbps,GE链路接入可以满足需 求,出于冗余考虑,建议使用双 GE链路(主备)进行接入。
1.6 系统功能和性能需求分析 1.6.1 系统功能指标
1.6.1.1 数据存储功能
政府数据量很大,海量数据的处理与传统架构完全不同,原有 小型机加商业数据库的方式已不能完全胜任,部分领域数据需要引 入新架构。大数据存储于处理架构包括分布式存储、分布式资源管 理及分布式文件架构。 1.6.1.2 数据汇聚功能
数据汇聚功能要求实现将各部门相关的信息资源统一采集交换 到数据中心前置库中,满足多种采集方式,能够满足不同的网络环 境、不同的数据类型等情况下进行数据的采集,并对采集的数据进
-20-
--精品
精品---
**政务大数据交换共享平台建设方案
行处理,进入中心库保存。**电子政务公共数据开放共享平台的数 据汇聚功能包含数据采集、数据交换、数据处理等功能。 1.6.1.3 数据治理功能
政府数据在共享共用、开放运营及行业应用过程中,数据来源 于各个业务系统,只有建立对数据质量的信任,才能放心地进行使 用。所以数据治理和质量保障在政府数据开放共享平台建设中显得 由为重要,数据开放共享平台数据治理功能主要包括信息资源目录 管理、元数据管理和数据质量管里等内容。 1.6.1.4 数据运营功能
数据运营功能聚焦对数据共享、开放、融合的提供,对提供服 务授权、认证、过程进行统一管理,并提供数据开放共享平台运行 过程的全程监控。数据开放共享平台数据运营功能主要包含服务管 理、基于服务管理的数据开放、以及运行监控等内容。 1.6.1.5 数据应用功能
数据共享、开放的最终目标都是为了要创造价值,数据的价值 主要通过应用进行体现。数据开放共享平台数据应用主要是政务数 据分析功能,主要包括数据采集、数据分析、结果发布三个组成部 分,能够实现实时、批处理、交互分析,最终通过报表、仪表盘、 API等形式展示结果。
-21-
--精品
精品---
**政务大数据交换共享平台建设方案
1.6.2 系统性能指标
基本性能:(1)在 100M 局域网环境下进行增、删、改业务(不 含大对象数据类型)响应时间在 3 秒以内。(2)在 100M 局域网环 境下查询操作的响应时间要求在 3 秒以内。 (3)系统支持同时在 线数大于 200,并发用户数大于 50。
数据交换:(1)批量数据交换中,平均单条记录数据交换的时 间不大于 20 毫秒。 (2)非并发大批量数据交换(百万条)的时 间不大于 5,000 秒。(3)批量数据交换中,平均单条记录入库的响 应时间不大于 20ms。
数据查询:(1)查询基础数据(精确匹配)的响应时间不大于 3 秒。 (2)查询单个数据主题(百万级)的响应时间不大于 3 秒。 (3)目录检索的响应时间不大于 2 秒。(4)查询统计报表(非实 时统计)的响应时间不大于 3 秒。
1.7 信息系统装备和应用现状与差距 1.7.1 现状
政府数据碎片化严重。我国电子政务取得了较快发展,政府各部 门以及公共服务机构在履职过程中形成了大量的数据资源,这些数 据分散在各个部门,由于管理体制、法律法规、历史惯性以及部门 间利益等方面的原因,**电子政务建设和发展一直处于“条块分割, 各自为战”的状态,不同区域、不同领域、不同部门之间电子政务
-22-
--精品
精品---
**政务大数据交换共享平台建设方案
业务系统之间不相融通,造成了众多“信息孤岛”,难以实现业务协 同和规模效用,甚至连基本的部门间信息数据交换都难以实现,大 量的政府数据处于“休眠”状态,数据碎片化问题严重。
政府大数据开放困难。“用数据说话、用数据决策、用数据管理、 用数据创新”的决策机制没有形成,政府部门使用大数据的动力不 足;规范标准、数据所有权和使用权问题、开放尺度等操作层面的 缺失,也成为阻碍数据共享开放的重要原因。
1.7.2 差距
顶层规划相对滞后。…**政务数据共享仍处在专家推动、企 业宣贯、技术主导的阶段,全面统筹、应用主导、资源整合、聚 合发展的局面仍未形成。大数据氛围不足,政府运用大数据对市 场主体服务和监管的主动性不够。
1.8 项目建设的必要性
建设**电子政务公共数据开放共享平台,是建设公共服务型政 府的重要内容,也是建立网络化政府管理新模式的必然趋势。
建设政务数据开放共享平台是简政放权的需要
简政放权是本届政府推进治国方略的主要抓手和先手棋。但现 实中简政放权却遭遇各种难题,集中表现在简政未尽比如一些地方 要求出具的各种奇葩证明不断,再就是是放权不力,一些地方一些 部门迟迟不愿放权或不敢放权。深入研究这些问题背后,固然有一
-23-
--精品
精品---
**政务大数据交换共享平台建设方案
些部门携私滥权、捞好处的成分,但很多时候,更重要的原因就是 时下我们不同级别、不同地区,甚至同一个地方的不同政务部门之 间,缺乏必要的政务信息数据沟通,使得政务部门之间出现了信息 孤岛,为了严肃起见或责任问题,不可避免地会出现一些繁杂的证 明,甚至在外人看来很奇葩的证明;或者是因为信息不通不明,心 里没底,不敢轻易放手放权。就此意义上讲,简政放权也需要政务 大数据建设的配合和助推。
建设政务数据开放共享平台是政府职能转变的需要 从内部管理的角度看,政府需要降低行政成本、提高决策的科 学化水平。在信息化时代,政府机构、职能有效发挥依赖高效、实 时的信息系统、尤其是大数据的支持。信息化时代,政府掌握着大 量的、关键的数据,是数据时代的财富拥有者,但以往由于信息技 术、体制机制等限制,各级政府及各部门之间的信息网络往往自成 体系,相互割裂,相互之间的数据难以实现互通和共享,导致目前 政府掌握的数据大多处于割裂和休眠状态。同时由于政府各部门信 息系统分割,许多数据往往需要重复采集,数据采集成本较高。随 着大数据和云计算技术的发展,建设统一的政府数据共享平台成为 可能。通过统一的信息平台,实现数据的标准、格式的统一和共享, 利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作 效率明显提高,有利于压缩政府开支,降低行政成本。同时,对于 数据的统一和共享所产生的大数据,通过数据挖掘等技术,能够增 强政府社会管理水平。大数据在政府和公共服务领域的应用,可有
-24-
--精品
精品---
**政务大数据交换共享平台建设方案
效推动政务工作开展,提高政府部门决策的科学化水平、服务效率 和社会管理水平。
从对外服务的角度看,政府提供公共服务、促进经济社会发展 的职能发挥同样需要大数据支持。政府掌握了大量关于人口、法人 和城市空间地理等数据,提供满足群众需求、针对性的公共服务需 要对所掌握数据的精细分析。凭借大数据,城市公共卫生、教育、 城市规划、交通服务能够得到改善,基于大数据分析结论的政府公 共服务决策能够更好的满足市民需求。目前,各个地方政府大力兴 建智慧城市,智慧城市建设已成为国内信息化建设的潮流,“智慧” 的关键在于对大数据的研究,只有利用大数据分析,才能实现电子 政务信息系统有效整合,实现跨部门的政府信息资源共享和政务协 同,让政府的管理服务效能提升,让民众感受到政府无处不在服务。 政府另一项职能是促进经济社会发展,如在经济异常波动时实施宏 观调控,政府对大数据信息的掌握和分析,直接决定了宏观调控的 效果。
-25-
--精品
精品---
**政务大数据交换共享平台建设方案
第二章 总体建设方案
2.1 建设原则
为了保证系统建设达到预期目标,在进行系统的设计、开发、 部署和运行管理规划时将遵循如下原则。
2.1.1 统一性原则
遵循国家电子政务的要求,以系统工程的方法对系统进行统一 规划、统一设计,遵循统一的规范,采用统一的技术,以方便系统 建成后的运行和维护,保证系统可持续、高效、安全运行。
2.1.2 可靠性原则
本系统在设计时将充分考虑政务资源交换平台对可靠性的要 求,保证系统的高可靠、高可用性,尤其是保证关键业务的连续不 间断运作和对非正常情况的可靠处理。 2.1.3 可伸缩和可扩展性原则
系统应该真正符合多层浏览器/服务器体系结构,应能满足新增 的需求,而系统的体系结构不需做较大的改变,并能保证系统今后 的平滑升级。
应充分考虑现有技术以及未来电子政务的发展要求,保证系统 具有较好的开放性和结构的扩展性,在系统设计中应尽量采用模块
-26-
--精品
精品---
**政务大数据交换共享平台建设方案
化结构、提高各模块的独立性,尽可能减少模块间的数据藕合,使 各子系统问的数据依赖程度减至最低限度,同时,要适当兼顾今后 需求扩大时对功能扩展的需要。
交换平台和节点应具备支撑多个应用系统的能力和节点个数的 易扩充性。
2.1.4 开放性原则
全面支持 XML、Web Service、SOAP、LDAP、UDDI等当前受到普 遍支持的国际开放标准,保证系统能够与其它平台的应用系统、数 据库等相互交换数据并进行应用级的互操作性和互连性。
2.1.5 安全性原则
既要注重系统本身防御外部攻击的能力,又要提高数据传输的 安全性,要遵循相应的保密规范,保证系统安全保密性、查错纠错 能力、抗病毒能力等。
2.1.6 高效性原则
系统的运行效率主要包括:处理能力,处理速度,响应时间等。 系统在满足其他各项功能需要的前提下,应可能地提高系统运 行效率。
2.1.7 友好性原则
系统应具有人性化的人机交互界面,要求用户界面标准,统一
-27-
--精品
精品---
**政务大数据交换共享平台建设方案
集成,使用简单,减少使用的复杂程度,提高使用效率。
2.1.8 可管理易维护性
由于电子政务公共数据开放共享平台系统,使用面广,系统稳 定性可用性要求高,因此平台还必须具有良好的可管理和易于维护 的特点。
2.2 总体目标与分期目标
**电子政务公共数据开放共享平台项目建设目标是,依托**统 一的“云”数据中心建设**统一的公共数据开放共享平台。集中** 机关各部门业务应用进行,制定相关的数据规范和信息交换标准, 使机关各部门业务系统依托统一的开放平台进行开发建设。确保部 门之间系统之间的互联互通、数据共享,为**大数据分析提供数据 依据。
1. 项目一期:第 1个月-第 12个月(……)
一期完成可行性方案编制、论证,以及项目招标工作;在项目 实施阶段进行 5-6个**政府部门信息资源规划试点,摸清试点部门 信息资源底数,并建立信息资目录动态管理体系,汇聚资源目录信 息资源,并可以实现信息资源的初级共享;构建人口、法人库、实 现查询、共享、服务能力,着重建设围绕人口的相关分析展示;为 政府主要业务系统提供数据共享支持;根据汇聚的信息资源,逐步 进行政府数据开放。
-28-
--精品
精品---
**政务大数据交换共享平台建设方案
2. 项目二期:第 9个月-第 20个月(……)
在一期信息资源规划试点的基础之上总结经验,逐步将范围扩 展到全部政府部门,形成全**的信息动态管理体制,并对数据进行 治理,优化质量;建设经济、地基础数据库的查询、共享及服务能 力;建设政务数据应用平台,基于前期汇聚的大量数据建立分析模 型,依托大数据分析工具进行可视化,全面提高**信息资源应用水 平,支撑政府治理现代化。
2.3 总体建设任务与分期建设内容
**电子政务公共数据开放共享平台项目建设内容包含:一套标 准规范、两个数据门户、四大应用平台、四大基础数据库和一个应 用支撑平台。
具体建设内容包括: 1、一个应用支撑平台
为了对需要调用电子政务公共数据开放共享平台信息资源的政 府部门应用系统进行有效管理,面向各类电子政务应用,规划建设 统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、 服务管理等核心组件,可以对接入系统有效管理、实现统一认证及 单点登录、统一消息服务。
2、两个数据门户
针对政府部门用户建设信息资源政务门户,针对企业、公众用 户建设信息资源开放门户。
-29-
--精品
精品---
**政务大数据交换共享平台建设方案
3、四大应用系统
建设承载电子政务公共数据汇聚平台、数据治理平台、数据运 营平台和数据应用平台。
4、四大基础数据库
通过电子政务信息资源梳理,制定四大基础数据库的建库、入 库和管理规则,建立四大基础数据库管理平台,提供基础库内容管 理、数据处理、共享和应用功能。
四大基础数据库包括人口库、法人库、经济库和地理库。 5、一套标准规范
形成标准规范体系,包括管理制度、标准规范、数据标准等。
一期项目建设 数据汇聚平台 数据治理平台 数据运营平台
人口库 法人库 应用支撑平台
二期项目建设 数据应用平台
经济库 地理库 信息资源政务门户 信息资源开放门户 标准规范体系
2.4 总体设计方案
在《国家电子政务总体框架》中对国家电子政务总体框架的构 成有明确的定义:“国家电子政务总体框架的构成包括:服务与应
-30-
--精品
精品---
**政务大数据交换共享平台建设方案
用系统、信息资源、基础设施、法律法规与标准化体系、管理体制。 推进国家电子政务建设,服务是宗旨,应用是关键,信息资源开发 利用是主线,基础设施是支撑,法律法规、标准化体系、管理体制 是保障。”
**电子政务公共数据开放共享平台的总体框架的建设基本遵循 了《国家电子政务总体框架》,将服务与应用系统、信息资源、基 础设施作为一个整体基础设施,使信息资源共享、开放、融合进入 具体的可操作阶段。另外,对信息资源服务和应用方向、信息资源 采集和更新、信息资源公开和共享、基础信息资源建设提出了具体 要求,将有力推动**电子政务公共数据开放共享平台建设。
**电子政务公共数据开放共享平台的总体框架由六个层面,两 大体系构成。六个层面由基础设施层、信息资源层、应用支撑层、 应用层、服务层、用户层组成;两大体系由标准规范体系和安全保 障体系构成。
**电子政务公共数据开放共享平台的总体架构如下图所示:
-31-
--精品
精品---
**政务大数据交换共享平台建设方案
总体设计架构分为六层设计,包括用户层、服务层、应用层、 应用支撑层、信息资源层和基础设施层。
在整个架构中每一次将贯穿信息资源安全管理体系、数据标准 规范体系,全面保障**电子政务公共数据开放共享平台的整体安全 和数据标准,通过与各业务部门的业务应用系统进行接口对接实现 各类用户的应用服务。
2.4.1 基础设施层
基础设施层主要包括网络、服务器群集、存储设备、安全设备、 操作系统、数据库系统等,是构成平台运行的重要基础。
-32-
--精品
精品---
**政务大数据交换共享平台建设方案
2.4.2 信息资源层
信息资源层集中管理多部门需要交换和共享的数据资源,包括 以下三类:
1.交换信息库:为实现信息交换而建立的中间存储信息库,交 换信息库主要包括提供和接收的交换信息,交换信息库由部署在** 电子政务公共数据开放共享平台的交换信息库和部署在交换节点的 前置交换信息库组成。
2.目录信息库:目录信息库主要存储由编目系统提取部门共享 信息资源的基本特征而形成的目录内容,包括目录元数据信息、目 录信息、目录分类信息、目录审核信息、目录发布信息等。
3.共享信息库:共享信息库主依托目录信息,存储了各部门的 信息资源,由交换信息库经过数据处理进入共享信息库。
4、基础数据库:基础数据库主要包含人口库、法人库、地理库、 经济库构成,其根据各自的业务逻辑,由共享信息库数据经过相关 规则处理生成。
5、业务主题数据库:业务主题数据库主要包含电子证照库、诚 信库等,根据各自业务关联逻辑,由共享信息库经过相关规则处理 生成。
6、数据仓库:数据仓库主要是根据大数据分析应用场景,从共 享库、基础库、业务库等采集进入,支持大数据分析应用。
-33-
--精品
精品---
**政务大数据交换共享平台建设方案
2.4.3 应用支撑层
应用支撑层包括支持应用开发的 JavaEE技术框架,支持平台设 计的 SOA体系架构,实现服务接口标准化的 Web Service、XML等技 术,以及包括数据适配器、服务总线、流程引擎、消息中间件、等 相关支撑中间件组成,为构建**电子政务公共数据开放共享平台提 供应用支撑。
2.4.4 应用层
**电子政务公共数据开放共享平台的应用层是数据开放共享平 台的核心,是实现数据共享、开放、融合分析业务的应用基础,包 括数据汇聚平台、数据治理平台、数据运营平台、数据应用平台等 基本内容,及其根据需求可以扩展的基础库应用如人口库应用系统、 法人库应用系统、地理库应用系统、经济库应用系统;协同应用如 市场综合监管、民政低保核对等;融合分析如产经济分析等。
2.4.5 服务层
服务层构建两个门户,主要包含信息资源政务门户、信息资源 开放门户,为政府用户、企业市民用户分别提供信息资源查询、共 享服务。
2.4.6 安全保障体系
安全保障体系贯穿于**电子政务公共数据开放共享平台建设的 各个层面,平台各系统的建设都必须釆取相应的安全保障措施,保 证平台安全可靠运行。包括网络安全、系统安全、应用安全、数据
-34-
--精品
精品---
**政务大数据交换共享平台建设方案
安全等四方面的相关管理制度以及技术要求。根据公安部等 4部委 《信息安全等级保护管理办法》(公通字〔2007〕43号)规定,**电 子政务公共数据开放共享平台实行信息安全等级保护制度,安全保 护等级为第三级。
2.4.7 标准规范体系
**电子政务公共数据开放共享平台的建设和运维要遵循统一的 标准规范体系,它是平台各系统得以顺利建设和正常运行的基本保 障。标准规范体系的建设包括制定资源提供方、信息资源管理方、 信息资源使用方、平台运维管理单位等行为管理制度;完善电子政 务标准规范体系,建立信息资源共享交换相关标准。制定信息资源 相关业务规范。
平台建设将参照国家《GB/T 21062-2007政务信息资源交换体 系》和《GB/T 21063-2007政务信息资源目录体系》,逐步建立符 合实际的信息资源体系建设配套标准。
-35-
--精品
精品---
**政务大数据交换共享平台建设方案
第三章 项目建设方案
3.1 标准规范建设 3.1.1 管理制度建设
管理制度本身是由人来制定和执行的,定应尽量做到科学全面, 符合实际情况,使人们在接受制度管理时,能够乐于接受。信息资源 共享交换体系的建设涉及资源提供方、资源管理方、资源使用方、平 台管理运维单位、平台建设单位等其他相关部门及人员,管理对象包 括信息资源、平台软件系统。信息资源共享交换体系自订管理制度是 信息资源能够长效共享交换的关键因素,包括信息资源管理维护制 度、技术平台管理维护制度两类。 3.1.1.1 项目建设管理制度
项目建设制度是在平台建设期间为建设方、承建方的工作提供指 导性意见的制度
信息资源共享项目可以分为资源建设、平台建设和应用(服务) 建设三大类,与原来以部门为中心的建设不同,大都是跨部门的建设 需要项目的计划、投资、立项、招投标、建设、验收、运行维护、外 包(特许经营)、项目成果、试点示范等全项目生命周期进行管理。
本制度依循《国家电子政务工程建设项目管理暂行办法》相关章 节进行制定。
-36-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.1.2 资源管理维护制度
资源管理维护制度涵盖信息资源目录的采集、编目、注册、审核、 发布、注销、访问的整个生命周期以及资源提供方、资源需求方、资 源管理方等相关涉众,包含四个方面的内容: 3.1.1.2.1 信息资源公开制度
通过本制度,鼓励政务部门公开内部可共享信息资源,规范约束 资源提供方及时准确提供最新共享信息资源,明确资源提供方的信息 公开职责,公开信息资源的备案制度,奖惩考核办法等。信息资源公 开制度还需要针对信息资源公开方式、公开周期、公开程序作详细规 定。
3.1.1.2.2 信息资源动态管理制度
信息资源目录体系管理架构包括三类角色、六类活动,三类角色 资源目录的提供方、管理方和需求方,六项活动包括编目、注册、审 核、发布、管理和使用。信息资源动态管理制度的目的就是规定三类 角色的职能,以及六类活动的操作流程。
提供方的管理职责主要包括在**电子政务公共数据开放共享平 台中对本部门的信息资源进行编目,设置本部门信息资源的使用权 限,注册信息资源目录,更新信息资源目录版本已经提供与目录关联 的资源的定位信息(服务地址)。
-37-
--精品
精品---
**政务大数据交换共享平台建设方案
管理方的管理职责主要包括管理信息资源标识符前段码、后段 码,审核提供者的目录注册请求,发布目录内容,管理目录内容以及 提供目录查询服务。
需求方的管理职责主要是在授权允许的范围内对目录内容进行 查找、获取和使用。
六类活动由不同角色负责完成,其中编目由提供方完成,注册由 提供方和管理方配合完成,审核、发布、管理由管理方完成,使用由 需求方完成。具体操作规程与要求,按照信息资源目录体系第 2部分: 技术要求(GB/T21063.2-2007)第 4章的规定执行。
本制度参考信息资源目录体系第 6部分:技术管理要求 (GB/T21063.6-2007),根据实际情况进行建设。 3.1.1.2.3 信息资源安全管理制度
本制度保证信息资源在采集、存储、备份、访问授权、传输、使 用等过程中的安全,规范信息资源保密等级和使用限制。
安全管理制度规定信息资源使用权限、使用配额的申请流程,规 范信息资源的使用限制和安全保密制度。
**电子政务公共数据开放共享平台的目录日常管理釆取多人负 责、职责分离的原则,并制定严格的操作规程。 3.1.1.2.4 信息资源共享查询制度
本制度明确信息资源使用方共享查询信息资源的管理流程,获取 信息资源后的备案制度等。
-38-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.1.3 平台管理维护制度
平台管理维护制度对平台的日常管理维护工作进行规范。包括共 享交换中心和前置交换机的内部管理、对外服务管理以及安全运行管 理三个部分的内容。 3.1.1.3.1 平台管理办法
为使**电子政务公共数据开放共享平台有效的运行,必须明确资 源提供方、信息资源使用方、平台管理运维单位、平台建设单位等其 他相关部门及人员在平台运行维护、日常管理中的责权利关系,岗位 职责等。
平台管理办法适用于干台中心的日常管理、前置交换机的对接与 管理以及**电子政务公共数据开放共享平台的日常维护,分为平台管 理要求、平台运行维护要求两大部分的内容。 3.1.1.3.2 平台对外服务管理办法
本办法说明技术平台为各部门应用系统提供的支撑服务,技术平 台支持的不同接入方式,每种接入方式的特点及适用范围,各政府部 门将应用系统接入到技术平台过程中,应该填写的表单、所遵循的工 作流程等。
3.1.1.3.3 平台安全运营管理制度
本制度从技术平台部署环境、设备安全,运行安全,信息安全, 人员安全,运营管理,安全审计等各方面做出规定,全面保护技术平 台安全运营。
-39-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.1.4 考核监督制度
考核监督制度对**电子政务公共数据开放共享平台参与部门、平 台管理人员进行绩效考核。 3.1.1.4.1 部门考核制度
对作为**电子政务公共数据开放共享平台资源提供方、资源需求 方进行考核。考核的内容包括资源提供量、提供服务次数、数据质量 等内容,并设置奖励办法。 3.1.1.4.2 管理员考核制度
对平台管理人员的机房管理、平台管理等日常工作进行考核,并 设置奖励办法。
3.1.2 标准规范建设
标准规范为信息资源一致性和**电子政务公共数据开放共享平 台各参与方的互联互通互操作提供了基本的保证,应围绕信息釆集、 组织、分类、保存、发布与使用等信息生命周期各环节建立规范和标 准。**电子政务公共数据开放共享平台建设中需制订的标准规范大致 如下:
3.1.2.1 平台建设标准
平台建设标准规定了**电子政务公共数据开放共享平台的总体 架构、硬件和网络要求、技术要求、服务接口、前置机接入标准等内 容,由以下几个部分组成:
-40-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.2.1.1 平台总体框架
规定支撑**电子政务公共数据开放共享平台的信息系统、信息库 组成,及其之间的相互关系。信息系统主要包括:综合管理系统、前 置管理系统、交换传输系统、桥接系统;信息库主要包括:前置交换 库、业务信息库等。参照 GB/T21062.1-2007的规定进行建设。
本部分内容在自建标准:《信息资源交换体系总体框架》中进行 详细规定。 3.1.2.1.2 接入规范
接入规范包含三个方面的内容。
1.交换中心环境要求:规定承载共享交换中心各信息库、信息系 统及其交互的基础环境的要求,主要包括硬件、网络、操作系统、数 据库软件、中间件的要求。
2.前置机环境要求:对各平台参与部门前置交换环境所需的网 络、服务器、数据库等提出配置要求,规范前置交换机器的 IP地址、 交换节点服务器的命名规则、各项配置要求,方便各部门技术人员快 速搭建本单位前置交换环境。
网络环境要求:规定对各政务部门接入**电子政务公共数据开放 共享平台所依托的网络的要求。
本部分内容在自建标准:《信息资源交换体系接入标准》中进行 详细规定。
-41-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.2.1.3 应用接口规范
规定**电子政务公共数据开放共享平台的数据交换、数据共享和 应用支撑的应用接口标准,主要包括技术要求和接口报文规范两部 分。技术要求规范了各信息系统的技术支撑环境的功能组成及要求、 各信息系统实现互联互通的技术要求;接口报文规范规范了交换数据 格式、数据类型、表达方式等内容,并包含通信模型的规定。参 GB/T21062.2―2007以及国内大型数据交换项目的成功经验进行建 设.
**电子政务公共数据开放共享平台应用接口使用接口报文来表 示,主要由报文头、报文体两部分组成.其中,报文头包含一些基本 的信息,比如报文唯一识别号、参考报文号、资源编号、资源版本、 源节点代码、目源赋予一个唯一不变的标识符。本部分规定了信息资 源标识符的编码方案。标识分为前端码、后段码两个部分,参考 GB/T21063.5一 2007进行建设。 3.1.2.2 安全保障规范
安全保障标准为**电子政务公共数据开放共享平台安全方案建 设提供技术指导,标准涉及物理安全、操作系统安全、网络安全、应 用安全、公钥基础设施等方面,由以下几个部分组成。 3.1.2.2.1 物理安全技术要求
本部分涉及**电子政务公共数据开放共享平台的配套部件、设备 和设施的安全性能、所处的环境安全以及整个平
-42-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.2.2.2 操作系统安全技术要求
本部分包含为实现所需安全等级的操作系统应当釆取的安全措 施,关于信息安全等级,参照 GB/T17859—1999的规定。本标准参考 GB/T20272—2006进行建设。 3.1.2.2.3 网络安全技术要求
本部分包含对网络设备的技术要求,如交换机、路由器、防火墙。 本标准参考 GB/T21050-2007.GB/T18018-2007、GB/T21050—2007等 规范进行建设。
3.1.2.2.4 公钥基础设施技术要求
在**电子政务公共数据开放共享平台中,公钥基础设施提供鉴 别、加密、完整性和不可否认服务。本标准对公钥基础设施的在线证 书状态协议、数字证书格式、证书管理、密钥备份与恢复、交叉认证、 认证机构的组件的建设提供指导。
参考 GB/T197137-2005、GB/T20518-2006.GB/T21053—2007等规 范进行建设。
3.1.3 数据标准建设
**电子政务公共数据开放共享平台涉及到多个应用系统的整合, 数据结构复杂,将在调研各个挂接服务和各个客户端的基础上,建立 平台本身的模型,在建立模型的过程中,应遵循以下的数据标准建立 规范:
-43-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.3.1 数据元描述方法及规则 3.1.3.1.1 数据元描述方法
信息资源的数据元由一系列属性来描述,这些属性包括: 1.中文名称:数据元的中文名称。
2.定义:描述数据元的基本内容,给出信息资源某个特的概念和 说明。
3.英文名称:数据元的英文名称,一般使用英文全称
4.数据类型:描述数据元的数据类型,对数据元的有效治愈及运 行的有效操作进行了规定。例如整型、浮点型、布尔型、字符串、期、 时间等,其中日期、时间使用特定格式的字符串来表示,参照 GB/T7408—2005执行。
5.值域:说明数据元可以取值的范围
6.短名:数据元的英文缩写。短名同时作为在报文规范里的 XML 元素的名称。
7.约束:说明数据元是否必须选取的属性,包括必需/可选。 8.最大出现次数:说明数据元的最大出现次数。不限制出现次数 则使用“N”表示。
9.注解:对约束、最大出现次数进行说明 10.示例:数据元示例
-44-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.3.1.2 短名命名规则
短名是数据元的一个关键属性,因此在对每一个数据元命名时应 采用相同的规则,来保证短名的一致性和合理性。
命名规则参考 GB/T19488.1-2004的规定进行,需要遵守唯一性 规则、语义规则、语法规则,具体如下:
1.短名应由构成指标项名称的各个成分(即对象类词、特性词、 表示词和相关限定词)的英文单词转化而来。
2.短名可以使用英文单词的全拼、缩写词、缩略词或其他的截断 表示法。这些表示法尽量与常人的认知一致,最好不要引起歧义。
3.短名应采用 Camel-Case拼写法,首字母使用小写。 4.字段名不应包括任何空格、破折号、下划线或分隔符等。 5.字段名不应使用复数形式的英文单词,除非该单词本身就是复 数形式。
3.1.3.2 目录核心元数据
目录核心元数据是描述信息资源特征所必须的数据元,主要包含 资源名称、资源分类、资源编码、资源提供方、资源的时间空间范围、 资源使用限制、资源秘密等级等元数据项。详细内容参照
GB/T21063.3—2007的基础上在自建标准:《信息资源目录体系核心 元数据》中进行规定。
-45-
--精品
精品---
**政务大数据交换共享平台建设方案
3.1.4 标准规范索引
本节包含**电子政务公共数据开放共享平台执行、参考的国家、 地方性标准,以及自建标准。
名称
信息资源交换体系 信息资源目录体系
编号 GB/T 21062-2007 GB/T 21062-2007
类型 国标 国标 国标
信息安全技术 信息系统物理安 GB/T 21062-2007 全技术要求
信息安全技术 操作系统安全技 GB/T 20272-2006 术要求
信息安全技术 网络交换机安全 CB/T 21050-2007 技术要求
信息安全技术 路由器安全技术 CB/T 18018-2007 要求
信息安全技术 公钥基础设施 在 CB/T 19713-2005 线证书状态协议
信息安全技术 公钥基础设施 数 CB/T 20518-2006 字证书格式
信 息 安 全 技 术 公 钥 基 础 设 施 CB/T 21053-2007 PKI系统安全等级保护技术要求
数据元和交换格式 信息交换 日 CB/T 7408-2005
国标
国标
国标
国标
国标
国标
国标
-46-
--精品
精品---
**政务大数据交换共享平台建设方案
期和时间表示法 电子政务数据元
中华人民共和国行政区划代码 信息资源交换体系 总体框架 信息资源交换体系 技术要求 信息资源交换体系 接入规范 信息资源交换体系 服务接口规 范
信息资源目录体系 总体框架 信息资源目录体系 技术要求 信息资源目录体系 核心元数据
自建标准 自建标准 自建标准
CB/T 19488-2004 CB/T 2260-2002
国标 国标 自建标准 自建标准 自建标准 自建标准
3.2 信息资源规划和数据库设计 3.2.1 信息资源规划
信息资源是在政府行政管理工作中所收集、整理、加工、传递和 利用的一切信息具有社会性、可证性、可信性、时效性等特征,这些 信息是行政管理工作预测的前提、决策的基础、科学管理的纽带,也 是提高政府治理能力、公共服务能力的基础。
信息资源规划是以实现信息资源的综合利用和共享为目标,通过 综合信息资源规划 IRP理论体系,对所有信息资源进行科学的分析和 归类,建立统一、完善、标准的政务信息资源目录体系。
-47-
--精品
精品---
**政务大数据交换共享平台建设方案
3.2.1.1 实施规划
根据**各政府部门情况,本次信息资源规划采用逐步规划,需求 导向为思路,结合应用需求,以厅局为单位逐步梳理。 3.2.1.2 实施范围
1、基础信息资源
基础信息资源主要是建立以经济信息数据、人口基础信息、法人 单位基础信息数据、自然资源和空间地理信息数据等基础数据的基本 信息、扩展信息、应用共享信息为主要内容的信息资源,为各职能部 门提供基础性、战略性的信息服务和决策支持。
2、业务信息资源
业务信息资源主要指各部门围绕经济建设、资源环境、科技教育、 道路交通、社会发展、公共安全、文化休闲、卫生健康、民生服务、 机构团体、城市建设等业务主题,满足决策指挥、应急管理、综合服 务、内部办公需要,完善的业务信息,可为跨领域、跨部门的应用系 统提供数据支撑。 3.2.1.3 实施内容 3.2.1.3.1 职能域规划
职能域(Function Area)是对管理中的一些主要业务活动领域的 抽象,而不是现有机构部门的照搬或翻版。这些职能域按照层次,纵 向上可以分为决策、管理和业务 3个层次,横向上可以分为业务和职 能两类。
-48-
--精品
精品---
**政务大数据交换共享平台建设方案
政府信息资源规划的第一步就是根据政府部门的三定方案,及其 工作经验,科学划职能域。 3.2.1.3.2 业务过程确认
业务过程就是完成职能域需要的具体工作内容。政府信息资源规 划的第二部就是在归纳划分好职能域之后,清理职能域的业务过程。 业务过程包含业务流程及数据流程。 3.2.1.3.3 信息资源梳理
信息资源是指政府在运作过程中产生的各种形态的数据资源,信 息资源规划的第三步就是将分散在业务过程中的各类信息资源进行 有效识别并登记。信息资源元数据内容包含资源编码、资源名称、资 源描述、资源类型、管理方式、隶属系统、共享方式、公开范围、更 新周期、提供部门、交付方式等内容。 3.2.1.3.4 资源目录编制
信息资源目录是记录信息资源结构和信息资源属性的数据体系, 信息资源结构通过树状的目录结构,展示信息资源之间的相互关系; 信息资源属性则描述了信息资源的管理属性用户控制和管理信息资 源。
信息资源目录主要可以按照部门、主题、服务对象进行管理。其 中
主题:可以分为综合政务、经济管理、国土资源、工业、交通、 信息产业、城乡建设、环境保护、农业、水利、财政、商贸、旅游、
-49-
--精品
精品---
**政务大数据交换共享平台建设方案
服务业、气象、水文、测绘、地震、对外事务、政法、监察、科技、 教育、文化、卫生、体育、军事、国防、劳动、人事、民政、社区、 文秘、行政、党团等。
服务对象:可以分为企业、个人、政府等。 3.2.1.4 组织机构
在实施信息资源规划全程中,成立咨询团队与政府部门联合小 组,全程跟进部门信息资源梳理。 3.2.1.5 规划工具
采用信息资源规划工具,辅助政府部门梳理信息资源,初始化信 息资源到大户数据平台中。 3.2.1.5.1 部门信息系统汇总表
对部门信息系统梳理的支撑表格工具。
3.2.1.5.2 部门信息资源汇总表
对部门涉及的信息资源梳理的支撑表格工具。
-50-
--精品
精品---
**政务大数据交换共享平台建设方案
-51-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.2.1.5.3 信息资源明细表
对部门信息资源明细梳理的支撑表格工具
3.2.1.5.4 信息资源明细导出工具
对了便于梳理信息资源明细,提供关系型数据库导出工具,将 业务系统中信息资源明细指标快速导出。 3.2.1.5.5 信息资源梳理化导入工具
对于梳理好的信息资源,提供信息资源初始化导入工具,让信 息资源快速入库。
-52-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.2.2 数据中心建设
3.2.2.1 数据中心设计原则
(1)以需求为导向,以数据为基础。数据库的建设是以满足** 电子政务公共数据开放共享平台功能需求为主,即以满足数据的交 换、共享、多角度查询处理为主,同时兼顾历史数据的清查整理。
(2)统一规划,分步实施。数据库体系建设内容有轻重缓急之 分,各项建设任务互相管理、互相影响。如果不经详细规划而轻率 进行,势必因各项资源配备不足而导致混乱甚至返工。因此,必须 将各项建设任务理出头绪,找出其中的规律,按照科学合理的节奏 分步骤进行,才能充分保证数据库建设的有效性。
(3)遵循标准,规范流程。统一规划下的分步实施必须有充分 的标准化基础作保障。否则各单项任务建设后的集成工作难以进行。 对于流程、数据、应用技术的标准化工作,应该在系统建设前进行; 各应用系统除了遵循硬件平台、网络平台的支撑标准外,还应严格 遵守流程、数据、应用技术标准,以保证系统间结合的流畅。
(4)迭代法开发。采用迭代式的方法来开发和建设数据应用体 系,即首先选择最核心的内容开发和部署一个满足最基本需求的功 能原型。在原型的基础上根据反馈信息和业务的发展,不断总结经 验,扩展数据源、不断丰富原型内容完善功能。
-53-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.2.2.2 数据中心设计方案 3.2.2.2.1 主要数据库设计
本期项目的数据库主要以交换数据库、目录数据库、共享数据 库及数据仓库为主,具体包括: 3.2.2.2.1.1 交换信息库
交换信息库是政务部门为实现信息交换而建立的中间存储信息 库,通过交换信息库将对外交换的数据与业务系统分离,保证了业 务系统的独立性及安全性。交换信息库中包括提供和接收的交换信 息以及为实现交换进行管理的信息,如交换日志、交换配置等。 3.2.2.2.1.2 目录信息库
目录信息库是目录服务系统的重要组成部分,存储各业务部门 注册到**电子政务公共数据开放共享平台的目录内容以及用于发布 的目录内容,根据应用的不同可以分为目录内容信息库、目录服务 信息库。
1、目录内容信息库
目录内容信息库存储各业务部门注册到目录服务中心的目录内 容。目录服务中心使用目录内容管理信息库实现对所汇集目录内容 的管理。包括元数据信息、目录信息、目录分类信息、目录审核信 息、目录发布信息等。
2、目录服务信息库
目录服务信息库存储用于发布的目录内容。目录服务中心使用
-54-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
目录内容服务信息库提供目录服务查询检索服务。 3.2.2.2.1.3 共享信息库
共享信息库是通过信息共享系统,对分布在各部门业务数据库 或交换信息库的数据进行数据抽取、数据清洗、数据转换、数据装 载后,并按相关规则汇总的中心数据库库。 3.2.2.2.1.4 基础数据库
基础信息库主要是建立以经济信息数据库、人口基础数据库、 法人单位基础信息数据库、社会信用数据库、自然资源和空间地理 信息数据库等基础数据库的基本信息、扩展信息、应用共享信息为 主要内容的信息资源库,为各职能部门提供基础性、战略性的信息 服务和决策支持。
3.2.2.2.1.5 业务主题资源库
业务信息资源库主要指围绕经济建设、政治建设、文化建设、 社会建设以及生态文明建设,满足决策指挥、应急管理、综合服务、 内部办公需要,建设完善的业务信息库和决策支持库,可为跨领域、 跨部门的应用系统提供数据支撑,如诚信库、电子证照库等。 3.2.2.2.1.6 数据仓库建设
数据仓库主要存储各类大数据分析的数据源,按照分类分主要 有三种类型的数据储存区:事件仓库、已处理事件仓库、文件仓库。 事件仓库主要储存发布到**电子政务公共数据开放共享平台中的数 据,已处理事件仓库主要储存通过 Apache Spark 分析产生的数据,
-55-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
文件仓库用来储存 Apache Lucene 索引。 3.2.2.2.2数据库选型
**电子政务公共数据开放共享平台涉及的数据库包含传统的关 系形数据库 ORACLE、MySQL、SqlServer 等、非关系型数据库 MOGODB 以及分布式列存储数据数据库 HBASE。 3.2.2.2.3 数据中心安全
数据中心的安全性将从以下几个方面进行考虑: 3.2.2.2.3.1 数据存储安全
数据加密存储,保障数据存储安全。 每天增量备份数据,每周全量备份数据。
建立同城异地备份机制,在条件允许时,建立远程异地容灾备 份机制,提高抗风险能力。 3.2.2.2.3.2 数据访问安全
根据不同内容的数据,以及不同级别的用户设置不同的数据访 问权限。特定的数据(例如个人住房信息等)只允许经过特别授权 的用户进行访问,其他系统的数据根据角色不同设置授权,保证数 据访问的安全性。 3.2.2.2.3.3 数据传输安全
在远程进行数据访问和流程报批的过程中。需要考虑数据远程 传输的安全性,将通过数据压缩传输,加密传输等方法和措施,保
-56-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
证数据传输安全性。 3.2.2.3 四大基础数据库设计 3.2.2.3.1 经济信息数据库
宏观经济基础数据库由部门数据信息和类别数据信息组成。 宏观经济基础信息库中的部门数据信息反映从各部门采集、清 洗、比对后的信息,信息的存储按照数据部门来源划分;类别数据 信息是按照经济、社会、居民生活等数据类型进行存储,同一数据 类别的信息可以来源于多个部门。
宏观经济数据库的构成如下图所示:
部门数据信息
宏观经济部门数据信息来源于统计局、财政局、发改委等单位, 具体情况见下表: 序号 1
政府部门 统计局
数据资源情况 GDP、失业率、CPI 等
-57-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
2 民政局 行政区划、优抚救济福利、婚姻、残疾人及 社区情况等
3 4 5 6 7
工商局 财政局 地税局 国税局
工商企业登记、私营个体户等数据 财政收入及支出情况 地方税种收入情况 国家税种收入情况
人力资源和社 登记失业率、社会保障等数据 会保障
8 9 10 11 12 13 ……
房产处 环保局 交通局 海关 商务局 旅游局 ……
房屋建设及交易等数据
环境卫生、大气质量、水资源污染情况 公共交通、道路状况、交通事故等数据 货物、人员、资金出入境统计数据 各类商务与利用外资统计数据 国内旅游统计、黄金周统计等数据 ……
在各类宏观经济信息进入宏观经济基础信息数据库之前,各部 门所掌握的宏观经济数据与统计局宏观经济基础信息是相互独立 的,存在着信息不一致的问题。各部门要及时提供统计数据,以确 保宏观经济基础信息的准确和一致。
从财政、税务、公安、保险、海关、银行和其他负责专业性统 计的部门中抽取的宏观经济基础信息统一集中于平台,经过格式转 换后采用集中比对的方式,将比对成功的数据进入宏观经济基础信
-58-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
息数据库;数据比对失败的数据,反馈给有关的部门,找出原因修 改后再次比对,比对成功后再进入核心数据库;通过反复比对解决 宏观经济基础信息的不一致的问题。
类别数据信息
类别数据信息是按照经济、社会、居民生活等数据类型进行存 储,同一数据类别的信息可以来源于多个部门,具体情况见下表: 序号 数据类别 1
经济
数据主要来源部门
统计局、发改委、财政局、国税局、地税局、工 商局、民政局、交通局、海关、商务局等
2
社会
统计局、公安局、人力资源与社会保障局、民政 局、教委、卫生局等
3 4
居民生活 环境资源
统计局、发改委等
国土局、规划局、园林局、水务局、环保局、市 政、民政局等
5
城市建设与 统计局、交通局、市政、水务局、环保局、建委、 管理 6
科技
公安局等 统计局、教委等
类别数据信息入库前的流程跟部门数据信息一致,各部门数据 均需与统计局数据进行比对,比对一致方可入库,如有不同需重新 修改后入库。
3.2.2.3.2 人口基础信息库建设
人口基础信息库中的内容可分为基本信息、扩充信息和共享应
-59-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
用信息三类。基本信息包括公民身份号码、姓名、性别、出生地、 出生日期、民族和注销标识。扩充信息包括照片、户籍地址、死亡 注销信息、居民身份证签发信息、服兵役注销信息和出国注销信息。 共享应用信息指政府部门、企事业单位和公民个人在工作生活中迫 切需要应用的信息,例如从业信息、婚姻信息和纳税信息。共享应 用信息来自于公安、劳动、民政等业务系统,并且根据需要可以及 时追加。
字段说明
公民身份号码 姓名
人口基本信息
出生日期 性别 民族 地址
-60-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
曾用名 照片(二代证) 死亡日期 注销机构 职业资格等级 参加工作时间 职业类别 职业名称 就业状况 资格审批单位名称 取得资格时间
人口扩展信息
就业经历 个人参保日期 个人参保状态 险种类型
社会保险登记证号码 缴费地区代码 缴费单位名称 缴费人员类别 医疗保险证号 医疗参保人员类别
基本医疗保险个人帐户建立日期
-61-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
定点医疗机构代码 离退休时间 离退休人员类别 领取养老金标识 曾经冒领养老金标识 曾经冒领养老金金额 享受失业保险起始日期 失业待遇类别 应领取失业保险金月数 失业原因 发生工伤状态 工伤发生时间 伤害部位 工伤认定申请号 伤残等级
终止工伤保险待遇关系标志 工伤待遇类别 生育待遇类别 享受起始时间 享受终止时间 最高学历 最高学历毕业学校
-62-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
最高学历毕业时间 最高学历专业 学位 学位授予时间 其他所学专业 所学外语语种 外语语种熟练程度 学生学籍号 公积金帐号 参加公积金时间 本年缴存额 本年支取额 上年结转本金 上年结转利息 余额 产权证号 产权类型 房屋地址 住房来源 购房日期 建筑面积 欠缴税款标识
-63-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
欠缴税款滞纳金标识 婚姻状况 婚姻登记时间 救济人员分类 享受定期定量救济金额 社会福利机构收养人员分类 享受定期抚恤补助状况 定期优抚金额
3.2.2.3.3 法人单位基础信息数据库
法人基础信息数据库由核心基础信息、法人扩展信息和法人共 享信息等组成。
法人基础信息库中的核心基础信息反映法人的基本属性,基本 无变化;法人扩展信息反映法人在不同生命周期的状态属性,变化 频率小;法人共享信息反映自然人的专业属性信息,共享需求高、
-64-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
变化频率较大。
法人核心基础信息
法人核心基础信息即各类法人的核心基础信息,来源于工商局、 编办和民政局等审批单位,具体情况见下表:
法人类型
企业法人
内资企业法人 外资企业法人 事业单位法人 行政机关法人 社团法人 基金会法人 民办非企业法人
(1)企业法人:指依据《中华人民共和国企业法人登记管理条 例》、《中华人民共扣国公司登记管理条例》等,经各级工商行政管 理机关登记注册,领取《企业法人营业执照》,取得法人资格的企业。
(2)事业单位法人:指社会公益的,由国家机关举办或者其他 组织利用固有资产举办,依法取得法人资格,从事教育、科技、文 化、卫生等活动的社会服务组织。
(3)机关法人:指各级政党机关和国家机关。
(4)社会团体法人:指依据《社会团体登记管理条例》,经国 务院民政部门和县级以上地方各级人民政府民政部门登记注册或备 案、领取《社会团体法人登记证书》的各类社会团体;以及依法不
-65-
--精品
来源单位名称
工商局
编办
民政局
**电子政务公共数据开放共享平台可研报告
精品---
需要办理法人登记、由机构编制管理部门管理其机关机构编制的群 众团体。
(5)其他法人:指除企业法人、事业单位法人、机关法人、社 会团体法人以外的其他符合法人条件的单位。根据法人单位类型的 分析,依据法定职能,企业法人、事业单位法人、机关法人、社会 团体法人和其他法人等不同类型法人单位的设立登记分别在工商、 编办、民政等不同部门完成,因此法人基础信息分散与各个部门分 别管理,而组织机构代码则作为各类法人单位的唯一标识,由质监 局管理。因此,可以通过质监局获取全体法人资质机构代码信息。
在各类法人信息进入法人基础信息数据库之前,各审批单位所 掌握的法人数据与质监局法人基础信息是相互独立的,存在着信息 不一致的问题。对工商局、编办和民政局业务系统中的法人基础信 息与质监局掌握的法人信息进行比对和清洗,以确保法人基础信息 的准确和一致。
从工商、编办、民政、质监四个部门各自业务系统中抽取的法
-66-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
人基础信息统一集中于数据中心,经过格式转换后采用集中比对的 方式,将比对成功的数据进入法人基础信息数据库;数据比对失败 的数据,反馈给有关的部门,找出原因修改后再次比对,比对成功 后再进入核心数据库;通过反复比对解决法人基础信息的不一致的 问题。
各类法人核心信息的数据项包括组织机构代码、组织机构名称、 组织机构地址、组织机构类型、法定代表人、注册号、注册日期(批 准登记日期)、电话号码、状态、单位类型、单位经济行业、注册地 址行政区划代码、经营范围(业务范围)等数据。
法人扩展信息
法人扩展信息数据库也可以称为“专业数据库”,主是存储各类 法人的领域的专业信息,即法人扩展信息。
企业法人类扩展信息
企业法人扩展信息来源于工商、税务、人社、食药监、安监、 公安、发改、商务局等部门,为与各部门业务系统的同步更新。企 业法人扩展信息存储于企业法人扩展信息数据库中,其数据项主要 包括案件类信息、警示类信息、年检类信息、许可类信息、保险类 信息和资信类信息等。
行政机关和事业单位类法人扩展信息
行政机关和事业单位法人扩展信息来源于编办。行政机关和事 业单位法人扩展信息存储于行政机关和事业单位法人扩展信息数据 库中,其数据项包括除基础信息外的事业单位其他信息、年检信息
-67-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
等。
社团、基金会、民办非企业等法人扩展信息
社团、基金会和民办非企业扩展信息来源于民政局,与民政局 的系统保持同步更新。社团、基金会和民办非企业法人扩展信息存 储于社团、基金会和民办非企业法人扩展信息数据库中,包括除基 础信息外的各类属性信息、年检信息等。 3.2.2.3.4 自然资源和空间地理信息数据库
根据数据现状及各部门业务需求,将此次数据中心空间地理基 础信息库建设划分为基础空间数据库、政务信息图层数据库和地址 数据库建设。
基础空间数据库
空间地理基础信息库包括基础地形数据库和影像数据库。 1、基础地形图:数据中心项目基础地形图主要包括 1:500、 1:1000和 1:5000三种比例尺基础地形图数据。
2、影像图:数据中心空间地理基础信息库影像数据库包括遥感 数据和航拍数据两个方面。
1)航空影像数据库
航空影像数据库的内容包括航片扫描影像库、航片预览影像库、 航片定位数据库和航摄文档参数数据库。
2)卫星影像数据库
卫星影像数据库就是利用遥感卫星对地观测的影像数据数据
-68-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
源,经加工处理、整合集成而形成的空间影像数据库。
该库中即存放多源、多比例尺、多时相的卫星影像数据。数据 来源有资源遥感卫星控制的全色和多光谱数据,航拍数据等。既有 以前的历史数据,还会有源源不断的新的遥感影像数据。
政务信息图层数据库
政务信息图层数据是由各部门电子政务建设与应用过程中派生 的,与自身业务密切相关的信息资源,需要依托于政府各部门业务 的信息化。政务信息图层的内容由政务管理对象的属性信息、及其 对应或依附的地理空间实体(位置)两部分组成。
地址数据库
地址数据库包括 28类标准类型,即:政区、自然村、地片、洞、 河流、湖/潭、泉、山峰、山脉、公路、环岛、交通站场、桥梁、水 库、水渠、隧道、铁路、纪念地、建筑物、公园、名胜古迹、体育 设施、开发区、街巷、门址、住宅区、楼名、规划。
3.3 门户系统建设 3.3.1 信息资源政务门户
信息资源政务门户主要针对政府部门用户使用,打通政务各部 门的数据共享渠道,以大数据提升政府治理能力。 3.3.1.1 应用集成
门户系统支持应用的集成,实现各类应用的统一入口,统一管 理和统一登录。系统需要将**电子政务公共数据开放共享平台的各
-69-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
用户进行集成,实现政府部门通过门户登录到各个数据应用中,进 行各种信息查询和浏览。 3.3.1.2 统一认证与单点登录
统一身份认证:根据权限需求,统一认证系统可对用户进行登 录认证。登录认证后,才可具备在网上操作相应业务的功能。用户 最初进入门户进行的登录可以统一认证系统提供的接口进行登录认 证,门户便可识别用户的身份与权限,让用户在授权范围内全网通 行。
单点登录:单点登录(SingleSign-On)是一次认证的一种称谓, 所谓一次认证,指系统拥有这样一个平台,用户在登录一次之后(输 入一次用户名和口令,进行身份确认),可以使用在此系统平台或相 关平台上的所有的服务和应用,而无须用户多次输入用户名和口令 进行身份认证。 3.3.1.3 授权管理
授权管理为所有接入平台门户的用户提供应用授权服务,根据 定义的授权规则控制用户对业务应用的访问。
集成到门户的第三方应用系统的用户授权,在通过统一身份认 证之后,仍由各业务系统自身完成。 3.3.1.4 门户界面设计
门户界面提供清晰的导航且方便应用查找,并提供丰富的各种 工具,让用户方便使用。
-70-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.3.1.5 全文搜索
基于大数据分析系统提供按内容及相关信息对平台中的数据进 行检索。
3.3.1.6 资源目录展示
门户需调用资源目录系统接口,按照资源的编目,分类逐级展 现**电子政务公共数据开放共享平台沉淀的各类资源目录,提供用 户进行浏览、查询和检索功能,资源目录需展现资源的基本描述信 息,包含资源来源、资源属性、资源周期、资源关联应用等。 3.3.1.7 资源申请与审批
门户需实现资源申请与审批的功能,允许用户提出资源具体数 据的查询及使用的申请,资源提供部门可以进行审批,审批通过后, 用户可以查询资源具体数据、及资源关联的 webService;系统提供 数据下载的功能,支持 TXT/CSV/PDF等格式, PDF文件需支持数字 水印保护。 3.3.1.8 资源统计
对信息资源的分类、部门、数量等进行综合统计。 3.3.1.9 交换统计
提供交换统计分析的业务功能,交换统计主要包括:总体情况、 数据提供情况、数据获取情况。
-71-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.3.1.10 数据预警
对于数据交换状态、质量等进行数据预警。 3.3.1.11 基础库服务
基础库服务在信息资源政务门户中展示使用。 3.3.1.11.1 人口库
人口基础信息数据库作为基础数据库建设之一,通过**电子政 务公共数据开放共享平台实现人口信息资源共享和动态更新,提高 公共服务水平。主要提供人口库查询、统计、共享利用等功能。 3.3.1.11.2 法人库
法人基础信息数据库作为基础数据库建设之一,通过**电子政 务公共数据开放共享平台实现法人单位信息资源共享和动态更新, 加强政府对各类法人的综合监管和提高公共服务水平。主要实现法 人库查询、统计和共享利用等功能。 3.3.1.11.3 宏观经济库
综合展示地区宏观经济情况包含经济、社会、居民生活等数据 统计分析及查询。
3.3.1.11.4 自然资源与空间地理库
实现地理的查询共享,具体功能如下:
地图基本操作如,地图放大、缩小、漫游、全图、图素选择等, 图素选择包括点选择、矩形区域选择、圆形区域选择、多边形区域
-72-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
选择等。
其他如,地图量测、图层控制、信息查询、专题图、空间分析、 路径分析、多媒体显示、地图标注服务。 3.3.1.12 决策分析服务
利用大数据分析系统建立的模型实现数据各类分析并进行展 示。
3.3.2 信息资源开放门户
信息资源开放门户主要针对企业、公众用户使用,使得社会公 众能够获取政府大数据共享开放带来的红利,同时政府也能够通过 此门户窗口获取社会资源信息。 3.3.2.1 首页
首页是统一信息展示窗口,包含热点动态、资讯中心、互动中 心、数据资源、数据服务等内容,方便用户获取政府最新新闻信息、 最新数据信息、开放数据信息。 3.3.2.2 数据目录
门户系统需调用目录管理接口,按照数据的编目,分类逐级展 现数据**电子政务公共数据开放共享平台沉淀的各类数据目录,提 供用户进行浏览、查询和检索功能,数据目录需展现数据的基本描 述信息,包含数据来源、数据属性、数据周期、数据关联应用等。
-73-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.3.2.3 数据申请与审批
对外门户需实现数据申请与审批的功能,在用户查询不到所需 数据信息的情况下,允许用户提出数据使用的申请,申请信息包含 数据描述、使用用途、数据周期等。
用户发起数据申请后,系统管理员需要进行审批,包含检查数 据是否存在、是否需要脱敏处理、是否可以对外开放等,审批通过 以后,系统运维人员会根据数据申请信息和审批结果信息,进行相 应数据的开发、发布,完成后通知数据申请用户。 3.3.2.4 数据查询与下载
对于已经公开数据,系统提供数据查询及下载的功能, 查询可 支持条件输入查询、下载可支持 TXT/CSV/PDF等格式, PDF文件需 支持数字水印保护。
3.4 应用系统建设 3.4.1 数据汇聚平台
数据汇聚功能要求实现将各部门相关的信息资源统一采集交换 到数据中心前置库中,满足多种采集方式,能够满足不同的网络环 境、不同的数据类型等情况下进行数据的采集,并对采集的数据进 行处理,进入中心库保存。**电子政务公共数据开放共享平台的数 据汇聚功能包含数据采集、数据交换、数据处理等功能。
-74-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.1.1 数据采集系统
数据采集子系统依托应用集成中间件、应用集成中间件适配器 设计,实现对各部门业务数据信息的采集。
数据采集系统通过丰富灵活的适配器服务组件采集各业务部门 的数据信息,将其传输、归集到数据中心前置库中。
根据其特点,按照批量更新、增量更新、实时更新、数据同步 等不同的更新策略,定制各类数据的更新接口,提供手工录入、整 体导入等数据采集方式,并提供严格的质量检查工具,实现数据中 心各类数据的采集与更新,保证数据中心数据库的时效性、权威性 和一致性。
3.4.1.1.1 物理拷贝采集
物理拷贝方式,采用传统的移动硬盘、硬盘、DVD 和 VCD 等 数据存储介质通过硬拷贝方式实现数据共享的模式。采用该模式的 实现环境主要有以下几种情况:
(1)数据应用部门与支撑服务平台存在着网络互联互通的障 碍,导致无法通过网络实现数据共享。
(2)数据量较大,基于网络传输模式无法满足用户要求。例 如海量影像,数据量高达几百个 GB,甚至是 TB,采用网络方式进 行数据共享不但容易造成网络阻塞,而且成本代价较大,往往采用 物理拷贝模式。
-75-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.1.1.2 数据上传采集
数据上传方式主要是通过平台提供的数据上传入口,上传各业 务部门的相关数据,实现数据的共享。主要提供两种上传入口:
(1)通过登录数据采集系统的 WEB 界面,进行 WEB 界面直 接上传相关数据。
(2)通过搭建的 FTP 服务,各业务部门将所需要上传的资料 通过 FTP 上传到前置库中。
数据上传采集的特点:通过系统对支持大附件上传;支持数据 批量上传;支持数据断点续传等功能保障数据的传输速度和传输质 量。
3.4.1.1.3 接口服务采集
接口服务模式是属于一种较高层次的共享模式,各业务部门的 应用系统建立与数据中心平台的接口,通过系统与系统之间的接口 交互模式,实现数据的共享与调用。
支持常见的接口服务有 webservice、API、ws?等多种接口类 型,满足平台的接口服务采集需求。 3.4.1.1.4 关系型数据库采集
基于关系型数据库的采集方式,对各业务部门的业务系统的数 据库类型、网络环境、数据密级等多方面进行调研分析,可使数据 中心的连接部门业务系统的数据库,直接读取相关数据。
此种数据采集涉及到数据类是否为关系型数据库,而且需要考
-76-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
虑网络环境的连通性,是否能否连接,另外还需要考虑业务系统的 密级性,是否允许直连数据库获取数据等多种因素,需要综合考虑。 3.4.1.1.5 数据采集校验
数据校验从校验对象细粒度维度分析,支持文件级校验与记录 级校验二大类。数据校验模块还内置了部分的数据检查功能,如数 据唯一性检查、外键完整性检查。数据校验内容有类型、长度、是 否为空、精度、范围、格式等信息。如果数据不符合,会进行过滤, 只有正确的数据才能继续使用。对于错误的数据,可以进行输出, 包括错误原因和错误字段序号等信息。相关的错误类型和数量等统 计信息也会绑定到流程变量中,以便后续节点进行判断使用。
能够提供将分散的、异构数据源中的数据如关系数据、非关系 数据、数据文件、FTP 等抽取到临时中间层后进行入库前的数据类 型校验功能以及针对海量数据的高性能数据解析功能。
实现对数据进行校验检查,主要检查空间拓扑一致性、属性结 构的一致性、数据内容的一致性。该检查主要在数据采集和数据同 步中使用,并可以单独提供数据校验比对服务。
在发生数据数据采集时,各业务部门采集的数据向数据中心前 置库系统传入要校验的数据条目信息,前置库校验该条目信息是否 吻合一致,如果一致相符,则返回对比成功,否则返回比对错误, 并将各业务部门采集准确的信息返回给调用者。
在向业务部门数据同步时,数据校验用于比对导入数据和业务 部门数据的一致性,如果一致,则不需要重复导入,如果不一致,
-77-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
则用最新的数据覆盖不一致信息。
数据校验比对工具,要将检查比对的结果以便于阅读分析的报 告形式展现给用户。 3.4.1.1.6 采集服务配置
获取信息资源中定义的信息资源更新频率,自动实现采集、可 以配置全量或者增量采集方式,可以配置数据提供部门在数据中心 部门前置库的存储位置等。
能够提供对于采集周期,时间的采集策略配置、接口配置采集 任务配置功能。
对于应用数据采集,需要管理的关键业务点有采集点、数据传 输。主要性能指标包括:在采样周期内成功取得文件的数量、采集 数据间隔时间、采集文件大小、进程状态、文件连续性、采集状态、 传输速率等。
获取信息资源中定义的信息资源更新频率,自动实现采集、可 以配置全量或者增量采集方式,可以配置数据提供部门在数据中心 部门前置库的存储位置等。 3.4.1.1.7 采集监控管理
系统提供采集异常处理机制,如采集任务中断、采集数据失败 等相关异常现象时,实现相关的补采机制,或通过告警的方式通知 系统用户等。数据采集过程的日志推送到系统运营管理平台、报错 推动到数据提供部门的代办事宜。
-78-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.1.2 数据交换系统
数据交换系统以部门业务信息为基础,确定部门间交换信息指 标及信息交换流程,实现不同部门间异构应用系统间松耦合的信息 交换,提供部门间横向按需信息交换服务,提高各级部门行政管理 效率。
**电子政务公共数据开放共享平台的信息交换系统建设中,将 根据《GB/T 21062-2007 政务信息资源交换体系》的要求建设,包 括交换桥接子系统、前置交换子系统、交换传输子系统、交换管理 子系信息资源交换通过交换桥接子系统将部门需要交换的信息交换 到交换信息库,在交换系统管理子系统权限控制下,在交换流程管 理子系统的流程引擎驱动下,通过交换传输子系统、前置交换子系 统,把需要交换的信息定向传输到接收部门。
信息交换系统的建立通过 ESB 企业服务总线建立自治交换网 络,实现各系统间的信息交换。 3.4.1.2.1 交换桥接子系统
通过在前置机中部署 ESB代理节点,实现前置交换信息库与部 门业务数据的对接,实现两个信息库之前的信息交换。
通过 ESB内置的文件适配器,实现 XML文件、CVS文件、Excel 等文件的传输、读取、同步等功能
通过增量数据适配器,多种类型的数据转换工具,实现增量 数据同步及数据转换。
通过可视化流程配置的方式实现自定义数据源、流程、转换
-79-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
函数等功能。 3.4.1.2.2 前置交换子系统
在共享平台中心部署 ESB_Server节点,通过 ESB内置的 MQ消 息中间件实现 Server节点与各部门代理节点之前的数据传输。
主要功能要求:
通过内置的服务适配器,实现服务的注册、发现、适配、管理 功能
通过内置丰富的适配器,自定义各种资源交换方式及抽取方式, 包括数据库抽取、文件读取、Webservice接入、JMS传输等。3.通 过自带适配器的表输入、表输出以及 SQL执行器可以实现数据的双 向同步。
通过 ESB的管理监控平台,能够对接入系统及流程进行查看和 管理。
具备交换数据缓存功能,能够制定缓存规则维护交换结果数据 的生命周期;
3.4.1.2.3 交换传输子系统
在共享平台中心部署 ESB 中心服务节点,可件实现部门前置交 换子系统与**电子政务公共数据开放共享平台稳定可靠的信息传 递。中心服务节点与代理节点间通过 MQ消息中间件进行传输,保障 不重、不漏、不错、不丢的高效传输。
主要功能实现:
-80-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
1.以 MQ为底层传输中间件,保障安全可靠的数据传输。提供各 种事务类型,可对消息进行差错处理,实现消息同步及异步的传输;
2.通过 ESB内置的丰富组件,提供 Web Service、FTP、JDBC、 Email、MQ 等多种传输方式,实现数据库数据、电子表格数据等格 式化数据以及文本、图片、音频、视频等非格式化数据的传输。
3.MQ消息中间件可对消息进行分段、分组传输; 4.MQ消息中间件具有传输数据的压缩功能;
5.ESB 自带运行时模块(runtime),可扩展部署,实现热备与 集群的功能。
6.能够实现交换信息的打包、转换、传递、路由、解包等功能。 3.4.1.2.4 交换管理子系统
交换管理子系统实现对整个信息交换过程的配置信息管理、数 据信息管理、交换信息统计分析、交换服务管理等。
主要功能要求:
1.通过设计器中的域管理工具,实现对交换服务器、交换节点 的管理。
2.通过管理菜单,对路由信息可创建、启动、停用等操作。 3.提供资源订阅发布管理,实现为各业务部门提供请求/应答、 订阅/发布、消息广播等多种数据交换方式的配置管理。
4.提供多种接入方式,包括 Web Service、FTP、Email、JDBC、 MQ等,满足不同业务部门不同的业务需求。
5.提供交换信息统计分析功能,能够对交换当前状态以及历史
-81-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
记录进行查询; 3.4.1.3 数据处理系统
处理采集过来的数据,实现数据的清洗、转换、加载功能,一 方面保障采集的数据能正确、完整、规范地加载到目的地;另一方 面,实现数据整合过程中的异常处理机制,如:处理传输异常、数 据加载异常、数据结构与质量异常等。
数据处理是数据中心的核心内容,系统需提供基础数据服务, 主要步骤包含数据抽取、数据清洗、数据转换和数据加载等功能。
数据处理是数据比对整合系统的核心,作为一个面向服务的平 台,数据清洗整合应用就是由多个数据服务组成的,其中包括一系 列预定义的基础数据处理,这些基础数据处理包括以下几个: 3.4.1.3.1 数据抽取
数据抽取就是从数据中心的中心库中获取业务数据的过程。数据 来源为业务系统和文件系统,抽取方式为根据具体业务进行全量抽 取或增量抽取,根据具体业务制定抽取的时间、频率、这些参数都是 可配置的。
-82-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
抽取方式:
全量抽取
该抽取方式一般在数据初始化的时候使用。将数据源中的数据原 封不动的从数据库中抽取出来。
增量抽取
我们采用基于时间戳的增量抽取 1. 建立数据库连接
2. 定义一张数据字典表,定义需要进行处理的任务,其中主要包括业务数 据库和目标数据库的表名、字段列表、以及条件等。
3. 对比源表和目标表的目前最大时间,抽取数据时间断为【目标表的最大 时间】一【原表的最大时间】 4. 根据设置的抽取频率循环抽取。
3.4.1.3.2 数据清洗
数据清洗指对前端抽取过来的数据进行清洗处理,包括数据过滤、 数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能。
-83-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
数据清洗的任务主要是进行不一致的数据转换、数据粒度的转换、数 据去脏和一些转换规则的计算。其中不一致转换过程是数据整合的过 程,侧重于将来源于不同业务系统的相同类型的数据进行统一处理; 数据粒度转换需要对数据进行统一归整;转换规则计算按照设计的计 算归则对数据进行重新计算。 系统支持批量清洗和实时清洗,针对 批量离线数据进行分布式并行清洗转换,针对实时数据进行不落地清 洗转换。
数据清洗主要是针对源数据库中出现二义性、重复、不完整、违 反业务或逻辑规则等问题的数据进行统一的处理,一般包括如:NULL 值处理,日期格式转换,数据类型转换等等。在清洗之前需要进行数 据质量分析,以找出存在问题的数据,数据质量问题具体表现在以下 几个方面:
正确性:数据是否正确的表示了现实或可证实的来源
-84-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
完整性:数据之间的参照完整性是否存在或一致 一致性:数据是否被一致的定义或理解 完备性:是否所有需要的数据都存在 有效性:数据是否在定义的可接受的范围之内 时效性:数据在需要的时侯是否有效
可获取性:数据是否易于获取、易于理解和易于使用 对主要数据质量问题的清洗策略 主要问 题 数据完 整性问 题
大量的空值字 源数据中对很多 1.反馈信息给采集库 段的出现
字段没有做非空 2.根据简单规则补齐数 限制
据值
表现形式
产生原因
清洗策略
超出字典表范 填写这些值的时 1.反馈信息给采集库 围
候是直接让用户 2.完善字典表信息 填写而非下拉框 3. 根据简单规则补齐 选择
数据一 致性问 题
数据值
一个特定的字 录入, 同步的问 选取最可靠的表中的字 段在不同的表 题 中内容不同
段为确定值,也就是权 威数据
应该成为主键 源数据中未建立 消除错误, 重复的主键 的值不唯一
有效的主键关系
-85-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.1.3.3 数据转换
数据转换可以看作是数据整合和数据清洗过程的结合,数据源的 数据按照一定的转换规则生成新的数据并存放至目的数据源中。数据 转换支持数据字段之间一对多,多对一,以及多对多的映射关系。
转换规则
1. 数据合并:多用表关联实现,大小表关联用lookup,大大表相交用join 2. 数据拆分:按业务规则进行数据拆分。 3. 行列互换 4. 排序/修改序号 5. 去除重复记录
3.4.1.3.4 数据加载
数据加载主要指将抽取与清洗转换的数据,准确、及时地存储
-86-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
到不同基础库中,依据数据的加载方式包括文件加载、流加载、压 缩加载、不落地加载等。
依据数据加载技术特点,可分为全量数据加载、流式(实时) 数据加载、文件落地双加载、内存不落地加载。
对于不同的数据库加载、不同的方式加载,在数据加载过程的 工作原理基本相同,数据加载能力包含:
1.默认情况下提供基础通用的加载控件,支持将数据源加载到 不同的数据库中,加载的数据支持接口、文件加载策略或流式策略。
2.加载方式支持全量或实时方式,全量加载方式则采用落地加 载策略,并且需要结合运用不同平台的加载工具;实时加载与实时 采集必须配套使用,二者之间共享内存实现同步数据交换,通过引 入插件机制来屏敝不同数据源差异性。
3.支持加载时事物提交的参数配置,允许设定数据文件相关输 入路径与加载文件匹配规则等信息,由数据装载完成发现文件、文
-87-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
件获取、加载数据、数据校验等操作流程后完成数据入库操作。
4.在加载实现过程中支持提供 SQL、HQL、SHELL等不同类别的 行为定义脚本,数据加载执行组件将根据定义行为脚本类型调起相 应的脚本执行来加载到数据。
5.数据加载结束或失败时,都需要记录操作日志,为后续数据 稽核与问题排查提供详细信息。
6.在加载触发模式上支持自动加载与手工执行的二大类型。支 持数据自动加载的设计与执行,当数据加载出错时,应提供操作界 面以人工干预的方式来重新启动数据的接收和加载。
加载方式 时戳方式
实现方式 优点 缺点
在业务表中统一加 源数据抽取相对 需要修改业务表的 字段作为时戳,当 清楚,速度快, 数据结构,业务数 原系统更新改业务 适合数据的增量 据变动时工作量比 数据时同时修改时 加 戳字段值
载
较大,相对风险较 大
日志表方式 在 OLTP 系统中添 不需要修改业务 业务系统中更新记
加日志表,业务数 中的数据结构。 录日志操作麻烦 据发生变化时,更 源数据抽取简单 新维护日志表内 容
清楚,速度快, 适合数据的增量 加载
-88-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
全量对比方 抽取所有源数据, 对系统表结构没 数据比对复杂,设 式
在更新目标表之
有任何影响,管 计比较复杂,执行
前先根据主键和字 理维护统一,可 速度慢 段进行数据比对, 以实现数据的增 有 更 新 的 进 行 量加载 update或 insert
全表删除插 删除目标表数据, ETL 规则简单, 对维表加代理健不 入方式
将源数据全部插 入
速度快
适应,原系统有删 除数据时,不能在 数据仓库体现被删 数据,不能实现增 量加载
3.4.2 数据治理平台
政府数据在共享共用、开放运营及行业应用过程中,数据来源 于各个业务系统,只有建立对数据质量的信任,才能放心地进行使 用。所以数据治理和质量保障在政府**电子政务公共数据开放共享 平台建设中显得由为重要,**电子政务公共数据开放共享平台数据 治理功能主要包括信息资源目录管理、元数据管理和数据质量管里 等内容。
-89-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.2.1 元数据管理系统
元数据与数据目录密切相关,良好的元数据管理是目录管理的 有效基础和前台。元数据的范围包括数据结构、数据词典、字段维 度、程序映射逻辑、数据生命周期等。元数据管理包括元数据定义、 存储、查询、维护、检查和分析应用。 3.4.2.1.1 元数据定义
元数据的定义可参考以下步骤: 基础分类信息制定
设置基本的分类编码信息。如主题分类,层次的分类,表级别 分类配置管理。
元模型制定
根据管理需要,自定义元模型信息。元模型是指管理数据的基 本信息模型。配置表元模型的信息要素,规范管理要素等。
数据分层定义
归纳分类是认识和理解对一个复杂的对象的最有效的办法,在 对数据进行管理我们认为从分层、再分主题对数据进行分类是行之 有效的方法,制定好数据分层分主题,每个表归属到层次和主题上。
数据主题管理
根据数据交换共享数据目录为基础,按照政府机关事业单位相 关业务,划分主题并对各主题进行管理。 可以通过分类来约定表数 据资源的存储周期,预置多个表资源分类(层次、主题、存储周期 等),分类可动态扩展,通过分类的表命名规则,可以快速把表资源
-90-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
归属到各个分类下。
模型规范制定
制定表的命名规范,字段的命名规范。解决各源系统不规范的 命名方式,避免同名不同义,同义不同名的现象。
维表管理
从各层次、主题,提取出公共维度和维度的统一编码,以了解 系统数据的非常关键的内容。
指标管理
从各层次、主题提取基础的指标,并定义其业务含义,技术口 径。
3.4.2.1.2 元数据存储
元数据存储的信息管理范围:数据源接口、ETL 和前端展现等 全部数据处理环节,并提供对技术元数据及业务元数据存储。 3.4.2.1.3 元数据查询
元数据查询必须支持对元数据库中的元数据基本信息进行查询 与检索的功能,可查询数据库表、维表、指标、过程及参与的输入 输出对象信息,以及其它纳入管理的对象基本信息,查询的信息按 处理的层次及业务主题进行组织,查询功能返回实体及其所属的相 关信息。 提供可视化的界面,实现元数据信息的查询展现,支持按 照元数据的查询、按指标定义和指标名称的查询。查询的信息内容 包括:数据字典、数据目录、服务目录等。提供对历史信息的查询,
-91-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
方便维护人员了解具体对象的历史变更情况。查询功能包括快速查 询功能和属性查询。 3.4.2.1.4 元数据维护
平台的元数据是动态更新的,因此元数据的维护需提供对元数 据的增加、删除和修改等基本操作。对于元数据的增量维护,可以 保留历史版本信息。用户使用元数据基本维护功能,可以统一管理 所有系统中的元数据。 元数据的维护操作是原子操作,这些原子操 作可通过服务封装的形式向性能管理系统的其它模块提供元数据维 护接口。 使用者可基于业务和管理的层面对业务、管理需求进行建 模,定义元数据的属性;支持 Excel批量操作和外部接口导入功能。 3.4.2.1.5 元数据检查
数据质量检查机制能及时发现、报告和处理元数据的数据质量 问题,因此,平台应提供对元数据数据质量的检查手段,在元数据 上线时,对元数据进行稽核检查,保证元数据信息的完整性,合理 性。 元数据检查应包括 sql解析成功率、表级关系完整率、字段关 系完整率等评估指标进行元数据质量检查。 3.4.2.1.6 元数据分析
当数据出现问题时,元数据管理能够通过血缘分析和影响分析, 定位数据问题产生的路径,并评估出该问题对平台其他数据或应用 的影响。
-92-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.2.2 资源目录系统
资源目录系统的主要功能是釆用元数据对信息资源特征进行描 述,形成统一规范的目录内容,通过对目录内容的有效组织和管理, 形成目录信息库,为信息资源的汇聚、共享以及对应用的支撑提供 信息资源的发现定位服务。
遵循统一的标准规范组织管理所有政务信息资源,并通过目录 系统基于目录信息库,向用户提供目录内容查询检索服务。通过目 录系统建设推进,对各个业务部门信息资源进行编目及动态管理, 便于全面掌握各部门整体信息资源状况。
资源目录系统由目录管理及资源管理构成。 3.4.2.2.1 目录管理
目 录 管 理 系 统 将 国 家 《 政 务 信 息 资 源 目 录 体 系 》 (GB/T21063-2007)中定义的编目系统、目录管理系统进行整合, 主要实现了包括目录分类、编目、审核发布、查询、权限及维护等 功能。
3.4.2.2.1.1 目录分类
通常将一级政府目录分为部门、主题、服务对象三大类。也可 依据实际的应用需要进行分类.对目录的分类信息进行管理(新增、 删除、更新、停用、重组目录、版本控制等)。
部门内部目录分类可以按照职能域划分。
-93-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.2.2.1.2 编目功能
一级政府资源目录由管理部门维护,用于跨部门、跨层级部门 信息共享的索引,二级部门内部目录由部门自己设定,用于部门内 部信息共享的索引。编制完成之后提交审核。 3.4.2.2.1.3 审核发布
目录生成后,就可以提交相关人员进行审核,确保目录的正确 性。审核功能包括: 对目录类别的审核、 对目录项审核、 对目录 文字审核、 对目录流程图审核、资源目录项中标识符编码的查询显 示、数据资源目录项中标识符编码的人工修改。
审核通过之后,进行自动发布,供用户使用。功能包括目录浏 览、发布、退回。根据资源目录分类,采用懒加载的方式进行目录 展示。
3.4.2.2.1.4 目录查询
包括多维度目录查询,列表查询,信息资源访问功能。 (1)多维度目录查询
根据数据资源目录分类的不同维度进行资源目录的查询。 (2)列表查询
通过列表的方式进行资源目录查询。 (3)资源访问
根据目录资源权限设置,在一定的权限范围内访问相关的信息 资源。
-94-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.2.2.1.5 目录权限
目录权限管理是为不同用户级别进行授权。满足不同用户对目 录浏览、检索的权限要求。 3.4.2.2.1.6 目录维护
对已发布的目录进行维护,删除、停用、更新、重组目录等操 作。
3.4.2.2.2 资源管理
资源管理是对抽取的各个业务部门的信息资源进行统一的管 理,主要功能包含部门资资源编码管理、资源本本管理、部门资源 管理、数据查询展示、资源申请授权管理和资源订阅管理。 3.4.2.2.2.1 资源编码管理
根据设定的规则,自动生成信息资源编码。 3.4.2.2.2.2 资源版本管理
对于资源的任何变更,进行版本管理,所有历史版本都保留备 查。
3.4.2.2.2.3 部门资源管理 新增资源
新增资源是进入系统的信息资源进行信息管理,包含资源的基 本信息、配置信息、主题分类以及共享范围等内容。 未发布资源
-95-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
对新增的或未发布的资源进行管理,主要包含资源查询、资源 修改、资源详细查看等功能。
资源查询可按多维度对资源进行查询检索功能,如资源名称、 关键字等方式。 已发布资源
查看已发布资源明细信息,资源包含的具体指标以及资源关联 的 API 服务。 历史资源
查看历史资源信息。 应用程序管理
对抽取信息资源的应用程序进行管理,主要包含应用程序的来 源以及基本信息,可对应用程序的相关信息进行查询、编辑等操作 管理。
3.4.2.2.2.4 资源数据展示
对于完全共享的信息资源以及审核备案通过的信息资源,可以 查看该资源的汇聚过来的数据内容详情。 3.4.2.2.2.5 资源服务
所有人工或者自动初始化的资源,自动会生成一个标准服务, 并提供共享调用。 3.4.2.2.2.6 资源调用
对于完全共享的信息资源以及审核备案通过的信息资源,可以
-96-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
查看该资源的服务,调用服务实现资源的使用。 3.4.2.2.2.7 资源申请审核
对于非完全共享的信息资源,如需要使用其信息资源,需要进 行申请,管理人员进行审核备案。
提出申请,申请部门填写申请函《政务信息资源共享与交换信 息备案表》、《政务信息资源共享与交换承诺书》以及《政务信息资 源网络和信息安全保密协议》,并将电子扫描件平台内上传,提出正 式申请。
审核备案,管理人员针对申请部门共享需求的合理性、实用性、 可操作性及上传的相关材料进行审核,审核通过后,电子材料系统 自动完成电子备案。
所有对资源的申请记录,审核记录都保存并显示在资源中。 3.4.2.2.2.8 资源与目录关联
维护了资源的分类呢荣,实现资源与目录自动关联,将资源显 示到祥光目录。
3.4.2.2.2.9 资源订阅管理
主要是对资源的订阅、收到的资源需求和提出的资源需求进行 管理。 资源订阅
对相关资源进行订阅管理,能够了解相关资源的信息,并可取 消订阅。
-97-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
收到的资源需求
查看其他部门提出的资源订阅信息。包含资源订阅的部门、时 间、订阅资源需求等相关信息。 提出资源需求
本部门提出订阅其他部门资源信息。 3.4.2.3 数据质量管理
数据质量管理主要包含对数据完整性、准确性、鲜活性、权威 性进行分心和管理,并对数据进行跟踪、处理和解决,实现对数据 质量的全程管理,提高数据的质量。
能够提供规则配置、质量监控、问题处理等功能,及时发现并 分析数据质量问题,不断改善数据的使用质量,从而提升数据的可 用性,实现数据更大的价值。 3.4.2.3.1 数据质量管理
质量规则管理
质量规则配置:依据质量需求,灵活配置质量规则。如开发质量 规则(如命名不规范、不必要的跨层数据访问、不合理的大表关联 操作)、数据波动规则(接口/指标数据同环比)。 质量规则自动优 化:根据历史运行信息,自动给出调整监控算法、阀值、优先级建议, 使得规则更合理。
质量规则执行
依据质量规则执行的时机需求,配置执行方式,依据执行规则,
-98-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
管控平台自动执行质量规则检查。质量规则执行触发方式支撑按固 定时间周期(如月、周、日)、事件触发等执行方式。
数据质量监控
依据质量检查规则对数据质量进行监控,如接口波动率的监控, 如果发现异常现象可及时告知或预警相关人员。
质量问题管理
统一收集数据质量问题、形成数据质量知识库,提升数据质量 问题解决效率。
质量评估报告
依据质量检查评估规则对数据质量进行评估,形成数据质量评 估报告,定期对评估报告进行分析得出优化建议,并付诸优化动作, 持续改进数据质量。 3.4.2.3.2 数据评估管理
数据使用评估
对数据及应用使用情况进行评估,并据此数据存储、处理、应 用进行优化。例如:前台应用使用次数、分发给外部系统接口数据、 采集外部系统数据、外部应用调用次数等。
数据关系评估
数据关系的类别可以分为主外键关系、参考关系、输入与输出、 历史拍照、冗余备份。数据交换共享平台通过建立处理程序解析、 元数据解析、及上线登记等方式实现数据关系评估。
时效性评估
-99-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
通过对数据关系的分析,发现孤立表或无效表。根据表名判断 此表大约含义,建表日期、状态日期,表内数据时间等判断此表最 后更新时间。通过数据的使用日志,对孤立表和无效表进行判断是 否有使用。
冗余数据评估
平台将来纳入大量数据,可能存在着大量冗余的数据。冗余数 据一方面给数据的精确性和可靠性将带来影响,同时也影响着数据 库的性能。系统必须要解决冗余问题,主要有两个环节:发现冗余 数据和冗余进行消除合并。
重要性评估
在数据使用过程中和数据应用中对表和数据的重要性进行评 估,通过访问频次、数据质量、数据热度、数据标准化等指标,进 行全面评估,并输出表重要性级别。 3.4.2.3.3 数据稽查管理
根据预先配置的规则、算法和质量检查度量,对数据的准确性、 合理性等多角度的检查,以及时发现问题,解决问题。对于稽核结 果,进行统计分析,形成结果报告,为以后的数据中心建设、实施 和维护的改进打下坚实的基础。
稽核规则管理
接口数据检验:对接口数据的过程进行稽核和校验,分为文件 接口,DB-LINK 接口,其他异构数据库接口。
处理过程检验:对数据处理过程进行监控和稽核,分为 JOB 稽
-100-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
核,工作流稽核,其他处理方式稽核等。
处理环境检验:对数据处理环境进行检查,针对不同的应用环 境,主要分为数据库系统检查、主机系统检查、接口机检查、应用 服务器检查。
日志监控:在平台运行的过程中可能出现各种各样的错误,通 过检测运行过程的日志可以判断出过程输出的目标表数据是否完 整。提供选择日志监控的各种信息供选择,如:过程名、所属模块、 执行时间、完成时间、执行时长、执行用户、执行结果、预警等。
维度检验:如所属模块、日期、表名、维度名称、纬度格式、 纬度说明、纬度关联编码表、各纬度记录分布情况、是否有空值、 空值记录数、空值率、预警区间等指标。
指标值检验:包括数据量校验、单指标校验、交叉校验等。 稽核任务调度
在设定数据稽核的模板后,可以对稽核任务实行自动化处理, 也可以通过定制方式来完成,可以定时调用或触发。由不同类型数 据检验确定。
稽核结果分析
对于稽核的结果,进行统计分析,回答经典的“4W”问题 :该 报表是否异常、该报表在哪里发生、该报表什么时候发生异常和为 什么该报表会发生异常?
数据问题管理
对系统使用者或数据中心开发者遇到的问题及解决方案,进行
-101-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
收集和整理,形成知识库,便于用户咨询,同时也提高开发团队的 效率,避免很多重复工作。
3.4.3 数据运营平台
3.4.3.1 服务管理
服务管理是数据共享、开放、融合分析各类应用的重要载体, 系统提供统一的 API 注册、发布、调用、监控管理,是支撑平台应 用之间的调用更加便捷和安全。 3.4.3.1.1 类别管理
可支持子 API 类别自定义,支持父级别分类,并支持排序。 3.4.3.1.2 创建与发布
创建,就是讲各类方法发布到 API 代理,基本只需要选择对应 的方法。API 的具体调用信息和参考信息,都在原方法中。API 只 需要设置标识、版本、级别(调用频率控制)、状态(API 生命周期)、 授权类型。
其中对于授权类型分为 3 种类型:
无需授权:对于无需授权的 API 即完全开放访问,经过 API 代 理时无需进行授权验证。调用者也不需要提供调用凭证(Token)
用户授权:表示 API 读取的是用户资源,需要对应的用户经过 OAuth 认证授权后获得的用户凭证才可进行调用,并且只返回对应 的用户的数据
客户端授权:表示 API 直接接受应用系统的订阅,无需经过用
-102-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
户授权。在 Oauth 中通过客户端授权模式产生的 Token 即可进行调 用。 3.4.3.1.3 仓库
在开发者平台中,公开的展示所有发布的 API 信息。包括 API 的类别、API 基本信息、API 参数信息、API 返回值字段信息。 3.4.3.1.4 订阅
在开发者平台上,开发商可以为对应的应用系统申请 API 订阅 权限。可订阅的范围只限定在客户端授权类型的 API 中。
管理员可在管理端查看所有申请,并进行审核。通过后,就会 自动建立应用系统和 API 的订阅关系,即应用系统具备调用 API 的 权限。当然,也可根据实际情况退回申请。
管理员也可不经过审核步骤,自由的管理 API 的订阅关系。 3.4.3.1.5 模拟调用
在 API 注册管理时,可以在参数列表中,设置每个参数的模拟 测试值,如果 API 只是读取数据类型的(写入类型的 API 进行模拟 调用会对实际数据产生不可知的结果,不建议提供),则可在开发者 平台就可进行 API 的模拟调用,并将调用结果在页面上进行展示。 3.4.3.1.6 日志审计
调用日志在 API GetWay 处理调用请求时产生。每次调用都必 须记录一次调用日志。包括调用哪个 API、调用者身份、调用参数、 调用结果、调用返回值、调用耗时等。这些信息用于最后的统计。
-103-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
在调用过程中如果发生了不可知的错误,需要进行异常捕获。 捕获的信息需要记录到异常日志表中。 3.4.3.1.7 调用统计
基于 API 调用的日志数据,即可完成多维度的统计,其中包括 API 调用次数的统计、响应时间的统计、最后使用 API 时间的统计、 API 调用者的统计、API 错误调用次数的统计。 3.4.3.2 数据开放
基于服务管理,通过加密、签名、脱敏、分级授权等方式,在 安全可控的基础上,有选择地提供给第三方应用使用,实现数据服 务能力开放,作为面向社会开放的平台,具备支撑互联网级别的并 发响应的能力。 3.4.3.3 运行监控
为运营团队人员提供管理工具,支持服务发布和运行监控,作 业调度管控,数据资产管控和安全审计等。不仅需要对数据库、数 据服务等资产的运行状态进行管控,还需要实时把握能力开放情况, 通过动态监控和预警帮助运维管理人员随时掌握系统运行状态,提 前预防及处理问题。
3.4.4 数据应用平台
数据共享、开放的最终目标都是为了要创造价值,数据的价值 主要通过应用进行体现。**电子政务公共数据开放共享平台数据应 用主要是大数据分析功能,主要包括数据采集、数据分析、结果发
-104-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
布三个组成部分,能够实现实时、批处理、交互分析,最终通过报 表、仪表盘、API 等形式展示结果。 3.4.4.1 系统构架
通过数据代理将数据推送到数据分析平台的事件流中,事件流 对数据进行个性化处理:如建立主键、索引、分配数据储存仓库等 功能。同时可以通过 Spark 对数据仓库中的数据进行数据分析或者 通过 Siddhi 进行数据实时分析。分析之后的数据可以储存到基于 hadoop 的数据仓库中,并可以通过 Rest 或者仪表盘等方式暴露给 第三方的应用系统。
3.4.4.2 系统功能 3.4.4.2.1 数据收集
事件接收器:通过事件接收器接受数据代理发布的数据。同时 支持多种协议:HTTP、Email、JMS、MQTT、SOAP、WSO2Event 等。
事件流:创建数据结构,建立数据索引、主键、持久化设置等
-105-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
功能。
索引:通过 Apache Lucene 构建 HDFS 的索引功能。 3.4.4.2.2 数据分析
实时分析:基于 Siddhi 的实时事件处理引擎
批数据分析:平台的主要分析引擎,底层基于 ApacheSpark, 可通过 SparkSQL 分析数据仓库中的数据。
数据交互:提供源数据与分析之后的数据查询功能以及复杂的 Lucene 查询功能。
智能分析:包含分类归并、决策树、列式依赖关系以及预测分 析。
分类归并,通过自动化地识别和测量数据集内的公共属性的过 程,拥有聚类(一种 K-均值算法),能够自动在数据中发现相互间 拥有非常不明显关联的数据组。这样做最明显的好处是,如果将数 据分成不同的组段,可以根据需求对不同的数据组段做不同的处理。
决策树:决策树(随机森林算法)帮你了解不同数据属性的组 合,以达到更满意的结果。决策树通常被用于通过更多的数据源来 丰富一个数据集,并实现更优化结果的过程。决策树的结构会反映 可能隐藏于数据中的结构。
列式依赖关系:列式依赖算法会自动比较每一个可能的数据属 性组合,并可视化展现根据这些关系的优势进行的排名顺序,可以 帮助您立刻知道下一步应该关注的业务领域。这些关系本身也很重 要,会经常被用于对目标进行更深入的分析。
-106-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
预测性分析:根据类似人群兴趣的历史记录,平台的推荐引擎 可以自动预测个人兴趣,从而帮助您提高用户参与度、精准推送相 关选择继而提高用户满意度等。 3.4.4.2.3 可视化发布
事件发布器:通过事件发布器将通过 Spark 或者 Siddhi 分析过 的数据进行发布,支持多种协议:HTTP、Email、JMS、MQTT、 SOAP、WSO2Event 等。
仪表盘:用于数据的可视化功能,基于 dashboard 进行图形展 示。可以使用任何数据仓库的数据或者实时事件流作为仪表盘的数 据源。
RestFul API:提供 restApi 供外部应用与平台进行数据流转。 异常/预警通知:在事件发布器中可以设置一系列的条件或者临 界值,当实时分析结果达到条件时即可触发事件发布器,对外发布 数据。
移动端:采用 HTML5 技术,并兼容市场上所有最新的平板电 脑(如 iPad),以及所有主流的智能手机(包括 iPhone 和 Android 设备)。 3.4.4.2.4 应用日志
完整的记录软件运行过程中的日志,并提供完整的日志分级、 日志查询功能。
-107-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.4.4.2.5 事件日志
记录事件接收器、事件发布器中数据流转的日志。 3.4.4.2.6 数据模拟
可直接把 csv 或者 RDBMS 中的数据导入到事件流中或者发到 打单个数据到事件流中。
3.5 四大基础数据库管理平台 3.5.1 人口库
3.5.1.1 人口库内容管理
维护人口库的基本内容构成可细化到字段级,并可以维护每个 字段从哪个信息资源中的某个指标获取,如有多个来源,可以维护 每个来源的权重。 3.5.1.2 人口库数据处理
人口库处理流程如下图:
-108-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
开始
从缓冲区增量数据表中获取人口增
量数据
否
根据证件类型判断证件号是
否符合规范
将该条增量数据插入异常表中
通过证件号判断该人是否存
在于人口主表中
否
将人口库【人口增量数据表】
中该人口记录删除
是
通过【部门业务系统提供字段配置 表】得到该业务系统需采集的字段
且循环这些字段
是
否
根据证件号码和类型更新 【人口基础信息表】及【专
题表】的字段
判断人口库该字段值的来源
是否是该业务系统
否
判断新采集的字段值是否为
空
否
是
将该人口记录插入到【人口基 础信息表】及【专题表】
否
判断该业务系统的数据 是否是业务上的新增?
否
是
是
判断该业务系统是否为 该字段的权威来源
判断人口库库该字段值是否
为空
是
根据证件号码和类型更新【人口基 础信息表】及【专题表】的字段值
将该人口记录字段来源插入到
【字段来源表】
否
更新【字段来源表】中该字段
的来源
循环人口库需采集该业务系
统的字段是否结束
将人口库【人口增量数据表】中该
人口记录删除
结束
3.5.1.3 人口库共享功能
可以根据各部门的对人口的业务需求,定制 API,在数据运营
-109-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
平台中发布,发布后,使用者可以按权限调用。 3.5.1.4 人口库应用功能 3.5.1.4.1 人口查询
1、基本查询,可查询人口的基本信息。
2、总量查询,主要包含总人口查询、年龄结构查询、育龄妇 女查询、老年人口查询、劳动力查询。 3.5.1.4.2 人口统计
1、人口分布,户籍分布、非户籍来源分布 2、人口年龄结构,年龄金字塔、年龄趋势
3、人口发展指标,人口概况、人口与经济、人口与社会、人 口与资源、人口与环境 3.5.1.4.3 人口预测
1、人口规模预测,以当前人口数量为基数,按照人口统计学 中算术级数推算法和几何级数推算法, 推测未来 5 年的人口发展 情况,用折线图显示。
2、出生人口预测,以当前人口数量为基数,按照人口统计学 中出生率法和一般生育率法推算法, 推测未来 5 年的出生人口发 展情况,用折线图显示。
3、劳动人口预测,以当前人口数量为基数,以男性 18 到 59 周岁,女性 18 到 54 周岁人员作为劳动力统计标准, 推测未来 5 年的劳动力人口发展情况,用柱状图和折线图结合显示。
-110-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
4、老年热门口预测,以当前人口数量为基数,以满 60 周岁人 员作为老龄人口统计标准, 推测未来 5 年的老年人口发展情况, 用柱状图和折线图结合显示。 3.5.1.4.4 人口与地理
在 GIS 地图点击辖区人口情况,显示辖区内总人口、性别情况、 户籍人口、非户籍人口、0-3 岁儿童数量、育龄妇女数量、劳动人 口数量、户籍劳动人口数量、非户籍劳动人口数量、老年人口数量, 侧导航栏可以根据用户要求对地图进行放大缩小处理。
3.5.2 法人库
3.5.2.1 法人库内容管理
维护法人库的基本内容构成可细化到字段级,并可以维护每个 字段从哪个信息资源中的某个指标获取,如有多个来源,可以维护 每个来源的权重。 3.5.2.2 法人库数据处理
法人库处理规则如下下图:
-111-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
开始
从缓冲区增量数据表中获取企业增
量数据
判断该企业组织机构代码是
否大于9位
否
否
判断组织机构 代码是否规范
是
是
是
取后9位作为组织机构代码
将该条增量数据插入异常表中
将缓冲区增量数据表中该业务
系统的增量数据删除
判断是否是国税、地税、质 监提供的外资企业但组机构 代码在WZYW不存在的记录
否
通过组织机构
代码判断该企业是否存在于
综合库主表中
是
通过【部门业务系统提供字段配置 表】得到该业务系统需采集的字段
且循环这些字段
否
通过【部门业务系统提供字段 值配置表】获取该企业记录来 源的业务系统需采集的字段
是
否
根据组织机构代码更新企业 主表及辅助表相应的字段
判断核心区该字段值的来源
是否是该业务系统
否
判断新采集的字段值是否为
空
否
是
将该企业记录插入到【企业基 础信息】及【专题信息】
否
判断该业务系统的数据 是否是业务上的新增?
否
是
是
判断该业务系统是否为 该字段的权威来源
判断综合库该字段值是否为
空
是
根据组织机构代码更新【企业基本 信息】及【专题信息】相应字段值
否
将该企业记录字段来源插入到
【字段来源表】
判断该企业是否为正常户?
是
更新【字段来源表】中该字段
的来源
将调用工商WebService接口进 行检验的状态改为:需要调用
否 否
是
判断该业务系统的数据 是否是业务上的新增?
是
循环核心区需采集该业务系
统的字段是否结束
将核心区【企业增量数据表】中该
企业记录删除
结束
-112-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.5.2.3 法人库共享功能
可以根据各部门的对法人的业务需求,定制 API,在数据运营 平台中发布,发布后,使用者可以按权限调用。
3.5.2.4 法人库应用功能 3.5.2.4.1 法人查询
可以查询企业基本信息。 3.5.2.4.2 法人统计
1、法人分类统计,按照外资、内资、个体、其他等类型分类 统计法人数量,按照行政区域统计法人数量。
2、法人排名统计,所得税、工业总产值、利税总额、主营业 务收入等排名统计
3、新增投资项目,各区域外资企业新增投资项目数、各区域 外资企业新增投资项目数、外资新增投资项目数量注册资本同期对 比、内资新增投资项目数量注册资本同期对比、外资企业增减资 3.5.2.4.3 法人与地理
在 GIS 地图点击辖区法人情况,显示辖区内法人数量、投资项 目数量、利税情况、主营业务收入等,侧导航栏可以根据用户要求 对地图进行放大缩小处理。
-113-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.5.3 经济库
3.5.3.1 宏观经济库内容管理
宏观经济库内容主要由指标体系构成,系统可以维护宏观经济 的多层次指标体系及指标详细字段,并可以维护每个字段从哪个信 息资源中的某个指标获取,如有多个来源,可以维护每个来源的权 重。
主要一级指标体系可以经济发展、社会进步、科技进步、资源 环境、就业生活、城市建设、普查数据。 3.5.3.2 宏观经济库共享功能
可以根据各部门的对宏观经济业务需求,定制 API,在数据运 营平台中发布,发布后,使用者可以按权限调用。 3.5.3.3 宏观经济库应用功能 3.5.3.3.1 指标查询
查询各类指标的详细信息,并可以实现指标比对功能,可以以 丰富的表格图形化界面显示。 3.5.3.3.2 文献检索
可查询各类文献,支持 PDF、EXCEL、TXT、WORD、HTML 等多种文件格式,支持模糊查询、全文检索。 3.5.3.3.3 专题分析
可对与若干个综合性指标,比如反应经济、民生、社会、发展
-114-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
等,将这些指标组合为了某个专题实现综合分析。 3.5.3.3.4 经济运行监测
主要是对企业家信息指数、企业景气指数两大景气指数及其他 相关景气指标进行关联分析,并利用制定的监测模型对指标状态进 行监控,为宏观经济决策提供支撑和依据。 3.5.3.3.5 经济与地理
在 GIS 反映全**在工业、农业、商业、能源、交通运输等社会 经济现象的分布、状态和相互关系以及变化规律的专题地图。
3.5.4 地理库
3.5.4.1 地理库内容管理
基于**空间地理信息一张图及技术构架实现。 3.5.4.2 地图图层
对于主要公共需求,有**地理信息测绘局定制若干图层。 3.5.4.3 地址管理
调用**空间地理信息一张图,实现地图地址维护,包含新增、 修改、删除等。 3.5.4.4 地图操作
实现地图常规操作功能。
-115-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.5.4.5 地图应用
提供人口、法人、经济等在地图上的展示应用。
3.6 应用支撑系统设计
为了对需要调用**电子政务公共数据开放共享平台信息资源的 政府部门应用系统进行有效管理,面向各类电子政务应用,规划建 设统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、 服务管理等核心组件,可以对接入系统有效管理、实现统一认证及 单点登录、统一消息服务。
3.6.1 统一用户管理
实现部门、用户、部门用户关系的管理,实现独立单位管理机 制,独立单位管理员可以管理自己单位的部门、用户等相关信息。 通过与其他组件的协同,实现统一身份认证、单点登录、用户资源 授权访问流程。 3.6.1.1 组织管理
允许设置组织管理员,各级管理员管理自己的组织、用户和资 源,上级管理员能管理下级的组织、用户和资源。
组织新增、修改:对组织的属性进行管理。组织属性的字段按 照国家标准(GB/T 20091-2006)。
设置管理员:即设置单位管理员,允许设置非本组织下的用户 为本组织的管理员,解决某用户不在某组织下,但是却要管理该组
-116-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
织的问题。超级管理员设置某组织管理员选择范围为所有用户;单 位管理员设置下级单位管理员选择范围为该单位管理员管辖的用 户。
权限设置:即对组织权限的管理,对组织分配权限,子组织可 以根据实际需求选择是否继承上级组织的权限,超级管理员能分配 所有组织的权限,管理员只能将自己拥有的,并且允许再次分配的 权限分配给管辖的组织。
查看用户:即查看组织下的所有用户,包括所属的用户和附属 的用户。
组织排序:在同级组织中进行排序。 3.6.1.2 用户管理
提供有效的开户方式,通过指定管理员新增、修改、删除用户, 解决用户身份真实性问题,建立无虚假信息的用户资料库。本系统 可设置三级管理员,一级为超级管理员,可设置省级部门、市管理 员;二级为市级部门、县区管理员,这些管理员可以管理本单位的 用户,同时可以根据单位情况,在本单位下设立三级管理员;三级 管理员拥有的权限和用户管理范围由二级管理员分配,但不能超过 二级管理员拥有的权限和范围。
允许一个用户属于多个组织,用户由所属组织和附属组织的管 理员进行管理。
用户管理:用户的新增修改:对用户的基本信息、组织信息、 角色权限、详细信息、扩展属性进行管理。
-117-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
用户的导入、导出:就是用户按照一定的文件格式从系统中导 入或导出。
统一角色管理:系统支持向资源同步用户的角色,前提是用户 的角色与资源角色有对应的关系。
权限设置:对用户进行授权,授权模型按照角色授权、个人直 接授权和组织授权的权限并集继承。
用户同步:对用户进行自动或手动向资源进行同步,超级管理 员能同步所有用户和资源,部门管理员只能同步其所管辖的用户到 其所管辖的资源。
访问控制:管理员决定用户访问资源的权限。 用户排序:对用户在某一组织中进行排序。 3.6.1.3 权限管理
具备完善的授权管理机制,能满足复杂的权限控制需求,可以 对用户、组织、角色等授权,可以通过权限继承与过滤和分级授权 等机制方便地实现实际的授权需求。
授权管理能够基于组织、角色、用户的访问控制策略,对组织、 用户和角色进行灵活授权,使同组织、同角色用户具有相同的权限。
授权管理能够采用逐级授权方式,分为超级系统管理员和管理 员进行分级管理。超级系统管理员能管理(包括添加、删除、配置、 修改等)管理员,同时具有管理员的管理能力。管理员能对系统中 各个业务功能域进行分域管理,同时根据业务需求进行业务角色定 制,并给角色分配相应的资源及权限,并对用户的权限进行管理(包
-118-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
括添加、撤销、配置、修改等)。
授权具体权限体系为:参照现实中的权限体系,分为部门权限、 岗位权限、特殊权限三种。
权限管理:权限的定义是指对权限名称、权限分类的定义,对权 限的功能进行对应关系。
权限授权:对角色、组织、用户进行授权。 3.6.1.4 访问控制
管理员管理角色、组织、用户能访问哪些资源。其中对组织用 户访问资源的控制,支持分级控制,超级管理员对组织进行访问控 制时选择资源指所有资源,管理员只能选择所管辖范围内的资源。 3.6.1.5 身份认证
第三方应用通过平台的统一身份认证组件实现 SSO, SSO 通 过 JDBC 方式指向平台的用户表。
第三方应用调用服务时,首选需要订阅相关的服务,调用授权 由 Oauth2 实现。
-119-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.6.1.6 单点登录
在身份认证服务基础上,实现单点登录功能。提供单点登录技 术实现对多个接入系统整合,从而使一次认证能够被多个接入系统 认可,避免了重复认证。
系统的单点登录集成要遵循统一的单点登录服务接口规范,保 证各系统对单点登录整合接口的统一性,约束应用系统单点登录接 入的实现。
3.6.2 统一应用管理
统一的应用管理提供第三方应用系统注册,统一应用管理组件 中注册的应用、模块,可以上架到应用仓库,从而挂接到各系统, 终端用户可以按需所取,从应用仓库中下载所需应用。
-120-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.6.2.1 应用类别管理
可以将应用分为门户应用、工作平台应用、移动应用等多种类 型。
3.6.2.2 应用注册
管理员可以直接注册登记应用,并可设置某个应用的管理员。 设置为应用管理员的用户,可以登录到支撑平台中,对本应用 的信息进行维护管理。
支撑平台中管理所有的全局性角色,并设置是否下发到注册的 应用。
3.6.2.3 应用模块管理
系统管理员/应用管理员可以在支撑平台中对某个应用的模块 进行管理,并进行模块的下发。对于应用系统而言,其模块包括支 撑平台下发的、本地框架创建的。
3.6.3 统一服务管理
提供统一的 API 注册、发布、调用、监控管理,是支撑平台应 用之间的调用更加便捷和安全。 3.6.3.1 类别管理
可支持子 API 类别自定义,支持父级别分类,并支持排序。 3.6.3.2 创建与发布
创建,就是将各类方法发布到 API 代理,基本只需要选择对应
-121-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
的方法。API 的具体调用信息和参考信息,都在原方法中。API 只 需要设置标识、版本、级别(调用频率控制)、状态(API 生命周期)、 授权类型。
其中对于授权类型分为 3 种类型:
无需授权:对于无需授权的 API 即完全开放访问,经过 API 代 理时无需进行授权验证。调用者也不需要提供调用凭证(Token)
用户授权:表示 API 读取的是用户资源,需要对应的用户经过 OAuth 认证授权后获得的用户凭证才可进行调用,并且只返回对应 的用户的数据
客户端授权:表示 API 直接接受应用系统的订阅,无需经过用 户授权。在 Oauth 中通过客户端授权模式产生的 Token 即可进行调 用。 3.6.3.3 仓库
在开发者平台中,公开的展示所有发布的 API 信息。包括 API 的类别、API 基本信息、API 参数信息、API 返回值字段信息。 3.6.3.4 订阅
在开发者平台上,开发商可以为对应的应用系统申请 API 订阅 权限。可订阅的范围只限定在客户端授权类型的 API 中。
管理员可在管理端查看所有申请,并进行审核。通过后,就会 自动建立应用系统和 API 的订阅关系,即应用系统具备调用 API 的 权限。当然,也可根据实际情况退回申请。
-122-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
管理员也可不经过审核步骤,自由的管理 API 的订阅关系。 3.6.3.5 模拟调用
在 API 注册管理时,可以在参数列表中,设置每个参数的模拟 测试值,如果 API 只是读取数据类型的(写入类型的 API 进行模拟 调用会对实际数据产生不可知的结果,不建议提供),则可在开发者 平台就可进行 API 的模拟调用,并将调用结果在页面上进行展示。 3.6.3.6 日志审计
调用日志在 API GetWay 处理调用请求时产生。每次调用都必 须记录一次调用日志。包括调用哪个 API、调用者身份、调用参数、 调用结果、调用返回值、调用耗时等。这些信息用于最后的统计。
在调用过程中如果发生了不可知的错误,需要进行异常捕获。 捕获的信息需要记录到异常日志表中。 3.6.3.7 调用统计
基于 API 调用的日志数据,即可完成多维度的统计,其中包括 API 调用次数的统计、响应时间的统计、最后使用 API 时间的统计、 API 调用者的统计、API 错误调用次数的统计。
3.6.4 统一消息服务
基于 RabbitMQ 作为基础组件设计到支撑平台中;将消息发送、 接收等基本功能服务化,集成到 SDK 中。
组 织 架 构 的 变 化 , 通 过 消 息 队 列 ( 约 定 队 列 名 称 为 mq_Organization)发布出来(制定具体的消息格式,对应不同的
-123-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
变化对象),各应用客户端订阅此队列,完成本地缓存的刷新、DB 的同步等操作。
统一待办事宜、短信等消息的推送服务。工作平台上消费此队 列,呈现待办事宜。
3.6.5 统一日志服务
基于 BAM 实现日志的收集、分析、监控。 3.6.5.1 日志采集
实现不同业务系统的日志的统一采集,将需要采集的业务系统 接入进来,并且在业务系统端主动发送相关的日志信息给 BAM 组 件。
3.6.5.2 日志监控
实现日志的查看,通过 BAM 的 rest 接口获取实时日志,并且 可以支持日志的分析。
3.7 安全保障体系建设 3.7.1 建设目标
根据**电子政务公共数据开放共享平台的网络结构和应用模式 特点,针对平台可能存在的安全漏洞和安全需求,通过安全防护体 系和安全管理体系的建设,实现保障**电子政务公共数据开放共享 平台的整体安全的目标。
-124-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.7.2 安全体系架构
**电子政务公共数据开放共享平台安全保障体系包括安全防护 体系和安全管理体系两大部分。其中安全防护体系包括:网络安全、 系统安全、应用安全和数据安全;安全管理体系包括安全策略管理 规范、安全组织模型、安全规章制度。
3.7.3 安全防护体系建设
3.7.3.1 网络安全
网络层安全解决方案为**电子政务公共数据开放共享平台提供 了电子政务外网接入方式所必须的网络安全防护手段,部分应用可 采用虛拟专网(VPN)的技术手段,保障共享交换数据的安全可靠传 输。网络层安,保护**电子政务公共数据开放共享平台的关键应用 和加密数据;增强数据传输效率,并支持迅速创建新的安全应用环 境来满足新的应用流程需求。 3.7.3.1.1 网络安全防护 3.7.3.1.2 边界防护
在**电子政务公共数据开放共享平台的边界设立一定的安全防 护措施,具体到**电子政务公共数据开放共享平台中边界,就是在 平台的物理网络之间,**电子政务公共数据开放共享平台的边界防 护技术和产品主要釆用交换机和综合安全网关。
-125-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3.7.3.1.3 区域防护
区域防护是一个比边界更小的范围,指在一个区域设立的安全 防护措施,具体到**电子政务公共数据开放共享平台中,区域是比 较小的网段或者网络,**电子政务公共数据开放共享平台的区域防 护技术和产品采用网络入侵检测系统。 3.7.3.1.4 节点防护
节点防护是指具体到一台服务器或主机的防护措施,它主要是 保护系统的健壮性,消除系统的漏洞,建议**电子政务公共数据开 放共享平台的节点防护技术和产品釆用病毒防范系统、漏洞扫描和 网络安全评估分析系 3.7.3.1.5 网络高可用
在本次**电子政务公共数据开放共享平台网络设计中,网络设 备本身以及设备之间的连接都具非常高的可靠性。为了提供**电子 政务公共数据开放共享平台网络的稳定性,在**电子政务公共数据 开放共享平台核心网络部分,核心交换机、综合安全网关全部采用 冗余配置,包括引擎、交换网、电源等。所有的连接线路全部采用 双归属地方式,包括与电子政务外网互联,与服务器接入交换机互 联。在服务器接入区,使用大量服务器接入交换机并进行虚拟化方 式所必须的网络安全防护手段,部分应用可采用虛拟专网(VPN)的技 术手段,保障共享交换数据的安全可靠传输。网络层安,保护**电 子政务公共数据开放共享平台的关键应用和加密数据;增强数据传
-126-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
输效率,并支持迅速创建新的安全应用环境来满足新的应用流程需 求。
3.7.3.1.6 网络安全防护 3.7.3.1.7 边界防护
在**电子政务公共数据开放共享平台的边界设立一定的安全防 护措施,具体到**电子政务公共数据开放共享平台中边界,就是在 平台的物理网络之间,**电子政务公共数据开放共享平台的边界防 护技术和产品主要釆用交换机和综合安全网关。 3.7.3.1.8 区域防护
区域防护是一个比边界更小的范围,指在一个区域设立的安全 防护措施,具体到**电子政务公共数据开放共享平台中,区域是比 较小的网段或者网络,**电子政务公共数据开放共享平台的区域防 护技术和产品采用网络入侵检测系统。 3.7.3.1.9 节点防护
节点防护是指具体到一台服务器或主机的防护措施,它主要是 保护系统的健壮性,消除系统的漏洞,建议**电子政务公共数据开 放共享平台的节点防护技术和产品釆用病毒防范系统、漏洞扫描和 网络安全评估分析系。 3.7.3.1.10 网络高可用
在本次**电子政务公共数据开放共享平台网络设计中,网络设
-127-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
备本身以及设备之间的连接都具非常高的可靠性。为了提供**电子 政务公共数据开放共享平台网络的稳定性,在**电子政务公共数据 开放共享平台核心网络部分,核心交换机、综合安全网关全部采用 冗余配置,包括引擎、交换网、电源等。所有的连接线路全部采用 双归属地方式,包括与电子政务外网互联,与服务器接入交换机互 联。在服务器接入区,使用大量服务器接入交换机并进行虚拟化堆 叠技术,服务器通过双网卡与服务器接入交换机互联,保障了服务 器连接的高可靠性。 3.7.3.2 系统安全
系统安全包括系统运行安全、系统信息安全设计、信任服务体 系、权限管理设计,从各个层次来保证系统的安全性。 3.7.3.2.1 运行安全 3.7.3.2.2 设备接入控制
各接入系统的权限(资源提供、资源需求部门)通过身份认证 和用户分配的方法(和 IP绑定)进行接入控制。 3.7.3.2.3 服务器负载均衡
负载均衡是建立在**电子政务公共数据开放共享平台网络结构 之上,用以扩展服务器带宽和增加吞吐量,加强网络数据处理能力, 提高网络的灵活性和可用性。主要完成以下任务:解决网络拥塞问 题,服务就近提供,实现地理位置无关性;为平台提供更好的访问 质量;提高服务器响应速度;提高服务器及其他资源的利用效率;避
-128-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
免了网络关键部位出现单点故障。平台设计中数据库服务器和应用 服务器都釆用负载均衡和容错设计。 3.7.3.2.4 系统备份与恢复
对平台中重要的业务数据、操作日志、关键数据、数据库以及 操作系统进行备份,备份系统选配相应的数据备份与恢复软件,以 及数据备份服务器、磁带库等设备,通过定义备份策略,如全备份、 增量备份、差异备份等,定时将系统中的数据备份到备份介质,以 防止系统出现故障后(如数据误删除、病毒感染、自然灾害等)能 够及时地恢复数据,保证系统运行。
数据备份的容量一般以在线数据的 2~4倍计算,因此配置的磁 带库容量应大于 15TB.磁盘都采用 RAID1热备份和 RAID5备份,避 免数据丟失.
在存储设备配置上考虑了平台数据库存储和平台应用服务器存 储互备的冗余设计.具体来说,可以在平台数据库存储和平台应用服 务器存储都安装远程镜像软件实现 I/0级别的数据镜像,系统的任 何写操作都会同时写入两个存储设备(平台数据库存储和平台应用 服务器存储),分别实现平台的中心数据库存储和应用服务器存储之 间的容灾备份,当任何一个存储设备发生故障都不会影响业务的正 常运行.
3.7.3.2.5 信任服务体系
通过与**CA中心接口,所有由**电子政务公共数据开放共享平
-129-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
台所签发的设备和平台管理用设备都经过 CA认证后接入系统,所有 平台内部管理人员都发 KEY进行接入认证。 3.7.3.2.6 权限管理设计
因**电子政务公共数据开放共享平台参与角色众多,必须要有 完整的权限管理体系对用户进行管理。
用户管理集中管理访问系统的用户和权限,管理用户信息包括 用户的详细信息、所属的部门和相应权限。
内部管理用户权限比较复杂,在权限管理上,系统要支持数据 特权、机构权限、客户端权限、流程权限、模块使用特权等全面的 权限定义,并且可以根据 IP地址和时间段控制系统的访问。各种权 限可以组合为角色,角色可以嵌套。通过权限管理工具,用户可以 方便的进行用户权限配置。 3.7.3.2.7 应用安全
通过配置入侵检测、CA身份认证等安全设备和安全措施为平台 的应用安全提供全方位的保护。 3.7.3.2.8 入侵防御
入侵防御系统是安全系统重要组成部分,可以对流经的数据包 进行数据分析,过滤掉含有攻击指令和操作的数据包,保护**电子 政务公共数据开放共享平台网络及应用系统的安全。提供对内部攻 击、外部攻击和误操作的实时保护。入侵防御主要系统功能包括: 引擎集中管理、实时入侵侦测、防火墙互动开放接口、报表统计和
-130-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
数据库维护、策略库的在线升级支持等功能。 3.7.3.2.9 CA 身份认证
采用简单的“用户名+口令”的方式认证用户,这种模式的身份 认证和访问控制体系安全存在极大的安全隐患,必须要通过建立一 套完整的从安全谁到权限分配管理的认证系统。
CA认证就能够很好的解决了各种系统的认证问题,CA提供了一 种机制,即利用 CA 的证书来验证用户证书合法性来判断用户的身 份,但由于个人用户数字证书可以公开,因此,仅仅利用 CA来认证 用户,可能存在漏洞。所以需要建立和 CA配套的系统,如资源授权 管理系统|用户认证授权等系统,以实现身份安全认证和资源的安全 访问控制。
平台通过与**政府 CA中心接口,所有由**电子政务公共数据开 放共享平台所签发的设备和平台管理用设备都经过 CA 认证后接入 系统,所有平台内部管理人员都发 KEY进行接入认证。考虑 CA认证 属增强型安全防护,不属基本防护,故不在共享平台一期建设范畴, 考虑放到后期建设中实施。 3.7.3.3 数据安全
3.7.3.3.1 数据安全加密传输(VPN)
考虑到数据传输的安全性,各接入部门到**电子政务公共数据 开放共享平台的数据进行 VPN加密传输。接入部门和平台两端防火 墙插卡设备之间运行 IPSecVPN协议,保证数据在传输过程中的端到
-131-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
端安全性。
3.7.3.3.2 数据交换过程的安全保障
平台数据交换过程的安全保障主要指信息在交换过程中不能被 非法篡改、不能被非法访问、数据交换后不能抵赖等功能。
平台业务系统在传递消息的过程中可以指定是否采用消息内容 的校验,校验方法是由发送消息的业务系统提供消息的原始长度和 根据某种约定的验证码生成规则(比如从 MD5校验规则)生成的验 证码。
3.7.3.3.3 数据交换接口安全设计
平台提供的消息传输接口支持不同的安全标准。对于对安全性 要求比较高的业务系统来说,在调用平台的 WebService接口时使用 HTTPS协议,保证了传输层面的安全;而对于安全性不那么重要,只 想通过很少的改动使用平台功能的业务系统来说,可以单的通过 HTTP方式调用平台的 WebService接口进行消息的传输。 3.7.3.3.4 数据审计与防护
**电子政务公共数据开放共享平台业务应用系统通过配置数据 库审计产品来对数据进行审计与防护,一方面能及时发现数据库非 法访问行为并产生告警,实现对数据库系统安全状况的全面审计; 另一方面能够对数据库的非法或越权操作进行追溯和定位,为事后 找出非法或越权用户,提供快捷方法和证据。
数据库审计包括分别部署在平台网络的数据库审计和安全防护
-132-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
软件,主要考虑在保障数据库安全的同时不影响数据库的运行效率, 所以釆用和数据库服务器并联方式(即旁路方式)进行部署。
3.7.4 安全管理体系建设
在**电子政务公共数据开放共享平台安全保障体系建设中,仅 仅靠技术手段难以防范所有的安全隐患,还需要建立相应的安全管 理体系。安全管理是整个安全建设的核心环节。一个有效的安全组 织会在安全策略的指导下,在安全技术和安全产品的保障下,保证 日常的安全保障工作简明高效。
安全管理体系主要包括:安全策略、安全组织和安全制度。为 了加强对客户网络的安全管理,确保重点设施的安全,应该加强安 全管理体系的建设。 3.7.4.1 安全策略
安全策略是管理体系的灵魂,要做到全面、灵活、实用,必须 在对信息系统进行细致的调查、评估之后,结合**电子政务公共数 据开放共享平台的业务流程,制定出符合**电子政务公共数据开放 共享平台实际情况的安全策略体系。
安全策略体系包括安全方针、主策略和子策略和**电子政务公 共数据开放共享平台日常管理所需要的制度。
安全方针是整个体系的主导,是安全策略体系基本结构的最高 层,它指明了安全策略所要达到的最高安全目标及其管理和适用范 围在安全方针的指导下,主策略定义了**电子政务公共数据开放共
-133-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
享平台安全组织体系及其岗位职责,明确了子策略的管理和实施要 求,它是子策略的上层策略,子策略内容的制定和执行不能与主策 略相违背。
子策略是安全策略体系基本结构的最低层,也是用于指导组成 安全保障体系的各项安全措施正确实施的指导方针。
另外,为了管理员工安全行为,根据策略体系制定了必要的安 全管理制度。 3.7.4.2 安全组织
由于**电子政务公共数据开放共享平台信息化程度非常高,信 息安全对于整个**电子政务公共数据开放共享平台系统的安全建设 非常重要。因此,建立具有管理权的适当的信息安全管理委员会来 批准信息安全方针、分配安全职责并协调组织内部信息安全的实施。 建立和组织外部安全专家的联系,以跟踪行业趋势,监督安全标准 和评估方法,并在处理安全事故时提供适当的联络渠道。另外应鼓 励多学科的信息安全方法的发展,如:管理层、用户、行政人员、 应用软件设计者、审核人员和保安人员以及行业专家(如法律和风 险管理领域)之间的协作。
作为一个网络安全组织,会渗透到**电子政务公共数据开放共 享平台的各个网络相关部门。很多人员都会直接或者间接地参与网 络安全工作。这些人可能包括:
高层管理人员:以高层管理的身份,负责整个**电子政务公共 数据开放共享平台的网络安全的成功。
-134-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
网络安全委员会:由相关领导组成的委员会,对于网络安全方 面的重大问题做出决策,并支持和推动网络安全工作在**电子政务 公共数据开放共享平台范围内的实施。
网络安全管理者:以一个专门的网络安全中心门的领导者的身 份,负责整个**电子政务公共数据开放共享平台的组织和系统的安 全;负责网络安全的整体协调工作;负责网络安全的曰常管理。
网络专家组:聘请业内专家作为**电子政务公共数据开放共享 平台的支持资源。
技术提供者:系统管理人员、网络管理人员等支持组织和功能 人员:审计人员、物理安全人员、灾难恢复和意外处理人员、质量 保证人员、培训人员等。用户:信息的用户、系统的用户等。 3.7.4.3 安全制度
**电子政务公共数据开放共享平台是一个要求安全性要求非常 高的单位,所以安全的制度的建立要求也很严格。由管理层负责制 定切实可行的日常安全保密制度、审计制度、机房管理、操作规程 管理、系统维护管理等,明确定义日常安全审计的例行制度、实施 日程安排与计划、报告的形式及内容、达到的目标等。
技术层指安全保密、安全审计、操作规程、系统维护等流程的 建立,明确定义安全审计所涉及的过程及技术要求,包括:用户确 认制度和签字验收制度、扫描的实施技术要求、安全修补方案制定 原则、安全修补的实施原则及技术要求等。确定安全审计服务范围, 包括:确定需要进行审计的网段、在需要审计的网段内,确定需要
-135-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
进行安全审计的网络设备、主机系统、应用系统列出需要审计的服 务清单等。
**电子政务公共数据开放共享平台建成后,需要针对各系统制 定完善的运作体系,保证系统的安全运行。
3.8 主要软硬件选型原则和详细软硬件配置清单 3.8.1 主要软硬件选型原则
1、国产化原则
根据《鼓励软件产业和集成电路产业发展的若干政策》中规定, 国家投资的重大工程和重点应用系统,应优先由国内企业承担,在 同等性能价格比条件下应优先采用国产软硬件系统。
2、开放性和扩展性原则
一方面,系统将与各部门的业务系统及数据库相连接,要采用 开放性、标准化的设备、软件及信息资源;另一方面,系统对于未 来可能增添的新的子系统、新的数据库、新的功能、新的用户都要 留有接口和二次开发 API,并符合电子政务相关技术标准,系统可 以随形势的发展而不断成长扩大。
3、适用性和成熟性原则
在产品选用方面力求采用成熟适用的网络技术、应用平台和开 发工具,保证系统的适用性和成熟性,确保系统的高性能和稳定性。
4、可靠性原则
-136-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
社会在向信息时代迅速发展的同时也有潜在危机,即对信息技 术的依赖程度越高,系统失效可能造成的危害和影响也就越大。因 此,在选择本系统的软硬件时,尽可能在有限的投资条件下,从系 统结构、网络结构、技术措施、设备选型以及厂商的技术服务和维 修响应能力等方面综合考虑,确保系统整体运行的可靠性。
3.8.2 详细软硬件配置清单
详细软硬件配置清单详见附表。
-137-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
第四章 效益分析
4.1 经济效益
一、统一规划、开发利用共享信息资源,集约电子政务建设投 入,降低政府信息化建设运行成本
**把各类共享信息资源的开发利用作为重点工作内容,这也是 国家电子政务工程的重点方向。项目建设通过统一规划、共同开发, 协同服务,既可以盘活数据资源,减少政府部门信息重复采集建设、 节省人力成本、提高信息利用率和时效性,产生直接经济效益,为 各政府部门的业务系统的建设提供宏观指导作用的建设方案,直接 降低建设成本。
二、实现全**信息资源共享,强化政府部门业务协同,提高行 政办公效率
明确数据共享推进的方向和内容,根据应用需求确定共享数据 的共享频度、采集范围和抽取粒度,通过共享数据应用对业务决策 的支持大力推动数据共享和交换,促使各部门持续共享,实现信息 的互联互通,使各级决策者能够立足全**信息资源,及时、准确获 取数据,多角度、全方位的看问题和进行决策,从而制订更科学更 有效的方针政策。
三、把握宏观态势,深入重点领域,为政府信息资源的共享探 索出一条有效途径
-138-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
通过**电子政务公共数据开放共享平台建设,根据应用需求汇 集数据,从宏观指标数据、中观报表数据到微观的底层基础数据和 业务数据,使政府领导和各级决策者不仅能从宏观上把握全**经济 和社会总体发展,更可以深入重点领域,深入分析和挖掘原因,并 从一定程度上进行预测。这是政府决策模式和信息化领域的重大创 新,为政府信息共享探索出一条有效途径。
四、有效缓解条块分割弊病,强化部门业务协同,促进宏观经 济管理体制创新
**电子政务公共数据开放共享平台将在推进**政府管理现代化 和促进各级行政管理部门转变政府行政职能方面发挥重要作用,在 国家的指导方针下,通过对外服务事项、跨部门业务、内部管理等 业务流程梳理及协调,借助信息化手段,不断优化宏观经济管理业 务程序,强化部门间的业务协同,提高对外服务水平和管理效率, 有效缓解条块分割弊病,有力地促进宏观管理部门的职能转变;同 时,宏观经济管理部门职能转变又将对信息化提出更高的要求,两 者间的良性互动会进一步促进宏观经济管理体制创新。
五、维护经济秩序,降低金融风险
通过基础信息数据库提供的公民身份信息、法人单位信息核实、 信用信息服务等功能,可以在一定程度上降低因信用缺失造成的金 融风险,防范经济诈骗,促进整个社会形成健康、有序的经济秩序。
-139-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
4.2 社会效益
一、完善信息基础设施,推动社会信息化的全面发展 **电子政务公共数据开放共享平台建设将完善**信息基础设 施,能够有效促进和推动**信息化的全面发展。通过统筹规划、统 一标准、统一管理、统一服务,能够完善**信息资源体系的集约化 建设、共享和开发利用,促进政府的业务协同。
在完善现有信息资源体系为政府服务的同时,通过信息资源全 面的人口信息、法人信息、自然地理信息、宏观经济和信用信息等 各类信息的建设,全面拓展政府面向市民的服务,促进企业信息化, 推进电子商务发展。
二、发挥资源共享优势,提高决策科学性和有效性,提高社会 经济运行质量和效率
通过平台的建设,实现各部门资源共享和互联互通,使得各部 门方便的获取其它部门信息,使得各级政府领导快捷、方便地掌握 宏观经济信息,及时跟踪和监测宏观经济运行状态,增强宏观调控 的主动性和科学性,提高经济运行质量。与此同时,由于宏观决策、 行政管理和服务效率的提高,经济运行的效率也会相应的提高,其 间接的经济效益是巨大和长期的。
三、构建服务型政府,提升政府的融合服务能力
**电子政务公共数据开放共享平台建设完成后,将基于该中心 整合提升各类应用和服务,建设面向市民的融合服务体系,提高居 民幸福感,为建设智能、宜居、便捷的……提供支撑。
-140-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
四、建立创新型政府信息服务,拉动信息服务业发展 **电子政务公共数据开放共享平台的建设不仅为政府信息化提 供了所需的应用服务、技术服务、管理与规范服务、信息资源服务、 软硬件环境等,也为政府面向企业、公众提供了必要的创新服务平 台。项目将积极开发政务、商务和公共信息服务手段和能力,以基 础架构服务、基础信息库综合供应维护应用服务建设为抓手,加快 信息服务产业化进程。
五、支持信用体系建设,推动经济快速、可持续发展 全面建设信用社会是我国经济建设和发展的毕竟之路,其中信 用体系的建设是建设信用社会的重要基础。通过人口、法人等信息 跨部门、跨地区的交换和共享,能有效满足政府各部门、企事业单 位及公民个人对基础信息的需求,为信用体系建设打下坚实的数据 基础。
-141-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
第五章 项目风险与风险管理
5.1 风险识别和分析
本项目属于信息化建设项目,其风险包括组织风险、管理风险、 业务风险和技术风险。
5.1.1 组织风险
组织风险主要包括由于组织内部成员对目标未达成一致,管理 高层对项目不重视,工程参与人员知识与技能欠缺、团队合作精神 不足、人员激励机制不当等因素导致建设队伍不稳定,建设资金不 足,与其它项目存在资源冲突等。
5.1.2 管理风险
管理风险主要包括项目管理的基本原则使用不当,计划草率、 质量差,进度和资源配置不合理等。
5.1.3 业务风险
业务变化可能产生的风险主要包括业务流程的改变、职能部门 的调整等。
5.1.4 技术风险
技术风险主要包括技术目标过高,技术标准发生变化,复杂、
-142-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
高新技术或非常规方法应用的潜在问题等。
5.2 风险对策和管理
为确保工程成功,将在本项目建设中采取有效的风险管理,消 除各类风险的不良影响,确保实现工程建设目标。
本项目的风险防范主要侧重于组织风险防范、管理风险防范、 业务风险防范和技术风险防范四个方面。
5.2.1 组织风险防范对策
各部门现有行政组织架构能够支撑本项目的项目管理,并为本 项目建设成立了领导小组为核心的决策机制,将有效地保障本项目 建设的项目管理更加高效。
本项目将充分调动相关部门的积极性,使其充分参与到项目管 理的过程中来;此外,本项目还将依靠专业的信息技术专家,为项 目建设提供技术与管理问题的咨询和指导。
5.2.2 管理风险防范对策
本项目作用的发挥很大程度上依赖于各部门的积极参与和协同 作用。在控制项目的协调管理方面,采取如下措施:
1、管理层重视与参与。领导加强重视,全程参与项目的建设与 推广应用,以保证系统建设的顺利推进与实施。
2、目标明确。明确总体建设目标,遵循项目建设原则,在国家 规定的投资规模和建设计划内,完成系统建设任务。
-143-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
3、总体规划,分步实施。在实施过程中,主管部门负责制订实 施的总体规划,根据实际情况量力而行,分步实施。
4、后期管理。建成后的运行管理工作,是本项目能否发挥作用 的关键。只有建立完善的后期管理制度,并配备足够的技术人员对 其进行日常维护管理,才能使其始终保持活力,发挥其应有的功能。 此外,在后期管理的过程中,还应总结不足,不断改进,使系统功 能日趋完善。
5.2.3 业务风险防范对策
各部门职能清晰明确,短期内应该不存在大幅度的调整。但在 软件开发的过程中,仍需注意对现有业务流程进行局部的优化和规 范。
5.2.4 技术风险防范对策
当今信息技术日新月异,在电子政务工程建设中,可能要面对 一定的技术风险。为规避这一风险,应尽可能采用较为成熟的技术 方案。
1、硬件选型的风险控制。在进行系统建设时,应正确估算网络 传输带宽等系统及硬件的性能指标。根据估算结果,选型时应从考 虑以下几个因素:
(1)选择信息技术主流系统厂商。
(2)选择主流硬件平台,选择先进的技术,代表未来发展方向。
-144-
--精品
**电子政务公共数据开放共享平台可研报告
精品---
(3)选择具有长远发展潜力以及服务的信息技术供应商。 2、软件选型的风险控制。在进行项目建设时,需要选用先进、 稳定、合理的软件架构,配置合理的管理软件,同时选择技术实力 强、产品质量高、服务信誉好的供应商。
3、系统集成商的选择。在进行项目建设时,应选择在网络建 设与系统集成方面具有丰富经验和雄厚实力的系统集成商,以保证 各子系统的无缝集成,回避实施过程中的风险。
-145-
--精品
因篇幅问题不能全部显示,请点此查看更多更全内容