校级主题库管理平台建设方案

本文由用户“huaxiaoxiao”分享发布 更新时间:2021-03-22 14:34:55 举报文档

以下为《校级主题库管理平台建设方案》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

项目背景

1.1 项目概述

学校遇到的问题:学校一共运行了有三个版本的kettle工具,由于单工具有一定的性能瓶颈,XXX大学数据交换量极大,所以需要老师一个人带领一共研究生团队对三个工具进行运维,并且日常排错、更新资源、检测问题数据等工作让整个团队满负荷运作。

建设目标:建设以“互联互通、信息共享、业务协同”为目标,完成学校各信息系统整合工作。本次建设中,结合学校信息化的基础现状,完成校级主题库的搭建,实现“统一全校信息标准”、“集中全校权威数据”、“规范全校数据服务”三大目标,全面支持校内结构化数据的采集、优化、存储、管理、使用,积累海量数据、统一数据源,实现精细化、全面化的数据管理。构建主题数据管理体系,借助当前的大数据技术,建设全量数据采集治理管理平台。

客户认可点:全量数据标准化技术、满足学校的灵活的授权逻辑(西交大数据授权远比一般学校复杂。如:学校需要拿到学生基本信息,需要先到学工部门进行授权盖章,然后上传电子授权书,数据中心才能将数据进行推送,有些数据需要二级授权等要求)、分布式交换技术

校级主题库管理平台采购需求

二、采购需求应当完整、明确,并包括以下内容:

(一)项目概述(采购标的需实现的功能或者目标,以及为落实政府采购政策需满足的要求):

项目目标:随着信息化建设在高校不断快速发展,越来越多的应用系统已投入使用。在数据传输、共享与存储过程中,现阶段缺乏较好的保护与溯源措施,随着业务部门对数据管理的要求不断的提高,相关数据安全的工作也达到了新的需求高度,从前的数据管理存在集中化数据安全管理工作机制不完善、数据使用监控不完备等问题,因此需要对每个数据资源进行量身定制的精细化安全配置与管理,并通过安全监管体系掌握数据的使用情况,可按照有效期对数据进行授权,进一步保证数据安全。同时,在数据采集过程中,需对源数据进行转换及分析,能主动提示管理员数据质量问题,改变以往靠用户发现的后知情况,进一步提高数据准确性及工作效率,真正实现数据“谁产生、谁维护、谁负责”。

本期项目建设以“互联互通、信息共享、业务协同”为目标,完成学校各信息系统整合工作。本次建设中,结合学校信息化的基础现状,完成校级主题库的搭建,实现“统一全校信息标准”、“集中全校权威数据”、“规范全校数据服务”三大目标,全面支持校内结构化数据的采集、优化、存储、管理、使用,积累海量数据、统一数据源,实现精细化、全面化的数据管理。构建主题数据管理体系,借助当前的大数据技术,建设全量数据采集治理管理平台,对数据接口、数据标准、元数据、数据质量等形成完整的管理体系,从而为学校构建高质量数据资产搭建底层架构体系,实现数据“统一标准、上下联动、资源共享”的学校各信息资源大数据,打破数据壁垒,实现一数一源和伴随式数据采集。完善教育数据标准规范管理,促进校务数据分级分层有效共享,避免数据重复采集等问题,并且达到数据的访问可监控,使用可记录的效果。

功能性需求:

该项目主要包括主题库管理和数据资产应用及管理两部分内容。其中,主题库管理主要包括主题域的设计与建模、数据源管控、数据质量管控、元数据及数据标准管理、数据资产管理及统计等模块内容;数据资产应用及管理主要包括API数据服务、数据使用管理、数据地图及热力分析等模块。

主题库管理

主题库管理模块包含主题库的建模(包括贴源层、标准层、主题层、统计与应用分析层等)、数据源管控、数据质量控制、元数据及数据标准管理、统计与分析,并根据学校需求完成以教工、学生、教学、科研、公共应用为主题的五大主题域的建设工作。其中包括:

教工主题域:含教职工基本信息、离退休信息、行政关系信息、职称、职级、人员类别(在编)、当前状态等信息,涉及系统含人事系统、离退休系统、干部管理系统、组工系统、教师档案系统、教务系统、研究生系统、住房系统等相关数据。

学生主题域:含本科生、研究生、留学生等所有与学生相关的基本信息,涉及系统有教务、研究生、学工、宿管、组工、考勤、就业、迎新注册离校、招生、零欠费、财务等。

教学主题域:本科生学籍、课程安排、教学管理,研究生学籍、培养计划制定等教学管理,教育教学资源等相关数据。涉及系统有教务、研究生等系统。

科研主题域:包括科研项目管理、成果管理、科研机构管理、论文、获奖、专利、著作等相关数据,涉及系统有财务、科研、教师平台等。

公共应用域:包含一卡通、门禁数据等,涉及系统包含一卡通系统、图书馆门禁系统、宿舍门禁系统等。

序号

子项目

功能描述



1

主题域的设计与建模

主题库按照数据存储与加工结果分为贴源层、标准层、主题层、统计与应用分析层等,在此功能中应实现以下功能:

主题库中须将从数据源同步的数据在数据标准元数据、数据质量元数据以及数据治理组织结构元数据等方面进行融合,通过数据清洗与整合将分散在各业务系统的结构化数据集成起来。将数据处理作业分类管理,分步运行以提升管理效率,减少问题排查时间,保证数据及时可用。

在储存与加工过程中,贴源层如实的反应了各系统接口过来的数据以及主要数据的变化过程,保存原生结构化数据,并对数据进行增量标示,积累学校历史数据情况(贴源层数据只增不减,对update、delete操作留下记录);

标准层按照学校数据标准对数据进行转化,并对数据质量进行检测及处理,形成对外共享的标准数据,数据库内容设定一定时间进行自行清洗;

主题层按照《XXXX大学信息化数据管理办法(试行)》中所规定的主题域对数据进行处理及分类,存放学校权威基础数据信息,其中包括部分数据事务处理与集成,取贴源层的有效数据输入,做一些适当处理存放到该层,本层所有数据都是有效的数据,为后面主题分析,数据挖掘做准备;

统计与应用分析层根据学校最后展示和分析的需要,做一些汇总统计的预处理,形成最终的表及视图,将其单独管理起来,提高最后交互分析和展示的效率,也让整个数据中心更有层次,便于管理。

须按角色进行授权,支持对数据源、数据质量、元数据、统计分析等功能进行授权后查看或管理,并对已授权的用户进行启用和停用。



2

数据源管控及数据集成调度

数据源管控模块为管理人员提供直观、全面的数据源接入状态、集成及管控。数据集成原始库只需只读权限便可完成数据源的接入及集成,不能在数据集成时自动在目标库中产生和删除大量临时表。具体包括以下内容:

满足添加多种主流数据库作为数据采集对象,包括Oracle、Mysql、Sqlserver、PostgreSQL、Mongodb、Hive、GuassDB等,具体数据库版本以各业务系统数据调研结果为准并向上兼容,并且满足关系型数据库到分布式及非关系数据库间的数据迁移。

确定各项数据的唯一来源,并根据唯一来源,梳理对应的数据标准。

数据源添加完成后,定时自动采集数据源的信息,包括schema、表名、数据量、数据结构、中文注释等;支持单选或多选将数据源中的对象信息自动采集为元数据。

对主题库中的所有数据进行管理,管理从数据中心获取数据的应用系统,将学校应用系统或平台的基本信息、访问的数据范围、管理员、管理员所在单位某某IP认证信息等录入到数据中心,数据服务授权给已有的应用系统,并列表显示应用系统名称、应用系统IP地址。

满足数据录入、导入及采集,将指定格式的数据(如:库用户、系统名称、管理员、已授权IP、表空间等信息)录入系统中并进行管理,为后期数据统计及分析做好准备。

满足通过可视化交换组件新建接口、配置接口名称、交换类型(全量交换或增量交换)、接口所属分类及接口说明;组件要求符合标准SQL规范,不同应用系统、不同数据库之间实现“松耦合”的应用和数据集成,且具有良好的扩展性。

满足数据集成所有操作的可视化界面操作,并且运行结果可监控,且具有开放性,提供外部对接接口,且可与外部接口对接,如邮件、消息平台等。

满足添加不同类型数据库作为输入数据库和输出数据库。满足选择源库表/目标库表,满足已有接口的导入及导出功能,并满足源、目标表间的字段自动映射以及通过拖拉拽的方式定义源表和目标表的映射关系。

满足web界面选择和自定义两种方式创建转换规则,同时要求内置不少于10个转换规则供选择,满足通过接口名称、接口类型、接口执行状态对任务进行检索。

满足定时可定制的(日/周/月/自定义间隔)自动化数据更新、入库及校验,将执行结果主动推送管理员。满足通过Web界面查看数据更新调度结果并可详细显示数据更新运行情况。

满足对源端已删除数据到标准层的自动检测及标记,以保证下游系统数据的准确性。

满足与学校的统一消息平台的对接,对执行失败的接口状态能够通过系统通知、短信或邮件等方式进行告警。

满足对多种ETL工具的监控,如ODI、Kettle以及本项目中使用的数据更新程序的监控;如对本项目外的其他已有交换工具不能进行监控,则须完成现有接口到新平台的免费迁移工作。

满足通过Web界面查看全部调度任务,包括各调度任务编号、任务调度名称、接口数量、任务调度时间、周期以及对每个任务可执行过的操作。

满足根据各业务部门对数据的交换需求新建调度任务,包括调度任务名称、调度任务所属分类、任务周期(日/周/月/自定义间隔)、可选择的调度任务接口列表、可选择的交换类型。新建调度任务,实现数据的在线分发与推送。

满足接口运行状态的监控,包括表名、执行状态、最后一次执行时间、执行次数(总次数/正确次数/错误次数),可查看当前运行状态以及历史执行情况。可通过该功能监控ETL任务的成功率、平均处理速度和数据同步条数,包含执行状态、新增、更新、删除记录数量、开始执行时间、结束执行时间等信息



3

数据质量控制

数据质量控制模块是指按照要求对数据质量进行检测,并可生成质量报告,具体内容如下:

在数据进入标准层时选择需要清洗的数据源,并根据数据标准的要求,通过Web界面配置多种转换函数完成数据的清洗工作,包括对数据的完整性、唯一性、一致性、正确性、准确性等维度的处理,确保数据最终分类入仓的数据符合标准规范。满足查看标准及规则的内容,系统根据模型匹配,给出源数据依赖的标准建议,减少人工识别的时间。并满足通过数据质量的监控,对异常数据进行标记并生成质量报告。

满足将清洗任务进行切分,通过多个交换单元并发实现多线程高性能作业;满足创建单个接口,同时满足将多个接口进行串联或者并联形成任务链。

按照数据标准及自定义规则等对数据质量进行检测及分析,并对分析结果生成报表。按部门统计展示数据质量问题分布及问题趋势等。检测报告是每次数据质量检查后输出的详细结果。报告中需要包括总体的统计信息,包括检测开始结束时间、历时、检测对象包含的业务系统、哪些表、哪些字段、哪些规则等。

满足查看数据异常量的TOP排名,显示各种异常数据的数据量统计,并展示多维度质量评分、数据总量和问题数据占比。通过图表与列表的方式进行展现。并满足逐级下钻查看报告详情,从系统级下钻到表级、字段级、规则级、记录级,并细化追踪到每一条具体的问题记录,查看异常数据的内容,便于数据负责人进行修正。

满足人工或自动生成质量检测报告,并满足基于质量管理责任制设置报告推送规则,报告以邮件的形式通知相关人员。



4

元数据及数据标准管理

元数据及数据标准管理是指对所有表结构进行管理的分析(含源端及目标端表结构),并可对表结构的变化进行分析并通知管理员,以便管理员对数据集成接口进行调整,并且在此模块中,对已有数据的数据标准进行梳理,并且实现数据血缘关系的管理等功能。具体包括以下内容:

满足表结构级的元数据管理,满足元数据周期性采集,在数据表结构(字段的增删、数据类型的变化、数据长度的变化等)发生变化时,自动识别与上一版本元数据的差异,并生成变更记录,并通过系统消息或短信、邮件等方式通知管理员,以便管理员对已有数据进行调整及处理,提供元数据表结构变更影响分析,满足直观查看该元数据表结构变更对下游数据的影响。

满足对元数据的历史版本进行管理,满足元数据历史版本之间的比对,满足对元数据采集的数据源查询、新增、修改、废止等功能,并具有完善的校验功能;满足自动识别元数据变更,并生成变更脚本;满足下载整个或单个数据源的数据字典结构,支持分类管理元数据,对元数据分类可以进行增、删、改、查及统计。

数据地图及血缘分析:提供上下游系统间依赖关系的元数据全景地图,并支持导出功能;满足自动化的元数据的全链血缘分析,满足向上追溯数据的来源、向下追寻数据的流向,用于为数据质量问题进行追踪溯源。支持呈现校级的数据拓扑地图,可直观数据间的链路关系,支持钻取查看数据明细。

对已有数据源的数据标准进行梳理,制定主题库的有效标准集,满足查看标准详情,包括,列名称、注释、类型;支持导入执行标准,并对标准进行发布和启用/停用,满足按照要求授权给指定用户下载供各系统使用。

满足分类管理执行标准,对执行标准及标准分类进行增删改查,支持按名称检索;满足导入执行代码集,成为学校可使用的代码集;满足分类管理执行代码集,对执行代码集及代码集分类进行增删改查,支持检索。

满足查看代码集与元数据的绑定关系。

统计各主题数据标准的建设情况,展示执行标准以及执行代码集的分布情况,并且满足下钻查看各项标准的详情。



5

数据资产管理

数据资产管理主要是对主题库中所有数据、数据源、访问热度(被最多的使用/调用)、数据质量、各单位某某系统的数据供、需及流向关系进行统计,具体要求如下:

满足对主题库中的数据标准、数据分类、数据所属单位、数据所属系统、数据表、数据源等进行查看、管理及统计。满足查看所有已配置的历史数据清单、数据内容。

满足与本项目主题库管理模块对接,并查看所有部门之间的数据供需关系全某某,并须下钻到具体部门界面。满足通过数据资源目录查看各部门应供应的数据表及已供应的数据表内容,并可查看数据完整情况。

满足查看各部门已供应的数据是否已有对应的数据标准,以及查看已有数据标准对各部门应提供数据的覆盖百分比。

满足查看各部门需要哪些数据供应,分别由哪些部门供应而来。并根据数据集成工具、数据共享平台的数据流向、数据交换(供应和获取)频率,形成全景数据地图及热力分析地图,实现查看数据流向信息的展示。

满足读取各业务数据集成运行状态、数据共享平台的接口状态、数据使用情况等,实现对数据链路中各节点的当前状态和故障信息的监控,用户可根据数据故障信息主动联系对应故障节点管控部门予以解决。

满足以数据字段为目标,查看其对应的数据供应方、数据需求方和全流向信息。满足以业务角度呈现系统之间的数据流向关系全某某,便于学校数据全生命周期管理。



6

统计与分析

统计与分析指的是对已有数据源、数据表、元数据、数据质量、已集成的数据、已接入的系统等进行统计及分析,具体内容如下:

统计全校已接入的数据源,并满足对数据源按照单位进行分类统计,同时可统计所接入的数据源的使用情况(即被多少接口调用情况),同时支持评分趋势的查看,以及自定义所属单位某某系统。

对数据访问的频率、对接系统的数据量等进行监控及分析,使管理员能实时掌握所有数据流向及使用情况。

统计数据资源体量,可展示业务库、集中库、标准库的表数量、记录数量、元数据资源量等信息。可展示各项数量与前一天对比的变化情况。

统计展示ETL同步任务情况,满足查看接口数量、同步任务成功、失败及进行中的次数、同步任务数等信息,同时支持趋势的查看,并且满足自定义查询时间范围及接口所属系统名称。

统计数据的使用情况,对数据使用情况进行热力分析,并可出具数据使用频率、使用单位、数据所属单位等使用报告。

满足读取数据质量管控模块的质量检测结果,实现对部门数据的质量情况和质量问题处理情况的查看。满足部门接口人查看并在规定时间内处理数据质量问题。满足查看部门数据质量问题的处理进展,包括应处理数据项个数、已处理数据项个数、未处理数据项个数及完成百分比。

满足管理员查看各个数据子集、各个表的质量问题趋势。可查看数据的数据质量报告以及所属部门。

满足管理员从数据的完整性、唯一性、合理性、及时性、准确性、正确性等维度对各个数据表的质量情况进行综合评分,以评分为依据对各业务部门数据质量进行排序。





数据资产应用及管理

此模块作为整个主题库的数据门户,包含API数据开放管理、接口调用申请及管理、接口调用监控、主题库的展示及分析等内容,具体包括对已建设主题库中的数据资产、数据质量、数据流向、数据接口以及数据使用情况进行分析,并对分析结果进行展示。通过申请(自主勾选自动生成接口或视图)可对用户按照数据使用有效期进行授权,且用户访问已授权资源时必须通过秘钥+IP双重验证的方式才可访问,有效期快到期时可自动通过邮件或短信等方式对用户进行提醒。

序号

子项目

功能描述



1

API接口数据开放管理

提供基于HTTP Restful和Webservice架构风格的API功能,同时必须提供可视化的数据发布功能,实现数据共享业务在校方的自主可控,并可对已有Webservice接口进行封装和管理,具体要求如下:

只要采集、存储、集成到平台中的数据,平台都要,满足将不同类别数据源以统一的API接口方式对外开放使用。

须预置不少于50个API接口,实现大体上能够覆盖大部分数据共享需求,减少最初的发布工作量,且接口返回数据(单条或批量)需可配置。

满足选择单某某、选择表中的字段进行API发布,以及满足以SQL形式关联多个数据对象进行API接口的发布,从而满足个性化的需求。

在对数据进行API封装发布时,满足数据调用的保护及策略配置,如敏感字段提供加密、高频度数据调用阈值配置等。

需完整支持数据回写至平台的功能,即除查询类型的API,也支持新增、修改等类型,为我校已有流程应用的数据沉淀提供技术支撑。

增量申请支持,例如开发者在同一张表提交多个字段申请,能够识别之前申请的字段,可突出给管理人员显示需求变更的字段内容(或显示用户历史已申请的接口信息),在审核时支持选择字段进行批量通过或退回,或再次进行数据脱敏加密、条件限制等功能。

对于部分需要实时获取业务数据最新状态的场景,可直接实现将业务系统的数据表、视图直接封装发布为数据API接口,第三方调用时通过该API获取权威数据源的最新数据。

满足数据接口的定向访问,在管理端可设置限制访问的IP地址、IP段和域名等规则及密钥的双重验证模式,设置方式支持白名单机制(所有未授权的IP都不能访问),保证数据的安全性。

满足细致到单个API或数据表的管理、审核权限,按照数据资产进行分类管理,例如财务数据归属财务部门,开发者提交数据申请后由财务部门的管理人员在线进行审核。

满足以数据库直连的方式向应用程序开发特定的数据表。申请发起者可以指定申请的数据需求,申请批复者可以看到申请的内容,并逐一选择允许访问的数据表和允许访问的时间。为防止数据的不当使用,支持指定数据表的访问时限。



2

API接口调用申请及管理

满足对接数据申请功能,实现用户通过数据开放门户实现对API接口的申请。

数据管理员可根据数据共享安全等级区分对数据共享条件进行设置,满足对API允许访问的数据进行条件筛选,使访问者只能调用特定范围的数据,只有经过管理员授权的数据才能供数据使用者访问(秘钥+IP地址双重验证的方式访问)。

通过平台向使用者提供数据字典、访问及连接方式,并可设置连接账号的有效期、已授权数据的有效期、已授权的数据可随时启用、停 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 码光盘、运行环境参数配置、安装部署、用

付款方式:项目符合技术要求并测试稳定运行3个月后方可验收,验收合格后支付中标金额的70%,验收满壹年后支付中标金额的30%。中标后,中标方须交付中标金额的10%作为履约保证金,在项目验收合格后返还,中标方如不能按照招标要求和投标澄清函的承诺完成系统功能,将不予以返还。

(二)服务要求(采购标的需满足的服务标准、期限、效率等要求):

(1)项目验收后,提供至少3年以上免费质保,质保期内提供7*24小时技术支持服务,紧急问题,如:系统崩溃导致业务停止、数据丢失。1小时内提交故障处理方案,4小时内解决故障;严重问题,如:出现系统报错或警告,但业务系统能继续运行且性能不受影响。1小时内提交故障处理方案,24小时内解决故障;普通问题,如:系统技术功能、安装或配置咨询,或其他不影响业务的预约服务。1小时内提交故障处理方案,48小时内解决故障;

(2)对用户使用的系统部署实施的应用服务器、数据库服务器等运行环境进行性能调优、系统诊断、系统各业务模块日常维护等工作;

(3)要求中标后一年内同时驻场技术开发人员不少于5人,并需提供具体开发人员的名单及社保证明。

[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《校级主题库管理平台建设方案》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览