• 207.87 KB
  • 2022-05-13 09:30:43 发布

DB52∕T 1541.2-2020 政务数据平台 第2部分:数据归集规范(贵州省)

  • 14页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
ICS35.020CCSL70DB52贵州省地方标准DB52/T1541.2—2020政务数据平台第2部分:数据归集规范Governmentdataplatform—Part2:dataingestionspecification2020-11-20发布2020-12-20实施贵州省市场监督管理局发布\n\nDB52/T1541.2—2020目次前言................................................................................II1范围..............................................................................12规范性引用文件....................................................................13术语和定义........................................................................14缩略语............................................................................35总体要求..........................................................................36网络环境..........................................................................37归集流程..........................................................................48数据采集..........................................................................49数据清洗加工......................................................................510数据整合.........................................................................611数据更新.........................................................................6I\n\nDB52/T1541.2—2020前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件是DB52/T1541的第2部分。DB52/T1541已经发布了以下部分:——第2部分:数据归集规范;——第3部分:数据存储规范。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由贵州省大数据发展管理局提出。本文件由贵州省大数据标准化技术委员会归口。本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。本文件主要起草人:王嘉卉、宿睿智、刘彦嘉、田野、武波、徐凯琳、文小成、杨德康、朱小洪、冯丹尼、郑如顺、杨建雄、黄明锋、秦晓东、邵建平、戚玉峰、赵飞、张洋、孙瑾。II\n\nDB52/T1541.2—2020政务数据平台第2部分:数据归集规范1范围本文件规定了政务数据平台数据归集的术语和定义、缩略语、总体要求、网络环境、归集流程、数据采集、数据清洗加工、数据整合及数据更新。本文件适用于政务数据平台可共享政务数据和可开放公共数据的归集。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T38664.2-2020信息技术大数据政务数据开放共享第2部分:基本要求DB52/T1540.3-2020政务数据第3部分:数据清洗加工规范DB52/T1541.3-2020政务数据平台第3部分:数据存储规范3术语和定义下列术语和定义适用于本文件。3.1数据归集dataingestion面向特定场景或领域对数据进行采集、清洗加工和整合的活动。3.2贴源层operationaldatastore存储由源系统采集而来、未经处理的原始数据。3.3公共层commondatamodel存储经过清洗加工后符合质量要求的可复用的公共数据。3.4主题层datamart存储整合后面向业务、应用的数据集合。1\nDB52/T1541.2—20203.5(国家电子政务网)政务外网NEGNextranet满足各级政务部门面向社会提供服务和管理的业务网络,简称政务外网。[来源:GB/T25647—2010,3.4.3]3.6政务数据governmentdata各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。[来源:GB/T38664.1—2020,3.1]3.7结构化数据structureddata一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。[来源:GB/T35295—2017,2.2.13]3.8半结构化数据semi-structureddata具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。示例:XML文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。[来源:DA/T82—2019,2.8]3.9非结构化数据unstructureddata不具有预定义模型或未以预定义方式组织的数据。[来源:GB/T35295—2017,2.1.25]3.10数据剖析dataprofiling对数据的结构、内容、关系和来源进行调研,以达到认识数据的目的。3.11数据采集定义datacollectiondefinition基于数据剖析结果,明确待采集数据的存储结构、存储位置和采集策略。2\nDB52/T1541.2—20203.12数据读取dataextraction将待采集数据从其原始存储区域读到临时存储区域的过程。3.13数据写入dataloading将数据读取过程中临时存储的数据最终持久化存储的过程。3.14全量更新fullupdate使用新的数据对历史数据进行完全覆盖。3.15增量更新incrementalupdate将两次更新间隔发生变更的数据同步到存储区域。4缩略语下列缩略语适用于本文件。ACID:数据库事务特征原子性、一致性、隔离型和持久性(AtomicityConsistencyIsolationDurability)CSV:逗号分隔文件格式(Comma-SeparatedValues)JSON:对象标记(JavaScriptObjectNotation)XML:可扩展标记语言(eXtensibleMarkupLanguage)5总体要求5.1数据归集安全应符合GB/T38664.2-2020的要求。5.2应记录并保留归集过程中历史数据的变化和移动情况,确保数据归集的可追溯性。5.3数据归集过程中不应造成数据的缺失和遗漏,确保数据的完整性。5.4应如实准确地处理数据,不应虚构或篡改数据;应准确记录数据,不应存在异常或错误数据,确保数据的准确性。6网络环境来源于不同网络环境的原始数据应根据以下要求进行归集:a)原始数据位于政务外网环境的,对数据直接归集;b)原始数据位于专网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保障数据传输安全性,对专网环境数据的归集;3\nDB52/T1541.2—2020c)原始数据位于互联网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保障数据传输安全性,对互联网环境数据的归集。7归集流程数据归集总体流程见图1,流程包含以下内容:a)将原始数据不进行处理地采集存放在政务数据平台的贴源层中;b)对贴源层中的数据进行清洗加工使其满足政务数据平台使用的质量要求,清洗加工后的数据存放在政务数据平台的公共层中;c)对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在政务数据平台的主题层中;d)当原始数据发生更新时,应依照采集、清洗加工、整合的步骤对更新数据进行归集。图1数据归集总体流程8数据采集8.1采集数据类型采集数据包括结构化数据、半结构化数据、非结构化数据,接入形式包括数据库、文件、接口、消息队列。8.2采集流程8.2.1数据剖析数据剖析应包括以下内容:a)业务分析:对数据来源业务进行探查分析;b)接入方式分析:对源数据存储位置、提供方式进行分析;c)结构分析:对数据的含义、类型、长度、结构进行分析;4\nDB52/T1541.2—2020d)内容分析:对数据内容进行分析,包括如数据总数、分布情况、平均值、中位数、最大值、最小值等数据统计分析;e)关联分析:对数据之间存在的依赖关系、主外键关系进行分析。8.2.2数据采集定义8.2.2.1存储结构应根据源数据选择合适的类型、长度、精度对数据进行存储。8.2.2.2存储逻辑介质8.2.2.2.1结构化数据应选择结构化数据库存储。8.2.2.2.2半结构化数据应转为结构化数据后选择结构化存储。8.2.2.2.3非结构化数据应根据存储量选择合适的文件系统进行存储。8.2.2.3存储物理介质8.2.2.3.1应根据数据访问频率的高低选择读写性能不同的存储介质。8.2.2.3.2访问频率较低的归档型数据,宜将数据压缩后存储。8.2.2.4采集策略应根据数据更新快慢和实时性要求制定不同的采集策略。8.2.3数据读取8.2.3.1不应在待采集数据的源系统业务繁忙时进行,避免读取动作影响源系统正常运行。8.2.3.2宜使用源系统的备份库作为采集对象,使用备份库时应保证数据一致性和可用性。8.2.3.3对于海量数据,宜支持分批或增量读取,宜采用分布式方式对数据源进行读取。8.2.4数据写入8.2.4.1应保证写入数据与读取数据数量一致。8.2.4.2应具备异常回滚机制,保证写入事务的ACID特性。8.3采集方法8.3.1数据库类型应建立源数据库结构与目标数据库之间的存储结构映射,通过数据库同步进行采集。8.3.2返回数据为结构化或半结构化的接口类型,应建立源接口返回数据结构与目标数据库之间存储结构映射,可通过搜索进行接口数据采集,也可直接存储接口的基本信息;返回数据为非结构化的接口类型,可将接口基本信息直接存储。8.3.3结构化的二维表和半结构化文件,应建立源文件结构与目标数据库之间存储结构映射,通过文件导入进行采集;非结构化文件数据,可将文件整体上传至文件服务器后建立存储路径表。8.3.4实时性要求低的数据可使用批量采集,实时性要求高的数据应使用实时采集。8.3.5数据量较大、单批量采集可能会造成系统故障的,应使用分批采集。9数据清洗加工应按DB52/T1540.3-2020的规定进行。5\nDB52/T1541.2—202010数据整合10.1整合目的针对某一特定场景或领域,从贴源层或公共层中将符合质量要求的数据按需求进行整合,形成面向主题的、集成的、非易失的且随时间变化的数据集合。10.2整合要求10.2.1命名应符合DB52/T1541.3-2020的要求。10.2.2相同和相似字段应使用相同的字段类型。10.2.3公共代码及代码值应保持统一,应采用国家、行业规定的公共代码。10.3整合方式10.3.1水平整合10.3.1.1宜采用水平整合方式扩大数据覆盖范围。10.3.1.2同一实体相同维度的数据应使用水平整合,如整合政府、事业单位、企业、社会团体和其他组织的法人单位数据。10.3.1.3数据间存在的结构差异应在整合过程中统一。10.3.1.4不同来源的重复数据应进行去重,冲突数据应进行如下处理:a)能判别数据有效性、正确性的可保留;b)增加数据来源标识后均予以保留。10.3.2垂直整合10.3.2.1宜采用垂直整合方式丰富数据维度。10.3.2.2垂直整合的范围可包含同一实体不同维度的数据。10.3.2.3应识别并提取有效的业务主键,根据业务主键进行关联整合。10.3.2.4应保留整合数据的来源信息。10.3.2.5字段重合度低的数据宜采用主从表的方式进行整合。11数据更新11.1更新方法11.1.1对存在更新标识的数据应支持增量更新。11.1.2对不存在更新标识的数据应支持全量更新。11.2更新策略11.2.1对产生呈现周期性规律的数据应支持定时更新策略。11.2.2对产生由特定事件触发的数据应支持事件触发更新策略。11.2.3对产生无特定规律的数据应支持手动更新策略。6\nDB52/T1541.2—202011.3更新频率11.3.1根据数据变化情况,数据应进行及时和持续更新。11.3.2实时产生且实时性要求高的数据应进行实时更新。11.3.3实时产生且实时性要求低的数据宜采用定时更新。_________________________________7\nDB52/T1541.2-2020