• 265.04 KB
  • 2022-05-13 09:30:43 发布

DB52∕T 1540.3-2020 政务数据 第3部分:数据清洗加工规范(贵州省)

  • 18页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
ICS35.020CCSL70DB52贵州省地方标准DB52/T1540.3—2020政务数据第3部分:数据清洗加工规范Governmentdata——Part3:Datacleaningandprocessingspecification2020-11-20发布2020-12-20实施贵州省市场监督管理局发布\n\nDB52/T1540.3—2020目次前言................................................................................II1范围..............................................................................12规范性引用文件....................................................................13术语和定义........................................................................14缩略语............................................................................25环境要求..........................................................................26过程要求..........................................................................3附录A(资料性)典型业务数据转换规则表.............................................10I\n\nDB52/T1540.3—2020前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件是DB52/T1540的第3部分。DB52/T1540已经发布了以下部分:——第3部分:数据清洗加工规范。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由贵州省大数据发展管理局提出。本文件由贵州省大数据标准化技术委员会归口。本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。II\n\nDB52/T1540.3—2020政务数据第3部分:数据清洗加工规范1范围本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。本文件适用于政务数据的清洗加工。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。DB52/T1126—2016政府数据数据脱敏工作指南3术语和定义下列术语和定义适用于本文件。3.1数据清洗加工datacleaningandprocessing运用一定方法修正识别到的数据问题,提高数据质量的过程。3.2政务数据governmentdata各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。[来源:GB/T38664.1—2020,3.1]3.3噪声数据noisydata无意义数据,或所有难以被机器正确理解和翻译的数据。3.4结构化数据structureddata一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。[来源:GB/T35295—2017,2.2.13]1\nDB52/T1540.3—20203.5非结构化数据unstructureddata不具有预定义模型或未以预定义方式组织的数据。[来源:GB/T35295—2017,2.1.25]3.6半结构化数据semi-structureddata具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。示例:XML文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。[来源:DA/T82—2019,2.8]3.7表结构tablestructure为主体层内容提供表示语义的一种存储范例。[来源:GB/T35295—2017,2.2.14]4缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换和加载(ExtractTransformLoad)ELT:数据的抽取、加载和转换(ExtractLoadTransform)5环境要求5.1敏感数据脱敏处理应按DB52/T1126—2016的规定进行,并在保证数据安全不被泄露的环境下进行清洗加工。5.2应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工作应符合贵州省“一云一网一平台”安全技术的相关规定,并确保数据的机密性和完整性。5.3数据清洗加工人员应经过相应的技术和安全培训,具有数据清洗加工的能力,并能按照数据安全处理相关制度完成清洗加工过程。2\nDB52/T1540.3—20206过程要求6.1清洗加工流程6.1.1数据清洗加工ETL流程见图1。图1数据清洗加工ETL流程3\nDB52/T1540.3—20206.1.2对于海量数据,宜使用数据清洗加工ELT流程见图2。图2数据清洗加工ELT流程6.2数据抽取6.2.1应具备全量抽取和增量抽取两种方式。6.2.2抽取来源应能支撑抽取操作,使用生产库,或通过前置库等方式进行抽取。6.2.3应支持结构、半结构和非结构等不同类型数据的抽取。6.2.4抽取目的地的存储容量应能支持抽取来源的数据总量,数据抽取目的地的表结构应与抽取来源的表结构保持一致。6.2.5增量抽取(更新)应确定增量更新的方式,抽取的数据应有字段可区分,如更新时间等。4\nDB52/T1540.3—20206.3定义规则6.3.1应分析抽取目标数据的范围、体量、类型、内容、关系、质量等信息,全面认识数据情况。6.3.2以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的需求、期望,确定切实可操作的数据清洗加工目标及规则。6.4数据过滤数据过滤包括以下操作:a)将非结构化和半结构化数据转化为结构化数据;b)对噪声数据进行删除;c)对业务数据中不符合应用规则的数据进行删除;d)过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。6.5数据检核6.5.1检核要求6.5.1.1非空检核应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。6.5.1.2长度检核数据长度应满足转换要求的字段长度。6.5.1.3数据量检核过滤后的数据总量应与原始抽取的数据总量吻合。6.5.1.4数据类型和值检核数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检验时间字符串类型的数据,应符合时间格式。6.5.2检核步骤数据检核步骤如下:a)按6.5.1规定检核数据资源是否满足要求;b)当不满足检核要求时,应进行数据错误标识;c)当满足检核要求时,直接进行数据转换。6.6错误标识6.6.1错误类型常见数据的错误类型如下:a)残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺;b)错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等;c)重复数据:相同的记录出现多条或多条记录代表同一实体。5\nDB52/T1540.3—20206.6.2识别方法可采用统计学方法、数据挖掘、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。6.6.3标识步骤错误标识步骤如下:a)按6.6.2推荐的方法,分析筛选出数据资源中存在的数据问题;b)按6.6.1的类型,对数据问题进行分类,标识错误。6.7修正处理6.7.1残缺数据处理6.7.1.1处理策略按照字段缺失比例和字段重要性,分别制定策略。残缺数据处理策略制定参考图见图3。重要性高特征:重要性高,缺失率低特征:重要性高,缺失率高策略:1.通过计算进行填充策略:1.尝试去其他渠道取数补全2.通过经验或业务知识估计2.使用其他字段通过计算获取3.去除字段,并在结果中表明缺低高失特征:重要性低,缺失率低特征:重要性低,缺失率高率策略:不做处理或简单填充策略:去除该字段低图3残缺数据处理策略制定参考图6.7.1.2去除字段备份当前数据,直接删掉不需要的字段。6.7.1.3填充缺失内容按以下方式填充缺失内容:a)不同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列拆分、列计算等方式得到缺失内容,如年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数据;b)同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充,如时间序列缺失,可使用前后的均值填充;6\nDB52/T1540.3—2020c)重新获取:当缺失率高且非常重要的数据项,应采取重新抽取不同数据源的数据进行关联对比填充。6.7.1.4取数补全以线下收集、业务知识或经验推测补全缺失值。6.7.2错误数据处理6.7.2.1格式内容问题格式内容问题数据处理采用以下方法:a)全、半角处理:通过正则表达式将全、半角符号按照事先定义的规则进行全、半角符号统一;b)有不该存在的字符:以半自动校验结合半人工方式来找出存在的问题,自动去除不需要的字符,将数据自动化统一或人工修正为正确字符;c)内容与字段不匹配:详细识别问题类型,如人工填写错误、前端没有校验、导入数据时部分或全部存在列没有对齐、数据源端业务系统缺陷等,不能直接删除,应按照清洗规则,采取加入更多数据源进行数据关联,找到匹配的相应字段进行填补。6.7.2.2逻辑问题逻辑问题数据处理采用以下方法:a)了解数据潜在的逻辑规则,采取逻辑推理法,直接去掉一些使用简单逻辑推理即可发现问题的数据;b)对于不重要的不合理数据宜直接删除,对于重要的不合理值宜进行人工干预或引入更多数据源进行关联识别;c)通过字段间相互验证的方法修正矛盾内容,如根据字段的数据来源,判定哪个字段提供的信息更可靠,去除或重构不可靠字段;d)通过分箱、聚类、回归等方法识别离群值(异常值),按照经验和业务流程判断其合理性,若合理,则保留该数值;若不合理,对重要性较高而无法重新采集的数值,按缺失数据处理,对重要性较低的数值,可直接删除;e)对于复杂逻辑数据问题应咨询了解该数据的产生原因,按照协商的清洗加工规则进行处理。6.7.2.3不合规问题不合规问题数据处理采用以下方法:a)设定判定规则:设定强制合规条件,不在规则范围内的,强制设置最大值及最小值,剔除或判断为无效字段;b)设定警告规则:不在规则范围内的,进行警告及人工处理。6.7.3重复数据重复问题处理步骤如下:a)通过元数据血缘关系查询到重复数据的各个来源;b)通过数据主键或寻找相关信息识别重复数据的含义,不是相同含义的数据不能界定为重复数据进行去重处理,应分别保留;c)查询到确定的重复数据,根据权威性和应用场合,选择最恰当渠道来源的数据,或在不影响数据保真度和完整性的情况下进行合并处理。7\nDB52/T1540.3—20206.8数据转换6.8.1应在数据检验通过后开始。6.8.2开始前应检查需要转换的数据规则和字段是否一致。6.8.3应实现对数据的格式、信息代码、值的冲突进行转换,典型业务数据转换规则见附录A。6.8.4转换后的数据结构应与目标数据库的结构相兼容。6.8.5数据向目标移动时,将其从源数据中移除,或数据复制到多个目标中。6.8.6转换失败应立即停止,开始查找问题。6.8.7长时间未转换结束,需仔细核查数据量、规则和字段是否一致,如有问题应立即停止。6.8.8转换中查找到问题,应解决问题后再开始数据转换。6.9结果检验6.9.1检验内容6.9.1.1主键重复检验多个业务系统中同类数据经过清洗后,在统一保存时,主键的唯一性。6.9.1.2非法代码、非法值检查个别字段出现的异常信息,包括非法代码、代码与数据标准不一致、取值错误、格式错误、多余字符、乱码等。6.9.1.3数据格式检验表中属性值的格式正确衡量其准确性,如时间格式、币种格式、多余字符、乱码。6.9.1.4记录数检验各个系统相关数据之间的数据总数检核或数据表中每日数据量的波动。6.9.1.5业务约束应从业务的角度考虑数据的正确性、一致性、有效性等,如建档日期、入学日期、民族信息等。6.9.1.6标准约束对照系统数据应符合的标准进行核对。6.9.2结果要求6.9.2.1规范性数据的质量及存储标准应统一,源数据应在源头或备份表中能找到。6.9.2.2重复性数据在字段、记录内容或数据集内不应有重复值。6.9.2.3准确性数据所指内容对数据所指对象的反应、表现应准确,数据形式对数据内容的表述、表达应准确。8\nDB52/T1540.3—20206.9.2.4完整性数据集合中应包含足够的数据来响应各种查询和支持各种计算。6.9.2.5一致性数据的一致性应符合以下要求:a)同一个数据在同一时刻在不同数据库、应用和系统中应只有一个值;b)数据字段内数据应与字段描述一致;c)最终结果数据的统计量应与预测一致。6.9.2.6时效性不同类型的应用对数据的时间特性有不同的要求,数据的时间特性应满足业务应用的要求,数据记录应根据时间特性及时更新。6.9.2.7稳定性数据来源稳定,数据结果能支撑后续业务。6.9.3检验步骤结果检验包括以下步骤:a)按6.9.1规定检验清洗加工后的数据资源情况;b)按6.9.2要求核对数据资源达标情况;c)当数据资源未达到6.9.2要求,应返回再次进行数据转换;d)当数据资源达到6.9.2要求,应进行数据加载或结束清洗加工。6.10数据加载6.10.1方式应匹配数据抽取方式,包含全量加载、增量加载,如海量数据、数据变化比较规律、变化数据相对总量较小、业务系统能直接提供增量数据时,宜使用增量加载。6.10.2环境应能支撑相应数据。6.10.3工具应具有高效的加载性能。6.10.4策略应考虑加载周期和数据追加策略两方面内容。6.10.5加载应记录日志。6.10.6加载过程可根据实际操作情况至定义规则过程前进行。9\nDB52/T1540.3—2020AA附录A(资料性)典型业务数据转换规则表典型业务数据转换规则表,表A.1。表A.1典型业务数据转换规则表转化规则规则描述将各类日期统一为八位的字符日期,如YYYYMMDD;统一时间日期数据格式将各类时间统一为六位的字符时间,如HHMMSS;将各类事件日期统一为十四位的字符时间日期,如YYYYMMDDHHMMSS;将人员的性别数据统一转换为国标性别信息代码;将人员的民族数据统一转换为标准信息代码;统一分类数据取值代码将人员的户籍地址数据统一转换为行政区划代码;将人员的婚姻登记情况统一转换为标准的婚姻状况代码;将公民身份证统一转换为18位的身份证号。_________________________________10\n\nDB52/T1540.3-2020