高校信息化环境中数据质量问题探析
一、引言
在信息技术快速发展的“互联网+”时代,各个组织都拥有大量的数据,并呈现爆炸式增长,但其中有用的信息却很贫乏[1]。数据与信息的不对等,源自多个方面:一方面,数据与信息的外延有差别,信息来源于数据却不能完全包含数据;另一方面,信息技术未能完全解决信息化过程中数据与信息的问题;最后,在信息化发展历程中,组织或个体未能有效的保证作为信息载体的数据质量,致使产生了很多无用的信息。[2]
数据与信息有关联,也有区别。数据是反映客观事物属性的记录,是信息的具体表现形式,数据经过加工处理之后,才成为信息。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,可以说信息是数据的一个子集。就信息系统层面来说,数据是系统的输入,是源材料,信息是系统的输出,是产品[3]。 数据是信息的基础,数据质量是信息质量全面提升的重要保障。
高校信息化建设包括计算机化、网络化、数字化、数据化、智慧化等不同阶段:计算机化是高校信息化的最初阶段,依赖于Excel文件或单机版的数据文件来管理各类数据;网络化则开启了数据共享的时代,也逐步出现了基于网络的应用数据库;数字化是在网络化基础上,着重于把所有的手工操作转变为业务系统,数据围绕业务需求进行构建;数据化是在数字化基础上,利用数据来对事物和现象进行描述,使之能同时被人和IT设施所理解,数据可以反哺业务[4];智慧化是信息化发展的最新阶段,数据变成现实环境感知的最基本元素,使信息世界和实体世界相互对应,并使信息世界具有智慧,成为“虚拟大脑”系统。这些发展阶段造就了不同的信息化数据环境,总结起来,可以定义为四种数据环境:数据文件环境、应用数据库环境、主题数据库环境、信息检索系统环境。[5]
在实际的高校信息化建设中,高校内部部门、单位信息化建设存在很大的差异化和不平衡性,很难实现阶段性的跨越,往往形成多个阶段并存的局面,即在同一个时期存在多种多样的数据环境。不同的数据环境存在不同的数据质量问题,本文首先介绍数据质量的概念,分析了高校信息化中的四种数据环境及其关系,对比了不同数据环境中数据质量问题,最后给出了高校信息化建设中数据质量问题的处理建议。
二、数据质量概念
各种应用不断产生和结束,而其中的数据则一直存在,劣质数据使组织或个人不能做出有效的决策,只有高质量的数据,才能使各项工作高效的推进。数据质量不仅仅只涉及准确性或者可靠性,而是多维的。Wang和Strong使用一个两阶段调查和两阶段分类研究的方式提出了一个典型的数据质量层次框架[6],将从数据用户那里收集的118个数据质量特征合并为15个维度4个类别,如表1所示。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性质的教育和科研之目的,并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。