什么是知识挖掘

发布时间:2017-02-13 14:58

知识挖掘源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和对发展趋势的预测。以下是由小编整理关于什么是知识挖掘的内容,希望大家喜欢!

什么是知识挖掘

知识挖掘的简介

数据是指有关事实的集合,记录和事物有关的原始信息。

模式是一个用语言来表示的一个表达式,它可用来描述数据集的某个子集,所说的知识,是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性。

由于知识挖掘是一门新兴学科,况且它又是一门受到来自各种不同领域的研究者关注的边缘学科,因此产生很多不同的术语,除了称为“知识挖掘”外,主要还有如下若干种称法:“数据发现”、“数据开采”、“知识抽取”、“信息发现”、“知识发现”、“智能数据分析”、“探索式数据分析”、“信息收获”和“数据考古”等等。“知识挖掘”被许多研究者看作仅是数据发现的一个步骤。相对来讲,数据开采主要流行于统计界、数据分析、数据库和管理信息系统(MIS)界;而数据发现则主要流行于人工智能和机器学习界。

知识挖掘已被越来越多的领域所采用,并取得了较好效果。这些领域有科学研究、市场营销、金融投资、欺诈甄别、产品制造、通信网络管理等。由加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT(SkyImageCatalogingandAnalysisTool)是第一个获得相当成功的知识挖掘应用,已经帮助科学家发现了16颗极其遥远的类星体。

虽然知识挖掘已经受到许多关注并取得了广泛应用,但它仍处于发展的早期,还有很多研究难题和面临的挑战,如数据的巨量性、动态性、噪声性、缺值和稀疏性,发现模式的可理解性、兴趣或价值性,应用系统的集成,用户的交互操作,知识的更新管理,复杂数据库的处理等等。

知识挖掘的过程

知识挖掘(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。

知识挖掘算法的好坏将直接影响到所发现知识的好坏。大多数的研究都集中在知识挖掘算法和应用上。需要说明的是,有的学者认为,数据开采和知识发现含义相同,表示成KDD/DM.它是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。在实际,人们往往不严格区分知识挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为知识挖掘。

KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包括:

学习某个应用领域

包括应用中的预先知识和目标。

建立目标数据集

选择一个数据集或在多数据集的子集上聚焦。

数据预处理

去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据变化等。

数据转换

找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。

选定知识挖掘功能

决定知识挖掘的目的。

选定知识挖掘算法

用KDD过程中的准则,选择某个特定知识挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。

知识挖掘

搜索或产生一个特定的感兴趣的模式或一个特定的数据集。⑧解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白。

发现知识

把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。

什么是知识挖掘的评论条评论