数据挖掘相关知识介绍
1、数据挖掘定义 把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。 2、数据挖掘的分类 按照数据库种类:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘。 按知识类别来分:关联、特征描述、分类分析、聚类分析、趋势、偏差分析。 按知识抽象层次:一般文化知识、初级知识、多层次知识。 3、数据挖掘常用技术 人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习模式识别。 决策树:代表决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 紧邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据进行规则寻找和推导。 4、数据挖掘和数据仓库的关系 数据挖掘的关键在于通过访问正确、完整、集成的数据,才能进行深层次的分析,寻求有益的信息。数据仓库是提供数据的源头,并且数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果两者结合起来可以实现数据的有效联结,可以给数据挖掘带来便利和功能。 5、数据挖掘技术的应用过程 确定挖掘对象:要清晰定义挖掘对象、认清数据挖掘的目标。 准备数据:根据确定的挖掘对象,然后搜索所有与业务对象有关的内部和外部数据