首页>>科技 >>内容

数据挖掘方法有哪些,数据挖掘方法分类总结

发布时间:2023-09-18 08:46:25编辑:温柔的背包来源:

数据挖掘方法有哪些,数据挖掘方法分类总结

很多朋友对数据挖掘方法有哪些,数据挖掘方法分类总结不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

一、数据挖掘概述数据挖掘是从大量不完整的、有噪声的、模糊的、随机的数据中提取隐藏的、但潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式。可以发现的模式有很多,按照功能可以分为两类:预测型模式和描述型模式。

在应用中,常根据模型的实际功能分为以下几类:分类、估值、预测、相关分析、序列、时间序列、描述和可视化。

数据挖掘涉及的学科和技术很多,分类也很多。(1)按挖掘任务可分为分类或预测模型发现、数据汇总、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异构数据库、遗产数据库和万维网。

(2)按挖掘方法大致可分为机器学习法、统计法、神经网络法和数据库法。机器学习可以细分为归纳学习方法(决策树、规则归纳等。),基于案例的学习,遗传算法等。

统计方法可以细分为回归分析(多元回归、自回归等。)、判别分析(贝叶斯判别、Fisher判别、非参数判别等。)、聚类分析(系统聚类、动态聚类等。)、探索性分析(主成分分析、相关分析等。)等等。神经网络方法可细分为:前向神经网络(BP算法等。)和自组织神经网络(自组织特征映射、竞争学习等。).

数据库方法主要是多维数据分析或OLAP方法,以及面向属性的归纳方法等等。

二、十三种常用数据挖掘技术分析数据挖掘技术有很多种,根据不同的分类有不同的分类。下面重点介绍数据挖掘中的一些常用技术:统计技术、关联规则、基于历史的分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析和概念描述。1、统计技术

数据挖掘涉及许多科学领域和技术,如统计技术。统计技术挖掘数据集的主要思想是统计方法对给定的数据集假设一个分布或概率模型(如正态分布),然后根据模型采取相应的方法进行挖掘。2、关联规则

数据关联是数据库中一种重要的发现知识。如果两个或两个以上的变量的除法I有某种规律性,就叫相关。相关性可分为简单相关性、时间序列相关性和因果相关性。关联分析的目的是找出数据库中隐藏的关联网络。有时候我们不知道数据库中数据的关联函数,即使知道也是不确定的,所以关联分析产生的规则是可信的。3、基于历史的MBR(基于内存的推理)分析

首先根据经验知识寻找相似的情况,然后将这些情况的信息应用到当前的例子中。这是MBR(基于记忆的推理)的精髓。MBR首先寻找与新记录相似的邻居,然后使用这些邻居对新数据进行分类和评估。使用MBR主要有三个问题:寻找某些历史数据;确定表示历史数据的最有效方式;确定距离函数、关节函数和邻居的数量。4、遗传算法

基于进化理论,采用遗传组合、遗传变异和自然选择等设计方法的优化技术。主要思想是:按照优胜劣汰的原则,形成一个由当前群体中最适合的规则组成的新群体,以及这些规则的后代。通常,规则的适合度用于评估训练样本集的分类准确度。5、聚集检测

将一组物理或抽象对象分成由相似对象组成的多个类的过程称为聚类。聚类产生的簇是一组数据对象,这些数据对象与同一个簇中的数据对象相似,而与其他簇中的数据对象不同。相异度是根据描述对象的值来计算的,距离常作为一种度量方法。6、连接分析

链接分析,链接分析,它的基础理论是图论。图论的思想是寻找一个可以得到一个好结果但不是完美结果的算法,而不是寻找完美解的算法。连接分析使用的思想是,如果不完美的结果是可行的,那么这样的分析就是好的分析。使用连接分析,可以从一些用户的行为中分离出一些模式;同时,产生的概念应用于更广泛的用户群。7、决策树

决策树提供了一种显示规则的方式,例如在什么条件下将获得什么值。8、神经网络从结构上讲,一个神经网络可以分为输入层、输出层和隐含层。输入层的每个节点对应一个预测变量。在对应于目标变量的输出层中可能有多个节点。输入层和输出层之间是隐藏层(对神经网络的用户是不可见的)。隐藏层的数量和每层中的节点数量决定了神经网络的复杂性。

除了输入层的节点外,神经网络的每个节点都与其前面的许多节点(称为该节点的输入节点)相连接,每个连接对应一个权重Wxy。这个节点的值是通过把它的所有输入节点的值和相应的连接权值的乘积之和作为一个函数的输入而得到的,我们称这个函数为活动函数或压缩函数。9、粗集

粗糙集理论的基础是在给定的训练数据中建立等价类。所有形成等价类的数据样本都是无差别的,即它们等价于描述数据的性质。给定真实世界的数据,通常有一些类不能通过可用属性来区分。粗糙集用于近似或粗略定义这个类。10、模糊集

模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”的域值或边界。模糊逻辑使用0.0到1.0之间的真值表来显示特定值是给定成员的程度,而不是使用类或集合的精确截断。模糊逻辑为高抽象层次的处理提供了便利。11、回归分析

回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型中加入多项式项,形成非线性模型。12、微分分析微分分析的目的是试图发现数据中的异常情况,如噪声数据、欺诈数据和其他异常数据,从而获得有用的信息。13、概念描述

概念描述是描述某一对象的内涵,概括其相关特征。概念描述分为特征描述和特色描述。前者描述了某个类对象的共同特征,后者描述了不同类对象之间的差异。生成一个类的特征描述只涉及类对象中所有对象的共性。二、摘要

由于人们迫切需要将数据库和其他信息库中存在的数据转化为有用的知识,数据挖掘被认为是一个新的非常重要的研究领域,具有广阔的应用前景和挑战,吸引了许多学科(如数据库、人工智能、统计学、数据仓库、联机分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等)的研究人员。).

数据挖掘作为一门新兴学科,是由上述学科的交叉和融合而形成的。随着数据挖掘的进一步发展,必然会给用户带来更大的好处。

以上知识分享希望能够帮助到大家!