《模式挖掘》[55M]百度网盘|pdf下载|亲测有效
《模式挖掘》[55M]百度网盘|pdf下载|亲测有效

模式挖掘 pdf下载

出版社 科学出版社京东自营官方旗舰店
出版年 2018-06
页数 390页
装帧 精装
评分 9.4(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供模式挖掘电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

内容简介

《模式挖掘》详细介绍面向数据流模式挖掘的理论和方法。《模式挖掘》主要内容包括四部分:第1和第2章介绍数据库和数据流模式挖掘的相关知识;第3章介绍基于滑动窗口模型和时间衰减模型的闭合频繁模式挖掘算法的研究与实现过程;第4章介绍基于多支持度的连续闭合序列模式挖掘算法的研究;第5章介绍基于约束闭合模式的决策树分类算法的研究与实现过程。每章都有相关算法的实验证明,供读者更好地了解《模式挖掘》内容。

目录

目录
前言
第1章 绪论 1
1.1 研究背景和意义 1
1.2 研究现状 2
1.2.1 数据挖掘 2
1.2.2 数据流模式挖掘 3
1.2.3 数据流分类 5
1.2.4 数据流聚类 7
1.3 主要研究内容 8
1.4 本书结构 9
第2章 模式挖掘研究相关工作 11
2.1 相关概念 11
2.2 模式类型 13
2.2.1 闭合频繁模式 13
2.2.2 最大频繁模式 15
2.2.3 top-k频繁模式 16
2.2.4 约束频繁模式 16
2.3 数据流挖掘方法 17
2.3.1 窗口方法 17
2.3.2 衰减方法 18
2.3.3 模式增长方法 20
2.3.4 近似方法 22
2.3.5 假阳性与假阴性方法 23
2.4 算法评价准则 24
2.5 模式度量准则 24
第3章 基于时间衰减模型的闭合模式挖掘算法 26
3.1 引言 26
3.2 背景知识 27
3.2.1 闭合模式选择方法 27
3.2.2 新近事务处理方法 28
3.2.3 频繁与临界频繁闭合模式 28
3.3 基于均值衰减因子的挖掘算法 29
3.3.1 均值衰减因子研究 30
3.3.2 算法设计 31
3.3.3 实验方式及其结果分析 34
3.4 基于高斯衰减函数的挖掘算法 41
3.4.1 高斯衰减函数研究 41
3.4.2 算法设计 44
3.4.3 实验方式及其结果分析 46
3.5 本章小结 49
第4章 基于多支持度的连续闭合模式挖掘算法 51
4.1 引言 51
4.2 连续闭合模式的研究 52
4.2.1 连续闭合模式 52
4.2.2 基于多支持度的连续模式 54
4.3 算法设计 56
4.4 实验方式及其结果分析 60
4.5 本章小结 64
第5章 基于约束闭合模式的决策树分类算法 65
5.1 引言 65
5.2 背景知识 66
5.2.1 实例数据流的频繁模式 66
5.2.2 数据流分类方法 67
5.2.3 分类过程中概念漂移检测方法 71
5.3 算法设计 73
5.3.1 约束模式的研究 74
5.3.2 约束闭合模式挖掘算法 76
5.3.3 基于模式的决策树算法 78
5.4 实验方式及其结果分析 83
5.4.1 学习评估方式 83
5.4.2 实验数据 83
5.4.3 实验表现 85
5.5 案例分析 90
5.5.1 航空数据与待解决问题 90
5.5.2 数据预处理 92
5.5.3 关联规则设计与应用分析 94
5.5.4 分类结果分析 97
5.6 本章小结 102
第6章 总结与展望 103
6.1 研究工作总结 103
6.2 未来工作展望 104
参考文献 106

精彩书摘

  《模式挖掘/韩萌》:
  第1章绪论
  智能终端、互联网及无线传感网络的发展带来了一个大数据的时代,使得数据产生的速度越来越快,信息量呈现爆炸式增长。迅速膨胀的数据促使产生了具有重要意义和广阔发展前景的数据流模型(datastreammodel)。数据流成为未来数据发展的一个主要趋势,而从数据流中挖掘有用的知识得到广泛的重视。本书将对数据流模式挖掘相关技术及应用进行研究。
  1.1研究背景和意义
  数据流模型广泛应用于社会生产和生活的各个领域,它是未来数据发展的一个主要趋势。它主要是由金融行情、网络监控和流量管理性能测量,网络跟踪和个性化的日志记录或点击流,制造过程,传感器数据源,电信,电子邮件等产生的。从数据流中挖掘有用的知识得到广泛的重视。数据流的主要特征是有序的、快速变化的、海量的和潜在无限的。数据流模型的特点决定了数据流挖掘算法与传统的数据库的挖掘技术有显著的区别。由于存储容量的有限性,挖掘过程中不可能完整地保存全部数据流元素。鉴于数据流的高速性和连续性,数据流算法应是动态增量的,也必须是高时空效率的。现有的数据库挖掘技术已不再适合数据流环境。因此,数据流环境下的数据挖掘研究具有更大的机遇和挑战性[1,2]。
  模式挖掘是数据挖掘的热点问题,已被广泛地应用在商业、企业、过程控制、政府部门及科学研究等领域。频繁模式挖掘可以很好地概括数据流中有用的实例信息,找到有区别力的模式用于数据流的分类、聚类、趋势预测和异常检测等。同时,它不受噪声数据的影响。
  数据流的一个重要特征在于其可能存在概念漂移现象,即历史事务数据可能与当前信息摘要无关甚至是有害的。概念漂移(conceptdrift)是指由于数据流中上下文的变化而引发的隐含目标概念变化,甚至是根本性变化的现象。概念漂移具有较强的时间性,数据在一定的时间内反映的只是当时的概念,但随着时间的推移,可能会改变数据中的概念。因此,对该类数据流挖掘时除了需要考虑空间和时间的限制,还需要进行概念漂移的检测和处理。本书面向数据流,研究其模式挖掘的主要理由在于以下几方面。
  (1)数据流中的概念漂移问题是研究的热点,虽然已有大量研究工作及成果,但是缺少有效的概念漂移检测及处理方法。本书将对数据流模式挖掘过程中和数据流分类模型学习中的概念漂移问题分别进行研究,目的是提高模式挖掘的完整性和准确性,以及分类的正确率。
  (2)大规模数据流模式挖掘面临的一个主要问题是挖掘的模式数量巨大,其中存在大量无用的模式。当长事务或最小支持度阈值低时,这个问题尤其严重。压缩模式和约束模式可以用于选择满足不同要求的有趣模式,同时能够有效地减少模式的数量。为了得到有趣的模式集合,本书研究闭合频繁模式和约束频繁模式。为此设计的剪枝策略会降低算法执行消耗的内存空间,且得到的有趣模式集合更加有利于用户的使用。
  (3)数据流中包含大量的数据,这些数据可能包含大量的冗余信息甚至是噪声,而模式挖掘可以去除数据中的冗余信息且不受噪声的影响。因此,挖掘有趣的、频繁的和有区分力的模式,可以用于有效地分类。基于模式的分类具有更高的准确性,并且可以很好地解决缺损值的问题。有关基于模式的决策树分类模型的研究较少,本书将对此进行研究。
  1.2研究现状
  本节介绍数据挖掘的主要方法,以及数据流挖掘的相关内容,包括数据流分类、数据流聚类和数据流频繁模式的国内外研究现状。
  ……