本篇主要提供数据挖掘:原理与实践查鲁·C.阿加沃尔(CharuC.Aggar籍电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
图书基本信息 | |
图书名称 | 数据挖掘:原理与实践(基础篇) |
作者 | 查鲁·C.阿加沃尔(CharuC.Aggarwal) |
定价 | 139元 |
出版社 | 机械工业出版社 |
ISBN | 9787111670292 |
出版日期 | 2020-12-01 |
字数 | |
页码 | |
版次 | |
装帧 | 其他 |
开本 | 16开 |
商品重量 |
内容提要 | |
全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的~11章,进阶篇对应原书的2~20章。 |
目录 | |
出版者的话 译者序 前言 章 数据挖掘导论1 1.1 引言1 1.2 数据挖掘过程2 1.2.1 数据预处理阶段4 1.2.2 分析阶段5 1.3 基本数据类型5 1.3.1 非依赖型数据5 1.3.2 依赖型数据7 1.4 主要数据挖掘模块总览11 1.4.1 关联模式挖掘12 1.4.2 数据聚类13 1.4.3 异常检测13 1.4.4 数据分类14 1.4.5 复杂数据类型对问题定义的影响15 1.5 可扩展性问题和数据流场景17 1.6 应用案例浅述17 1.6.1 商店商品布局17 1.6.2 客户推荐18 1.6.3 医疗诊断18 1.6.4 Web日志异常检测19 1.7 小结19 1.8 文献注释19 1.9 练习题20 第2章 数据准备21 2.1 引言21 2.2 特征提取和类型转换22 2.2.1 特征提取22 2.2.2 数据类型转换23 2.3 数据清洗26 2.3.1 缺失项的处理27 2.3.2 错误项和不一致项的处理28 2.3.3 缩放与标准化29 2.4 数据约简和转换29 2.4.1 采样30 2.4.2 特征子集选取32 2.4.3 基于坐标轴旋转的维度约简32 2.4.4 基于类型转换的降维39 2.5 小结47 2.6 文献注释48 2.7 练习题48 第3章 相似度和距离50 3.1 引言50 3.2 多维数据50 3.2.1 定量型数据51 3.2.2 类别型数据58 3.2.3 定量型和类别型的混合数据59 3.3 文本相似性度量60 3.4 时态的相似性度量61 3.4.1 时间序列相似性度量61 3.4.2 离散序列相似性度量65 3.5 图的相似性度量67 3.5.1 单个图中两个节点之间的相似度67 3.5.2 两个图之间的相似度68 3.6 有监督的相似度函数69 3.7 小结70 3.8 文献注释70 3.9 练习题71 第4章 关联模式挖掘73 4.1 引言73 4.2 频繁模式挖掘模型74 4.3 关联规则的生成框架76 4.4 频繁项集挖掘算法77 4.4.1 暴力算法78 4.4.2 Apriori算法78 4.4.3 枚举树算法81 4.4.4 递归的基于后缀的模式生长方法89 4.5 替代模型:有趣模式96 4.5.1 统计相关系数97 4.5.2 χ2度量97 4.5.3 兴趣比率98 4.5.4 对称置信度98 4.5.5 列的余弦系数98 4.5.6 Jaccard系数和min-hash技巧98 4.5.7 集体强度100 4.5.8 与负模式挖掘的关系100 4.6 有用的元算法100 4.6.1 采样方法101 4.6.2 数据划分集成法101 4.6.3 推广到其他数据类型101 4.7 小结102 4.8 文献注释102 4.9 练习题104 第5章 关联模式挖掘:高级概念106 5.1 引言106 5.2 模式汇总106 5.2.1 模式107 5.2.2 闭包模式108 5.2.3 近似频繁模式109 5.3 模式查询110 5.3.1 一次预处理多次查询111 5.3.2 把限制条件放入模式挖掘115 5.4 关联模式挖掘的应用115 5.4.1 与其他数据挖掘问题的关系115 5.4.2 购物篮分析116 5.4.3 用户信息分析116 5.4.4 推荐和协同过滤116 5.4.5 Web日志分析117 5.4.6 生物信息学117 5.4.7 应用于其他复杂数据类型117 5.5 小结118 5.6 文献注释118 5.7 练习题119 第6章 聚类分析120 6.1 引言120 6.2 聚类的特征选取121 6.2.1 过滤模型121 6.2.2 包装模型124 6.3 基于代表点的算法124 6.3.1 k-means算法127 6.3.2 k-means内核算法128 6.3.3 k-medians算法128 6.3.4 k-medoids算法129 6.4 层次聚类算法130 6.4.1 自底向上凝聚的方法131 6.4.2 自顶向下分裂的方法135 6.5 基于概率模型的算法135 6.6 基于网格和基于密度的算法139 6.6.1 基于网格的算法139 6.6.2 DBSCAN141 6.6.3 DENCLUE143 6.7 基于图的算法147 6.8 非负矩阵分解149 6.9 聚类验证153 6.9.1 内部验证度量153 6.9.2 外部验证度量155 6.9.3 评价158 6.10 小结158 6.11 文献注释158 6.12 练习题159 第7章 聚类分析:高级概念161 7.1 引言161 7.2 类别型数据的聚类162 7.2.1 基于代表点的算法162 7.2.2 层次算法164 7.2.3 概率算法165 7.2.4 基于图的算法166 7.3 可扩展的数据聚类167 7.3.1 CLARANS167 7.3.2 BIRCH168 7.3.3 CURE169 7.4 高维数据聚类170 7.4.1 CLIQUE172 7.4.2 PROCLUS172 7.4.3 ORCLUS174 7.5 半监督聚类176 7.5.1 单点监督177 7.5.2 成对监督177 7.6 用户监督聚类与可视化监督聚类178 7.6.1 现有聚类算法的变体178 7.6.2 可视化聚类179 7.7 集成聚类181 7.7.1 选择不同的集成组件181 7.7.2 组合不同的集成组件182 7.8 聚类应用183 7.8.1 应用到其他数据挖掘问题183 7.8.2 客户分类与协同过滤183 7.8.3 文本应用184 7.8.4 多媒体应用184 |
作者介绍 | |
查鲁·C. 阿加沃尔(Charu C. Aggarwal)是IBM T. J. Watson研究中心的杰出研究人员,于1996年获麻省理工学院博士学位。他对数据挖掘领域有着广泛的研究,在国际会议和期刊上发表了250多篇论文,拥有80多项专利。他曾三次被评为IBM的“杰出发明人”,并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖。他还获得了IEEE ICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两个高奖项之一。 他曾多次担任ACM/IEEE知名国际学术会议的主席或程序委员会主席,并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。 |