《数据挖掘与预测分析第2版二版大数据挖掘与分析建模工具数据特征分类预测与处理工程案例分析》[49M]百度网盘|pdf下载|亲测有效
《数据挖掘与预测分析第2版二版大数据挖掘与分析建模工具数据特征分类预测与处理工程案例分析》[49M]百度网盘|pdf下载|亲测有效

数据挖掘与预测分析第2版二版大数据挖掘与分析建模工具数据特征分类预测与处理工程案例分析 pdf下载

出版社 正苑图书专营店
出版年 2025
页数 390页
装帧 精装
评分 9.2(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供数据挖掘与预测分析第2版二版大数据挖掘与分析建模工具数据特征分类预测与处理工程案例分析电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

书名:数据挖掘与预测分析(第2版)

定价:99.80元

作者:[美]Daniel T. Larose,Chantal D.

出版社:清华大学出版社

出版日期:2017-02-01

ISBN:9787302459873

字数:

页码:725

版次:1

装帧:平装

开本:16开

商品重量:

内容提要


通过做数据分析学习数据分析  《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的'白盒'方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。第2版的新内容:● 添加了500多页的新内容,括20个新章节,例如,数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。● 针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。● 每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。● 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。● 超过750个章节练习,使读者能够自己测试对所学知识的掌握程度,并着手开展数据挖掘与预测分析工作。  《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力,通过学习将使他们知道何种类型的分析将会增加其投资回报。

作者介绍


Daniel T. Larose博士,美国中康涅狄格州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论著多本。他也是《微软》、《福布斯》杂志以及《经济学人》杂志等数据挖掘与统计分析领域的顾问。  Chantal D. Larose是美国康涅狄格大学的在读博士。其研究领域括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。

目录


第Ⅰ部分 数据准备

章 数据挖掘与预测分析概述 3

1.1 什么是数据挖掘和预测分析3

1.2 需求:数据挖掘技术人员 4

1.3 数据挖掘离不开人的参与 5

1.4 跨行业数据挖掘标准过程:

CRISP-DM 6

1.5 数据挖掘的谬误 8

1.6 数据挖掘能够完成的任务 9

1.6.1描述 9

1.6.2评估 10

1.6.3预测 11

1.6.4分类 11

1.6.5聚类 13

1.6.6关联 14

R语言开发园地 15

R参考文献 16

练习 16

第2章 数据预处理 17

2.1 需要预处理数据的原因 17

2.2 数据清理 18

2.3 处理缺失数据 19

2.4 识别错误分类 22

2.5 识别离群值的图形方法 22

2.6 中心和散布度量 24

2.7 数据变换 26

2.8min-max规范化 26

2.9Z-score标准化 27

2.10小数定标规范化 28

2.11变换为正态数据 28

2.12识别离群值的数值方法 34

2.13标志变量 35

2.14将分类变量转换为数值变量 35

2.15数值变量分箱 36

2.16对分类变量重新划分类别 37

2.17添加索引字段 37

2.18删除无用变量 38

2.19可能不应该删除的变量 38

2.20删除重复记录 39

2.21ID字段简述 39

R语言开发园地 39

R参考文献 45

练习 45

第3章 探索性数据分析 49

3.1 假设检验与探索性数据分析49

3.2 了解数据集 49

3.3 探索分类变量 52

3.4 探索数值变量 58

3.5 探索多元关系 62

3.6 选择感兴趣的数据子集作进一步研究 64

3.7 使用EDA发现异常字段 64

3.8 基于预测值分级 65

3.9 派生新变量:标志变量 67

3.10派生新变量:数值变量 69

3.11使用EDA探测相关联的预测

变量 70

3.12EDA概述 73

R语言开发园地 73

R参考文献 80

练习 80

第4章 降维方法 83

4.1 数据挖掘中降维的必要性83

4.2 主成分分析 84

4.3 将主成分分析应用于房屋

数据集 87

4.4 应提取多少个主成分 91

4.4.1特征值标准 91

4.4.2解释变异的比例标准 92

4.4.3小共性标准 92

4.4.4坡度图标准 92

4.5 主成分描述 94

4.6 共性 96

4.7 主成分验证 97

4.8 因子分析法 98

4.9 因子分析法在成年人数据集中的

应用 99

4.10因子旋转 101

4.11用户自定义合成 104

4.12用户自定义合成的示例 105

R语言开发园地 106

R参考文献 110

练习 111

第Ⅱ部分 统计分析

第5章 单变量统计分析 117

5.1 数据知识发现中的数据挖掘

任务 117

5.2 用于估计和预测的统计方法117

5.3 统计推理 118

5.4 我们对评估的确信程度如何119

5.5 均值的置信区间估计 120

5.6 如何少误差范围 121

5.7 比例的置信区间估计 122

5.8 均值的假设检验 123

5.9 拒绝零假设的证据力度的

评估 125

5.10使用置信区间执行假设检验 126

5.11比例的假设检验 127

R语言开发园地 128

R参考文献 129

练习 129

第6章 多元统计 133

6.1 描述均值差异的两样例t-检验

方法 133

6.2 判断总体差异的两样例

Z-检验 134

6.3 比例均匀性的测试 135

6.4 多元数据拟合情况的

卡方检验 137

6.5 方差分析 138

R语言开发园地 141

R参考文献 143

练习 143

第7章 数据建模准备 145

7.1 有监督学习与无监督学习145

7.2 统计方法与数据挖掘方法146

7.3 交叉验证 146

7.4 过度拟合 147

7.5 偏差-方差权衡 148

7.6 平衡训练数据集 150

7.7 建立基线性能 151

R语言开发园地 152

R参考文献 153

练习 153

第8章 简单线性回归 155

8.1 简单线性回归示例 155

8.2 外推的危险 161

8.3 回归有用吗?系数的确定162

8.4 估计标准误差 166

8.5 相关系数r 167

8.6 简单线性回归的方差分析表169

8.7 离群点、高杠杆率点与有影响

的观察点 170

8.8 回归方程概括 178

8.9 回归假设验证 179

8.10回归推理 184

8.11x与y之间关系的t-检验 185

8.12回归直线斜率的置信区间 187

8.13相关系数ρ的置信区间 188

8.14给定均值的置信区间 190

8.15给定选择值的预测区间 191

8.16获得线性特性的变换 194

8.17博克斯-考克斯变换 199

R语言开发园地 199

R参考文献 205

练习 205

第9章 多元回归与模型构建 213

9.1 多元回归示例 213

9.2 总体多元回归方程 218

9.3 多元回归推理 219

9.3.1y与xi之间关系的t-检验 219

9.3.2营养等级与含糖量之间关系

的t-检验 220

9.3.3营养等级与纤维含量之间

关系的t-检验 220

9.3.4总体回归模型显著性的

F-检验 221

9.3.5营养等级与含糖量和纤维

含量之间关系的F-检验 222

9.3.6特定系数βi的置信区间 223

9.3.7(在给定x1,x2,…,xm的情况下)y

的均值的置信区间 223

9.3.8(在给定x1,x2,…,xm的情况下)

选择的y值的预测区间 223

9.4 利用指示变量的含范畴型预测变量的回归 224

9.5 调整R2:惩罚含无用预测变量的模型 230

9.6 序列平方和 231

9.7 多重共线性 233

9.8 变量选择方法 239

9.8.1有偏F-检验 239

9.8.2前向选择过程 240

9.8.3反向删除过程 241

9.8.4逐步选择过程 241

9.8.5子集过程 241

9.8.6'所有可能子集'过程 242

9.9 油耗数据集 242

9.10变量选择方法的应用 243

9.10.1应用于油耗数据集的前向

选择过程 244

9.10.2应用于油耗数据集的后向

删除过程 245

9.10.3应用于油耗数据集的逐步选择过程 246

9.10.4应用于油耗数据集的子集过程 246

9.10.5Mallows’Cp统计量 247

9.11将主成分作为预测变量进行

多元回归 251

R语言开发园地 255

R参考文献 265

练习 265

第Ⅲ部分 分类

0章 K-近邻算法 273

10.1分类任务 273

10.2k-近邻算法 274

10.3距离函数 276

10.4组合函数 279

10.4.1简单权重投票方式 279

10.4.2加权投票 279

10.5量化属性的相关性:轴伸缩 280

10.6数据库方面的考虑 281

10.7将k-近邻算法用于评估和

预测 281

10.8k值的选择 282

10.9利用IBM/SPSS建模工具应用

k-近邻算法 283

R语言开发园地 284

R参考文献 286

练习 286

1章 决策树 289

11.1决策树是什么 289

11.2使用决策树的要求 291

11.3分类与回归树 291

11.4C4.5算法 297

11.5决策规则 302

11.6比较C5.0和CART算法应用

到实际的数据 303

R语言开发园地 306

R参考文献 307

练习 308

2章 神经元网络 311

12.1输入和输出编码 312

12.2神经元网络用于评估和预测 313

12.3神经元网络的简单示例 314

12.4sigmoid激活函数 316

12.5反向传播 317

12.6梯度下降法 317

12.7反向传播规则 318

12.8反向传播示例 319

12.9终止条件 320

12.10学习率 321

12.11动量项 322

12.12敏感性分析 323

12.13神经元网络建模应用 324

R语言开发园地 326

R参考文献 328

练习 328

3章 logistic回归 331

13.1logistic回归简单示例 331

13.2似然估计 333

13.3解释logistic回归的输出 334

13.4推理:这些预测有显著性吗 335

13.5概率比比率与相对风险 337

13.6对二分logistic回归预测的

解释 339

13.7对应用于多元预测变量的

logistic回归的解释 342

13.8对应用于连续型预测变量的

logistic回归的解释 346

13.9线性假设 351

13.10零单元问题 353

13.11多元logistic回归 355

13.12引入高阶项处理线性 359

13.13logistic回归模型的验证 366

13.14WEKA:应用logistic回归的

实践分析 370

R语言开发园地 374

R参考文献 380

练习 380

4章 朴素贝叶斯与贝叶斯网络385

14.1贝叶斯方法 385

14.2后验(MAP)分类 387

14.3后验概率比 391

14.4数据平衡 393

14.5朴素贝叶斯分类 394

14.6解释对数后验概率比 397

14.7零单元问题 398

14.8朴素贝叶斯分类中的数值型

预测变量 399

14.9WEKA:使用朴素贝叶斯开展

分析 402

14.10贝叶斯信念网络 406

14.11衣物购买示例 407

14.12利用贝叶斯网络发现概率 409

R语言开发园地 413

R参考文献 417

练习 417

5章 模型评估技术 421

15.1用于描述任务的模型评估

技术 421

15.2用于评估和预测任务的模型

评估技术 422

15.3用于分类任务的模型评估

方法 423

15.4准确率和总误差率 425

15.5灵敏性和性 426

15.6假正类率和假负类率 427

15.7真正类、真负类、假正类、

假负类的比例 427

15.8通过误分类成本调整来反映

现实关注点 429

15.9决策成本/效益分析 430

15.10提升图表和增益图表 431

15.11整合模型评估与模型建立 434

15.12结果融合:应用一系列

模型 435

R语言开发园地 436

R参考文献 436

练习 437

6章 基于数据驱动成本的

成本-效益分析 439

16.1在行调整条件下的决策

不变性 439

16.2正分类标准 440

16.3正分类标准的示范 442

16.4构建成本矩阵 444

16.5在缩放条件下的决策不变性 445

16.6直接成本和机会成本 446

16.7案例研究:基于数据驱动误

分类成本的成本-效益分析 446

16.8再平衡作为误分类成本的

代理 450

R语言开发园地 452

R参考文献 455

练习 455

7章 三元和k元分类模型的成本-

效益分析 459

17.1三元目标的分类评估变量 459

17.2三元分类评估度量在贷款审批问题中的应用 462

17.3三元贷款分类问题的数据驱动成本-效益分析 466

17.4比较使用/不使用数据驱动误分类成本的CART模型 467

17.5一般的k元目标的分类评估

度量 470

17.6k元分类中评估度量和数据驱动误分类成本的示例 472

R语言开发园地 474

R参考文献 475

练习 475

8章 分类模型的图形化评估477

18.1回顾提升图表和增益图表 477

18.2使用误分类成本的提升图表

和增益图表 477

18.3响应图表 479

18.4利润图表 479

18.5投资回报(ROI)图表 482

R语言开发园地 482

R参考文献 484

练习 484

第Ⅳ部分 聚类

9章 层次聚类和k-均值聚类 489

19.1聚类任务 489

19.2层次聚类方法 491

19.3单一链聚类 492

19.4链聚类 493

19.5k-均值聚类 494

19.6k-均值聚类实操示例 495

19.7k-均值算法执行中MSB、MSE和伪-F的行为 498

19.8SAS Enterprise Miner中k-均值算法的应用 499

19.9使用簇成员关系来预测客户

流失 501

R语言开发园地 502

R参考文献 503

练习 504

第20章 Kohonen网络 505

20.1自组织映射 505

20.2Kohonen网络 507

20.3Kohonen网络学习示例 508

20.4簇有效性 511

20.5使用Kohonen网络进行聚类

应用 511

20.6解释簇 512

20.7将簇成员关系作为下游数据

挖掘模型的输入 517

R语言开发园地 518

R参考文献 520

练习 520

第21章 BIRCH聚类 521

21.1BIRCH聚类的理论基础 521

21.2簇特征 522

21.3簇特征树 523

21.4阶段1:构建CF树 523

21.5阶段2:聚类子簇 525

21.6BIRCH聚类示例之阶段1:

构建CF树 525

21.7BIRCH聚类示例之阶段2:

聚类子簇 530

21.8候选聚类解决方案的评估 530

21.9案例研究:在银行贷款数据集

上应用BIRCH聚类 531

21.9.1案例研究课:对于

任意聚类算法避免高度

相关的输入 532

21.9.2案例研究第2课:不同的

排序可能会导致不同的

簇数目 535

R语言开发园地 537

R参考文献 538

练习 538

第22章 度量簇的优劣 541

22.1度量簇优劣的基本原理 541

22.2轮廓方法 541

22.3轮廓值示例 542

22.4Iris数据集的轮廓值分析 544

22.5伪-F统计方法 547

22.6伪-F统计示例 549

22.7将伪-F统计应用于Iris

数据集 550

22.8簇验证 551

22.9将簇验证方法应用于贷款

数据集 551

R语言开发园地 554

R参考文献 556

练习 557

第Ⅴ部分 关联规则

第23章 关联规则 561

23.1亲和度分析与购物篮分析 561

23.2支持度、可信度、频繁项集和

先验属性 564

23.3先验算法工作原理(部

分)——建立频繁项集 565

23.4先验算法工作原理(第2部

分)——建立关联规则 566

23.5从标志数据扩展到分类数据 569

23.6信息理论方法:广义规则推理

方法 570

23.7关联规则不易做好 571

23.8度量关联规则可用性的方法 573

23.9关联规则是监督学习还是

无监督学习 574

23.10局部模式与全局模型 574

R语言开发园地 575

R参考文献 575

练习 576

第Ⅵ部分 增强模型性能

第24章 细分模型 581

24.1细分建模过程 581

24.2利用EDA识别分段的细分

建模 583

24.3利用聚类方法识别分段的

细分建模 585

R语言开发园地 589

R参考文献 591

练习 591

第25章 集成方法:bagging和

boosting 593

25.1使用集成分类模型的理由 593

25.2偏差、方差与噪声 594

25.3适合采用bagging的场合 595

25.4bagging 596

25.5boosting 599

25.6使用IBM/SPSS建模器应用

bagging和boosting 602

参考文献 603

R语言开发园地 604

R参考文献 605

练习 606

第26章 模型投票与趋向平均 609

26.1简单模型投票 609

26.2其他投票方法 610

26.3模型投票过程 611

26.4模型投票的应用 612

26.5什么是趋向平均 616

26.6趋向平均过程 616

26.7趋向平均的应用 618

R语言开发园地 619

R参考文献 621

练习 622

第Ⅶ部分 更多主题

第27章 遗传算法 627

27.1遗传算法简介 627

27.2基因算法的基本框架 628

27.3遗传算法的简单示例 629

27.3.1次迭代 629

27.3.2第2次迭代 631

27.4改进及增强:选择 631

27.5改进及增强:交叉 633

27.5.1多点交叉 633

27.5.2通用交叉 634

27.6实值变量的遗传算法 634

27.6.1单一算术交叉 635

27.6.2简单算术交叉 635

27.6.3算术交叉 635

27.6.4离散交叉 635

27.6.5正态分布突变 635

27.7利用遗传算法训练神经元

网络 636

27.8 WEKA:使用遗传算法进行

分析 640

R语言开发园地 646

R参考文献 647

练习 647

第28章 缺失数据的填充 649

28.1缺失数据填充的必要性 649

28.2缺失数据填充:连续型变量 650

28.3填充的标准误差 653

28.4缺失值填充:范畴型变量 653

28.5缺失的处理模式 654

参考文献 655

R语言开发园地 655

R参考文献 657

练习 658

第Ⅷ部分 案例研究:对直邮营

销的响应预测

第29章 案例研究,部分:业务

理解、数据预处理和探索性

数据分析 661

29.1数据挖掘的跨行业标准 661

29.2业务理解阶段 662

29.3数据理解阶段,部分:

熟悉数据集 663

29.4数据准备阶段 667

29.4.1消费金额为负值的情况 667

29.4.2实现正态性或对称性的

转换 669

29.4.3标准化 671

29.4.4派生新变量 671

29.5数据理解阶段,第二部分:

探索性数据分析 674

29.5.1探索预测因子和响应之间

的关系 674

29.5.2研究预测因子间的相关性

结构 679

29.5.3逆转换对于解释的

重要性 682

第30章 案例研究,第2部分:聚类与

主成分分析 685

30.1数据划分 685

30.2制定主成分 686

30.3验证主成分 689

30.4主成分概括 691

30.5利用BIRCH聚类算法选择优

聚类数 694

30.6利用k均值聚类算法选择优

聚类数 695

30.7k-均值聚类应用 696

30.8验证聚类 697

30.9聚类概括 698

第31章 案例研究,第3部分:建模与

评估性能和可解释性 699

31.1选择性能模型,还是既要

性能又要可解释性 699

31.2建模与评估概述 700

31.3利用数据驱动开销开展损益

分析 700

31.4输入到模型中的变量 702

31.5建立基线模型性能 703

31.6利用误分类开销的模型 704

31.7需要用代理调整误分类开销

的模型 705

31.8采用投票和趋向平均方法

合并模型 706

31.9对利润模型的解释 707

第32章 案例研究,第4部分:高性能

建模与评估 709

32.1输入到模型中的变量 709

32.2使用误分类开销的模型 710

32.3需要作为误分类开销代理

调整的模型 710

32.4使用投票和趋向平均的合并

模型 711

32.5经验总结 713

32.6总结 713

附录A 数据汇总与可视化 715

编辑推荐


本书提出的方法和技术全面、深入,几乎涵盖了当前应用中常见的各类挖掘与分析方法。对方法的介绍从概念、算法、评价等部分着手,深入浅出地加以介绍。在介绍方法的章节中增加了R语言开发园地,帮助读者利用R语言开展实际设计和开发工作,获得章节中涉及内容的结果,便于读者掌握所学内容。

^_^:50b5464b92142660d765d1eac4024846