第9章介绍推荐系统。很多Web应用中都有给用户推荐其感兴趣的数据项的功能。Netflix竞赛就是一个例子,该竞赛期望对用户感兴趣的电影进行预测。而Amazon希望根据顾客的购买兴趣来推荐一款商品。推荐主要有两种方法。一种方法是,我们可以将数据项通过其特征来刻画,比如电影中的明星,然后推荐与已知的用户喜欢的物品具有同样特征的物品。另一种方法是,我们可以考察那些与当前用户具有相似爱好的用户,根据他们喜欢的物品来向当前用户推荐(该技术通常称为协同过滤)。
第10章介绍社会网络及分析算法。最典型的社会网络的例子是Facebook的朋友关系图,其中节点代表人,而两个人如果是朋友的话,他们之间就有边相连。而像Twitter上的粉丝关注构成的有向图也可以看成社会网络。社会网络中一个要解决的普遍问题是识别其中的“社区”,即一个个小规模的节点集合,但是集合内节点之间却有大量的边将它们连接起来。社会网络的其他问题也是图的一般性问题,比如传递闭包或图直径的计算,但是在网络规模如此巨大的情况下问题也变得十分困难。
第11章介绍降维技术。给定一个极大的、通常比较稀疏的矩阵。我们可以将该矩阵想象为两类实体之间的关系表示,比如观众对影片的评级关系。直观上看,只会存在很少量的概念,而且概念的数目会比影片或观众的数目少很多,这些概念可以解释为什么某些观众喜欢某些影片。我们提供了多个将矩阵简化为多个矩阵的乘积的算法,简化后的矩阵某一维要小很多。其中,一个矩阵将一类实体与这些少量的概念相关联,另一个矩阵将概念和另一类实体相关联。如果处理正确的话,这些小矩阵的乘积会十分接近原始矩阵。
最后,第12章讨论极大规模数据集上的机器学习算法。其中的技术包括感知机、支持向量机、基于梯度下降的模型求解、近邻模型和决策树等。
……