本篇主要提供概率数据结构与算法:面向大数据应用电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
概率数据结构是一类主要基于不同散列技术的数据结构的统称。与常规的(或确定性的)数据结构不同的是,概率数据结构总是提供近似的答案,但也提供了可靠的方法来估计可能产生的误差。幸运的是,这些潜在的损失和误差可以通过极低的内存需求、恒定的查询时间和可扩展性得到充分的补偿,而这些因素在大数据应用中十分重要。
本书不可能涵盖所有现有的出色解决方法,而是重点介绍它们的共同思想和重要的应用领域,包括成员查询、计数、流数据挖掘和相似度估计。
阅读本书,你将:
学会解决海量数据处理的实际问题
掌握概率数据结构的理论知识
为特定问题确定正确的数据结构
本书的目的是向包括软件架构师、开发人员以及技术决策者在内的技术从业者介绍概率数据结构与算法。通过阅读本书,你将对概率数据结构有理论和实践层面的理解,同时了解它们的常见用途。
本书共6章。每章都专门针对大数据应用中的一个特定问题,首先对该问题进行深入的解释,然后介绍可用于有效解决该问题的数据结构和算法。
第1章简要概述了概率数据结构中广泛使用的散列函数和散列表。第2章专门介绍近似成员查询,这是概率数据结构著名的用例之一。第3章讨论了用来辅助估算元素基数的概率数据结构。第4章和第5章讨论流式场景下与频数和排序相关的重要指标的计算。第6章包含用于解决相似性问题的数据结构和算法,尤其是近邻搜索问题。
安德烈·加霍夫
(Andrii Gakhov)
数学家和软件工程师,拥有数学建模和数值方法方向的博士学位。他曾在乌克兰的哈尔科夫国立大学计算机科学学院任教多年,目前是Ferret go GmbH的一名软件从业人员,后者是德国领先的社区审核、自动化和分析公司。他的研究兴趣包括机器学习、流数据挖掘和数据分析。