本篇主要提供Python爬虫大数据采集与挖掘-微课视频版(大数据与人工智能技术丛书)电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
本书围绕大数据采集,对采集技术的相关基础、技术原理、 Py t hon实现技术、大数据挖掘与应用方法 进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提 供了27个与爬虫技术和应用相关的Py t hon程序。全书共分为四大部分,即概述、基础篇、技术与实现篇 、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Py t hon采集互联网大数据的重要性,介绍了 相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robo t s、 HTML、页面编码等相关协议和规范; 第三部分是技术与 实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 De ep Web爬虫、微博信息采集 、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Py t hon例子; 第四部分是 大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常 见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Py t hon爬虫应用构建方法,将本书介 绍的一些关键技术、模型和工具贯穿在一起。
曾剑平,博士,复旦大学计算机科学技术学院副教授、硕士生导师。曾供职于软件公司并担任总工程师。担任International Journal of Network Security(信息安全、EI源刊)、Journal of Emerging Technologies in Web Intelligence(Web智能)、《计算机工程与应用》等多个国内外知名学术期刊的编委。担任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、计算机科学、小型微型计算机系统等多个国内外学术期刊的审稿专家。近十多年来,申请专利10多项,其中5项为授权发明专利(第一发明人),获得1项软件著作权(第一完成人)。主持国家自然科学基金面上项目、上海市自然科学基金项目、教育部课题以及企业委托项目多项,参与国家重点科技计划、国家信息化专家咨询委员会、国家保密局、上海科委以及企业合作等项目研究。目前主要研究方向是社交媒体分析及应用、网络舆情分析技术和大数据安全。作为第一作者和通讯作者发表相关技术方向的论文60多篇,其中有10多篇是在国际著名学术期刊上。