《Python3:语料库技术与应用陆晓蕾,倪斌厦门》[61M]百度网盘|pdf下载|亲测有效
《Python3:语料库技术与应用陆晓蕾,倪斌厦门》[61M]百度网盘|pdf下载|亲测有效

Python3:语料库技术与应用陆晓蕾,倪斌厦门 pdf下载

出版社 新闻出版图书专营店
出版年 2020-12
页数 390页
装帧 精装
评分 9.4(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Python3:语料库技术与应用陆晓蕾,倪斌厦门电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

   图书基本信息
图书名称   Python 3:语料库技术与应用 作者   陆晓蕾,倪斌
定价   45元 出版社   厦门大学出版社
ISBN   9787561577271 出版日期   2020-12-01
字数    页码   
版次    装帧   平装-胶订
开本   16开 商品重量   

   内容提要
本书试图将Python及其丰富的库资源应用到语料自动获取与语料分析处理实践之中,阐述了Python 3在语料库技术和应用上的重要作用和价值。全书分2篇共6章,其中理论篇为4章,从Python编程的视角,分别实现语料自动获取、语料自动存储与读取、语料清洗与预处理和语料检索与分析等功能;实践篇为2章,其中第5章介绍了开发环境配置,第6章以互联网电影资料库网站的《肖申克的》影评为例,讲述了Python在实例中的综合应用。本书将部分代码上传至GitHub代码托管服务平台,供读者参考。

   目录
绪论 网络语料自动获取的法律边界
理论篇
章 语料自动获取
1.1 网页的基本组成
1.1.1 网页的内容:HTML
1.1.2 网页的样式:CSS
1.1.3 网络的动效:JavaScript
1.2 基本原理
1.2.1 请求
1.2.2 响应
1.3 语料自动获取的基本方法
1.3.1 Urllib
1.3.2 Requests
1.4 网页解析库的使用
1.4.1 自动获取单页网页
1.4.2 实现翻页获取网页语料
第2章 语料自动存储与读取
2.1 TXT
2.1.1 with open
2.1.2 open
2.2 DOCX
2.2.1 存储
2.2.2 读取
2.3 JSON
2.3.1 存储
2.3.2 读取和索引
2.4 CSV
2.4.1 存储
2.4.2 读取
Z.b XLSX
2.5.1 Pandas
2.5.2 XLRD
2.5.3 XLWT
2.5.4 将自动获取的语料存为多个XLSX文档
2.6 文档的批量处理
2.6.1 批量合并多个TXT文档
2.6.2 批量修改TXT文档标题和添加内容
2.6.3 批量读取并合并多个XLSX文件
2.6.4 批量转换文件格式
2.6.5 批量统计多个文件中的字符数
2.6.6 批量提取多个文件中包含关键词的段落
第3章 语料清洗与预处理
3.1 文本清洗与降噪
3.1.1 去除HTML标签
3.1.2 去除标点符号和停用词
3.2 语料预处理
3.2.1 使用NLTK分句和分词
3.2.2 大小写转换与大小写词频统计
3.2.3 词性自动标注
3.2.4 词干提取和词形还原