内容提要:
本书融合统计学、语言学等知识,以“让计算机能够确切理解人类的语言,并自然地与人进行交互”为OO目标,研究能够实现人与计算机之间用自然语言进行沟通的系列理论与技术。本书兼具基础理论与编程实战,可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的实践教材或参考书,也可供从事自然语言处理、数据挖掘和人工智能等领域研究的相关人员参考,是一本实用性极强的入门实践教辅材料。
目录:
OO章 自然语言处理概述
实践一:随机数生成与排序
实践二:99乘法表
实践三:“海量”文件遍历
实践四:文本词频分析
实践五:百度百科数据爬取
实践六:百度百科数据预处理
第2章 文本表示
实践七:基于Word2vec的语言模型实践
实践八:基于ERNIE语言模型的文本语义匹配
实践九:基于PaddleNLP的短文本相似度计算
第3章 文本分类
实践十:基于FNN网络的电影评论情感分析
实践十一:基于LSTM网络的谣言检测
实践十二:基于PaddleHub的低俗文本审核
第4章 信息抽取
实践十三:基于LSTM的命名实体识别
实践十四:基于BiLSTM+CRF的事件抽取
实践十五:基于BiLSTM的关系抽取
第5章 机器翻译
实践十六:基于序列到序列模型的中-英机器翻译
实践十七:基于注意力机制的中-英机器翻译
实践十八:基于Transformer的中-英机器翻译
第6章 自动文摘
实践十九:基于注意力机制的英文新闻标题生成
实践二十:基于Transformer的英文自动文摘
实践二十一:基于ERNIE-GEN的中文自动文摘
第7章 机器阅读理解
实践二十二:基于SQuAD的机器阅读理解
实践二十三:基于Bi-DAF的机器阅读理解
实践二十四:基于预训练——微调的机器阅读理解
第8章 聊天机器人设计与实现
实践二十五(一):聊天机器人模块实现
实践二十五(二):聊天机器人系统评测
参考文献