第一章 绪论
进入大数据时代后,我国各行业领域中形成了海量的数据,各种数据信息的量已经超越了人们所能够收集的极限,不仅对数据分析提出了更高要求,对整个行业发展也至关重要。通过数据挖掘技术的应用,能够在各行业收集与存储数据,结合行业发展需求做出相应分析,从已有数据中提取有用的数据,为行业的发展与决策的制定提供良好的基础。
第一节 数据挖掘在社会经济中的应用
目前,数据挖掘技术在我国的发展水平已经非常成熟,尤其在21世纪的发展十分迅速,已经能够为社会、经济发展提供有效的服务。原始数据数量庞大并具有不规则性、复杂性、多样性等特点,可以通过数据挖掘技术对其抽取、转换、分析,将原始数据中具有价值的信息提取出来,使其发挥出更有效的作用,能够为行业决策提供参考依据,从而促进社会经济的健康发展。国家电子政务四大基本数据库之一的宏观经济数据库,涉及的范围十分广泛,包含了科技教育、社会发展、经济发展等。将数据挖掘运用于宏观数据,使经济数据信息能够方便人们查找和获取相关信息,满足政府获取信息的需要以及社会各管理层的决策需要,为经济发展提供更好的服务。
数据挖掘技术在各领域中的应用主要在以下几个方面。
一、市场营销领域
在目前所有的数据挖掘技术应用领域中,应用最广泛、效果最显著的当属市场营销领域,数据挖掘技术主要应用于分析、搜索引擎优化、客户参与、响应性、实时营销活动等细分营销领域。数据挖掘技术的关键目标是将数据转化为未来的洞察力,获得更高的盈利。企业在开展市场营销的过程中利用数据挖掘技术,可以更加全面细致地分析出消费者的消费行为习惯,因此制定出极具针对性的营销方案,促进销售量的显著提升。
二、制造业领域
随着中国制造走向世界,装备制造企业在自主创新、信息化程度等方面有了更高的要求,传统装备制造业希望通过数据分析技术完成新兴产业结构调整。挖掘技术在制造业的应用价值主要体现在产品的设计与生产、生产加工型装备制造企业等,通过对产品数据进行研究分析找出其中的规律,分析后有针对性地提出解决方案,有助于改进生产方式、优化管理流程等,达到节约成本、提高效率、降低能耗的目的,使制造业逐步走向智能化,从而使产品的生产成本得到有效控制。制造业的数据具有多样化、实时性高、数据蕴含信息复杂、耦合性不确定等特点,因此,目前数据挖掘技术在制造业中的应用面临着如下挑战:如何利用数据挖掘技术设计科学的分析模型,满足实时性要求,以及优化企业方案。
三、电信领域
在计算机互联网发展过程中,我国的电信行业实现了快速发展,已经建立了自己的商业智能系统,不仅包括客户管理系统,也包括营销分析系统。数据挖掘技术在为很好地实现对电信企业争夺客户资源、制定营销策略、扩大市场份额、拓展业务领域等方面发挥了巨大的优势作用。现在中国的数据分析技术已经被广泛使用了,特别是电信企业对以往的技术服务体系做出了优化调整,对客户的反馈分析为用户提供了更优质的服务。
四、教育领域
随着我国教育体制的全面改革,数据挖掘技术在教育领域内也得到了很好的应用。《中国基础教育大数据发展蓝皮书(2016—2017)》认为,教育大数据挖掘是实现智慧教学的主要手段。教育大数据挖掘是指运用相关大数据挖掘方法和技术对教育过程中产生的海量数据进行处理、分析和建模,发现并解决教育过程中的问题,提高教育质量,提升教学成效。将数据挖掘技术应用于教育教学中,可以通过数据的分析与反馈,找到大多数学生在学习中的薄弱之处,根据这样的反馈信息,教师可以对自己的教学方法进行优化,在优化教学方法的过程中形成创新性的课程教学方式,这样能够极大地提高课程教学的效率和课程教学的质量。
五、金融投资领域
互联网金融的发展使得传统的数据处理和分析方法不能满足现代化金融业发展的需要,无法预测未来的发展趋势。在预测市场变化、降低金融风险、销售竞争等多方面应用大数据技术对数据处理的效率有显著成效。通过数据信息的深度挖掘,可以帮助企业准确掌握银行客户需求,提升精准营销水平,拓展和优化金融服务渠道,不断创新金融产品等,为金融业优化产业布局、分析客户交易、改进产品提供有效的数据支持,并做出企业和生产决策,为企业的长期稳定发展打下良好基础。
第二节 数据挖掘的热点
一、数据流挖掘
通信领域的电话记录数据流、Web上用户点击数据流、金融领域的证件数据流、卫星传回的图像数据流等,这些数据流具有实时、有序、连续等特点,以及在线分析的应用需求,当前研究中对数据流一般是以被处理次数或者时间序列进行定义的,这些序列包含许多潜在的知识和有用的信息,传统的处理方法难以满足这种需求。从 20 世纪开始,人们已经把研究方向转移到了数据流。目前,关于数据流的研究主要集中在系统数据流管理和挖掘数据流两个领域。
二、文本挖掘
文本挖掘是近几年数据挖掘的新兴分支,是从大量文本集合或语料库里发现未知的、可理解的、有潜在价值的信息。需要人们从大量的非结构或者半结构化的文本数据中发现可能存在的、可以利用的知识模式。国外在20世纪50年代末已经开始着手研究数据的文本挖掘,目前文本挖掘已经转化为实用阶段,著名的文本挖掘工具主要包括:IBM的文本智能挖掘机、Autonomy公司的Concept Agents、Teletech公司的Teletech等。近年来,国内才着手研
究针对中文的文本挖掘,国内研究的最大问题是如何适应汉语重“意合”的特点与如何截取文本的完整“语义”。
三、Web挖掘
随着互联网的广泛使用,Web这一巨大的数据中隐含着极其丰富的有价值信息。Web挖掘是从Web文档、Web活动中抽取感兴趣、潜在的隐藏信息。
Web挖掘主要有三种:Web结构研究、Web使用研究、Web内容研究。Web挖掘已经逐渐壮大,广泛应用于搜索引擎、网站设计和电子商务等领域。由于互联网异构数据源环境,数据结构复杂等因素,面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多。