您的当前位置:首页数据挖掘及其应用

数据挖掘及其应用

2024-08-26 来源:爱问旅游网
T技术数据挖掘及其应用(华南理工大学软件学院广州510640)摘要:数据库一数据仓库技术和网络技术的迅猛发展,使我们积累了越来越多的数据,如何对这种海量数据进行深人分析和利用,并从中发现有用的知识,已成为信息化社会所面临的重要问题。本文探讨近年发展起来的海量数据处理技术—数据挖掘的概念、任张惠萍关键词务、方法以及其在商业领域中的应用。:数据挖掘任务方法应用中图分类号:TP391文献标识码:A计等功能,但无法发现数据中存在的关系和规则,目前的数据库系统可以实现高效地数据的录入、查询、统现有的数据对未来的发展趋势进行预测。缺乏挖掘数据背后隐藏从而无法根据的知识的手段,对这一挑战,数据挖掘应运而生,导致了“数据爆炸”但“知识贫乏”的现象。面并显示出强大的生命力。,.数据挖掘定义完全的、有噪声的、模糊的、随机的、原始数据中提取隐含在其数据挖掘(DataMining,简称DM)就是从大量的、不中的事先未知的、但又是潜在有用的信息和知识的过程川。2.包含共性描述和区别性描述两部分。相关性分析,就是对某类对象的内涵进行描述,并概括出对象的属性和特征,数据挖掘技术的主要任务包含以下几个方面数据挖掘的任务:概念描述,定的数据库中采掘出满足一定条件的依赖性关系以分类分析,是指从用户指理的描述或模型,然后再用这些分类的描述或模型对未知的新的是指已知训练数据的特征和分类结果,为每一个类找到一个合数据进行分类相同特征的对象被归为一类;聚类分析,是指按被处理对象的特征分类,有于训练数据的,而聚类则直接对数据进行处理.它与分类分析的区别在于分类是基:趋势分析,又叫时差分析,间序列分析,是指从相当长时间的发展趋势中发现规律和趋势;偏设定的2又叫比较分析,即找出一系列判别式的规则,个不同类。以区别用户3数据挖掘的方法机器学习方法、统计方法、神经网络方法和数据库方法。机器学根据数据挖掘的任务及信息的数据格式,通常采用的方法为:计方法中,可细分为习中,可细分为:归纳学习方法、基于范例学习、遗传算法等。统析等。神经网络方法中,:回归分析、判别分析、聚类分析、探索性分络等。数据库方法主要是多维数据分析或可细分为:前向神经网络、自组织神经网介绍几个常用的方法。OLAP方法。本文着重3。1分类法的标准对数据进行归类。分类法大至上可分为如下几种类型分类法是最普通的数据挖掘方法之一,它试图按照事先定义策树归纳法。决策树归纳法根据数据的值把数据分层组织成树型:决结构;据进行归类规则归纳法。规则归纳法是由一系列的if一then规则来对数使其识别不同的类,;神经网络法。神经网络法主要是通过训练神经网络3。2遗传算法再利用神经网络对数据进行归类。择等概念。这些算法作用于对某一特定问题的一组可能的解法。遗传算法是基于达尔文的进化论中基因重组、突变和自然选它们试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。利用“适者生存”的概念使较差的解法被抛弃,从而导致解法的集合,即繁殖的结果得到改善。3.3神经网络网络研究的基础上,人工神经网络是模拟人类的形象直觉思维、是在生物神经根据生物神经元和神经网络的特点,通过简法,用神经网络本身结构可以表达96科技资讯SCIENCE&一任C日NOLOOY!NFORMAT!ON表达的,系,是通过网络结构不断学习、调整,最后以网络的特定结构来3。4没有显式函数表达。聚类法一类。因此,聚类算法是通过对变量的比较,把具有相似特征的数据归于通过聚类以后,数据集就转化为类集,在类集中同一似性。区分不同的类是属于数据挖掘过程的一部分,这些类不是类中数据具有相似的变量值,不同类之间数据的变量值不具有相事先定义好的,而是通过聚类算法采用全自动方式获得。3,5模糊论方法越低,模糊性就越强。模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就利用模糊集合理论,对实际问题进行模糊判断、模糊决策、4随着大量算法的完善,挖掘过程的系统化、规范化,以及数据挖掘的应用数据挖掘技术的应用范围涉及社会的所有领域,在商业上的应用工具的不断推陈出新,数据挖掘技术已显现了它广泛的应用前景。尤其受到重视。下面讨论几个典型的应用领域。4.1零售业中的数据挖掘途是支持数据分析和数据挖掘,预先的一些数据挖掘例子的结果基于数据挖掘的数据仓库的设计与构造。数据仓库的主要用可作为设计和开发数据仓库结构的参考依据。其中涉及要决定包括哪些维和什么级别,以及为保证高质量和有效的数据挖掘应进行哪些预处理期间的销售量和交易数量与促销活动前后的有关情况来分析促销;促销活动的有效性分析。多维分析通过比较促销活动的有效性同时期购买的商品可以分组为序列。序列模式挖掘可用于分析顾;顾客保持力—顾客忠诚分析。由一个顾客在不客的消费或忠诚的变化,留住老客户,吸引新顾客。据此对价格和商品的花样加以调整,以便4行多维分析,电信数据的多维分析。用,2电信业中的数据挖掘OLAP和可视化工具对电信数据进组行为,分析、聚类分析和孤立点分析可以发现异常模式,以及利润等等有助于识别和比较数据通信情况,系统负载,用户;盗用模式分析和异常模式识别。通过多维无法接人、转换和路由阻塞等等。例如,总是占线4.3金融业的数据挖掘分析可以分析银行和金融数据仓库中数据的一般特性为多维数据分析和数据挖掘设计和构造数据仓库。多维数据预测和客户信用政策分析。将数据挖掘技术中的特征选择和属性;贷款偿还要因素,剔除非相关因素,相关性计算应用到贷款偿付预测和客户信用政策,有助于识别重市场客户的分类与聚类。分类和聚类的方法可用于用户群体的识使银行优化调整贷款发放政策;对目标别和目标市场分析。例如,蓄和贷款偿还行为的客户分为一组。通过多维聚类分析,可以将具有相同储5.结语资源共享及技术发展的跨域,从而大大提高了工作效率,并带来随着对数据挖掘技术在各领域日益广泛的应用,实现了数据财富”,巨大的成功。12世纪是信息时代的社会,“信息不仅是资源,的信息,要实现经济的腾飞,更是充分进行挖掘,则将为需依赖高新尖科技的发展,库的应用开辟了广阔的故利用提供化、归纳、提炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的前景,也为人类的文明开辟了一个崭新的时代。输入与输出的关联知识。它完成输入空间与输出空间的映射关

因篇幅问题不能全部显示,请点此查看更多更全内容