音乐
360百科www.360baike.cn的logo
数据挖掘是一个多义词,请在右侧义项中选择浏览 提取可行信息的历程 数据挖掘
打开

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的历程。数据挖掘通常与盘算机科学有关,并通过统计、在线分析处置惩罚、情报检索、机械学习、专家系统(依靠已往的经验规则)和模式识别等诸多要领来实现上述目标。

中文名
数据挖掘
外文名
Data mining
别名
资料探勘、数据采矿
所属学科
盘算机科学
应用领域
情报检索、数据分析、模式识别等
相关领域
人工智能、数据库

1起源

编辑本段 回目录

需要是发现之母。近年来,数据挖掘引起了信息工业界的极大关注,其主要原因是存在大量数据,可以广泛使用,而且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于种种应用,包罗商务治理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘数据挖掘

数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、预计和假设检验,(2)人工智能、模式识别和机械学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包罗最优化、进化盘算、信息论、信号处置惩罚、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处置惩罚支持。源于高性能(并行)盘算的技术在处置惩罚海量数据集方面经常是重要的。漫衍式技术也能资助处置惩罚海量数据,而且当数据不能集中到一起处置惩罚时更是至关重要。

2生长阶段

编辑本段 回目录

这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。

EC在美国也才刚刚开始,之所以把EC列为一个划时代的工具,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet通报。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑聚会会议(APEC)上美国总统克林顿提出敦促各国配合促进电子商务生长的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。

随着SaaS(Software as a service)软件服务模式的泛起,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务”看法模式。也因此形成了一门独立的学科——数据挖掘与客户关系治理硕士。

3使用

编辑本段 回目录

· 分类 (Classification)

数据挖掘数据挖掘

· 预计(Estimation)

· 预测(Prediction)

· 相关性分组或关联规则(Affinity grouping or association rules)

· 聚类(Clustering)

· 庞大数据类型挖掘(Text, Web ,图形图像,视频,音频等)

首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建设分类模型,对于没有分类的数据进行分类。

例子:

a. 信用卡申请者,分类为低、中、高风险

b. 故障诊断:中国宝钢团体与上海天律信息技术有限公司相助,接纳数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障舆图,实时分析产物泛起瑕疵的原因,有效提高了产物的优良率。

注意: 类的个数是确定的,预先界说好的

预计与分类类似,差异之处在于,分类描述的是离散型变量的输出,而估值处置惩罚连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

数据挖掘数据挖掘

例子:

a. 凭据购置模式,预计一个家庭的孩子个数

b. 凭据购置模式,预计一个家庭的收入

c. 预计real estate的价值

一般来说,估值可以作为分类的前一步事情。给定一些输入数据,通过估值,获得未知的连续变量的值,然后,凭据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,凭据阈值,将贷款级别分类。

通常,预测是通太过类或估值起作用的,也就是说,通太过类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有须要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是几多。

决定哪些事情将一起发生。

例子:

a. 超市中客户在购置A的同时,经常会购置B,即A => B(关联规则)

b. 客户在购置A后,隔一段时间,会购置B (序列分析)

聚类是对纪录分组,把相似的纪录在一个聚集里。聚类和分类的区别是聚集不依赖于预先界说好的类,不需要训练集。

例子:

a. 一些特定症状的聚集可能预示了一个特定的疾病

b. 租VCD类型不相似的客户聚集,可能体现成员属于差异的亚文化群

聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个差异的聚集,回覆问题,可能效果更好。

是对数据挖掘结果的体现方式。一般只是指数据可视化工具,包罗报表工具和商业智能分析产物(BI)的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现,分析,钻取,将数据挖掘的分析结果更形象,深刻的展现出来。

4经验之谈

编辑本段 回目录

第一,目标律:业务目标是所有数据解决方案的源头。

第二,知识律:业务知识是数据挖掘历程每一步的焦点。

第三,准备律:数据预处置惩罚比数据挖掘其他任何一个历程都重要。

第四,试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才气被发现。

第五,模式律(大卫律):数据中总含有模式。

第六,洞察律:数据挖掘增大对业务的认知。

第七,预测律:预测提高了信息泛化能力。

第八,价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性。

第九,变化律:所有的模式因业务变化而变化。

5乐成案例

编辑本段 回目录

Credilogros Cía Financiera S.A. 是阿根廷第五大信贷公司,资产预计价值为9570万美元,对于Credilogros而言,重要的是识别与潜在预先付款客户相关的潜在风险,以便将肩负的风险最小化。

该公司的第一个目标是建设一个与公司焦点系统和两家信用陈诉公司系统交互的决策引擎来处置惩罚信贷申请。同时,Credilogros还在寻找针对它所服务的低收入客户群体的自界说风险评分工具。除这些之外,其他需求还包罗解决方案能在其35个分支办公所在和200多个相关的销售点中的任何一个实时操作,包罗零售家电连锁店和手机销售公司。

最终Credilogros 选择了SPSS Inc.的数据挖掘软件PASWModeler,因为它能够灵活并轻松地整合到 Credilogros 的焦点信息系统中。通过实现PASW Modeler,Credilogros将用于处置惩罚信用数据和提供最终信用评分的时间缩短到了8秒以内。这使该组织能够迅速批准或拒绝信贷请求。该决策引擎还使 Credilogros 能够最小化每个客户必须提供的身份证明文档,在一些特殊情况下,只需提供一份身份证明即可批准信贷。此外,该系统还提供监控功效。Credilogros目前平均每月使用PASW Modeler处置惩罚35000份申请。仅在实现 3 个月后就资助Credilogros 将贷款支付失职淘汰了 20%.

DHL是国际快递和物流行业的全球市场领先者,它提供快递、水陆空三路运输、条约物流解决方案,以及国际邮件服务。DHL的国际网络将凌驾220个国家及地域联系起来,员工总数凌驾28.5万人。在美国 FDA 要求确保运送历程中药品装运的温度达标这一压力之下,DHL的医药客户强烈要求提供更可靠且更实惠的选择。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。

虽然由纪录器要领生成的信息准确无误,但是无法实时通报数据,客户和DHL都无法在发生温度偏差时接纳任何预防和纠正措施。因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新治理(TIM)团体明确拟定了一个计划,准备使用RFID技术在差异时间点全程跟踪装运的温度。通过IBM全球企业咨询服务部绘制决定服务的要害功效参数的流程框架。DHL获得了两方面的收益:对于最终客户来说,能够使医药客户对运送历程中泛起的装运问题提前做出响应,并以引人注目的低成本全面切实地增强了运送可靠性。对于DHL来说,提高了客户满意度和忠实度;为保持竞争差异奠基坚实的基础;并成为重要的新的收入增长来源。

价钱竞争空前猛烈,语音业务增长趋缓,快速增长的中国移动通信市场正面临着前所未有的生存压力。中国电信业革新的加速推进形成了新的竞争态势,移动运营市场的竞争广度和强度将进一步加大,这特别体现在团体客户领域。移动信息化和团体客户已然成为未来各运营商应对竞争、获取连续增长的新引擎。

随着国内三足鼎立全业务竞争态势和3G牌照发放,各运营商为团体客户提供融合的信息化解决方案将是局势所趋,而移动信息化将成为全面进入信息化服务领域的先导力量。传统移动运营商因此面临着从传统小我私家业务转向同时拓展团体客户信息化业务领域的挑战。如何应对来自内外部的挑战,迅速以移动信息化业务作为融合业务的竞争利器之一拓展团体客户市场,在新兴市场中立于不败之地,是传统移动运营商需要解决的紧迫问题。

从目前网络招聘的信息来看,巨细公司对数据挖掘的需求有50多个方面(来源见参考资料):

1、数据统计分析

2、预测预警模型

3、数据信息阐释

4、数据收罗评估

5、数据加工堆栈

6、品类数据分析

7、销售数据分析

8、网络数据分析

9、流量数据分析

10、交易数据分析

11、媒体数据分析

12、情报数据分析

13、金融产物设计

14、日常数据分析

15、总裁万事通

16、数据变化趋势

17、预测预警模型

18、运营数据分析

19、商业机缘挖掘

20、风险数据分析

21、缺陷信息挖掘

22、决策数据支持

23、运营优化与成本控制

24、质量控制与预测预警

25、系统工程数学技术

26、用户行为分析/客户需求模型

27、产物销售预测(热销特征)

28、商场整体利润最大化系统设计

29、市场数据分析

30、综合数据关联系统设计

31、行业/企业指标设计

32、企业生长要害点分析

33、资金链治理设计与风险控制

34、用户需求挖掘

35、产物数据分析

36、销售数据分析

37、异常数据分析

38、数学计划与数学方案

39、数据实验模拟

40、数学建模与分析

41、呼叫中心数据分析

42、贸易/进出口数据分析

43、海量数据分析系统设计、要害技术研究

44、数据清洗、分析、建模、调试、优化

45、数据挖掘算法的分析研究、建模、实验模拟

46、组织机构运营监测、评估、预测预警

47、经济数据分析、预测、预警

48、金融数据分析、预测、预警

49、科研数学建模与数据分析:社会科学,自然科学,医药,农学,盘算机,工程,信息,军事,图书情报等

50、数据指标开发、分析与治理

51、产物数据挖掘与分析

52、商业数学与数据技术

53、故障预测预警技术

54、数据自动分析技术

55、泛工具分析

56、互译

57、指数化

其中,互译与指数化是数据挖掘除盘算机技术之外最焦点的两大技术。

6经典算法

编辑本段 回目录

1. C4.5:是机械学习算法中的一种分类决策树算法,其焦点算法是ID3算法。

2. K-means算法:是一种聚类算法。

3.SVM:一种监视式学习的要领,广泛运用于统计分类以及回归分析中

4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。

5.EM:最大期望值法。

6.pagerank:是google算法的重要内容。

7. Adaboost:是一种迭代算法,其焦点思想是针对同一个训练集训练差异的分类器然后把弱分类器荟萃起来,组成一个更强的最终分类器。

8.KNN:是一个理论上比力成熟的的要领,也是最简朴的机械学习要领之一。

9.Naive Bayes:在众多分类要领中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)

10.Cart:分类与回归树,在分类树下面有两个要害的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。

关联规则规则界说

在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。

在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据堆栈系统,为了能够准确了解主顾在其门店的购置习惯,沃尔玛对其主顾的购物行为进行购物篮分析,想知道主顾经常一起购置的商品有哪些。沃尔玛数据堆栈里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘要领对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购置最多的商品竟是啤酒!经过大量实际视察和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。发生这一现象的原因是:美国的太太们常嘱咐她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

数据挖掘数据挖掘

按通例思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不行能发现数据内在这一有价值的纪律的。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种纪律性,就称为关联。关联可分为简朴关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,纵然知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal即是1993年首先提出了挖掘主顾交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的事情包罗对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

7历程

编辑本段 回目录

关联规则挖掘历程主要包罗两个阶段:第一阶段必须先从资料荟萃中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中发生关联规则(Association Rules)。

数据挖掘数据挖掘

关联规则挖掘的第一阶段必须从原始资料荟萃中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组泛起的频率相对于所有纪录而言,必须到达某一水平。一项目组泛起的频率称为支持度(Support),以一个包罗A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包罗{A,B}项目组的支持度,若支持度大于即是所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般体现为Large k或Frequent k。算法并从Large k的项目组中再发生Large k+1,直到无法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要发生关联规则(Association Rules)。从高频项目组发生关联规则,是利用前一步骤的高频k-项目组来发生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所发生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于即是最小信赖度,则称AB为关联规则。

就沃尔玛案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此切合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘历程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用规范中的意义为:在所有的交易纪录资料中,至少有5%的交易泛起尿布与啤酒这两项商品被同时购置的交易行为。Confidence(尿布,啤酒)>=70%于此应用规范中的意义为:在所有包罗尿布的交易纪录资料中,至少有70%的交易会同时购置啤酒。因此,今后若有某消费者泛起购置尿布的行为,超市将可推荐该消费者同时购置啤酒。这个商品推荐的行为则是凭据「尿布,啤酒」关联规则,因为就该超市已往的交易纪录而言,支持了“大部份购置尿布的交易,会同时购置啤酒”的消费行为。

从上面的介绍还可以看出,关联规则挖掘通常比力适用与纪录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的历程是否合理将直接影响关联规则的挖掘结果。

分类

凭据差异情况,关联规则可以进行分类如下:

1.基于规则中处置惩罚的变量的类别,关联规则可以分为布尔型和数值型。

布尔型关联规则处置惩罚的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处置惩罚,将其进行动态的支解,或者直接对原始的数据进行处置惩罚,虽然数值型关联规则中也可以包罗种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

2.基于规则中数据的抽象条理,可以分为单层关联规则和多层关联规则。

在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个差异的条理的;而在多层的关联规则中,对数据的多层性已经进行了充实的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高条理和细节条理之间的多层关联规则。

数据挖掘数据挖掘

3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。

在单维的关联规则中,我们只涉及到数据的一个维,如用户购置的物品;而在多维的关联规则中,要处置惩罚的数据将会涉及多个维。换成另一句话,单维关联规则是处置惩罚单个属性中的一些关系;多维关联规则是处置惩罚各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购置的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

算法

1.Apriori算法:使用候选项集找频繁项集

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其焦点是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

该算法的基本思想是:首先找出所有的频集,这些项集泛起的频繁性至少和预界说的最小支持度一样。然后由频集发生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集发生期望的规则,发生只包罗荟萃的项的所有规则,其中每一条规则的右部只有一项,这里接纳的是中规则的界说。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的要领。

可能发生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。

2.基于划分的算法

Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把发生的频荟萃并,用来生成所有可能的频集,最后盘算这些项集的支持度。这里分块的巨细选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块划分分配给某一个处置惩罚器生成频集。发生频集的每一个循环结束后,处置惩罚器之间进行通信来发生全局的候选k-项集。通常这里的通信历程是算法执行时间的主要瓶颈;而另一方面,每个独立的处置惩罚器生成频集的时间也是一个瓶颈。

3.FP-树频集算法

针对Apriori算法的固有缺陷,J. Han等提出了不发生候选挖掘频繁项集的要领:FP-树频集算法。接纳分而治之的战略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库划分进行挖掘。当原始数据量很大的时候,也可以结合划分的要领,使得一个FP-tree可以放入主存中。实验讲明,FP-growth对差异长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

应用

就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以乐成预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的相同客户的要领。各银行在自己的ATM机上就捆绑了主顾可能感兴趣的本行产物信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购置了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产物都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地资助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出主顾会对什么产物感兴趣。

同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购置的捆绑包。也有一些购物网站使用它们设置相应的交织销售,也就是购置某种商品的主顾会看到相关的另外一种商品的广告。

但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低条理的功效,却无法发现数据中存在的种种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可视察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

近年来,电信业从单纯的语音服务演变为提供多种服务的综合信息服务商。随着网络技术和电信业务的生长,电信市场竞争也日趋猛烈,电信业务的生长提出了对数据挖掘技术的迫切需求,以便资助理解商业行为,识别电信模式,捕捉盗用行为,更好地利用资源,提高服务质量并增强自身的竞争力。下面运用一些简朴的实例说明如何在电信行业使用数据挖掘技术。可以使用上面提到的K 均值、EM 等聚类算法,针对运营商积累的大量用户消费数据建设客户分群模型,通过客户分群模型对客户进行细分,找出有相同特征的目标客户群,然后有针对性地进行营销。而且,聚类算法也可以实现离群点检测,即在对用户消费数据进行聚类的历程中,发现一些用户的异常消费行为,据此判断这些用户是否存在欺诈行为,决定是否接纳防范措施。可以使用上面提到的C4.5、SVM 和贝叶斯平分类算法,针对用户的行为数据,对用户进行信用品级评定,对于信用品级好的客户可以给予某些优惠服务等,对于信用品级差的用户不能享受促销等优惠。可以使用预测相关的算法,对电信客户的网络使用和客户投诉数据进行建模,建设预测模型,预测大客户离网风险,接纳激励和挽留措施防止客户流失。可以使用相关分析找出选择了多个套餐的客户在套餐组合中的潜在纪律,哪些套餐容易被客户同时选取,例如,选择了流量套餐的客户中大部门选择了彩铃业务,然后基于相关性的规则,对选择流量但是没有选择彩铃的客户进行交织营销,向他们推销彩铃业务。

研究

由于许多应用问题往往比超市购置问题更庞大,大量研究从差异的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘要领之中,以此富厚关联规则的应用领域,拓宽支持治理决策的规模。如考虑属性之间的类别条理关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的规模,改善经典关联规则挖掘算法效率和规则兴趣性。

类似区别

一个经常问的问题是,数据挖掘和OLAP到底有何差异。下面将会解释,他们是完全差异的工具,基于的技术也大相径庭。

OLAP是决策支持领域的一部门。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我接纳这样的措施又会怎么样(What if)。用户首先建设一个假设,然后用OLAP检索数据库来验证这个假设是否正确。好比,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高欠债的账户,如果还不行,他也许要把收入和欠债一起考虑,一直进行下去,直到找到他想要的结果或放弃。

也就是说,OLAP分析师是建设一系列的假设,然后通过OLAP来证实或推翻这些假设来最终获得自己的结论。OLAP分析历程在本质上是一个演绎推理的历程。但是如果分析的变量到达几十或上百个,那么再用OLAP手动分析验证这些假设将是一件很是困难和痛苦的事情。

数据挖掘与OLAP差异的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的历程。好比,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高欠债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,好比年龄。

数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论接纳行动之前,你也许要验证一下如果接纳这样的行动会给公司带来什么样的影响,那么OLAP工具能回覆你的这些问题。

而且在知识发现的早期阶段,OLAP工具另有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比力重要的变量,发现异常数据和相互影响的变量。这都能帮你更好的理解你的数据,加速知识发现的历程。

相关技术

数据挖掘利用了人工智能(AI)和统计分析的进步所带来的利益。这两门学科都致力于模式发现和预测。

数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析要领学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高明的技巧,预测的准确度照旧令人满意的,但对使用者的要求很高。而随着盘算机盘算能力的不停增强,我们有可能利用盘算机强大的盘算能力只通过相对简朴和牢固的要领完成同样的功效。

一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和盘算能力下,他们险些不用人的看护自动就能完成许多有价值的功效。

数据挖掘就是利用了统计和人工智能技术的应用法式,他把这些高深庞大的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功效,而且更专注于自己所要解决的问题。

相关影响

使数据挖掘这件事情成为可能的要害一点是盘算机性能价钱比的巨大进步。在已往的几年里磁盘存储器的价钱险些降低了99%,这在很洪流平上改变了企业界对数据收集和存储的态度。如果每兆的价钱是¥10,那存放1TB的价钱是¥10,000,000,但当每兆的价钱降为1毛钱时,存储同样的数据只有¥100,000!

盘算机盘算能力价钱的降低同样很是显著。每一代芯片的降生都市把CPU的盘算能力提高一大步。内存RAM也同样降价迅速,几年之内每兆内存的价钱由几百块钱降到现在只要几块钱。通常PC都有64M内存,事情站到达了256M,拥有上G内存的服务器已经不是什么新鲜事了。

在单个CPU盘算能力大幅提升的同时,基于多个CPU的并行系统也取得了很大的进步。目前险些所有的服务器都支持多个CPU,这些SMP服务器簇甚至能让成百上千个CPU同时事情。

基于并行系统的数据库治理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而庞大的数据挖掘问题要求通过会见数据库取得数据,那么效率最高的措施就是利用一个当地的并行数据库。

所有这些都为数据挖掘的实施扫清了门路,随着时间的延续,我们相信这条门路会越来越平坦。

相关问题

硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之界说为Data Mining技术的CART、CHAID或模糊盘算等等理论要领,也都是由统计学者凭据统计理论所生长衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的泛起会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:

1.处置惩罚大量实际数据更强势,且无须太专业的统计配景去使用Data Mining的工具;

2.数据分析趋势为从大型数据库抓取所需数据并使用专属盘算机分析软件,Data Mining的工具更切合企业需求;

3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差异,究竟Data Mining目的是方便企业终端用户使用而非给统计学家检测用的。

若将Data Warehousing(数据堆栈)比喻作矿坑,Data Mining就是深入矿坑采 矿的事情。究竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够富厚完整的数据,是很难期待Data Mining能挖掘出什么有意义的信息的。

要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功效完善的数据库系统就成了最好的收集数据的工具。数据堆栈,简朴地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处置惩罚整合,且容量特别大的关系型数据库,用以储存决策支持系统(Decision Support System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据堆栈的目标是在组织中,在正确的时间,将正确的数据交给正确的人。

许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,数据堆栈是数据库技术的一个新主题,利用盘算机系统资助我们操作、盘算和思考,让作业方式改变,决策方式也随着改变。

数据堆栈自己是一个很是大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处置惩罚系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据堆栈中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的历程,是建设一个数据堆栈最大的挑战。因为将作业中的数据转换成有用的的战略性信息是整个数据堆栈的重点。综上所述,数据堆栈应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据堆栈挖掘出对决策有用的信息与知识,是建设数据堆栈与使用Data Mining的最大目的,两者的本质与历程是两回事。换句话说,数据堆栈应先行建设完成,Data mining才气有效率的进行,因为数据堆栈自己所含数据是洁净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为Data Mining是从巨大数据堆栈中找出有用信息的一种历程与技术。大部门情况下,数据挖掘都要先把数据从数据堆栈中拿到数据挖掘库或数据集市中(见图1)。

从数据堆栈中直接获得进行数据挖掘的数据有许多利益。就如我们后面会讲到的,数据堆栈的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据堆栈时已经清理过,那很可能在做数据挖掘时就没须要在清理一次了,而且所有的数据纷歧致的问题都已经被你解决了。

数据挖掘库可能是你的数据堆栈的一个逻辑上的子集,而纷歧定非得是物理上单独的数据库。但如果你的数据堆栈的盘算资源已经很紧张,那你最好照旧建设一个单独的数据挖掘库。

虽然为了数据挖掘你也不必非得建设一个数据堆栈,数据堆栈不是必须的。建设一个巨大的数据堆栈,把各个差异源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据堆栈内,是一项巨大的工程,可能要用几年的时间花上百万的钱才气完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它看成数据集市,然后在他上面进行数据挖掘。

所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线分析处置惩罚法式。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然差异的,主要差异在于Data Mining用在发生假设,OLAP则用于查证假设。简朴来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否建设;而Data Mining则是用来资助使用者发生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在资助做探索。

举个例子来看,一市场分析师在为超市计划货物架柜部署时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购置的产物,接着便可利用OLAP的工具去验证此假设是否为真,又建设的证据有多明显;但Data Mining则否则,执行Data Mining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则,于是我们可能获得例如尿布和啤酒常被同时购置的意料外之发现,这是OLAP所做不到的。

Data Mining常能挖掘出逾越归纳规模的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性,事实上已逾越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。

1、数据挖掘情况

数据挖掘是指一个完整的历程,该历程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或富厚知识.  数据挖掘情况可示意如下图:

数据挖掘情况框图.gif

2、数据挖掘历程图

下图描述了数据挖掘的基本历程和主要步骤

数据挖掘的基本历程和主要步骤

3、数据挖掘历程事情量

在数据挖掘中被研究的业务工具是整个历程的基础,它驱动了整个数据挖掘历程,也是检验最后结果和指引分析人员完成数据挖掘的依据和照料.图2各步骤是按一定顺序完成的,虽然整个历程中还会存在步骤间的反馈.数据挖掘的历程并不是自动的,绝大多数的事情需要人工完成.图3给出了各步骤在整个历程中的事情量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,尔后挖掘事情仅占总事情量的10%.

图3数据挖掘历程事情量比例

4、数据挖掘历程简介

历程中各步骤的概略内容如下:

(1). 确定业务工具

清晰地界说出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不行预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会乐成的.

(2). 数据准备

1)、数据的选择

搜索所有与业务工具有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.

2)、数据的预处置惩罚

研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.

3)、数据的转换

将数据转换成一个分析模型.这个分析模型是针对挖掘算法建设的.建设一个真正适合挖掘算法的分析模型是数据挖掘乐成的要害.

(3). 数据挖掘

对所获得的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切事情都能自动地完成.

(4). 结果分析

解释并评估结果.其使用的分析要领一般应作数据挖掘操作而定,通常会用到可视化技术.

(5). 知识的同化

将分析所获得的知识集成到业务信息系统的组织结构中去.

5、数据挖掘需要的人员

数据挖掘历程的分步实现,差异的步会需要是有差异专长的人员,他们概略可以分为三类.

业务分析人员:要求精通业务,能够解释业务工具,并凭据各业务工具确定出用于数据界说和挖掘算法的业务需求.

数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.

数据治理人员:精通数据治理技术,并从数据库或数据堆栈中收集数据.

从上可见,数据挖掘是一个多种专家相助的历程,也是一个在资金上和技术上高投入的历程.这一历程要重复进行牞在重复历程中,不停地趋近事物的本质,不停地优先问题的解决方案。数据重组和细分添加和拆分纪录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。

Data Mining是近年来数据库应用技术中相当热门的议题,看似神奇、听来时髦,实际上却也不是什么新工具,因其所用之诸如预测模型、数据支解,连结分析(Link Analysis)、偏差侦测(Deviation Detection)等,美国早在二次世界大战前就已应用运用在人口普查及军事等方面。

随着信息科技超乎想象的进展,许多新的盘算机分析工具问世,例如关系型数据库、模糊盘算理论、基因算规则以及类神经网络等,使得从数据中掘客宝藏成为一种系统性且可实行的法式。

一般而言,Data Mining的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表,统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术,尤其 Data Mining 工具多为变量繁多且样本数庞大的数据,是以高等统计学里所含括之多变量分析中用来精简变量的因素分析(Factor Analysis)、用来分类的判别分析(Discriminant Analysis),以及用来区隔群体的分群分析(Cluster Analysis)等,在Data Mining历程中特别常用。

在改良技术方面,应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neural Network)以及规则归纳法(Rules Induction)等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型,凭据对目标变量发生之效应的差异而建构分类的规则,一般多运用在对客户数据的分析上,例如针对有回函与未回含的邮寄工具找出影响其分类结果的变量组合,常用分类要领为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。

类神经网络是一种仿真人脑思考结构的数据分析模式,由输入之变量与数值中自我学习并凭据学习经验所得之知识不停调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计,与传统回归分析相比,利益是在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出;缺点则在于其分析历程为一黑盒子,故常无法以可读之模型花样展现,每阶段的加权与转换亦不明确,是故类神经网络多利用于数据属于高度非线性且带有相当水平的变量交感效应时。

规则归纳法是知识掘客的领域中最常用的花样,这是一种由一连串的「如果…/则…(If / Then)」之逻辑规则对数据进行细分的技术,在实际运用时如何界定规则为有效是最大的问题,通常需先将数据中发生数太少的项目先剔除,以制止发生无意义的逻辑规则。

Data Mining实际应用功效可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。

Classification是凭据一些变量的数值做盘算,再依照结果作分类。(盘算的结果最后会被分类为几个少数的离散数值,例如将一组数据分为 "可能会响应" 或是 "可能不会响应" 两类)。Classification常被用来处置惩罚如前所述之邮寄工具筛选的问题。我们会用一些凭据历史经验已经分类好的数据来研究它们的特征,然后再凭据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄工具数据库的部份取样来建设一个Classification Model,再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

Clustering用在将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification差异的是,在分析前并不知道会以何种方式或凭据来分类。所以必须要配合专业领域知识来解读这些分群的意义。

Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将规模扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论平分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功效上大大增加了选择工具的弹性与应用规模的广度。

Time-Series Forecasting与Regression功效类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处置惩罚有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如已往与未来的关连性)。

Association是要找出在某一事件或是数据中会同时泛起的工具。举例而言,如果A是某一事件的一种选择,则B也泛起在该事件中的机率有几多。(例如:如果主顾买了火腿和柳橙汁,那么这个主顾同时也会买牛奶的机率是85%。)

Sequence Discovery与Association关系很密切,所差异的是Sequence Discovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是 68%)。

Data Mining在各领域的应用很是广泛,只要该工业拥有具分析价值与需求的数据仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财政金融保险、通讯业以及医疗服务等。

于销售数据中掘客主顾的消费习性,并可藉由交易纪录找出主顾偏好的产物组合,其它包罗找出流失主顾的特征与推出新产物的时机点等等都是零售业常见的实例;直效行销强调的分众看法与数据库行销方式在导入Data Mining的技术后,使直效行销的生长性更为强大,例如利用Data Mining分析主顾群之消费行为与交易纪录,结合基本数据,并依其对品牌价值品级的崎岖来区隔主顾,进而到达差异化行销的目的;制造业对Data Mining的需求多运用在品质控管方面,由制造历程中找出影响产物品质最重要的因素,以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都很是可观,Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,到达淘汰损失的目的。财政金融业可以利用 Data Mining来分析市场动向,并预测个体公司的营运以及股价走向。Data Mining的另一个奇特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。

如果将Web视为CRM的一个新的Channel,则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。

该如何丈量一个网站是否乐成?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从聚集如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属Web Mining 分析之领域。Web Mining 不仅只限于一般较为人所知的log file分析,除了盘算网页浏览率以及访客人次外,举凡网络上的零售、财政服务、通讯服务、政府机关、医疗咨询、远距教学等等,只要由网络连结出的数据库够大够完整,所有Off-Line可进行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的数据库,实施更大规模的模型预测与推估,究竟凭借网际网络的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一行销的理念是最有时机在网络世界里完全落实的。

整体而言,Web Mining具有以下特性:1.数据收集容易且不引人注意,所谓凡走过必留下痕迹,当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的;2. 以交互式小我私家化服务为终极目标,除了因应差异访客泛起专属设计的网页之外,差异的访客也会有差异的服务;3. 可整合外部来源数据让分析功效发挥地更深更广,除了log file、cookies、会员填表数据、线上视察数据、线上交易数据等由网络直接取得的资源外,结合实体世界累积时间更久、规模更广的资源,将使分析的结果更准确也更深入。

利用Data Mining技术建设更深入的访客数据剖析,并赖以架构精准的预测模式,以期泛起真正智能型小我私家化的网络服务,是Web Mining努力的偏向。

CRM(Customer Relationship Management)是近来引起热烈讨论与高度关切的议题,尤其在直效行销的崛起与网络的快速生长发动下,跟不上CRM的脚步如同跟不上时代。事实上CRM并不算新发现,奥美直效行销推动十数年的CO(Customer Ownership)就是现在各人谈的CRM—客户关系治理。

Data Mining应用在CRM的主要方式可对应在Gap Analysis之三个部门:

针对Acquisition Gap,可利用Customer Profiling找出客户的一些配合的特征,希望能藉此深入了解客户,藉由Cluster Analysis对客户进行分群后再通过Pattern Analysis预测哪些人可能成为我们的客户,以资助行销人员找到正确的行销工具,进而降低成本,也提高行销的乐成率。

针对Sales Gap,可利用Basket Analysis资助了解客户的产物消费模式,找出哪些产物客户最容易一起购置,或是利用Sequence Discovery预测客户在买了某一样产物之后,在多久之内会买另一样产物等等。利用 Data Mining可以更有效的决定产物组合、产物推荐、进货量或库存量,甚或是在店里要如何部署货物等,同时也可以用来评估促销运动的成效。

针对Retention Gap,可以由原客户厥后却转成竞争对手的客户群中,分析其特征,再凭据分析结果到现有客户数据中找出可能转向的客户,然后设计一些要领预防客户流失;更有系统的做法是藉由Neural Network凭据客户的消费行为与交易纪录对客户忠诚度进行Scoring的排序,如此则可区隔流失率的品级进而配合差异的战略。

CRM不是设一个(800)客服专线就算了,更不仅只是把一堆客户基本数据输入盘算机就够,完整的CRM运作机制在相关的硬软件系统能健全的支持之前,有太多的数据准备事情与分析需要推动。企业透过Data Mining可以划分针对战略、目标定位、操作效能与丈量评估等四个切面之相关问题,有效率地从市场与主顾所搜集累积之大量数据中挖掘出对消费者而言最要害、最重要的答案,并赖以建设真正由客户需求点出发的客户关系治理。

Data Mining工具市场大致可分为三类:

一般分析目的用的软件包

K-Miner(神通数据挖掘分析系统,MPP+SMP并行盘算架构)

AlpineMiner(AlpineDataLabs)

TipDM(顶尖数据挖掘平台)

GDM(Geni-Sage Data Mining Analysis System,博通数据挖掘分析系统)

SAS Enterprise Miner

KXEN(凯森)

IBM Intelligent Miner

Unica PRW

SPSS Clementine

SGI MineSet

Oracle Darwin

Angoss KnowledgeSeeker

2. 针对特定功效或工业而研发的软件

KD1(针对零售业)

Options & Choices(针对保险业)

HNC(针对信用卡诈欺或呆帐侦测)

Unica Model 1(针对行销业)

iEM System (针对流程行业的实时历史数据)

3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系统

Cognos Scenario and Business Objects

国际相关

1.ACM Transactions on Knowledge Discovery from Data (TKDD)

2.IEEE Transactions on Knowledge and Data Engineering (TKDE)

3.Data Mining and Knowledge Discovery

4.Knowledge and Information Systems

5.Data & Knowledge Engineering

1.SIGMOD:ACM Conference on Management of Data (ACM)

2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)

3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)

4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)

5.WWW:International World Wide Web Conferences (W3C)

6.CIKM:ACM International Conference on Information and Knowledge Management (ACM)

7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI)

数据挖掘研究 Hans Journal of Data Mining 是一本关注数据挖掘领域最新进展的国际中文期刊,由汉斯出书社刊行,主要刊登数据结构、数据宁静、知识工程等盘算机信息系统建设相关内容的学术论文和结果评述。本刊支持思想创新、学术创新,提倡科学,繁荣学术,集学术性、思想性为一体,旨在为了给世界规模内的科学家、学者、科研人员提供一个流传、分享和讨论数据挖掘领域内差异偏向问题与生长的交流平台。

研究领域:

数据挖掘数据挖掘

· 数据结构

· 数据宁静与盘算机宁静

· 数据库

· 数据处置惩罚

· 知识工程

· 盘算机信息治理系统

· 盘算机决策支持系统

· 盘算机应用其他学科

· 模式识别

· 人工智能其他学科

编委信息

主编

丁晓青 教授清华大学

编委会

蒋嶷川 教授东南大学

李道亮 教授中国农业大学

赖剑煌 教授中山大学

刘金山 教授华南农业大学

李绍滋 教授厦门大学

吕绍高 副教授西南财经大学

马懋德 副教授新加坡南洋理工大学

莫雄伟 教授哈尔滨工程大学

朴昌浩 教授重庆邮电大学

谭文安 教授南京航空航天大学

王加阳 教授中南大学

汪卫 教授复旦大学

杨力华 教授中山大学

杨晓忠 教授华北电力大学

张道强 教授南京航空航天大学

《数据挖掘》期刊论文已被以下数据库收录:

维普

万方

全国期刊联合目录数据库(UNICAT)

中国科学院国家科学图书馆

读秀学术

DOAJ

Open J-Gate

Google Scholar

Academic Journals Database

The Elektronische Zeitschriftenbibliothek(EZB)

NewJour

SJSU

Worldwidescience

Ulrichsweb

Washington

trueserials

WorldCat

NYULibraries

Scirus

Journalseek

Index Copernicus

Cornell University Library

Open Access Library

8隐私

编辑本段 回目录

与数据挖掘有关的,还牵扯到隐私问题,例如:一个雇主可以通过会见医疗纪录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和执法问题。

对于政府和商业数据的挖掘,可能会涉及到的,是国家宁静或者商业秘密之类的问题。这对于保密也是个不小的挑战。

数据挖掘有许多正当的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会泛起一例,但药物学相关的项目就可以运用此要领淘汰对药物有不良反映的病人数量,另有可能挽救生命;但这当中照旧存在着数据库可能被滥用的问题。

数据挖掘实现了用其他要领不行能实现的要领来发现信息,但它必须受到规范,应当在适当的说明下使用。

如果数据是收集自特定的小我私家,那么就会泛起一些涉及保密、执法和伦理的问题。

参考资料

[添加]
暂无参考资料!!

本词条内容由360百科凭据相关资料编纂,仅供参考。如有问题,可联系我们修订、完善或删除。也接待更多热爱知识共享、有志于词条编纂的专业人士加入360百科建设。0

数据挖掘 图册

百科热点

党的十九大
  • 浏览次数: 58217 次
  • 更新时间:2017-07-25
  • 建设者:lilei
分享到: