CHINA SCIENCE AND TECHNOLOGY INFORMATION Nov.2019·中国科技信息2019年第22期201万~500万◎DOI:10.3969/j.issn.1001- 8972.2019.22.035可实现度可替代度行业曲线linkappraisementindustry徐经纬 靳 琦影响力真实度北京大学行业关联度基于粗糙集的信息系统可决策性量化研究模型的预测效率不仅取决于自身的性能和参数设定,还取决于训练捷、通用性强等特点,因此本文首先考虑运用粗糙集理论作集的信息质量。高噪声环境中的知识提取往往预测表现并不稳定。本文为信息系统不确定性的程度的刻画指标。思考从总体流程方面思考改进决策系统的方案,基于粗糙集理论和信息根据Pawlak(1982),一个信息系统可以表示为:论提出了一种组合度量信息系统可决策性的通用方法,该算法具有快速、S=〈U,A,V,f〉简洁、通用性强等特点,在多个数据集的验证下具有较高的可靠性。其中U是对象的集合(论域),A是属性集合,V是属性的值域,f:U×A→V为信息函数,表示U中每个对象的属当今社会随着计算机技术和网络技术的飞速发展,各领性值。域的数据维度和规模急剧增加,而期望从杂乱无章的海量数令A=C∪D,其中子集C是条件属性集合,D是决策属据中提取出有价值知识的数据挖掘算法也层出不穷。但另一性集合,则S又称为决策表。方面,虽然数据的规模和维度在不断扩大,特征提取和系统设R是U上的一个等价关系,[x]R表示包含元素x的R预测的方法也在不断完善,当前机器学习算法的研究框架仍的等价类。然是建立在对数据直接进行分析建模的基础上,而很少关注对于每个子集X⊆U和不分明关系B,X的上近似集和数据集本身的信息含量。下近似集分标表示如下:信息系统本身的可决策性是关乎预测算法性能优劣的最B−(X)={x|(x∈U∧[x]B⊆X)}重要因素之一。若数据集本身的信息含量过低,则无论怎样B−=(X){x|(x∈U∧[x]B∩X≠∅)}优化,算法都很难达到令人满意的效果。因此,本文将研究定义集合X是论域U上的一个关于知识B(属性子集)重点放在了如何提出一套通用的对知识系统不确定性进行评的Rough集,定义其B精度为估的方法,在进行模型训练之前首先对信息系统的可决策性dB=B−(X)/B−(X)进行初步评估,得到预测系统准确率(包括对于不同属性的定义其粗糙度为:预测效率)所能达到的大致范围,为下一步的模型训练及优PB=1−dB化提供参考,同时筛选出相对重要的特征变量。本文算法主我们可以认为知识B(条件属性子集)提供的关于d(决要基于粗糙集理论和信息论,具有较强的通用性和较低的运策属性)的决策信息提供量为dB,其数据的不确定性程度为算量等特点。此外通过多个UCI数据集验证,算法在二分类PB。问题上表现良好。王国胤(2011)在其基础上,提出用精度与分类质量来度量系统和属性的不确定性。数学模型设集合簇=F{X=,X,,X}(Un12ni=1Xi)是论域U上定义的知识,B是信息粒度与熵理论是研究信息系统不确定性的两种重要一个属性子集,定义B对F的分类质量为:工具。rB(F)n=∑B−(X)/U=1(1)粗糙集理论对于F是数学d导出的分类,属性子集B′(B′⊆B)在Pawlak于1982年提出的粗糙集理论(Rough Set B中的重要性定义为:Theory)是近年来在数据挖掘与机器学习领域得到广泛应SGF(B′,B,d)=rB(F)−rB\\B′(F)用的理论,可以用于定量分析不一致、不完整信息与知识。表示从属性集B中去掉属性集B′对分类质量的影响,如运用粗糙集理论处理问题时无需考虑数据集合之外的任何先果B′是一个属性,则表示该属性的重要性程度。粗糙集理论验信息,因此对系统不确定性的描述比较客观,具有简便快的优势在于能够有效利用不一致、不完整、非完备信息,挖-95-◎201万~500万中国科技信息2019年第22期·CHINA SCIENCE AND TECHNOLOGY INFORMATION Nov.2019掘出隐含的知识,筛选出有价值的属性特征。由于粗糙集理=dUNC(A,d,a)UNC(A{a},d)−UNC(A,d)论不像基于概率论和模糊集理论等的传统数据挖掘方法对模其取值范围也为[0,1]。条件可决策性也可以用来定义型设定、先验分布、隶属度函数等先验知识有较高要求,因单个属性的重要性,即:此更适用于有限信息条件下的决策系统构建,如SkowronSGF(a,A,d)=dUNC(A,d,a) (1)(1989)提出了通过投影得到缺省决策规则的算法,能够在以上我们分别对属性集整体可决策性和单个属性重要不确定性条件下提取规则。性进行了定义,且令其取值范围均在[0,1]。根据王国胤等(2)信息论(2002)的论述,信息定义的重要性包含代数定义的重要性,香农(1942)提出信息熵的概念,并将其用于判断信息因此可以用条件信息熵来评估系统的整体可决策性,我们给系统的不确定性。信息熵的数学表达式为:出系统可决策性度量的公式:S(P)n=−∑pilogpi其中pi=1UNC(B,d)=H(d)−H(d|B)i表示第个信息出现的概率。H(d) (2)王国胤(2002)提出可以用条件信息熵来度量属性的其中:重要性,并且从理论上证明属性重要性的信息定义包含其代H(d)m=数定义。∑p(Yj)logp(Yj)j=1nm定义条件属性C对决策属性D的条件熵为:H(d|B)=−∑p(Xi)∑p(Y1j|Xi)logp(Yj|Xi)=i1=jH(D|C)nm=−∑p(Xi)∑p(Yj|Xi)logp(Yj|Xi)其中Yj=i1=j1为决策属性的取值,Xi为条件属性组合取值。其中Xi为条件属性C划分,Yi为决策属性对U的划分。从而:相应地,从信息论角度定义属性重要性如下:(d|A)−H(d|A{a})SGF(a,=A,d)H(d|A)−H(d|A{a})dUNC(A,d,a)=HH(d)其中C是条件属性集合,A⊂C,a∈C−A,上式表示从为了便于评估系统中决策属性某一取值的可决策性程属性集合去掉a后,剩余部分重要性减少的程度,如果度,我们定义局部可决策性为PUNC(B,di),其中di为决策属性SGF(a,A,d)=0,则表示a属性的重要性为0,可以剔除。其中一个取值。从定义上可以看出,粗糙集的粗糙度属于代数意义上相应的,局部属性重要性可以定义为PUNC(A,di,a),则:的不确定性,主要用于评估属性对某一论域集合的识别程=dPUNC(A,di,a)PUNC(A{a},di)−PUNC(A,di)度。而条件熵属于信息论意义上的不确定性,主要评估新增我们参考粗糙集精度的概念来定义局部可决策性,即:条件对原始数据信息不确定性的影响程度。粗糙度定义更PUNC(B,di)=B−(X)/B−(X)为精确,通过对论域内对象的分析,构建知识体系,并对=dPUNC(A,di,a)B−(X,A{a})/B−(X),A{a}−B−(X,A)/B−(X,A) (3)样本外对象的分类做出预测,且可以评估属性对于某一具体分类的预测准确度。但从代数角度定义的不确定性并没数据实证有考虑到随机变量的概率分布特征可能对结果造成的影响,(1)算法流程示例因此对于整体可决策性的评估略显不足;而条件熵定义相对本文用周志华《机器学习》中西瓜数据集为例,为了便模糊,可以评估属性对整体分类的不确定性影响,但是无法于数据处理,本文将连续型数据离散化。评估属性对某一具体分类可预测程度的影响。从理论上看,表1 示例数据——西瓜各项属性与分类二者具有互补性。编号\\条件属性决策属性也有其他学者提出粗糙熵、模糊度、模糊熵、组合指数论域色泽根蒂敲声纹理脐部触感密度含糖率好瓜熵等方法可用于评估信息系统不确定性,但是这些方法往往1青绿蜷缩浊响清晰凹陷硬滑55是存在算法复杂度高、通用性差、偏差较大等问题,不适用于2乌黑蜷缩沉闷清晰凹陷硬滑64是本文建立通用的信息系统可决策性评价指标的要求。因此,3乌黑蜷缩浊响清晰凹陷硬滑43是经过权衡取舍和大量实证,本文提出一种结合粗糙集与条件4青绿蜷缩沉闷清晰凹陷硬滑43是信息熵两种理论,组合度量信息系统可决策性的通用方法。5浅白蜷缩浊响清晰凹陷硬滑42是6青绿稍蜷浊响清晰稍凹软粘22是组合度量方法实现7乌黑稍蜷浊响稍糊稍凹软粘31是对一个决策信息系统S=〈U,CD,V,f〉,其中C是条件8乌黑稍蜷浊响清晰稍凹硬滑22是属性集,D是决策属性集,对于任意9乌黑稍蜷沉闷稍糊稍凹硬滑51否d∈D,A⊂C,a∈C−A,10青绿硬挺清脆清晰平坦软粘03否c∈C,B⊆C。定义系统可决策性为UNC(B,d),表示在条件属11浅白硬挺清脆模糊平坦硬滑01否性集B的情况下,分类的确定性程度,其取值范围为[0,1]。12浅白蜷缩浊响模糊平坦软粘11否如果值为1表示完全确定性,如果值为0表示完全不确定性,13青绿稍蜷浊响稍糊凹陷硬滑42否如果该集合只有一个属性,则表示该属性对分类决策的确定14浅白稍蜷沉闷稍糊凹陷硬滑52否性程度。定义条件可决策性为dUNC(A,d,a),表示条件属性集15乌黑稍蜷浊响清晰稍凹软粘24否A增加一个属性a后,可决策性增加的程度。dUNC(A,d,a)定16浅白蜷缩浊响模糊平坦硬滑40否义如下:17青绿蜷缩沉闷稍糊稍凹硬滑51否-96-CHINA SCIENCE AND TECHNOLOGY INFORMATION Nov.2019·中国科技信息2019年第22期201万~500万◎根据前文中条件信息熵的计算方法得到各单个属性对分势与整体重要性基本一致。此外也可以看出,不同的属性对类系统可决策性的影响程度,此外根据粗糙度计算方法进一于各具体分类预测能力的影响是不同的,如增加“色泽”属步得到各单个属性对各分类下预测能力的影响程度,结果如性后,尽管对是好瓜的判断增加效果一般,但是明显能增加表2所示。对不好的西瓜识别效果。表2中整体重要性刻画了单个属性对于系统可决策性的从示例数据的实证效果来看,本文构建的系统可决策性提升程度,而“是”重要性表示单个属性对于“是”分类预组合度量方法结合了信息论以及粗糙集理论的优点,可以简测能力的影响程度。从表2可以看出,从单个属性的层面上讲,洁、高效地评估数据集包含的信息质量。那么,这样一种通对论域区分度最高的属性是“纹理”,区分度最低的属性是“触用的评估方法其可靠性如何?下面我们在多个UCI数据集上感”。而只有“密度”和“含糖率”对于“是”分类存在显进行验证,通过将系统可决策性程度与进行机器学习模型训著的预测能力。练之后的预测准确率进行对比,说明系统可决策性指标的可进一步地,我们计算出属性组合对于分类系统可决策性靠性。的影响。(2)模型验证表3 属性组合对系统可决策性的影响首先定义一个模型预测能力的评估标准。对一个决策信条件属性整体重要性“是”重要性“否”重要性息系统S=〈U,CD,V,f〉,di∈D,令决策函数空间G={g1,g2,...,gn},纹理0. 381500.1765其中=gi{g=|g(C)di},表示为条件属性映射为某一决策属性的纹理&密度0.83750.66670.7272函数集。gi有多种形式,对映射到其中一个决策属性di来说,纹理&脐部0.67510.45450.5令gi={gi1,gi2,...,gim},di={di1,di2,...,dil},设定决策函数的评估标准:纹理&含糖率0.55710.33330.3846准确率(racc),其中综合的数据准确率为:纹理&根蒂0.64620.41670.4167纹理&敲声0.65210.20.4667racci=1m∑mgjiij=纹理&色泽0.49930.090.375每个分类的准确率为:纹理&触感0.83750.70.7从表3可以看出,相对于单一属性“纹理”,引入其他=racc1mikm=∑gjijk,中其gijk(C)dik=i属性后,整体的可决策性显著增加。而从“是”重要性以及“否”为了验证信息系统评估的有效性,本文采用无参数的多重要性来看,引入新的属性之前,系统基本上无法识别西瓜个机器学习进行数据挖掘分类测算。在模型选择上,本文选好坏,而引入其他属性后,识别程度会迅速增加,且增加趋取决策树和逻辑回归模型。在数据集的选择方面,为了便于表2 单个属性对系统可决策性的影响条件属性色泽根蒂敲声纹理脐部触感密度含糖率整体重要性0.10840.14300.14110.38150.28990.00610.35990.2204‘‘是’’重要性0000000.14290.0625‘‘否’’重要性00.11760.11760.17650.235300.20.0625表4 描述性统计编号nameInstancesAttributesYearArea属性1属性1占比属性2属性2占比1Abalone132381995Life952.08%1047.92%2Adult32561141996Social>50K24.08%<=50K75.92%3Bank Marketing45211172012Businessno88.30%yes11.70%4default of credit card clients30000242016Business077.88%122.12%5Musk65981681994Physical084.59%115.41%6Nomao344651202012Computer171.44%-128.56%7Poker Hand1025010112007Game054.22%145.78%8Yeast148481996LifeNUC78.09%CYT51.91%表5 系统可决策性与模型预测准确率编号name整体决策性分类1精度分类2精度整体准确率分类1准确率分类2准确率1Abalone10.93%2.54%1.94%54.91%55.07%54.47%2Adult42.97%3.58%24.85%81.36%62.18%87.12%3Bank Marketing37.30%28.19%3.70%88.45%91.53%44.70%4default of credit card clients48.49%29.98%11.36%78.12%83.09%49.97%5Musk99.90%99.93%99.61%94.13%97.85%74.22%6Nomao98.93%98.32%95.86%94.19%95.85%90.09%7Poker Hand22.52%9.71%8.28%60.06%61.65%57.50%8Yeast13.86%4.23%4.79%53.63%61.90%49.14%-97-◎201万~500万中国科技信息2019年第22期·CHINA SCIENCE AND TECHNOLOGY INFORMATION Nov.2019图1 整体可决策性与整体准确率图4 属性个数对系统可决策性的影响图2 分类1精度与分类1准确率图5 分类1占比对分类1精度的影响图3 分类2精度与分类2准确率图6 分类2占比对分类2精度的影响统计,本文随机选取了UCI网站上的8个2分类数据集。下面分析系统可决策性度量指标的稳定性,即会受到哪样本内数量占据80%,样本外数量占据20%。些数据集特征的影响。从图4来看,系统可决策性指标受到分别在各数据集上进行验证。首先使用本文方法快速计数据集中属性个数的影响较大,当属性个数低于20时指标算出数据的整体可决策性以及各分类的精度,然后在各训练值很低,随着属性个数增加,可决策性程度单调上升。变动集上进行模型训练,并使用训练好的模型在各验证集上进行趋势与预测准确率一致,但变化幅度更大一些。样本外预测,统计预测的整体准确率以及对各分类预测的准图5、图6分析了数据集中不同分类样本的多少是否显确率。结果如表5所示。著影响可决策性指标。从趋势来看分类样本占总样本的比例评估信息系统可决策性主要参考整体可决策性指标。从高低对分类精度的影响并不明显,该指标较为稳定。图1可以看出,系统整体可决策性与模型的预测准确率呈显著正相关且近似于线性相关,说明本文构建的整体可决策性结语指标对于数据可预测性的评估较为可靠。在处理高噪声环境中知识提取与预测的任务时,我们往此外本文发现,不同分类的精度直接决定了各个分类准往发现无论用何种数据挖掘方法,所构建的决策系统并不总确率的大小,如Adult的分类1精度3.85%,分类2精度是有效,存在有限信息下所提取规则的可靠性过低的问题。24.85%,则计算出来分类的结果分类1准确率62.18%,因此,本文基于粗糙集理论和信息论提出了一种组合度量信分类2准确率87.12%,分类2的准确率明显高于分类1。息系统可决策性的通用方法,该算法具有快速、简洁、通用将各数据集上分类精度与分类准确率绘制成图(图2、图3),性强等特点,在多个数据集的验证下具有较高的可靠性。可以明显看出两个分类的精度与预测准确率呈正相关。当系统的可预测性过低时,应慎重考虑所提取的知识规各个分类的精度主要用于评估不同分类的相对决策胜则以及所生成的决策,并增加条件属性改善可预测性。有限率。此特性可以用于寻找量化投资策略的相对交易机会,对信息下更应强调系统的不确定性度量。本文从总体流程方面于存在做空限制的投资标的,应当更加关注系统对于未来资思考改进决策系统的方案,通过加入对数据集所包含信息质产上涨的预测能力。而若预测下跌的胜算高于预测上涨的胜量的度量的步骤,在训练模型之前首先对信息系统的可决策算,则可用于策略的风险控制。性进行评估,从而优化机器学习、模式识别和数据挖掘效率。-98-