数学实验
计算机科学与技术
成员:xxx
学号:xxxxxxxxxx 葡萄酒的评价 摘要 本文主要研究的是如何对葡萄酒进行评价的问题。通过对评酒员的评分与酿酒葡萄的理化指标和葡萄酒的理化指标等原始数据进行统计、分析和处理,我们得出了一个较为合理地评价葡萄酒质量优劣的模型。 在问题一中,我们采用T检验法,首先进行正态分布拟合检验,判断出它们服从正态分布。之后,我们通过T检验法判断出了两组评酒员的评价结果具有显着性差异。而对于如何判断哪一组评酒员的评价结果更可信,由于评酒员评分的客观性,我们通过计算评酒员评分均值的置信区间,利用置信区间的长短来判断评分的可信程度。置信区间越窄,说明其越可信。利用Matlab软件求出了第二组评酒员的评分均值的置信区间更窄,所以第二组评酒员的评价结果更可信。 在问题二中,我们采用主成分分析法,把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量再按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差。第二变量的方差次大,并且和第一变量不相关。由于变量较多,虽然每个变量都提供了一定的信息,但其重要性有所不同。依次类推,最后我们将酿酒葡萄分为了四个等级:优质、次优、中等、下等。
在问题三中,我们通过多项式曲线拟合的方法,构造一个以葡萄酒的理化指标为自变
量,酿酒葡萄的理化指标为因变量的函数,并利用Matlab软件进行曲线拟合,最后得出酿酒葡萄与葡萄酒的理化指标之间的关系为呈线性正相关。
在问题四中,我们用无交互作用的双因素试验的方差分析方法,通过对观测、比较、分析实验数据的结果,鉴别出了两个因素在水平发生变化时对实验结果产生显着性影响的大小程度。最后,我们认为能用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量,且酿酒葡萄的理化指标对葡萄酒质量影响相对葡萄酒的理化指标更显着。
关键词:T检验法,Matlab,正态分布,主成分分析法,多项式曲线拟合,方差分析 一. 问题的重述 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题: 1. 分析附件1中两组评酒员的评价结果有无显着性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
附件1:葡萄酒品尝评分表(含4个表格)
附件2:葡萄和葡萄酒的理化指标(含2个表格)
附件3:葡萄和葡萄酒的芳香物质(含4个表格) 二 基本假设与符号说明
2.1 基本假设
(1)评酒员的评分是客观公正的,不受任何外界因素影响。 (2)用来检验的葡萄都是刚采摘的新鲜葡萄,葡萄酒也没有遭受任何污染。 (3)在检测酿酒葡萄和葡萄酒的理化指标的过程中,忽略由于人为操作不当带来的误差。 (4)由于不是每组数据都对葡萄酒的质量产生很大影响,所以在处理数据过程中,忽略那些影响不是很明显的理化指标。 2.2 符号说明 i(i1,2) 第i组评酒员对各品种红葡萄酒的评分均值的期望 i2(i1,2) 第i组评酒员对各品种红葡萄酒的评分均值的方差 H 问题一的假设
Zi 第i个主成分
rij 第i个评酒员对第j种酒的评分
三. 问题的分析
针对问题一,如何判断两组评酒员的评价结果有无显着性差异,我们采用T检验法进行判断。但采用T检验法的前提是其必须服从正态分布,方差未知且相等。所以我们先对那些数据进行正态分布检验,判断其是否服从正态分布。验证服从正态分布后,我们利用T检验法判断两组评酒员评价结果的显着性差异。对于如何判断哪一组评酒员的评价结果更可信,由于评酒员评分的客观性,我们通过计算评酒员评分均值的置信区间,利用置信区间的长短来判断评分的可信程度。置信区间越窄,说明其越可信。
针对问题二中如何根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,我们采用主成分分析法。因为在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。解决这个问题的过程中,我们用Matlab软件实现主成分分析,我们对那些理化指标进行重新整理,求出各个理化指标的之间的相关系数、特征值及特征向量和贡献率等。 针对问题三中如何分析酿酒葡萄与葡萄酒的理化指标之间的联系,我们想到了用多项式曲线拟合的方法,根据两者理化指标实测样本,用统计分析的方法,找出一种适当的函数关系从而达到处理酿酒葡萄与葡萄酒之间相关关系的目的。实际的操作过程中,我们首先构造一个关于酿酒葡萄与葡萄酒的理化指标的函数,以葡萄酒的理化指标为自变量,酿酒葡萄的理化指标为因变量,利用Matlab软件进行曲线拟合,得出酿酒葡萄与葡萄酒的理化指标之间的关系。
针对问题四中如何分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,以及能否用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量,我们采用无交互作用的双因素试验
的方差分析方法。用方差分析,可以将影响葡萄酒的主要因素和次要因素区分开来,还可以分别算出酿酒葡萄的理化指标和葡萄酒的理化指标与葡萄酒质量之间的误差,如果误差在可接受范围之内,即说明可以用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒质量。 四. 模型的建立与求解
4.1 问题一的模型建立与求解
4.1.1 T检验法的模型建立与求解 T检验是用T分布理论来推论差异发生的概率,从而比较两个均值的差异是否显着。
由于检验红葡萄酒与白葡萄酒的方法和模型一样,这里我们只给出检验红葡萄酒的模型。 1. 正态分布的检验 由于使用T检验法的前提是两个总体分布都服从正态分布,我们先利用Excel软件
计算出: 第一组评酒员对各品种红葡萄酒的评分均值为: 62.7,80.3,80.4,68.6,73.3,73.2,71.5,72.3,81.5,74.2,70.1,53.9,74.6,73,58.7, 74.9,79.3,59.9,78.6,78.6,77.1,77.2,85.6,78,69.2,73.8,73
第二组评酒员对各品种红葡萄酒的评分均值为:
68.1,74,74.6,71.2,72.1,66.3,65.3,66,78.2,68.8,61.6,68.3,68.8,72.6,65.7,69.9,74.5,65.4,72.6,75.8,72.2,71.6,77.1,71.5,68.2,72, 71.5
然后我们利用Matlab软件里的正态分布拟合函数进行曲线拟合,得出其正态分布的拟合曲线图为图一:
图一、正态分布拟合曲线图
从图中我们知道其曲线近似为一条直线,因此我们认为评酒员对红葡萄酒以及白葡萄酒的评分均值都服从正态分布。
2. T检验法模型的建立与求解 设,分别为第一组、第二组评酒员对各品种红葡萄酒的评分均值,且 ~N(1,12),~N(2,22),其中1,2,12,22均未知。 (1) 作出统计假设H0:12H1:12。 (2) 选取统计量 (3) 对于给定的显着性水平0.05,我们利用Matlab软件进行计算求解。结果如下表所示: 葡萄酒的品种 H值 P值 差异显着程度 第一组 红葡萄酒 0 0.9396 差异不显着 第二组 红葡萄酒 第一组 白葡萄酒 1 1.4077e-006 差异非常显着 第二组 白葡萄酒 H=0,表示接受原假设;H=1,表示接受背择假设。
由上表可知:红葡萄酒之间不存在显着性差异,白葡萄酒之间存在显着性差异。
4.1.2 可信度的判定
由于样本的置信区间与其可信度是呈负相关的,即置信区间越小,其可信度越大。我们利用Matlab软件求解得出第一组、第二组红葡萄酒和白葡萄酒的置信区间,见下表:
葡萄酒的置信区间
红葡萄酒的置信区间 白葡萄酒的置信区间 第一组 [70.3377,75.7734] [72.3342,76.1872] 第二组 [69.6890,71.9607] [75.3788,77.6855] 显然第二组的置信区间长度小于第一组,所以第二组评酒员的评价结果可信度更高。
4.2 问题二的模型建立与求解 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。
1.计算相关系数矩阵
r11r21Rrp1r12r22rp2r1pr2p (1) rpp在(1)式中,rij(i,j1,2,,p)为原变量的xi与xj之间的相关系数,其计算公式为
rij(xk1nkixi)(xkjxj)n(xk1n (2)
kixi)2(xkjxj)2k1因为R是实对称矩阵(即rijrji),所以只需计算上三角元素或下三角元素即可。
2.计算特征值与特征向量
首先解特征方程IR0,通常用雅可比法求出特征值i(i1,2,,p),并使其按大小顺序排列,即12p0。然后分别求出对应于特征值i的特征向量
2ei(i1,2,,p)。这里要求ei=1,即eij1,其中eij表示向量ei的第j个分量。
j1p3.计算主成分贡献率及累计贡献率 贡献率:第i个主成分方差在全部方差中所占的比重称为贡献率。这个值越大,表明第
i个主成分综合信息的能力越强。 主成分Zi的贡献率为 ik1p(i1,2,,p) (3) k累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占的比重来描述,表明取前k个主成分基本包含了全部测量指标所具有信息的
百分率。
累计贡献率为
k1k1pik(i1,2,,p) (4)
k一般取累计贡献率达85%~95%的特征值1,2,,m所对应的第一、第二,…,第
m(mp)个主成分。
4.计算主成分载荷 主成分载荷是反映主成分与元变量之间的相互关联程度。 其计算公式为 lijp(zi,xj)ieij(i,j1,2,,p) (5) 于是Matlab软件求解,分别得出红葡萄与白葡萄所分的主成分、特征值、贡献率以及累计贡献率,结果见下表一及表二: 表一 红葡萄主成分的特征值、贡献率及累计贡献率 主成分 特征值 贡献率/% 累计贡献率/% 25.3328 93.83% 93.83% 0.904936 03.35% 97.18% 0.642733 2.38% 99.56% 0.0717938 0.27% 99.83%
0.0237808 0.09% 99.92% 0.0109601 0.04% 99.96% 0.00684844 0.03% 99.99% 0.00376027 0.01% 100% 由上表可看出,主成分Z1所占的累计贡献率已高达93.83%(大于85%),故只需求出第一主成分Z1即可。 对于特征值 25.3328求出其特征向量e1,再用公式计算各变量x1,x2,x3,,在主成分Z1上的载荷为H(i): 0.9351,0.9791,0.9611,0.9878,0.9830,0.9812,0.9920,0.9101,0.9958,0.9837,0.9873,0.9877,0.9828,0.8736,0.9924,0.9834,0.9837,0.9911,0.9925,0.9877,0.9661,0.9921,0.9981,0.9781,0.9866,0.7914,0.9420 第一主成分Z1与x1,x2,x3,都呈现正相关性。 因此我们认为: 载荷H(i)=0.9981的x23(即果穗质量)与主成分Z1有极强的正相关。所以,我们根据x23的含量水平为葡萄进行排名:排名如下
样品编号 果穗质量/g 红葡萄样品26 793.47
红葡萄样品24 517.45 红葡萄样品5 515.46 红葡萄样品17 446.64 红葡萄样品20 307.14 红葡萄样品25 288.69 红葡萄样品27 282.09 红葡萄样品23 278.75 红葡萄样品10 255.44 红葡萄样品8 213.09 红葡萄样品14 209.11 红葡萄样品6 202.24 红葡萄样品18 196.01 红葡萄样品12 191.95 红葡萄样品9 186.62 红葡萄样品1 182.93 红葡萄样品11 177.83
红葡萄样品19 173.09 红葡萄样品13 159.97 红葡萄样品15 159.31 红葡萄样品21 147.66 红葡萄样品4 137.97 红葡萄样品16 119.17 红葡萄样品22 106.61 红葡萄样品3 83.13 红葡萄样品2 81.62 红葡萄样品7 63.61 因此依据以果穗质量的含量水平为重要指标,我们得出红葡萄品质级别如下表:
红葡萄等级排名 红萄萄品质级别 果穗质量/g 优质红葡萄 300.00以上 次优红葡萄 300.00以下,200.00以上 中等红葡萄 200.00以下,100.00以上
下等红葡萄 100.00以下 同理,我们也可以得到白葡萄所分的主成分、特征值、贡献率以及累计贡献率,结果见下表:
表二 白葡萄主成分的特征值、贡献率及累计贡献率
主成分 特征值 贡献率/% 累计贡献率/% 26.5959 94.99% 94.99% 0.643669 2.30% 97.29% 0.529517 1.89% 99.18% 0.168912 0.6% 99.78% 0.0491727 0.18% 99.96% 0.00700692 0.03% 99.99% 0.00207536 0.01% 100% 由上表可看出,主成分Z1所占的累计贡献率已高达94.99%(大于85%),故只需求出第一主成分Z1即可。
对于特征值 26.5959求出其特征向量e1,再用公式计算各变量x1,x2,x3,在主成分Z1上的载荷为H(i):
0.8815,0.9947,0.9679,0.9898,0.9870,0.9974,0.9961,0.9912,0.9925,0.9965,0.9956,0.9977,0.9044,0.9769,0.9876,0.9786,0.9958,0.9865,0.9590,0.9962,0.8611,0.992
6,0.9269,0.9899,0.9940,0.9895,0.9702,0.9738
第一主成分Z1与x1,x2,x3,都呈现正相关性。因此我们认为:
载荷H(i)=0.9977的x12(即单宁含量)与主成分Z1有极强的正相关。所以,我们根据x12的含量水平为葡萄进行排名结果如下
单宁白葡萄 (mmol/kg) 葡萄样品24 8.506 葡萄样品10 6.781 葡萄样品22 6.463 葡萄样品27 6.251 葡萄样品18 5.783 葡萄样品26 5.517 葡萄样品7 4.729 葡萄样品28 4.583 葡萄样品6 4.502 葡萄样品9 4.434 葡萄样品23 3.389
葡萄样品11 3.312 葡萄样品12 3.212 葡萄样品4 3.148 葡萄样品20 3.141 葡萄样品3 2.990 葡萄样品1 2.947 葡萄样品25 2.757 葡萄样品15 2.751 葡萄样品5 2.626 葡萄样品14 2.388 葡萄样品17 2.247 葡萄样品2 2.239 葡萄样品16 2.228 葡萄样品19 2.217 葡萄样品13 2.129 葡萄样品21 1.952
葡萄样品8 1.672 因此我们规定白葡萄品质级别如下表: 白葡萄等级排名
白葡萄品质级别 单宁含量(mmol/kg) 优质白葡萄 5.000以上 次优白葡萄 5.000以下,3.000以上 中等白葡萄 3.000一下,2.000以上 下等白葡萄 2.000以下 4.3 问题三的模型建立与求解 如果一个被解释变量(因变量)yt有k个解释变量(自变量)xtj,j1,2,3,...,k, 同时,yt不仅是xtk的线性函数,而且是参数0和i,i1,2,3,...k(通常未知)的线性函数,随即误差项为ut,那么多元线性回归模型可以表示为: 这里E(yt)01xt12xt2...kxtk为总体多元线性回归方程,简称总体回归方程。其中,k表示解释变量个数,0称为截距项,1,2,...,k是总体回归系数。i,i1,2,3,...k表示在其他自变量保持不变的情况下,自变量Xtj变动一个单位所引起的因变量Y平均变动的数量,因而也称之为偏回归系数。
当给定一个样本(yt,xt1,xt2,...xtk),t1,2,...n时,上述模型可以表示为:
此时,yt与xtj已知,i与ut未知。
其相应的矩阵表达式为:
可以简化为:
通过Matlab软件进行多项式拟合,得出如下图所示的结果:
白葡萄的拟合误差图 白葡萄酒的拟合图 红葡萄的拟合误差图 红葡萄酒的拟合图 由图表得出:酿酒葡萄与葡萄酒的理化指标呈线性正相关。 4.4 问题四的模型建立与求解 在实际应用中,一个试验结果(试验指标)往往受多个因素的影响。不仅这些因素会影响试验结果,而且这些因素的不同水平的搭配也会影响试验结果。 统计学上把多因素不同水平搭配对试验指标的影响称为交互作用。交互作用在多因素的方差分析中,把它当成一个新因素来处理。 4.1.1 无交互作用的双因素试验的方差分析的模型建立
假设某个试验中,有两个可控因素在变化,因素A有a个水平,记作A1,A2,,Aa;因素B有b个水平,记作B1,B2,,Bb;则A与B的不同水平组合。
AiBj(i1,2,,a;j1,2,,b)共有ab个,每个水平组合称为一个处理,每个处理只作一次
试验,得ab个观测值Xij,得双因素无重复实验表:
因素B 因素A 同时假设:(1)Xij相互独立; (2)Xij~N(ij,2),(方差齐性)。 线性统计模型: 其中 所有期望值的总平均: 水平Ai对试验结果的效应: 水平Bj对试验结果的效应: i,j,ij满足的性质:
要分析因素A,B的差异对试验结果是否有显着影响,即为检验如下假设是否成立:
总离差平方和的分解定理:
仿单因素方差分析的方法,考察总离差平方和:
称为因素A的离差平方和,反映因素 A 对试验指标的影响。
称为因素B的离差平方和,反映因素 B 对试验指标的影响。
称为误差平方和,反映试验误差对试验指标的影响。
若假设H01,H01成立,则: SST2SSA可推得: ~2(ab1)~2(a1) 2SSB2SSE~2(b1)~2((a1)(b1))2将SSTSSASSBSSE,2,2,2的自由度分别记作dfT,dfA,dfB,dfE,则 2对给定的检验水平, 当FAF((a1),(a1)(b1))时,拒绝H01,即A因素的影响有统计意义。 当FBF((b1),(a1)(b1))时,拒绝H02,即B因素的影响有统计意义。 双因素(无交互作用)试验的方差分析表
方差来源 平方和 自由度 均方和 F值 F值临界值 因素A 因素B 误差 总和 注意 :
dfEdfTdfAfB,SSESSTSSASSB
各因素离差平方和的自由度为水平数减一,总平方和的自由度为试验总次数减一。 SSA,SSB,SST的简便计算式为: 其中: 于是通过matlab软件计算得到ANOVA表格如下: ANOVA表 Source SS df MS F Prob>F ----------------------------------------------------- Columns 10084 1 10084 0.46 0.0355 Rows 43679 2 21839.5 1 0.0074 Interaction 6289.4 2 3144.7 Error 131291 6 21881.8 Total 191343.4 11
所以,由结果知第一个p值代表列样本均值相同的假设p值,反映了酿酒葡萄的理化指标的影响。由于p(1)<0.05,故可得葡萄酒的理化指标对葡萄酒质量的影响显着。
同理,因为p(2)p(1),所以可知酿酒葡萄的理化指标对葡萄酒质量影响相对葡萄酒的理化指标更显着。
六.参考文献
【1】 刘超,MATLAB基础与实践教程,机械工业出版社,2011年。 【2】 戴朝寿,数理统计简明教程,高等教育出版社,2009年。 【3】 阳明盛,熊西文,林建华,MATLAB基础与数学软件,大连理工大学出版社,2003年。
【4】 韩中庚,数学建模方法及其应用,高等教育出版社,2005年。 【5】 费业泰,误差理论与数据处理,机械工业出版社,2005年。 附录 MATLAB程序 问题一: A1=[62.7,80.3,80.4,68.6,73.3,73.2,71.5,72.3,81.5,74.2,70.1,53.9,74.6,73,58.7,7
4.9,79.3,59.9,78.6,78.6,77.1,77.2,85.6,78,69.2,73.8,73];
[H,P,JBSTAT,CV]=jbtest(A1,0.04)
H =0
P =0.1589
JBSTAT =3.6795
CV =6.4378
A2=[68.1,74,74.6,71.2,72.1,66.3 ,65.3,66,78.2,68.8,61.6,68.3,68.8,
72.6,65.7,69.9,74.5,65.4,72.6,75.8,72.2,71.6,77.1,71.5,68.2,72, 71.5];
[H,P,JBSTAT,CV]=jbtest(A2,0.04) H =0 P =0.7696 JBSTAT =0.5239 CV =6.4378 B1=[82,74.2,85.3,79.4,71,68.4,77.5,71.4,72.9,74.3,72.3,63.3,65.9,72, 72.4,74,78.8,73.1,72.2,77.8,76.4,71,75.9,73.3,77.1,81.3,64.8,81.3]; [H,P,JBSTAT,CV]=jbtest(B1,0.04) H =0 P =0.9124
JBSTAT =0.1834
CV =6.4378
B2=[77.9,75.8,75.6,76.9,81.5,75.5,74.2,72.3,80.4,79.8,71.4,72.4,73.9,77.178.4,
67.3,80.3,76.7,76.4,76.6,79.2,79.4,77.4,76.1,79.5,74.3,77,79.6];
[H,P,JBSTAT,CV]=jbtest(B2,0.04)
H =0
P =0.1684
JBSTAT =3.5625 CV =6.4378 X=[A1,A2]; subplot 121; normplot(X); legend('A1 check','A2 check'); Y=[B1,B2]; subplot 122; normplot(Y);
legend('B1 check','B2 check');
alpha=0.05
[P,H]=ranksum(A1,B1,0.05)
P =0.9396
H =0
[P,H]=ranksum(A2,B2,0.05)
P =1.4077e-006
H =1 sigma=sqrt(51.91728); ex=73.05556; p=1-0.05/2; u=norminv(p,0,1) u =1.9600 mu=[ex-u*sigma/sqrt(n1),ex+u*sigma/sqrt(n1)] mu = 70.3377 75.7734 sigma=sqrt(15.2383);
ex=70.51481;
p=1-0.05/2;
u=norminv(p,0,1)
u =1.9600
mu=[ex-u*sigma/sqrt(n2),ex+u*sigma/sqrt(n2)]
mu =
69.689 71.9607
sigma=sqrt( 26.08667);ex=74.26071;p=1-0.05/2; u=norminv(p,0,1) u =1.9600 mu=[ex-u*sigma/sqrt(n1),ex+u*sigma/sqrt(n1)] mu = 72.3342 76.1872 sigma=sqrt(9.695753 ); ex=76.53214; p=1-0.05/2; u=norminv(p,0,1)
u =1.9600
mu=[ex-u*sigma/sqrt(n2),ex+u*sigma/sqrt(n2)]
mu =
75.3788 77.6855
问题二:
%cwfac.m
function result=cwfac(vector);
fprintf(' 相关系数矩阵:\\n') std=CORRCOEF(vector) %计算相关系数矩阵 fprintf('特征向量(vec)及特征值(val):\\n') [vec,val]=eig(std) %求特征值(val)及特征向量(vec) newval=diag(val) ; [y,i]=sort(newval) ; %对特征根进行排序,y为排序结果,i为索引 fprintf('特征根排序:\\n') for z=1:length(y) newy(z)=y(length(y)+1-z); end
fprintf('%g\\n',newy)
rate=y/sum(y);
fprintf('\\n贡献率:\\n')
newrate=newy/sum(newy)
sumrate=0;
newi=[];
for k=length(y):-1:1
sumrate=sumrate+rate(k); newi(length(y)+1-k)=i(k); if sumrate>0.85 break; end end %记下累积贡献率大85%的特征值的序号放入newi中 fprintf('主成分数:%g\\n\\n',length(newi)); fprintf('主成分载荷:\\n') for p=1:length(newi) for q=1:length(y) result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));
end
end %计算载荷
disp(result)
%cwprint.m
function print=cwprint(filename,a,b);
%filename为文本文件文件名,a为矩阵行数(样本数),b为矩阵列数(变量指标数)
fid=fopen(filename,'r')
vector=fscanf(fid,'%g',[a b]); fprintf('标准化结果如下:\\n') v1=cwstd(vector) result=cwfac(v1); cwscore(v1,result); %cwscore.m,计算得分 function score=cwscore(vector1,vector2); sco=vector1*vector2; csum=sum(sco,2); [newcsum,i]=sort(-1*csum);
[newi,j]=sort(i);
fprintf('计算得分:\\n')
score=[sco,csum,j]
%得分矩阵:sco为各主成分得分;csum为综合得分;j为排序结果
%cwstd.m,
function std=cwstd(vector)
cwsum=sum(vector,1); %
[a,b]=size(vector); % for i=1:a for j=1:b std(i,j)= vector(i,j)/cwsum(j); end end 问题三: 利用多项式曲线拟合 来对葡萄酒及葡萄进行拟合 wine=[8,7.286,6.271,4.914,3.6304,0.224]; putao=[273.1,237.303,35.4449,24.478,6.724,1.101];
n=[1:3];
p1=polyfit(wine,putao,n(1))
p2= polyfit(wine,putao,n(2))
p3=polyfit(wine,putao,n(3))
putao1=polyval(p1,wine);
putao2=polyval(p2,wine);
putao3=polyval(p3,wine);
plot(wine,putao,'ko',wine,putao1,'-k*',wine,putao2,'--kx',wine,putao3,':kd'); xlabel('wine');ylabel('putao'); legend('原始数据','1次曲线','2次曲线','3次曲线'); p1 = 33.5390 -73.1553 p2 = 10.0945 -49.2906 19.4525 p3 = Columns 1 through 3 2.3094 -18.9459 41.5641
Column 4
-6.7461
各次拟合曲线与原数据的比较结果如图所示,。由p3可得3次拟合曲线多项式函数为:
F=p3(1)x^3+p3(2)x^2+p3(3)x+p3(4)=2.3094x^3-18.9459x^2+41.5641x-6.7461
接着求的y的3次拟合的曲线机器预测误差范围+-deltay
代码如下:
[p,s]=polyfit(wine,putao,3);
[putao3,deltay]=polyval(p,wine,s); putaolo=putao3-deltay;putaoup=putao3+deltay; plot(wine,putao,'ko',wine,putao2,'-k*',wine,putaolo,'-.bs',wine,putaoup,'-.bd');
xlabel('wine');ylabel('putao'); legend('原始数据','3次曲线','误差下限','误差上限') 对于白葡萄酒与白葡萄的关系如下: wine=[1.853,1.461,1.557,0.3664,0.0545,101.796 ]; 对于白葡萄的理化指标的选择,我们依据第二问中所分析出来的重要指标中选择6个重要指标: putao=[0.2245,1.616,3.315,3.810,5.450,115.256];
wine=[0.0545,0.3664,1.461,1.557,1.853];
putao=[0.2245,1.616,3.315,3.810,5.450];
n=[1:3];
p1=polyfit(wine,putao,n(1))
p2= polyfit(wine,putao,n(2))
p3=polyfit(wine,putao,n(3))
putao1=polyval(p1,wine); putao2=polyval(p2,wine); putao3=polyval(p3,wine); plot(wine,putao,'ko',wine,putao1,'-k*',wine,putao2,'--kx',wine,putao3,':kd'); xlabel('wine');ylabel('putao'); legend('原始数据','1次曲线','2次曲线','3次曲线'); p1 = 2.4603 0.2792 p2 = 0.8415 0.8960 0.5665
p3 =
Columns 1 through 3
2.4933 -6.6924 6.8559
Column 4
-0.1265
各次拟合曲线与原数据的比较结果如图所示,。由p3可得3次拟合曲线多项式函数为:
F=p3(1)x^3+p3(2)x^2+p3(3)x+p3(4)=2.4933x^3-6.6924x^2+6.8559x-0.1265
接着求的y的3次拟合的曲线机器预测误差范围+-deltay 代码如下: [p,s]=polyfit(wine,putao,3); [putao3,deltay]=polyval(p,wine,s); putaolo=putao3-deltay;putaoup=putao3+deltay; plot(wine,putao,'ko',wine,putao2,'-k*',wine,putaolo,'-.bs',wine,putaoup,'-.bd');
xlabel('wine');ylabel('putao'); legend('原始数据','3次曲线','误差下限','误差上限')
因篇幅问题不能全部显示,请点此查看更多更全内容