ChinJDisControlPrev 2006 June;10(3)
高血压危险因素logistic回归与分类树分析
傅传喜,马文军,梁建华,王大虎,王声氵勇
1
2
1
1
3
【摘要】 目的 应用分类树模型分析广东省居民高血压的危险因素,并与logistic回归分析结果做比较。方法 利用广东省2002年居民营养与健康状况调查数据,用分类树分析和logistic回归分析15343名常住居民高血压的危险因素。结果 高血压的主要危险因素为年龄、血脂及肥胖。分类树学习集的灵敏度为91.0%,特异度为81.6%,总正确率为83.3%,约登指数为0.726;检验集的灵敏度为83.8%,特异度为80.5%,总正确率为81.2%,约登指数为0.643。logisic回归分析的灵敏度为31.6%,特异度为95.7%,总正确率为84.5%,约登指数为0.273。结论 对高血压患者,尤其是老年人,要调节血脂,减轻体重。分类树分析较logisic回归分析分类效果好,结果直观,便于解释。
【关键词】 高血压;回归分析;危险因素
【中图分类号】R195.4;R544.1 【文献标识码】A 【文章编号】1008-6013(2006)03-0256-04Logisticregressionandclassificationtreeanalysisonriskfactorsofhypertension FUChuan-xi1,MAWen-jun2,LIANGJian-hua1,WANGDa-hu1,WANGSheng-yong3. 1.GuangzhouCenterforDis-easeControlandPrevention,Guangzhou 510080,China;2.GuangdongCenterforDiseaseControlandPrevention,Guangzhou 510300,China;3.JinanMedicalUniversity,Guangzhou 510632,China
【Abstract】 Objective Toanalysetheriskfactorsofhypertensionusingthemethodsofclassificationtreeandlogisticregressionanalysisandtocomparetheresultsofthesetwomethods.Methods Across-sectionalanalysisonhypertensionwasconductedusingthedataof15343inhabitsfromtheInhabitsNu-tritionandHealthSurveyinGuangdongprovincein2002.Results Theimportantriskfactorsofhyper-tensionwereage,cholesteriandobesity.Inclassificationtreeanalysisonhypertension,Youden'sindexforlearningsampleswas0.726(sensitivitywas91.0%andspecificitywas81.6%),and0.643(sensi-tivitywas83.8%andspecificitywas80.5%)fortestingsamples.Youden'sindexoflogisticregressionanalysiswas0.273(sensitivitywas31.6%andspecificitywas95.7%).Conclusions Forhyperten-sives(especiallytheelder),keepingpropercholestericoncentrationandweightwerenecessary.Com-paredwithlogisticregressionmodel,classificationtreemodelcouldhelptojudgethecontrolsandpatientsbetter,andpresenttheresultsmoreeasilyandunderstandably.【Keywords】 Hypertension;Regressionanalysis;Riskfactors
(ChinJDisControlPrev2006,10(3):256-259)
多因素分析是数据处理中常用的统计方法,而logistic回归分析则是目前应用频率相当高的模型,但其又有自身不足之处,其中最为突出的是对于变
量共线性的处理。分类树分析是一种非参数回归分析方法,其应变量为分类变量,能有效克服变量间的共线性问题。本研究利用广东省2002年居民营养
【作者单位】广州市疾病预防控制中心计免科,广东广州
5100802
广东省疾病预防控制中心慢病所,广东广州5103003
暨南大学医学院流行病学教研室,广东广州510632
【作者简介】傅传喜(1977-),男,山东潍坊人,医师,硕士。
主要研究方向:疫苗及其相应疾病。
1
与健康调查数据,对广东省居民高血压危险因素进行分析,初步应用分类树模型,并与logistic分析结果做比较。1 材料和方法
1.1 调查对象 根据国家统计局1995年报告,按经济发展水平将广东省分大城市、中小城市、一类农
村和二类农村四层,分别在城市和农村按照四阶段整群随机抽样方法,以县(区)、乡镇(街道)、村(居委会)的顺序抽样,每个调查县(区)抽取540户家庭,以被抽中家庭的所有15岁以上人口为调查对象。1.2 资料收集
疾病控制杂志2006年6月第10卷第3期
·257·
总人数的65.28%;第11终结点为年龄46.5与55.4岁之间、BMI>22.6者,结内患病率30.04%,占高血压总人数的13.52%。
表2为各个预测变量的相对重要性,以年龄为参照,将18个变量按重要性从大到小的顺序进行排列。
将可能的危险因素纳入多因素二分类logistic回归模型,结果见表3。分类树分析与logistic回归分析的结果的比较见表4。
表1 高血压危险因素分类树分析终点结情况Table1 Terminalnodesofclassificationtreeanalysisforriskfactorsofhypertension
Terminalnode
612119471083215
Casesoftarget 131762 365 71 26 39 166 3 9 9 236 0
Casesinnode 3040671215 245 92 3451470 39 145 2827395 18
Target/cases(%)43.3343.3230.0428.9828.2611.3011.297.696.213.193.190.00
Target
(%)0.48
Cases
(%)0.20
1.2.1 调查内容 按2002年“中国居民营养与健康调查”的统一方案进行调查。调查员经过统一培训、考核,整个调查过程实行严格的质量控制。调查
内容包括一般情况、社会经济状况、生活行为方式及体格检查。采用《高血压防治指南》[1]中推荐的诊所偶测血压方法,用汞柱式血压计连续测量2次(2次测量间隔至少30s),取2次测量的均值。体质指数(bodymassindex,BMI)按体重(kg)/身高2(m2)计算。血脂测量参照卫生部保健食品功能评价方法,采用日立7060自动生化分析仪进行。1.2.2 危险因素的确定 吸烟:20岁以下者每天至少吸烟1支,连续或累积3个月及以上;20岁及以上者每天至少吸烟1支,连续或累积5个月以上。职业性体力活动分3个等级:轻度、中度及重度活动。高血压:采用1992年WHO/ISH推荐标准,收缩压≥140mmHg和/或舒张压≥90mmHg,或有既往高血压史、目前正在服用抗高血压药物且血压已低于上述标准者。1.3 统计学方法 分别应用分类树及logistic回归进行高血压危险因素分析,主要应用SPSS11.5及CART5.0(classificationandregressiontrees5.0,CART5.0),后者的免费限时试用版软件可从以下网站下载:http://www.salford-systems.com/demo.html。2 结果
2.1 各危险因素的相关分析 将睡眠时间、腰围、锻炼、BMI、职业性体力活动强度、年龄、吸烟及饮酒等因素进行Spearman相关分析,结果表明除饮酒外(P>0.09),其他危险因素之间均有统计学相关(P均<0.05)。
2.2 高血压危险因素的CART及logistic分析 赋值高血压为1、非高血压2,将性别、年龄、地区类型、婚姻状况、文化程度、职业、家庭人均年收入、职业性体力活动强度、锻炼、吸烟、饮酒、睡眠时间、BMI、腰围、家庭食盐摄入量、胆固醇、甘油三酯及高密度脂蛋白共18个变量做为预测因子纳入模型,采用CART5.0进行高血压危险因素的分类树分析。共有15343名被调查者纳入模型分析,其中高血压者2699名,对照12644名。共有11个中间结,12个终结点(分类树图略)。表1列出了各个终结点内病例数、总人数及结内患病率。可见高血压人群主要聚集在第6、12、11、9等4个终结点内。4个终点结内患病率均在28%以上,其中第12终结点为年龄>55.4岁者,患病率为43.32%,占高血压65.28 26.51
13.52 7.922.630.961.456.150.110.330.338.740.00
1.600.602.259.580.250.951.8448.20 0.12
表2 高血压分类树分析预测因子的相对重要性Table2 Relativeimportanceofpredictivefactorsinclassifi-cationtreeanalysisonriskfactorsofhypertension
VariableAgeCholesterolGlycerinateSaltintakeOccupation
HighdensitylipoproteinBMIWCAreaOPAGender
AveragehouseincomeSleepinghoursMarriageSmokingDrinkingExerciseEducation
Score100.0065.5162.7656.9343.3240.7214.659.521.180.870.810.780.240.080.070.050.000.00
Note:WC:waistcircumstance;OPA:occupationalphysicalactivity
·258·
表3 高血压危险因素的二分类logistic回归分析
Table3 Binarylogisticregressionanalysis
forriskfactorsofhypertension
B
GenderAgegroup(y) 15~ 25~ 35~ 45~ 55~ 65~ 75~Occupation Bluecollor WhitecollorAveragehouseincome(yuan) 0~ 2000~ 5000~ 10000~MarriageWCBMIExerciseGlycerinateHighdensitylipoprotein0.1280.1770.0550.2950.0190.1150.1910.2610.453
0.0720.0870.0980.0780.0050.0130.0680.0540.163
3.0954.1230.31314.36016.07175.2717.81723.5937.671
0.0790.0420.5760.0000.0000.0000.0050.0000.006
1.0001.1361.1941.0571.3421.0191.1221.2111.2991.572
0.9861.0060.8711.1531.0101.0931.0591.1691.141
1.3091.4171.2821.5631.0281.1511.3841.4432.166
-0.071-0.282
0.0820.102
0.5881.3842.3823.1813.7994.182
0.2440.2320.2270.2300.2330.246
5.81835.687110.392191.220266.361288.3817.7320.7487.7226.180
0.0160.000
-0.184
S.E
Waldχ
2
ChinJDisControlPrev 2006 June;10(3)
而导致外周阻力的增加,从而导致高血压的发生。本研究中的logistic回归分析未将吸烟纳入危险因素,而分类树中吸烟变量的比重也很小,这可能与本
研究采用吸烟的标准有关。高血压的各个因素之间存在相关关系,甚至有多重共线性存在,因此直接应用logistic回归分析将使分析误差大大增加,而借用主成分分析虽能改善,但是主成分变量的可解释性会变得很差。
近年来,大量研究致力于建立新的回归技术解决经典回归中假设过于严格的问题,包括预测变量与反应变量的线性关系、反应变量的正态性及方差齐性等。当线性关系不成立时选用线性模型明显不适宜,一种解决方案是在模型中加入交互作用项或采用变量变换,但这种方式容易导致解释时的困难,并可能仍然不能解决共线性的问题。另一种解决方案则是选用非参数回归技术,包括Friedman和Stuetzle提出的光滑技术和Yarnlod等及Breiman等提出的分类与回归树法。
分类树分析是一种非参数回归模型,近年来在国外开始大量应用。它利用递归分型将人群分为不同的亚群。应变量是分类变量时为分类树分析,是连续性变量时为回归树分析。它对预测变量的数据类型无任何要求。分类树分析的中间过程非常复杂,其大致的过程包括“种树”和“剪枝”两个过程。即先建立一棵完整的树,然后用交叉印证的方法从末梢开始“剪枝”,直到“剪枝”后的模型明显变差为止。模型建立过程中,每一种可能的组合在建立模型之初就被详细地考查过,它提供的是优化后的模型。
多元logistic回归模型显示在为高血压危险因素构建的模型中,它所能解释的应变量的变异并不多,高血压的决定系数R达到了0.352,它将高血压者正确判断为患者的能力仅为31.6%。分类树模型相对来说将正常者判断为阴性的能力要强些,已经达到95%以上。由约登指数比较情况可知,分类树模型的判断效果要好得多,它的学习集和检验集判断高血压和正常对照者的能力能够同时达到较好的程度。
赵一鸣曾利用结、直肠癌肝转移的数据对分类树及logistic模型也进行了比较。结果表明,分类树模型做为诊断试验(灵敏度和特异度分别是90.0%和90.8%),较logistic模型对病例及对照的判断能力要高,已能满足临床的需要。
与其他统计分析方法一样,分类树自身也存在缺点。如分类树模型的稳定性较差,用类似研究资[3]
2
P0.0080.000
OR0.832
OR95%CIUpper 0.726
Lower 0.953
0.069 7.051
946.243
1.0001.8013.991
1.1172.5346.94115.33628.29840.435
2.9056.28516.87937.78670.473106.178
0.00010.8240.00024.0730.00044.6570.00065.5230.0210.3870.0050.103
0.9320.754
0.7930.618
1.0940.920
表4 两种模型拟合情况表Table4 Fitnessoftwomodels
Logistic
regression
SensitivitySpecificityVitalaccuracyYouden'sindex
31.695.784.50.273
CART
LearningTestingsamplingsampling91.083.881.680.583.381.20.7260.643
3 讨论
本研究表明肥胖是高血压的主要危险因素,家庭食盐摄入量对高血压也有较大的影响,如高血压分类树研究的第4及第5终结点中,以月食盐摄入量2150g为界,患病率分别为28.26%和0.00%。高血压分类树研究的第8及第9终结点以甘油三酯为0.995为界,患病率分别是7.69%和28.98%。因此胆固醇、甘油三酯及高密度脂蛋白对高血压有独立的影响,是高血压的危险因素。关于血脂是否是高血压的病因目前尚无定论,但多数研究显示高血压患者常伴有高脂血症,总外周阻力的增加是高血压的主要病理特征,而血液粘度则是外周阻力的决定因素之一。高脂血症的发生增加血液粘度[2],从疾病控制杂志2006年6月第10卷第3期
·259·
艾滋病病毒耐药性及其影响因素的研究
何卫华,周沛林,何华仙,张杨,黄希平,吴晓云,张绍兰
【摘要】 目的 研究艾滋病病毒HIV-1耐药毒株的出现情况及其影响因素,为艾滋病抗病毒药物的合理应用及减少耐药毒株的出现提供科学依据。方法 采用横断面调查方法和基因型分析法对随州市接受艾滋病抗病毒治疗和未接受抗病毒治疗的HIV-1感染者进行耐药性检测。结果 共调查193例HIV-1感染者(109例接受艾滋病抗病毒治疗,84名未接受治疗),其中病毒载量>1000copies/ml的95例PCR阳性者进行了耐药检测,未治疗、终止治疗和正在进行治疗的总耐药率分别为10.3%、25%和53.3%。结论 基因突变是HIV耐药性产生的主要原因。接受和未接受抗病毒治疗的HIV-1感染者均存在不同程度的耐药,正在接受治疗的病例耐药突变率及总的耐药相关突变率均高于未治疗的病例及已经终止治疗的病例。【关键词】 获得性免疫缺陷综合征;药物耐受性;流行病学
【中图分类号】R181;R512.91 【文献标识码】A 【文章编号】1008-6013(2006)03-0259-03StudyontheresistancerateandinfluencingfactorsofHIV-1 HEWei-hua,ZHOUPei-lin,HEHua-xian,ZHANGYang,HUANGXi-ping,WUXiao-yun,ZHANGShao-lan. SuizhouCenterforDis-easeControlandPrevention,Suizhou 441300,China
【Abstract】 Objective ToinvestigatetheresistancerateandinfluencingfactorsofHIV-1infectedpeo-pleandprovidescientificevidenceforantiretroviraltherapyandreducethedrug-resistedstains.Methods Geneanalysisandcrosssectioninvestigationwereconductedamong193HIV-1infectedpatientsfordrug-resistance.Results ViralloadPCRresultsof95patientswereover1000copies/ml.Thedrug-re-sistanceratioofthreegroupswere10.3%,25%and53.3%respectively.Conclusions Theratioofresistanceandtotalresistanceinpeoplereceivingantiretroviraltherapyweresignificantlyhigherthanpeoplewhodidn'treceivetherapyandstoppedantiretroviraltherapy.Thegenemutationwasakeyfac-torofdrug-resistance.
【Keywords】 Acquiredimmunodeficiencysyndrome;Drugtolerance;Epidemiology
(ChinJDisControlPrev2006,10(3):259-261)
艾滋病抗病毒药物联合治疗的应用,有效降低
【基金项目】湖北省科技攻关项目(2005AA301C50)
【作者单位】随州市疾病预防控制中心,湖北随州 441300【作者简介】何卫华(1965-),男,湖北随州人,副主任医师,
在读博士研究生。主要研究方向:预防医学。
了感染者血浆中获得性免疫缺陷病毒(humanim-munodeficiencyvirus,HIV)的水平,延缓了HIV感染的进程,降低了与HIV/AIDS相关疾病的发病率和死亡率。而耐药病毒株的出现则是持续性的病毒
料建立的树型模型往往存在差异。分类树本身是一
种大样本的统计分析方法,样本量小时模型不稳定。对于内部同质性较好的数据,分类树分析的结果与其他分析方法得到的结果基本一致。本研究样本量大,适合应用分类树研究。分类树对因素的单独效应的定量解释不如logistic模型明确,因此解释时应将两个模型的结果结合起来进行。
【参考文献】
[1] 中国高血压防治指南起草委员会.中国高血压防治指南(试行本)[J].高血压杂志,2000,8(1):94-102.
[2] StoltzJF,DonnerM,LarcanA.Introductiontohemorheology:
theoreticalaspectsandhyperviscositysyndromes[J].IntAngiol,1987,6(2):119-132.
[3] 赵一鸣.分类与回归树———一种适用于临床研究的统计方法
[J].北京大学学报(医学版),2001,33(6):562-565.
(收稿日期 2005-03-05)(修回日期 2005-07-19)
(董万群校)
因篇幅问题不能全部显示,请点此查看更多更全内容