基于单体型重构的传递不平衡检验
2021-06-11
来源:爱问旅游网
维普资讯 http://www.cqvip.com 第46卷第4期 中山大学学报(自然科学版) Vo1.46 N 4 2007年 7月 ACTA SCIENTIARUM NATURALIUM UNIVERSITATIS SUNYATSENI Ju1. 2o07 基于单体型重构的传递不平衡检验 李彩霞 ,黎培兴。,方积乾 (1.中山大学医学统计与流行病学系,广东广州510080; 2.加州大学旧金山分校放射系,美国加州CA 94107—1771; 3.中山大学数学系,广东广州510275) 摘 要:传递不平衡检验是基于家系检测疾病位点与标记位点之间连锁与连锁不平衡的经典分析方法。论文针 对紧密连锁位点,提出了单体型的传递不平衡检验方法,并把此方法用于分析IgA肾病的两紧密连锁位点的基 因定位数据。首先在估计核心家系的单体型频率的基础上,重构单体型的传递/未传递的交叉分类表格,然后通 过检验此表格的对称性与边缘齐性进行传递不平衡检验,同时,自编Excel宏命令VBA程序,用于家系数据单 体型频率估计与重构。此方法充分利用所有家系信息,并能处理缺失数据。C2093T—C2081T的单体型多态性与 IgA肾病关联。此方法推广了已有单体型传递不平衡检验。 关键词:连锁;连锁不平衡;传递不平衡检验;核心家系 中图分类号:Q一332 文献标识码:A 文章编号:0529 ̄579(2007)04-0001-05 ‘1 研究背景 的最简单的双等位基因情形推广到复等位基因情形 (Spielman RS,1996;Sham PC,1995) 。它通 在遗传统计分析中,连锁与连锁不平衡是两个 过考察多态性标记位点的等位基因的不平衡传递, 很重要的概念。连锁考察标记位点与疾病位点的重 来说明标记位点与疾病位点的连锁与连锁不平衡。 组率0是否为0.5。如果两个基因座上的等位基因 传递不平衡检验需收集Trios(父,母,一个受 是随机关联的,即不独立,这种情况就叫做等位基 累子代)家系数据,每一个家系中受累子代的亲代 因关联(allelic association)或者连锁不平衡(1inkage (父或母)提供了一个传递的等位基因和一个没有 disequilibrium,LD)。关联通常反映了分子标记与 传递的等位基因,因此,当要考察的位点有m个 性状功能突变之间在统计学上的非独立性(连锁不 平衡)。等位基因关联性(或连锁不平衡性)可以由 等位基因时,Ⅳ个Trios的传递不平衡检验可以整 理成表1。 一般的群体数据观察到,传统的病例——对照研究 是基于群体而非家系的疾病关联分析,它通过随机 选择病例和对照,然后比较其在标记等位基因和基 表1 N个受累子代的2N个亲代传递和 因型频率上的差异来说明位点与疾病的关联性。但 没有传递标记等位基因数目 阳性结果可能由混杂因素造成,如不同分层人群 Tab.1 Transmitted and non.transmitted alleles (stratiifed populations)混杂在一起造成的虚假联系。 from 2N parents to N affected offspring 为了克服不同分层人群混杂的影响,相应产生了基 于家庭的病例——对照研究方法。单倍型相对风险 (Haplotype relative irsk,HRR)分析(Falk CT and Ru— binstein P 1987,Terwilliger and Ott,1992)¨ 与传 递不平衡检验(transmission disequilibrium test。 TDT)(Spielman RS等,1993) 是基于家系的关联 分析方法。 由Spielman等 提出的单个位点双等位基因 这里n 表示基因型为 的亲代(其中传递的 的传递不平衡检验已被广泛应用。而且已经由最初 等位基因是 ,未传递的等位基因是J.)的个数。 收稿13期:2006—12—24 基金项目:国家自然科学基金资助项目(30170523) 作者简介:李彩霞(1970年生),女,博士后;通讯联系人:方积乾;E—mail:caixia.1i@radiology.ucsf.edu 维普资讯 http://www.cqvip.com 2 中山大学学报(自然科学版) 第46卷 Sham 1995年指出,可通过检验表1数据的 对称性或边缘齐性,检验疾病位点与标记位点之间 是否存在连锁或连锁不平衡。对称性检验统计量为 = ∑[ (r)+ (r)] 从家系r的实际数据{g ,g g }中,当其连锁相 不能确定时,我们不能直接得到每个 y (r)和 等 近似服从自 (r), (r)的观测值,即不能确定此家系的 当 :不连锁或连锁平衡成立时, 亲代究竟为哪一个格子提供了贡献,但是,我们可 由度为m(m一1)/2的 分布。由Spielman等 提 以知道有 ∑ (r)=1。 出用于传递不平衡分析的边缘齐性检验统计量为 = Spielman同时指出,当 成立时,近似服从自由 度为m一1的 分布。 若有多个紧密连锁的位点,考虑单体型的传 递,若每个个体的内在的单体型对可确定,则可直 接把每个单体型看成一个位点的一个等位基因,列 出上表1中的数据,直接利用上面的对称性或边缘 齐性检验。但实际上,对于多个位点情形,由于通 常的观测数据是各个位点的基因型,从而,个体的 单体型对存在不确定性。因此无法直接列出上面表 1的传递/不传递的表格。下面在重构核心家系的 单体型的基础上,进一步估计出表格1中的数据。 2 方法 设一个核心家系,其中至少有一个子代是受累 (患病)个体,则对家系r(r=1,2,…,Ⅳ),定义 为满足如下条件的{i,, ,k,,f }集合:单体 型对( ,-/ )与父亲的观测基因型g,f-匹配,单体型 对(k ,f )与母亲的观测基因型g 匹配,单体型对 (i ,k )与受累小孩的观测基因型g 匹配。即父亲 的(i √ )中传递了i,,未传递 给此受累小孩, 母亲的( ,,z )中传递了 ,未传递z,给此受累小 孩。定义 ={( √ ):j(k ,f,),(i √ ,k ,f )∈ }, ={(k ,f ):j(i,√ ),(i,, ,k ,f,)∈ }, 则家系r可能为某个( r/.j} √ /l,)(i,,k √ ,f )∈ 提供值为1的贡献,家系r中的父亲可能为表格1 中的某个格子(i √ )∈ 提供值为1的贡献,母 亲可能为表格1中的某个格子(k ,f,)∈Hm 提供值 为1的贡献。 设 (r)为家系r的父母传递 .j},未传递 提供的贡献, (r)为家系r的父亲传递i,未传 递 提供的贡献, (r)为家系r的母亲传递i, 未传递 提供的贡献。表1中n 可表达为 ,v n =∑∑∑[ (r)+ w(r)]= 当 成立时,已知家系观测基因型的条件下, 家系r中的父亲,母亲,子代潜在的单体型对恰好 为( √,),(k,,f ),(i,,k,)的概率,即恰好为(i,, ,k ,f )提供贡献1的概率为 P{g =( √ )一g =(k,,f,), g, =( ,,k )I g ,g X g ,A}: P{ ,,j rk f,,irj X.j},f,I ,g X g, ,A}= : L一 ∑ ; 这里 表示子代患病,iSi,k, 表示父亲传递 ,未 传递-『,,母亲传递k,,未传递f 。因此,不妨给 洲(r), (r), (r)的估计分别为 『 一,(一 ,-/,一k,f)∈Hr,一’ = 【0, (i√,k,f)隹Hr, (r)= f ,(一 , 一 川k)∈一 ,’ 【0, (i√,k,f)隹 , 叭 『 pL,(一 , ,k,f)∈一 ,’ 【0, ( √,k,f)隹 , 此时,仍有 (r)=∑∑ (r), r)=∑∑ 蛳(r) 从而,给出估计 =∑∑∑[ (r)+ 蛳(r)]= ∑[ (r)+ (r)] 由于如此重构 ¨需要利用各单体型频率, 而各单体型频率通常未知,需要基于样本数据进行 估计。我们可以用核心家系的单体型频率估计方 法 ],估计出各单体型频率。 Zhao等 于2000年曾分别用了3种方法重构 表1中的数据。方法1只利用了能确定单体型的基 因型数据,把单体型不能确定的家系不纳入分析, 维普资讯 http://www.cqvip.com 第4期 李彩霞等:基于单体型重构的传递不平衡检验 3 从而可直接列出表1中的数据。方法2对于每个家 下面我们在估计家系个体单体型频率的基础 系中的与基因型相匹配的所有可能单体型对给予相 上,重构所有232个家系传递一未传递的C2093T 等的权重,例如,如果某亲代潜在的单体型对有2 —C208 1 T单体型数据,然后进行传递不平衡检验, 种可能性,则分配每一种可能性为1/2。这很可能 分别采用对称性与边缘齐性检验。 导致偏差,因为我们有理由认为潜在的单体型对更 利用自编Excel宏命令VBA程序haplo,comp— 有可能是这些家系来源群体的单体型对频率最大的 utesteps,逐步实现如下步骤: 那一种单体型对。方法3把所有家系的父母看成来 (1)首先导入数据至Excel,部分数据以及输 自一个满足Hardy—Weinberg平衡的群体的随机样 入格式见表3。 本,没有利用子代信息,在估计单体型频率的基础 数据的前6列分别为家系编号,家系中个体编 上,重构表1中的数据。 号,父亲,母亲,性别,是否患病。最后两列为 3 应用 C2093T与C2180T两个位点的基因型。其中,基 因型中的“0”代表缺失。 IgA肾病(IgA Nephropathy)是最为常见的原 发性肾小球肾炎。近年来,大量研究表明IgA肾病 表3数据输入格式 的发病有遗传因素的参与。中山大学遗传教研室王 Tab.3 Format of input data 2 2 2 3 3 3 一鸣教授把Mgsin基因,作为IgA肾病的候选基 ped no f m sex affect 11 12 因,Li You—ji等 测定了Mgsin基因的C2093T位 l 2 3 1 2 3 点与紧邻的C208IT位点,并对此2个位点的多态 性与IgA肾病的易感性之间的进行了相关研究。其 中用于分析Mgsin基因的家系共232个,其中有些 . .2 . .2 患病个体的亲代基因型数据缺失,具体信息见表 2 l 2 1 l 2 1 表2位点C2093T与C2180T共传递家系数据 ’ (2)运行宏命令hapl0 0 2 0 0 2 o,得到每个家系的亲代 Tab.2 Families for CO.transmission of marker 单体型传递不传递的所有可能情形。见表4。 C2O93T and marker C2180T (3)给出4条单体型(11,12,21,22)频率 C2093T trios+C2O93T SPF+C2093T triOS+C2O93T SPF+ Total 初值,与迭代收敛精度10一,运行宏命令comput— C2180T triOS C2180T SPF C2180T SPF C2180T trios l 2 1 0 l 1 125 56 25 26 232 esteps迭代计算单体型频率,即表4中的F,同时 1)SPF:单亲家系(single parent families) 输出每个家系的亲代对应的 ’(r), (r),即 表4中的 (i, )。 表4亲代传递/不传递的单体型与输出 Tab.4 Transmitted/non-transmitted haplotypes from parents and output 维普资讯 http://www.cqvip.com 4 中山大学学报(自然科学版) 第46卷 表4中列“no”中,no=1为家系中的父亲, no=2为家系中的母亲,“haplopairs”即为此亲代 可能的单体型对,列“z1”,“z2”,“z3”为传递 单体型1,2,3的标识。列“tr/ntr”为“传递的 单体型/未传递的单体型”。列“homo”表示“是 否纯合子”。单体型1,2,3,4,表示单体型 (CC,CT,TC,TI"),在数据中以(11,12,21, 22)表示。从表4中可以看出,表3中的家系2的 双亲的单体型对(传递的单体型/未传递的单体型) 可唯一确定,而家系3的双亲的单体型对竟有6种 可能性。 基于第(3)步的数据,利用 ’(r), (r), 即表4中的W(i, ),用SAS程序计算输出各 SAS结果见表5。 表5 SAS结果 Tab.5 The SAS system SAS输出中的n 即为 利用重构估计到的 各 进行传递不平衡检验。对称性检验统计量 =17.844 5,自由度为6,P值为0.006 632 827, 边缘齐性检验统计量 =21.670 4,自由度为3, P值为0.000 076 388。从而推断C2093T—C2081T 的单体型多态性与IgA肾病关联。 4结语 用于复等位基因的传递不平衡检验,通常检验 的是表1数据的边缘齐性或对称性,其中由Spiel— man提出的边缘齐性检验方法,由于计算方便,应 用非常广泛,对称性检验虽然也简单方便,但由于 自由度大,检验效能较低。 当边缘齐性或对称性检验应用到紧密连锁位点 时,需要构造单体型的传递/未传递的交叉分类表 格。而由于单体型的不可观测,需在估计单体型频 率基础上重构个体的单体型,此时,应充分利用家 系信息进行单体型的重构,而不应把家系数据当成 群体数据或只利用连锁相能确定的家系数据。本文 提出的方法充分利用所有家系信息,并能处理缺失 数据。另外,自编的家系数据单体型频率估计与重 构软件简单易用。 致谢:本文样本数据由中山大学遗传教研室王一鸣教授提 供,特此感谢。 参考文献: [1] FALK C T,RUBINSREIN P.Haplotype relative risks: An easy reliable way to construct a proper control sample for risk calculations[J].Ann Hum Genet,1987,51:227 —233. [2]TERWILLIGER J,OTF J.A haplotype-based‘haplotype relative risk’approach to detecting allelic associations [J].Hum Hered,1992,42:337—346. [3]SPIELMAN R S,McGINNIS R E,EWENS W J.Trans- mission test for linkage disequilibrium:the insulin gene region and insluin—dependent diabetes mellitus[J].Am J Hum Genet,1993,52(3):506—516. 『4] SPIELMAN R S,EWENS W J.The TDT and other fami. 1y—based tests for linkage disequilibrium and association [J].Am J Hum Genet,1996,59(4):983—989. [5] SHAM P C,CURTIS D.An extended transmission/dise. quilibrium test(TDT)for multi-lalele marker loci[J]. Ann Hum Genet,1995,59(2):323—336. [6] 李彩霞,黎培兴,方积乾.核心家系数据的紧密连锁 位点的单体型频率估计[J].中山大学学报:自然科学 版,2005,44(3):9—11. [7]ZHAO H,ZHANG S,MERIKANGAS K R,et a1.Trans- mission/disequilibrium test using multiple tightly linked markers[J].Am J Hum Genet 2000,67:936—946. [8]LI You-ji,DU Yong,LI Cai-xia,et 1a.Family-based as- sociation study showing that immuno obulin a Nephropa- thy is associated with the polymorphisms 2093C and 2180T in the 3 untranslated Region of Megsin Gene[J]. J Am Soc Nephrol,2004,15(7):1739—1743. (下转第8页) 维普资讯 http://www.cqvip.com 中山大学学报(自然科学版) 第46卷 sis of airfoil flutter with structural nonlinearity[M].Ad. 翼颤振[J].飞行力学,2005,23(3):85—88. vances in Nonlinear Dynamics in China。。——Theory and [11] 陈衍茂,刘济科.非线性颤振极限环稳定性判别的 Practice,Chapter 3.Lisse。The Netherland:Swets& 复数正规形法[J].航空动力学报,2007,22(4): Zeitlinger Publishers,2002. 614—618. [10] 丁千,王冬立.用规范形直接法研究立方非线性机 An Improved Equivalent Linearization Method for Strongly Nonlinear Flutter Systems CHEN.Yan一 啪.LIUJi一 (Department of Applied Mechanics and Engineering,Sun Yat—sen University,Guangzhou 510275,China) Abstract:The limit cycle flutter of a two—dimensional airfoil with a strongly cubic pitching stiffness is studied.The linearization method is used to linearize the free oscillating equation of the airfoil in the uncoupled pitching mode. The linearized equation is addressed by the harmonic balance method and the equivalent linear stiffness of the non— linear stifness is obtained.The attained equivalent stiffness is implemented in the equivalent linearizartion method of nonlinear flutter analysis and the bifurcation chart of the flutter system is obtained.Two numerical examples are taken as illustrations to validate the proposed method.It shows that the attained equivalent stiffness is in excellent agreement with the numerical solutions and it can improve the accuracy of the equivalent linearization method.In addition,it is quite intuitive to judge whether the bifurcation is supercritical or subcritical by the proposed method. Key words:nonlinear flutter;harmonic balance method;equivalent linearization method:equivalent linear stiff- n ss e 二 吕 e 也 盼 e 石\- 0嗡 e者也 \墒 (上接第4页) Haplotype Transmission Disequilibrium Test Based on Haplotype Reconstruction Cai—xia。’_.LI Pei—xing .FANG Ji—qian (1.Department of Medicine Statistics and Epidemiology,Sun Yat—sen University,Guangzhou 5 10080,China; 2.Department of Radiology,University of California,San Francisco,CA 94107—177 1,USA; 3.Department of Mathematics,Sun Yat—sen University,Guangzhou 5 1 0275,China) Abstract:Transmission disequilibrium test(TDT)is a classical family—based test to detect linkage and linkage disequilibrium.Haplotype transmission disequilibrium test is proposed for tightly linked loci.The method is applied to the gene mapping data ofr Immunoglobulin A(IgA)nephropathy.Based on haplotype frequency estimation with nuclear family data,the transmission/non—transmission cross—table in TDT is reconstructed.And then symmetry test and homogeneity test for the reconstructed contingency table are given to detect haplotype transmission disequilibri— um.In addition,Excel macro VBA program is developed to estimate haplotype frequencies and reconstruct trans— mission/non—transmission haplotypes.The proposed method available information from all families。including fami— lies with missing value.The haplotype polymorphism of C2093T—C208 1 T is associate with IgA.The method gener. alizes the existed haplotype transmission disequilibrium test. Key words:linkage;linkage disequilibrium;transmission disequilibrium test:nuclear family