发布时间:2023-02-01 10:00
文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。
目录
【生信】全基因组关联分析(GWAS)
1.前提知识介绍
1.1 最小二乘法
1.2 GWAS的数学原理
1.3 Hardy-Weinberg定律&卡方检验
1.4 连锁不平衡
1.5 曼哈顿图
1.6 箱式图Box-plot
1.7 QQ plot
2、GWAS的定义
2.1 几个需要知道的概念:
2.2 全基因组关联分析
3、GWAS——数据预处理
3.1质控的原因:
3.2基因型数据的质控:
3.4表型数据质控:
3.5正负链翻转
3.6 基因型填补
3.7群体分层校正
4、GWAS——关联分析
5、GWAS——meta分析
6、GWAS——条件分析
7、GWAS——gene-based关联分析
8、GWAS——孟德尔随机化分析
9、GWAS——LocusZoom图
a的最优化为 2.8387, b的最优化为 2.0968 ,公式 y = 2.8387* x + 2.0968
实际上,我们在计算的时候,会加入其他的变量,比如性别,年龄,品系等。这些因素也是影响表型的变量。因此,当考虑其他变量存在时,计算公式会稍微改变一下:y = ax + zβ + b
y:研究的表型
x:基因型数据,这里指每一个SNP
a:SNP的系数
z:年龄,性别等因素
β:年龄,性别等因素的系数
b:残差,除了我们纳入的SNP,性别年龄等因素外等其他可能影响表型的因素;
在群体遗传学研究中,LD连锁不平衡分析是非常常见的内容,同时也是关联分析的基础。简单理解就是只要两个基因不是完全独立遗传,就会表现出某种程度的连锁,这种情况就叫连锁不平衡。
两个相邻的基因A B, 他们各自的等位基因为a b. 假设A B相互独立遗传,则后代群体中观察得到的单倍体基因型 AB 中出现的P(AB)的概率为 P(A)*P(B)。
但我们实际观察得到群体中单倍体基因型 AB 同时出现的概率为P(AB)。若这两对等位基因是非随机结合的,即两个等位基因是完全独立的,则P(AB)=P(A)*P(B)。
但我们发现实际上P(AB)≠P(A)*P(B),这说明A B是连锁不平衡的。
不平衡程度度量的指标为D:D=P(AB)- P(A) *P(B)
例如位于同一染色体的两个等位基因(AB)同时存在的概率大于人群中因随机分布而同时出现的概率,称这两点处于LD状态。
曼哈顿图(manhattan plot)是一种散点图,通常用于显示具有大量数据点,许多非零振幅和更高振幅值分布的数据。
下图中每个点代表一个SNP,纵轴为每个SNP计算出来的P value取-log10,横轴为SNP所在的染色体,图中对候选位点的分布和数值一目了然。
基因位点的P value越小即-log10(P value)越大,该位点与表型性状或疾病等关联程度越强。
而且通常来说受到连锁不平衡的影响,强关联位点周围的SNP也会显示出相对较高的信号强度,并依次向两边递减,所以会出现上图中红色部分的现象。
一般,在GWAS的研究中,P value的阈值在10^-6 或者10^-8以下。
ggplot标注的SNP
注意:曼哈顿图中,显著的SNP并不是鹤立鸡群的冒出来,而是似乎被捧出来的,就像高楼大厦一样,从底下逐步冒出来的。这一座大厦其实就是连锁在一起的SNP,具有很高的LD score。虽然曼哈顿图里每个点是SNP,但是通常都会把最显著的SNP指向某个基因,因为大家最关注的还是SNP的致病根源,但这样找出来的只有编码区的SNP。
注意:最突出的SNP极有可能不是关键的SNP,它只是临近关键SNP的位点。
箱形图(Box-plot)是一种用作显示一组数据分散情况的统计图,因形状如箱子而得名。主要用于反映原始数据分布的特征,并且可以进行多组数据分布特征的比较。
箱形图能显示出一组数据的最大值(Maximum)、最小值(Minimum)、中位数(Median)及上下四分位数(1st/3rd Quartile),同时还可以显示逸出值(Outlier)。
第一四分位数(Q1),又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数,又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数(Q3)又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。
逸出值,是根据四分位间距(interquartile range)进行计算的:
四分位间距= Q3-Q1=ΔQ,在区间 [Q3+1.5ΔQ, Q1-1.5ΔQ] 之外的值即被视为逸出值。
Q-Q(分位数-分位数)图,是通过将绘制两个概率分布的分位数来比较两者分布关系的图形方法。Q-Q plot可用于比较数据集合或理论分布。