R语言学习笔记2_概率与分布

发布时间：2024-10-15 13:01

二、概率与分布

2.1 随机抽样

1）等可能的不放回随机抽样
sample(x,n) 其中x为要抽取的向量，n为样本容量。

> sample(1:6,1)
[1] 2

2）等可能的有放回随机抽样
sample(x,n,replace=TRUE) 其中replace=TRUE表示抽样有放回。

> sample(c(\'正\',\'反\'),10,replace=T)
 [1] \"正\" \"反\" \"反\" \"反\" \"正\" \"反\" \"反\" \"反\" \"反\" \"反\"

3）不等可能的随机抽样
sample(x,n,replace=TRUE,prob=y) 其中prob=y用于指定x中元素出现的概率，向量y与x等长度。

> sample(c(\'成功\',\'失败\'),10,replace=T,prob = c(0.9,0.1))
 [1] \"成功\" \"成功\" \"成功\" \"失败\" \"失败\" \"成功\" \"成功\" \"成功\" \"成功\" \"成功\"

2.2 排列组合与概率的计算

例：从一副完全打乱的52张扑克中取4张，求以下事件的概率：
1）抽取的4张依次为红心A，方块A，黑桃A和梅花A的概率；

抽取的4张是有次序的
1/prod(52:49)
[1] 1.539077e-07

2）抽取的4张为红心A，方块A，黑桃A和梅花A的概率。

抽取的4张是无次序的
1/choose(52,4)
[1] 3.693785e-06

2.3 概率分布

2.3.1 离散分布的分布律

1）伯努利分布 binom(1,p)

意义：一试验中有两个事件：成功（记为1）与失败（记为0），出现的概率分别是p和1-p，则一次试验成功的次数服从一个参数为p的伯努利分布。

2）二项分布 binom(n,p)

意义：伯努利试验独立的重复n次，则试验成功的次数服从一个参数为（n,p）的二项分布。

3）多项分布 multinom(n,p1,…,pk)

意义：一次试验中有k个事件Ai，将此试验独立的重复n次，则事件A1,…,Ak出现的次数服从一个参数为（n,p）的多项分布，其中p=(p1,…,pk)。

4）负二项分布 nbinom(k,p)

意义：伯努利试验独立的重复进行，一直到出现k次成功时停止试验，则试验失败的次数服从一个参数为（k,p）的负二项分布。

5）几何分布 geom(p)

意义：伯努利试验独立的重复进行，一直到有成功出现时停止试验，则试验失败的次数服从一个参数为p的负几何分布。

6）超几何分布 hyper(N,M,n)

意义：从装有N个白球和M个黑球的罐子中不放回的取出k(≤N+M)个球，则其中的白球数服从超几何分布。

7）泊松分布 pois(λ)

意义：单位时间、单位长度、单位面积、单位体积中发生某一事件的次数常可以用泊松分布来刻画，例如：某段高速公路上一年内的交通事故数和某办公室一天中收到的电话书可以认为近似服从泊松分布。

2.3.2 连续分布的概率密度函数

1）贝塔分布 beta(a,b)

意义：在贝叶斯分析中，贝塔分布常作为二项分布参数的共轭先验分布。

2）均匀分布 unif(a,b)

意义：区间[a,b]上随机（等可能）投点对应的坐标服从[a,b]上的均匀分布。

3）柯西分布 cauchy(a,b)

意义：用于描述共振行为。以一随机（等可能）的角度投向X轴的水平距离服从柯西分布。

4）威布尔分布 weibull(a,b)

意义：最为常用的寿命分布，用来刻画滚珠轴承、电子元器件等产品的寿命。

5）指数分布 exp(λ)

意义：泊松过程的等待时间服从指数分布。

6）瑞利分布 rayl(b)
7）正态分布 norm(μ,σ²)=N(μ,σ²)

意义：一个变量若是由大量微小、独立的随机因素叠加的结果，那么这个变量一定是正态变量（中心极限定理）。

8）对数正态分布 lnorm(μ,σ²)

意义：ln(X)服从参数为（μ,σ²）的正态分布，则X服从参数为（μ,σ²）的对数正态分布。

9）逆正态分布 inorm(μ,λ)

意义：正态随机变量的倒数服从逆正态分布。

10）伽马分布 gamma(a,b)

意义：a个相互独立的参数为1/b的指数分布的和，服从参数为（a,b）的伽马分布。

11）逆伽马分布 igamma(a,b)

意义：伽马分布随机变量的倒数服从逆伽马分布。

12）卡方分布 chisq(n)=Х²(n)

意义：n个独立正态随机变量的平方和服从自由度为n的卡方分布。

13）逆卡方分布 ichisq(n)

意义：卡方分布随机变量的倒数服从逆卡方分布。

14）t分布 t(n)

意义：随机变量X与Y独立，X服从标准正态分布，Y服从自由度为n的卡方分布，则T=X/(√Y/n)服从自由度为n的t分布。

15）F分布 f(n,m)=F(n,m)

意义：随机变量X与Y独立，X服从自由为n的卡方分布，Y服从自由度为m的卡方分布，则T=(X/n)/(Y/m)服从自由度为（n,m）的F分布。

16）logistic分布 logis(a,b)

意义：生态学中的增长模型常用logistic分布来刻画，也常用于logistic回归中。

17）Dirichlet分布 dirichlet(α1,…,αk)

意义：在贝叶斯分析中可作为多项分布参数的共轭先验分布。Dirichlet分布的密度函数表示在已知k个竞争事件已经出现了αi-1次条件下，他们出现的概率为xi的信念。

18）Pareto分布 pareto(a,b)

意义：可以较好的刻画财富的分配规则（pareto规则）：大部分的财富（80%）被少数（20%）的人拥有。

19）非中心分布

非中心的卡方分布 chisq(n,μ)
非中心的t分布 t(n,μ)
非中心的F分布 F(n,m,μ)

2.4 R中内嵌的分布

若R中分布的函数名为func，则

概率密度函数：dfunc(x,p1,p2,…) x为数值向量；
（累积）分布函数：pfunc(q,p1,p2,…) ,q为数值向量；
分位数函数：qfunc(p,p1,p2,…) p为由概率构成的向量；

用于计算假设检验中分布的临界值或置信区间的置信限。
随机函数：rfunc(n,p1,p1,…) n为生成数据的个数，

其中p1,p2,…是分布的参数值。

2.5 中心极限定理

当独立观察（试验）样本容量n足够大时，所观察的随机变量X1，X2，…，Xn的和近似服从正态分布
自定义函数 limite.central( )
从图形上考察一个由已知分布产生的容量为n的样本经标准变换后趋于标准正态分布的近似程度

# 默认参数
# r -- 分布为[0，1]上的均匀分布
# m -- 分布的均值为0.5
# s -- 分布的标准差为1/sqrt(12)
# n -- 样本容量有4个：1，3，10，30
# N -- 重复次数为1000
limite.central <-function(r=runif,distpar=c(0,1),m=.5,s=1/sqrt(12),n=c(1,3,10,30),N=1000){
  #生成矩阵，分别讨论参数有两个，一个的情况
  for (i in n) {
    if(length(distpar)==2){
      x<- matrix(r(i*N,distpar[1],distpar[2]),nc=i)
    }
    else{
      x<- matrix(r(i*N,distpar),nc=i)
    }
    #标准化
    x <- (apply(x,1,sum)-i*m)/(sqrt(i)*s)
    #做出x直方图【亮蓝色；直方图表示结果的频率、计数分量;主标题；y轴上下限】
    hist(x,col=\"light blue\",probability = T,main=paste(\'n=\',i),
         ylim=c(0,max(.4,density(x)$y))) 
    #计算x的核密度估计值（窗宽为bw=1），并连接成线【红色，连线宽度=3】
    lines(density(x),col=\"red\",lwd=3)
    #计算x处标准正态分布的密度函数值，并连接成线【蓝色，连线宽度=3，线型=点线，叠加到前一个图上 】
    curve(dnorm(x),col=\"blue\",lwd=3,lty=3,add=T)
    #在横坐标处用小的竖线画出x出现的位置
    if(N>100){
      rug(sample(x,100))
    }
    else{
      rug(x)
    }
  }
}