好好学习,天天向上,一流范文网欢迎您!
当前位置: >> 体会 >> 教学心得 内容页

基本概念正式介绍分布前,先来区分统计学中的几组概念

话不多说,正文开始:

在OX00的基本概念正式介绍分布之前,我们先来区分一下统计学中的几组概念: 1.随机变量:用数值来描述特定实验的所有可能结果。它的值不能预先确定,也就是说,它是随机的。比如抛硬币,结果是一个随机变量X。因为抛之前,你不知道是正面还是反面;可以用1表示头朝上,0表示尾朝上。离散随机变量:只能取有限个值的随机变量。

连续随机变量:可以在一个或多个区间内取任意值的随机变量。2. 经典概率:经典概率通常称为事前概率,是指通过推导或外推法可知各种可能的结果和随机事件发生的次数,无需任何统计实验即可计算出各种可能的概率结果。抛硬币和掷骰子都是经典概念。有两个共同的特点:

实验样本空间有限;

实验中的每个结果出现的可能性相同。条件概率:给定事件B的发生,事件A发生的概率。条件概率表示为: P(A|B)=P(AB)/P(B)P(AB):联合概率,表示两个事件同时发生的概率。3、大数定律讲的是样本均值向总体均值收敛,简单来说就是期望;而中心极限定理告诉我们,当样本足够大时,样本均值的分布会逐渐变成正态分布;大量的独立随机变量经过标准化后均值收敛于正态分布。期望:数学期望也叫均值,本质上是对一个随机变量所有可能取值的加权平均,

中心极限定律:即使X的分布??不是正态分布,那么在非常一般的条件下,当样本量增加时,

分布趋于正态分布

.4. 离散随机变量分布:离散随机变量按照一定的概率取每个值!每个取值的概率都在[0,1],各个取值的概率之和等于1。所谓“离散”是指一个随机变量只能取有限个数或可以枚举无限数量的值。常见的离散分布有泊松分布、伯努利分布、二项分布、几何分布、负二项分布和多项分布。连续随机变量分布:与离散变量类似,连续变量的概率密度函数必须满足f(x)>=0,且概率密度函数覆盖的总面积=1,x落入[a的概率, b]是

常用的连续变量的随机分布有:均匀分布、正态分布、指数分布 5、概率函数和概率密度函数(似然函数)。概率函数:是离散随机变量X在每个特定值上的概率P(x),其和为1。 概率密度函数:与概率密度数f(x)不同,概率函数定义为离散随机变量,它本身代表值的概率;而概率密度函数是为连续随机变量定义的,它们本身不是概率。一定区间内的积分就是概率。6、频率分布直方图和频数分布直方图?横轴:Interval Vertical axis (frequency distribution histogram): 落在区间内的频数纵轴(frequency distribution histogram):频数/组距离(小矩形的面积等于频数,和为1)即可从频数分布直方图中估计出的几个数据:众数:频数分布直方图中最高矩形底边中点的横坐标。如果有两个最高矩形,那么也有两个多数矩形!算术平均:频数分布直方图中每组数值的中位数乘以面积相加。(面积和为1,频数也为1) 加权平均:加权平均是所有频数之和乘以数值。中位数:将频率分布直方图分成面积相等的两部分的平行于 Y 轴的直线的横坐标。方差:(每个矩形横坐标的中点-平均值)^2乘以各自矩形的面积之和 7.频数分布直方图与概率密度曲线的关系:当样本量继续增加并且组距离不断减小,每个组的平均频率密度非常接近组中值处的频率密度,频率密度直方图矩形的上边缘非常接近平滑曲线,这是频率密度函数曲线。

OX01离散分布

伯努利分布

伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或1,各自的频率分别取1?p和p。当x=0或x=1时,我们的数学定义是:

加权几何平均数_块段平均品位 影响面积加权_库存商品平均加权

离散随机变量期望:E(x)=∑x?p(x),对于伯努利分布,E(x)=p

方差:D(x)=E(x2)?E2(x), D(x)=p*(1-p)

伯努利分布是其??他分布的基础,伯努利实验可以通过抛硬币来理解。二项分布:在重复的实验中,如果每次实验只有两种可能,并且得到相应结果的概率在每次实验中都没有变化,这就是二项分布!抛硬币 N 次,正面朝上 k 次的概率服从二项分布。

抛硬币正面朝上的概率服从伯努利分布。我们记录成功的概率为p(0≤p≤1),则失败的概率为q=1-p,则:概率函数为:

它的意思是:

它的方差:

假设某个实验是伯努利实验,成功的概率用p表示,那么失败的概率就是q=1-p。进行n次这样的实验,成功x次,则失败次数为nx。发生这种情况的概率可以通过以下公式计算:

关于二项分布有两点需要理解: 1.保持二项分布试验次数n不变。随着成功概率 p 越来越接近 0.5,二项分布逐渐对称并近似于均值 np 和方差 npq 分布的正态分布。(前三张图)

2. 对于任何“成功”概率p,无论它离0.5有多远,随着试验次数n的增加,二项分布越来越接近均值为np,方差为npq的正态分布。(最后三张图)

块段平均品位 影响面积加权_加权几何平均数_库存商品平均加权

多项式分布 多项式分布,它是二项式分布的推广。二项分布只有两个试验结果(成功和失败),而多项分布有两个以上的试验结果。假设多项式分布实验可能出现的结果个数为k,根据历史数据,每个结果的统计概率为p1,p2,…,pk。现进行n次多项分布实验,假设观测结果a1的个数为x1,结果a2的个数为x2,……,结果ak的个数为xk加权几何平均数,则多项式分布的联合概率函数为:

多项式分布的每个结果分别具有均值和方差:

泊松分布泊松概率分布描述了在一定时间段或一定空间内随机事件发生的次数的概率。次数,预测随机事件在未来同一长时间或同一大空间内发生k次的概率。其概率质量函数为:

λ是过去一定时间或一定空间内随机事件平均发生次数

抛硬币是二项分布,掷骰子是多项分布(六项分布),扔图钉是泊松分布!

泊松分布的概率函数可以从二项分布的极限推导出来!假设在过去的历史中,固定长度的时间段内随机事件的平均发生次数为λ,则可以将固定长度的时间分成n等份;在每个相等的时间内,随机事件发生的概率可以表示为λ/n。如果n趋于无穷大,即这段时间被分成无数小段,则λ/n的值将趋近于0,即在每个相等的时间内,随机事件不可能发生两次或更多次。根据上述假设,在固定的时间长度内,随机事件发生k次的概率服从二项式概率分布,可以表示为:

我们知道二项分布的期望值和方差分别为np和npq,那么泊松分布的期望值和方差为:

观察泊松分布的概率函数,我们可以看出,泊松分布只兼容

块段平均品位 影响面积加权_库存商品平均加权_加权几何平均数

相关的

二项分布和多项分布与实验次数和每次实验的概率有关加权几何平均数,而泊松分布是实验次数

结果,所以泊松分布只和一个事件的平均发生次数有关!

什么时候

当它越来越大时,泊松分布越来越接近正态分布。其实我们也是用正态分布来代替泊松分布!也就是说,泊松分布可以看作是离散变量中的正态分布!

由于泊松分布适用于描述一定时间(或一定空间)内随机事件发生的次数,因此常被用来预测某些事件的发生。例如:一定时间内到达某医院的人数;一定时间内在超市收银台结账的人数;一定时期内发生的自然灾害次数;一定时期内 DNA 序列的变异数量;中的衰减次数等。

之前接触到的超几何分布的二项分布、多项分布、泊松分布、几何分布都是基于伯努利检验的。(每次试验的概率值都相等)。超几何分布试验结果的概率随着每次试验的发生而变化。以随机抽样为例,二项分布检验和几何分布检验是有放回抽样(总数保持不变),因此每个检验结果出现的概率不变;而超几何分布检验是在有限的人群中进行无放回抽样(人群规模在不断减小),因此每次试验结果的概率都会发生变化。超几何分布是一种重要的离散概率分布,其概率质量函数可以定义如下: 假设有限总体中包含N个样本,其中m个是合格样本,其余Nm个是不合格样本。当从有限总体中抽取 n 个样本时,其中 k 个样本质量合格的概率为:

OX02连续变量随机分布均匀分布

均匀分布是最简单的连续分布,其取值范围是一个区间,如(a,b)。均匀分布的随机变量x在该区间的某个子区间取值的概率等于区间宽度与区间(a,b)宽度ba的比值。

库存商品平均加权_加权几何平均数_块段平均品位 影响面积加权

正态分布

当p一定,n很小时,分布很不均匀。当n增大时,二项分布趋于连续对称分布——正态分布(高斯分布)。正态分布 N(u,

) 概率密度函数为:

指数分布在概率论和统计学中,指数分布(英文:Exponential distribution)是一种连续的概率分布。指数分布可以用来表示独立随机事件之间的时间间隔,比如旅客进入机场的时间间隔、呼叫客服中心的时间间隔等(引自维基百科)。指数分布的概率密度函数为:

OX03 附录

导入各种包:

import numpy as np #数组包from scipy import stats #统计计算包的统计模块import matplotlib.pyplot as plt #绘图包%matplotlib inline

伯努利分布

块段平均品位 影响面积加权_加权几何平均数_库存商品平均加权

X=np.arange(0,2,1)p=0.5 #硬币朝上的概率pList=stats.bernoulli.pmf(X,p)plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = False  #解决中文显示问题plt.plot(X,pList,linestyle='None',marker='o') #不需要将两点相连plt.vlines(X,0,pList) #绘制竖线,参数说明plt.vlines(x坐标值,y坐标最小值,y坐标最大值)plt.xlabel('随机变量:抛1次硬币结果为反面记为0,为正面记为1')plt.ylabel('概率值')plt.title('伯努利分布:p=%0.2f'%p)

二项分布

#1、定义随机变量:抛5次硬币,正面朝上的次数n=5 #做某件事的次数p=0.5 #做成功某件事的概率X=np.arange(0,n+1,1)#2、求对应分布的概率pList=stats.binom.pmf(X,n,p) #参数含义为:pmf(k次成功,共n次实验,单次实验成功概率为p)#3、绘图plt.plot(X,pList,linestyle='None',marker='o')plt.vlines(X,0,pList)plt.xlabel('随机变量:抛5次硬币,正面朝上的次数')plt.ylabel('概率值')plt.title('二项分布:n=%i,p=%0.2f'%(n,p))

泊松分布

mu=2 #平均值:每天平均发生2起事故k=4 #该路口发生4起事故的概率X=np.arange(0,k+1,1)#2、求对应分布的概率pList=stats.poisson.pmf(X,mu) #参数含义为:pmf(发生X次事件,平均发生mu次)pList#3、绘图plt.plot(X,pList,linestyle='None',marker='o')plt.vlines(X,0,pList)plt.xlabel('随机变量:该路口发生事故的次数')plt.ylabel('概率值')plt.title('泊松分布:平均值mu=%i'%mu)

正态分布

mu=0 #平均值sigma=1 #标准差X=np.arange(-5,5,0.1)#2、求对应分布的概率pList=stats.norm.pdf(X,mu,sigma) #参数含义为:pdf(发生X次事件,均值为mu,方差为sigma)#3、绘图plt.plot(X,pList,linestyle='-')plt.xlabel('随机变量:x')plt.ylabel('概率值:y')plt.title('正态分布:$mu$=%0.1f,$sigma^2$=%0.1f'%(mu,sigma))

指标分布

 lambd = 0.5#  x = np.arange(0,15,0.1)  y =lambd * np.exp(-lambd *x)  plt.plot(x, y)  plt.title('指数分布: $lambda$=%.2f' % (lambd))  plt.xlabel('x')  plt.ylabel('概率值', fontsize=15)  plt.show()