用正态分布法进行数据分析
长情的茶叶
2022年09月09日 09:58:24
只看楼主

正态分布 (Normal distribution)是连续随机变量概率分布的一种,广泛应用于数学、物理及工程等领域,在统计学有着非常大的影响力。正态分布有多种名称,如常态分布、高斯分布等。正态分布曲线中间高、两侧低的对称曲线。 笔者利用该方法研究了单相与三相交流充电桩的需要系数、超高层建筑的变压器容量指标等,分析过程如下。 首先应对样本组进行 坏点处理 ,使得数据更科学、更具代表性。一般情况下,可以先假设数据呈正态分布的规律,这里采用SPSS软件作柯尔莫哥洛夫-斯米尔诺夫检验(即 K - S检验)验证正态分布。

正态分布 (Normal distribution)是连续随机变量概率分布的一种,广泛应用于数学、物理及工程等领域,在统计学有着非常大的影响力。正态分布有多种名称,如常态分布、高斯分布等。正态分布曲线中间高、两侧低的对称曲线。


笔者利用该方法研究了单相与三相交流充电桩的需要系数、超高层建筑的变压器容量指标等,分析过程如下。


首先应对样本组进行 坏点处理 ,使得数据更科学、更具代表性。一般情况下,可以先假设数据呈正态分布的规律,这里采用SPSS软件作柯尔莫哥洛夫-斯米尔诺夫检验(即 K - S检验)验证正态分布。


当显著性α值大于0.05时,则上述假设成立。

显著性水平 是估计总体参数落在某一区间内,可能犯错误的概率。


若已验证样本数据符合正态分布规律,可根据正态分布公式(见下式)得出样本均值μ和标准差?。


式中,n——样本数量;

    xi——样本值,i=1,2,……,n;

    μ——样本均值;

    ?——标准差。


已知均值和标准差便可求取参考值范围,此处采用 频数分布 估计法估计任意取值范围内的频数比例,制定参考值范围。频数分布(frequency distribution)是数据统计整理方式之一。


下式中,X为双侧界值,即范围边界,边界大小以显著性水平α值来确定,即估计总体参数落在某一区间内可能犯错误的概率,其常用值有0.01、0.05、0.10等。鉴于需要系数是工程应用参数,实际情况比较复杂,所以不需将参考值范围定的过小,我们取α值为0.10,即参考范围至少能满足10%的情况。u值的选取与参考值范围的选择有关,常用u值见下表。

X=μ±u?                             

式中,X——双侧边界值;

          u——标准正态变量。


表 常用u值

参考值范围(%)

单侧

双侧

80

0. 842

1. 282

90

1. 282

1. 645

95

1. 645

1. 960

99

2. 326

2. 576


显著性水平α取0.10,则双侧界值为P5和P95,可得

X=μ±1.645?                       


这样,通过分析参考范围的合理性,并综合实际运行情况,即可得出需要系数建议值。


相关推荐

APP内打开