概率论与数理统计数学实验

绝世美人儿
749次浏览
2021年01月30日 01:28
最佳经验
本文由作者推荐

关于雪的诗歌-草原之夜简谱

2021年1月30日发(作者:江有汜)
概率论与数理统计数学实验


目录


实验一

几个重要的概率分布的
MATLAB
实现
p2-3
实验二

数据的统计描述和分析
p4-8
实验三

参数估计
p9-11
实验四

假设检验
p12-14
实验五

方差分析
p15-17
实验六

回归分析
p18-27













1

实验一

几个重要的概率分布的
MATLAB
实现

实验目的

(1)
学习
MATLAB
软件与概率有关的各种计算方法

(2)
会用
MATLAB
软件生成几种常见分布的随机数

(3)
通过实验加深对概率密度,分布函数和分位数的理解


M atlab
统计工具箱中提供了约
20
种概率分布,
对每一种分布提供了5
种运算功能,
下表给
出了常见
8
种分布对应的
Mat lab
命令字符,

2
给出了每一种运算功能所对应的
Matlab
命令字
符。
当需要某一分布的某类运算功能时,
将分布字符与功能字符连接起 来,
就得到所要的命
令。

分布

字符


功能

字符

概率密度

pdf
分布函数

cdf
逆概率密度

inv
均值与方差

stat
随机数生成

rnd
均匀

unif
指数

exp
正态

norm

2
分布

t
分布

chi2
t
F
分布

f
二项

bino
泊松

poiss

1
求正态分布
N


1
,
2

,在
x=1.2
处的概率密度。

解:在
MATLAB
命令窗口中输入:

normpdf(1.2,-1,2)
结果为:

0.1089

2
求泊松分布
P

3

,在
k=5

6

7
处的概率。

解:在
MATLAB
命令窗口中输入:

poisspdf([5 6 7],3)
结果为:

0.1008 0.0504 0.0216

3

X
服从均匀分布
U
1
,
3

,计算
P
解:在
MATLAB
命令窗口中输入:

unifcdf(2.5,1,3)-unifcdf(-2,1,3)
结果为:

0.75000


2

X

2
.
5




2

4
求概率


0
.
995
的 正态分布
N

1
,
2

的分位数
X



解:在
MATLAB
命令窗口中输入:

norminv(0.995,1,2)
结果为:

6.1517

5

t
分布
t

10
的期望和方差。

解:在
MATLAB
命令窗口中输入:

[m,v]=tstat(10)
m =
0
v =
1.2500

6
生成一个
2*3
阶正态分布的随机矩 阵。其中,第一行
3
个数分别服从均值为
1

2

3
;第
二行
3
个数分别服从均值为
4

5

6
,且标准差均为
0.1
的正态分布。

解:在
MATLAB
命令窗口中输入:

A=normrnd([1 2 3;4 5 6],0.1,2,3)
A =
1.1189 2.0327 2.9813
3.9962 5.0175 6.0726

7
生成一个
2*3
阶服从均匀分布
U

1
,
3

的随机矩阵。

解:在
MATLAB
命令窗口中输入:

B=unifrnd(1,3,2,3)
B =
1.8205 1.1158 2.6263
2.7873 1.7057 1.0197 注:对于标准正态分布,可用命令
randn(m,n);
对于均匀分布
U

0
,
1

,
可用命令
rand(m,n)









3
实验二

数据的统计描述和分析

实验目的

(1)
学习
MATLAB
软件关于统计作图的基本操作

(2)
会用
MATLAB
软件计算计算几种常用统计量的值

(3)
通过实验加深对均值、方差、中位数等常用统计量的理解

1.
频数表和直方图

一组数据(样本观察值)虽然包含了总体的信息
,
但往往是杂乱无章的,作出它的频数
表和直方图,
可以看作是对这组数据的一个初步整理和直观 描述。
将数据的取值范围划分为
若干个区间,
然后统计这组数据在每个区间中出现的次 数,
称为频数,
由此得到一个频数表。
以数据的取值为横坐标,
频数为纵坐标 ,
画出一个阶梯形的图,
称为直方图,
或频数分布图。

2
经验累计分布函数图


x
1
,
x
2,

,
x
n
是总体
X
的一个容量为
n
的样本观察值。

x
1
,
x
2
,

,
x
n
按自小到大的
次序排列,并重新编号,设为
x

1


x

2



x

n




0
,


k
F
n

x


,

n


1
,
x
x

1

x

k

x

x

k

1

,
k
1
,
2
,

,
n

1
x

x

n

则称
F
n< br>
x

为总体
X
的经验累积分布函数,它的图像即为
经验累计分布函数图。

3
几种常用的统计量


1
)算术平均值和中位数

1
n
算术平均值(简 称均值),
X


X
i

,中位数是将数据由小到 大排序后位于中间
n
i

1
位置的那个数值。


2
)标准差、方差


4
标准差
:
s



1
2



X

X

i

,
它是各个数据与均值偏离程度的度量 。方差是标
n

1
i

1


2
n
1
2
准差的平方
,
记为
s



3
)偏度和峰度

1
表示数据分布形状的统计量有偏度和 峰度。
偏度:
g
1

3
s


X
i

1
n
i

X

反映数据分布
3
对称性的指标,当
g
1

0
时,称为右偏态,此 时数据位于均值右边的比位于左边的多;当
g
1

0
时称为左偏态, 情况相反;而
g
1

接近
0
时,则可认为分布是对称的。峰 度:
1
g
2

4
s


X
i

1
n
i

X

),
是数据 分布形状的另一种度量,正态分布的峰度为
3
,若
g
2


3
4
大得多,
表示分布有沉重的尾巴,
说明样本中含有较多远离均值 的数据,
因而峰度可以用作
衡量偏离正态分布的尺度之一。

将样本的观测值

x
1
,
x
2
,

,
x
n

代入以上各式后,即可求得对应统计量的观测值。

4

MATLAB
实现

下面我们列出用于数据的统计描述和分析的常 用
MATLAB
命令。其中,
x
为原始数据行向
量。


1
)用
hist
命令实现作频数表及直方图,其用法是:

[n,y] = hist(x,k)
返回
x
的频数表。它将区间
[min(x),max(x)]
等分为
k
份(缺省时
k
设定为10
),
n
返回
k
个小区间
的频数,
y
返回
k
个小区间的中点。

hist(x,k)
返回
x
的直方图。


2
)用
cdfpl ot
命令作累积分布函数图,其用法是:

[h,stats] =cdfplot(x)
在返回
x
的累积分布函数图的同时,在
stats
中给出样本的一些特征:样本最小值、最大值、
平均值、中位数和标准差。

cdfplot(x,k)
则直接返回
x
的累积分布函数图。


5

3
)算术平均值和中位数

Matlab

mean(x)
返回
x
的均值,
median(x)返回中位数。


4
)标准差、方差和极差

极差是< br>x
1
,
x
2
,

,
x
n< br>的最大值与最小值之差。

Matlab

std(x)
返回
x
的标准差,
var(x)
返回方差,
range(x)
返 回极差。


4
)偏度和峰度

Matlab
中< br>skewness(x)
返回
x
的偏度,
kurtosis(x)返回峰度。


1
某学校随机抽取
100
名学生,测量他们的身高,所得数据如下表


172
171
166
160
155
173
166
170
167
173

解:在
MATLAB
命令窗口中输入:

X=[172 169 169 171 167 178 177 170 167 169 171 168 165 169 168 173
170 160 179 172 166 168 164 170 165 163 173 165 176 162 160 175 173
172 168 165 172 177 182 175 155 176 172 169 176 170 170 169 186 174
173 168 169 167 170 163 172 176 166 167 166 161 173 175 158 172 177
177 169 166 170 169 173 164 165 182 176 172 173 174 167 171 166 166
172 171 175 165 169 168 173 178 163 169 169 177 184 166 171 170];
[n,y]=hist(X)
n =
2 3 6 18 26 22 11 8 2 2
y =
156.5500

159.6500

162.7500

165.8500

168.9500

172.0500
175.1500 178.2500 181.3500 184.4500

6
169
168
168
175
176
168
161
169
171
178
169
165
164
173
172
169
173
173
166
163
171
169
170
172
169
167
175
164
166
169
167
168
165
168
176
170
158
165
172
169
178
173
163
165
170
163
172
182
171
177
177
170
173
172
170
172
177
176
175
184
170
160
165
177
169
176
177
172
165
166
167
179
176
182
186
166
169
173
169
171
169
172
162
175
174
167
166
174
168
170
hist(X)
30
25
20
15
10
5
0
155
160
165
170
175
180
18 5
190

直方图

x1=mean(X)
x1 =
170.2500
x2=median(X)
x2 =
170
x3=range(X)
x3 =
31
x4=std(X)
x4 =
5.4018
x5=skewness(X)
x5 =
0.1545
x6=kurtosis(X)
x6 =
3.5573


2
产生
50
个服从标准正态分布的随机数,指出它们的分布特征 ,并画出经验累积分布函
数图

解:在
MATLAB
命令窗口中输入:

x=normrnd(0,1,1,50);
[h,stats]=cdfplot(x)
h =
171.0016
stats =
min: -2.9443

7
max: 3.5784
mean: 0.2840
median: 0.3222
std: 1.2625
Empirical CDF
1
0.9
0.80.7
0.6
F
(
x
)
0.5
0.4
0.3
0.2
0.1
0
-3
-2
-1
0
x
1
2
3
4

经验累积分布函数图



















8
实验三

参数估计

实验目的

(1)
学习
MATLAB
软件关于参数估计的有关操作命令

(2)
会用
MATLAB
软件求参数的点估计和置信区间

(3)
通过实验加深对参数估计基本概念和基本思想的理解

1
参数估计的方法


利用样本对总体进行统计推断的一类问题是参数估 计,即假定总体的概率分布类型已
知,由样本估计参数的分布。参数估计的方法主要有点估计和区间估计 两种。

2
参数估计的
Matlab
实现

在< br>Matlab
统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。

对于正态总体,命令是

[mu,sigma,muci,sigmaci]=normfit(x,alpha)
其中
x
为样本(数组或矩阵),
alpha
为显著性水平



alpha
缺省时设定为
0 .05
),返
回总体均值

和标准差

的点估计
mu

sigma
,及总体均值

和标准差

的区间估计
muci

sigmaci
。当
x
为矩阵时返 回行向量。此外,
Matlab
统计工具箱中还提供了一些具有特定分
布总体的区间 估计的命令,

expfit

poissfit

分别用 于指数分布和泊松分布的区间估计,
具体用法可参见
MATLAB
的帮助系统。


1
已知某种木材横纹抗压力的实验值
X
~
N
(

,

)


10
个试件做横纹抗压 力的试验数
据如下:
482,493,457,471,510,446,435,418,3 94,496(
单位:公斤
/
平方厘米
)
,试以
95%
可靠性估计该木材的平均横纹抗压力的置信区间
:(1)

2
未知;

(2)


:(1)

未知时,可直接使用
normfit
命令


MATLAB
命令窗口中输入:

x=[482,493,457,471,510,446,435,418,394,496];
[mu sigma muci sigmaci]=normfit(x)
mu =
460.2
2
2
2

30
2



9
sigma =
37.82
muci =
433.6
486.79528981297
sigmaci =
25.572
67.87

2
未知时,平均横纹抗压力

的估计值为
460.2
,其置信度为
0.95
的置信区间为
[433.6

486.8]



2


2
已知时,

的置信度为
0.95
的置信区间为

x



u
1


2

n
,x

u
1


2





n


MATLAB
命令窗口中输入:

x=[482,493,457,471,510,446,435,418,394,496]; < br>muci=[mean(x)-norminv(0.975)*30/sqrt(10),mean(x )+norminv(0.975)*30/sqrt(10)]
muci =
441.6 478.793850969137

2
已知时, 平均横纹抗压力

的置信度为
0.95
的置信区间为
[441.6< br>,
478.8]
。同(
1
)比
较可得,
在置信水平相 同的条件下,
利用方差得到的置信区间的长度要小于忽略方差得到的
置信区间长度。


2
某厂生产的瓶装运动饮料的体积假定服从正态分布,抽取
10
瓶,测得体积(毫升)为
595,602,610,585,618,615,605,620,600 ,606
。求出方差的置信度为
0.90
的置信区间。


:

MATLAB
命令窗口中输入:

x=[595,602,610,585,618,615,605,620,600,606];
[mu sigma muci sigmaci]=normfit(x,0.1)
mu =
605.6
sigma =
10.8

10
muci =
599.337534833741
611.862465166259
sigmaci =
7.8793483042824
17.773549266492
sigma^2
ans =
116.7
sigmaci.^2
ans =
62.
315.89905352842


的估计值为
116.7
,其置信度为
0.9
的置信区间为
[62.08

315.9]



3
某炸药制造厂,一天中发生着火 现象的次数
X
是一个随机变量,假设它服从以


0
参数的泊松分布,参数

未知。现有以下样本值:

着火次数
k
发生着火的天数

0
75
1
90
2
54
3
22
4
6
5
2
6
1
2
试求

的极大似然估计值和置信水平为
95%
的置信区间。


:

MATLAB
命令窗口中输入:

x=[75,90,54,22,6,2,1];
[lamda,lamdaci]=poissfit(x)
lamda =










35.77
lamdaci =










31.2871783406817










40.97


的极大似然估计值为
35.71
,其置信 水平为
95%
的置信区间为
[31.29

40.14]




11
实验四

假设检验

实验目的

(1)
学习
MATLAB
软件关于假设检验的有关操作命令

(2)
会用
MATLAB
软件求单个正态总体和双正态总体的假设检验问题

(3)

会用
MATLAB
软件判断总体是否服从正态分布

(4)
通过实验加深对假设检验基本概念和基本思想的理解

1
参数假设检验

如果总体的分布函数类型已知,
只是对总体分布中的参数做某 种假设。
然后,
用样本检
验此假设是否成立,
这种检验称为参数检验。
下面我们给出几种参数检验对应的
Matlab
命令,
相关的理论知识可参考教材。

假设检验

单个总体均值


已知)

2
Matlab
命令

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)
H
0




0


H
1




0




0




0

单个总体均值


未知)

2
H
0




0


H
1




0




0




0

[h,p,c i]=ttest(x,mu,alpha,tail)

两个总体均值


1
2
2


2
H
0


1


2



1


2



1


2

1


2

H
1


[h,p,ci]=ttest2(x,y,alpha,tail)

已知)


1

x
是样本,
mu

H
0
中的

0


sigma
是总体标准差


alpha
是显著性水平

alpha
缺省时设定为
0.05


tail
是对备 择假设
H
1

的选择:
H
1




0
时,

tail=0
(可缺省)


H
1




0
时,令
tail =1

H
1




0

时,令
tail=-1
。输出参数
h=0
表示接受
H
0< br>,
h=1
表示拒绝
H
0


p
表示在假设
H
0

下样本均值出现的概率,< br>p
越小
H
0
越值得怀疑,
ci


0

的置信区间。


2

ttest2
输入的是两个样本
x,y
,长度可以不同。


1
某种电子元件的寿命
x
(
以小时计
)
服从正态分布
,

未知
.
现得
16
只元件的寿命如下
:

12
2
159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170
问是否有理由认为元件 的平均寿命大于
225(
小时
)?




解:需要检验:
H
0



22 5

H
1



225

x=[159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170];
[h,p,ci]=ttest(x,225,0.05,1)
h =
0
p =
0.2570
ci =
198.2321 Inf
h=0

p=0.2570
,说明在显著水平为
0.05< br>的情况下,不能拒绝原假设,认为元件的平均寿命
不大于
225
小时。


2
在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率
,
试验是在同一
平炉上进行的。每炼一炉钢时除操作方法外
,
其它条件都可能 做到相同。先用标准方法炼一

,
然后用建议的新方法炼一炉
,
以后 交换进行
,
各炼了
10

,
其得率分别为
:
1
°标准方法
78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3
2
°新方法
79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1
设这两个样本 相互独立且服从标准差相同的正态分布,问建议的新方法能否提高得率
?(


0.05

)


需要检验:
H
0


1


2

H
1


1


2

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3];
y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1];
[h,p,ci]=ttest2(x,y,0.05,-1)
h =
1
p =
2.2126e-004
ci =
-Inf -1.9000
h=1,p=2.2126
×
10
-4
。表明在


0.05
的显著水平下,可以拒 绝原假设,即认为建议的新操
作方法能提高得率。

2

分布拟合检验


13

关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱


关于雪的诗歌-草原之夜简谱