方差分析与非参数检验
-
北京建筑大学
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称
方差分析与非参数检验
实验地点
基
C-423
日期
2017.3.30
【实验目的】
(
1
)熟悉数据的基本统计与非参数检验分析方法;
(
2
)熟悉撰写数据分析报告的方法;
(
3
)熟悉常用的
数据分析软件
SPSS
。
【实验要求】
根据各个题目的具体要求,完成实验报告。
【实验内容】
1
、
附件给出某年房屋价格的相关数据,
请选用恰当的分析方
法,
对影响房屋价格的因素进行分析。
(
注
意数据要调整成标准的格式,变量值、组别(字符变量转换成数值变量)
)(
单因素方差分析选择其中两个
因素、双因素方
差分析选择其中任一对因素即可
)
2
、
附件给出管理才能评分的相关数据,
请选用恰当的分析方法,
分析该评分数据是否服从正态分布。
3
、附件给出了某体育比赛的两位裁判打分数据,请选用恰当的分析方法,检验该两组评
分分布是否
有显著差异。
(
注意数据要
调整成标准的格式,变量值、组别
)
4
、附件给出了减肥茶数据,请选用恰当方法分析,检验该减肥茶是否对减肥有显著效果。
(
注意数据
要调整成标准的格式,变量值、组别
)
【分析报告】
1
p>
、对影响房屋价格的因素进行分析。
(
单因
素方差分析选择其中两个因素、双因素方差分析选择其中任一
对因素即可
)
。
表
1-1
(
a
)
装修状况对均价影响的单因素方差分析结果
均价
组间
组内
总数
平方和
79.180
230.914
310.094
df
1
182
183
均方
79.180
1.269
F
62.408
显著性
.000
表
1-1
(
b
)
所在区县对均价影响单因素方差分析结果
均价
组间
组内
总数
平方和
91.919
218.174
310.094
df
3
180
183
均方
30.640
1.212
F
25.279
显著性
.000
表
1-1
(
a
)是装修状况对均价影响的单因素
方差分析结果。可以看到:观测变量均价的离差平方总和
为
31
0.094
;
如果仅考虑装修状况单个因素的影响,
则均价总变差中,
不同装修状况可解释的变差为
7
9.180
,
抽样误差引起的变差为
2
30.914
,它们的方差分别为
79.180
和
1.269
,相除所得的
F
统计量的观测值为
62.408
,对应
的概率
P-
值近似为
0.
如果显著性水平
α
为
0.0
5
,由于概率
P-
值小于显著性水平<
/p>
α
,应拒绝
原假设,认为不同装修状况对
均价的平均值产生了显著影响,不同装修状况对均价的影响效应不全为
0
。
1
< br>表
1-1
(
b
< br>)是所在区县对均价影响单因素方差分析结果。可以看到:如果仅考虑所在区县单个因素的
影响,则均价总变差
310.094
中不同所在区县可
解释的变差为
91.919
,抽样误差引起的变差为
218.174
,
它们的方差分别为
30.640
和
1.212
,
相除所得的
F
统计量的观测值为
p>
25.279
,
对应的概率
P-
值近似为
0
。
如果显著性水平
α
为
0.
05
,由于概率
P-
值小于显著性水平
α
,应拒绝原假设,认为不同所在区县对均价
< br>的平均值产生了显著影响,不同所在区县对均价的影响效应不全为
0
。
对比表
1-1
(
a
)和表
1-1
p>
(
b
)容易发现:如果从单因素的角度考虑
,装修状况对均价的影响比所在
区县大。
表
1-2
(
a
)
p>
不同装修状况下均价的基本描述统计量及
95%
置信区间
均价
N
0
1
总数
84
100
184
均值
2.467
3.784
3.183
标准差
.5797
1.4320
1.3017
标准误
.0632
.1432
.0960
均值的
95%
置信区间
下限
2.341
3.500
2.993
上限
2.593
4.068
3.372
极小值
.8
1.0
.8
极大值
3.9
8.6
8.6
< br>表
1-2
(
a
< br>)表明,在
2
个不同装修状况下分别有
< br>84
、
100
两个样本。
“
1
”
,即“精装修
”的平均均价
高于“
0
”
“毛胚”
。可在图
1-3
(
a
)中得到印证。
表
1-2
(
b)
方差齐性检验
均价
Levene
统计量
28.807
df1
1
df2
182
显著性
.000
2
图
1-
3
(
a
)
不同装修状况下均价均值折线图
<
/p>
表
1-2
(
b<
/p>
)表明,不同装修状况下均价的方差齐性检验统计量的观测值为
2
8.807
,概率
P-
值为
0
。
如果显著性水平
α<
/p>
为
0.05
,由于概率
< br>P-
值小于显著性水平
α
,因此
应拒绝原假设,认为不同装修状况下
对均价的总体方差有显著差异,满足方差分析的前提
。
表
1-
2
(
c
)
不同区县位置下均价的基本描述统计量及
95%
置信区间
均价
N
1
2
3
4
总数
58
38
52
36
184
均值
4.021
2.837
3.285
2.051
3.183
标准差
1.6360
.6395
.8749
.5719
1.3017
标准误
.2148
.1037
.1213
.0953
.0960
均值的
95%
置信区间
下限
3.591
2.626
3.041
1.858
2.993
上限
4.451
3.047
3.528
2.245
3.372
极小值
2.0
1.7
1.8
.8
.8
极大值
8.6
4.3
5.6
3.5
8.6
< br>表
1-2
(
c
< br>)中,
“
1
”
< br>“
2
”
“
3
”
“
4
”
分别对应区县“朝阳”
“丰台”
“海淀”
“
通州
”在
4
个区县中各有
58
、
38
、
52
、
36
个样本。朝阳的均价最高,丰台区与海淀区居中,通州区最低。这些结论同样可在图
1-3
(
b
)中印证。
方差齐性检验
均价
Levene
统计量
15.627
df1
3
df2
180
显著性
.000
3