以下为《实验七 相关与回归分析》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
实验七 相关与回归分析
【实验目的】
1.学会使用EXCEL和SPSS软件进行相关与回归分析。
2.具备初步的运用相关与回归分析法解决实际问题的能力。
例1:从某一行业中随机抽取12家企业,所得产量与生产费用的数据如图7-1。要求采用EXCEL软件:1. 绘制产量与生产费用的散点图,判断二者之间的关系形态。2. 计算产量与生产费用之间的线性相关系数。
图7-1 原始数据
【实验步骤】
1.绘制产量与生产费用的散点图
(1)点击“图表向导”按钮,进入图表向导对话框。在图表向导第一步中,图表类型选择“XY散点图”,图表子类型选择“散点图”,点击“下一步”进入“源数据”对话框,如图7-2。在数据区域选项下:
数据区域:输入带分析数据区域的单元格引用$B$2:$C$13。
系列产生在:选择“列”,指出输入区域中的数据是按列排列。
图7-2 图表源数据对话框
(2)为了使散点图看上去美观些,可对散点图进行适当修改。点击“下一步”,则进入图表选项对话框,如图7-3。在“坐标”选项下,标注X轴的名称“产量”,及Y轴名称“生产费用”;在“图例”选项中取消“显示图例”;再点击“完成”按钮,得到散点图7-2。在“标题”选项下:“数值(X)Z轴”下空白处填写“产量”,在“数值(Y)轴”下填写“生产费用”。在“图例”选项下,取消“显示图例”。
图7-3 图表选项对话框
(3)单击“完成”按钮,输出结果见图7-4。
图7-4 产量与生产费用的散点图
从散点图可以看出,产量与生产费用之间存在较强的正相关关系。
2.计算产量与生产费用之间的线性相关系数。
(1)点击菜单“工具”→“数据分析”→“相关系数”→“确定”,出现“相关系数”对话框,如图7-5。
图7-5 “相关系数”对话框
输入区域:输入带分析数据区域的单元格引用$B$1:$C$13。
分组方式:单击“逐列”,指出输入区域中的数据是按列排列。
标志位于第一行:***包含标志项,因此选中“标志位于第一行”复选框。
输出区域:输入原始数据右边一个空格的引用$E$2。
新工作表组:单击此选项,可在当前工作薄中插入新的工作表,并由新工作表的A1单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。
新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。
(2)单击“确定”按钮,输出计算结果,如图7-6。
图7-6 相关系数计算结果
从图7-6可知,产量与生产费用直接的相关系数为0.920,两变量直接高度相关。EXCEL软件不提供相关系数的显著性检验功能,相关系数检验在下一案例中采用SPSS软件实现。
例2: 针对例1数据,采用SPSS软件完成以下任务:1.绘制产量与生产费用的散点图,判断二者之间的关系形态。2.计算产量与生产费用之间的线性相关系数。3.对相关系数的显著性进行检验(α=0.01),并说明二者之间的关系强度。
【实验步骤】
把EXCEL数据导入SPSS软件,建立原始数据文件,如图7-7。
图7-7 原始数据的SPSS文档
1.绘制产量与生产费用的散点图,判断二者之间的关系形态。
(1)单击“图形”菜单→“旧对话框”→“散点/点状”,进入“散点图/点图”对话框,选择“简单分布”图形,单击“定义”按钮,进入“简单散点图”对话框,如图7-8。
X轴和Y轴:分别设置散点图所代表的变量。本例把“产量”选入“X轴”,“生产成本”选入“Y轴”。
设置标志:在散点图中通过图例方式来标注散点图中的点,本例保留默认值。
标注个案:给散点图上的点添加文字标识,本例保留默认值。
面板依据:用于设置多组散点图,本例保留默认值。
图7-8 “简单散点图”对话框
(2)单击“确定”按钮,输出结果如图7-8。
图7-8 产量与生产成本散点图
从散点图可以看出,产量与生产费用之间存在较强的正相关关系。
2.计算产量与生产费用之间的线性相关系数
(1)单击“分析”→“相关”→“双变量”,进入“双变量相关”对话框,如图7-9。
图7-9 双变量相关对话框
相关系数:指相关系数的类型,本例选择Pearson。
显著性检验:制定对相关系数检验的类型。如果事先知道关联的方向,选择单侧检验。否则,选择双侧检验。
标记显著性相关:用“*”标识在显著性水平0.05下显著相关系数。用“**”标识在显著性水平0.01下显著相关系数。
(2)单击“确定”,输出结果见图7-10。
图7-10 相关系数及显著性检验结果
3.对相关系数的显著性进行检验(α=0.01),并说明二者之间的强度
从图7-10可知,产量与生产费用直接的相关系数为0.920,两变量直接高度相关。双尾检验的显著性概率为0.00,产量与生产成本在显著性水平0.01下相关。
例3:下图是20个城市写字楼出租率和每平方米月租金数据。设月租金为自变量,出租率为因变量,用EXCEL进行回归,并对结果进行解释和分析。
图7-11 出租率和租金原始数据
【实验步骤】
1.以出租率为因变量Y,每平方米租金为自变量X,建立一元线性回归模型:
Y=β0+β1X+ε
2.单击“工具”菜单→“数据分析”→“回归”→“确定”,进入“回归”对话框,如图7-12。
图7-12 “回归”对话框
Y轴输入区域:选取因变量出租率数据区域的单元格引用$B$2:$B$21。
X轴输入区域:选取因变量出租率数据区域的单元格引用$C$2:$CB$21。
置信度:选择默认置信度95%。
输出区域:选择空白单元格$E$1。
3.单击“确定”,输出运算结果见图7-13,7-14,和7-15。
图7-13 拟合优度指标
判定系数是度量回归直线拟合优度的指标。判定喜事R Square为0.632,表示在出租率取值的变差中,有63.2%可以由出租率与租金之间的线性关系来解释,或者说,在出租率取值的变动中,有63.2%是由租金所决定的。因此,出租率与租金之间有较强的线性关系。
判定系数的配方根Multiple R为0.795。在一元线性回归中,判定系数的配方根实际就是相关系数。相关系数为正,表明出租率与租金之间存在正的相关关系,相关系数小于0.8,两变量之间存在中度相关关系。
Adjusted R Square是修正的判定系数,是多元线性回归中的指标,一元线性回归不需要修正。
标准误差,也称估计标准误差,是对回归模型中残差ε的估计,也是度量回归直线拟合优度的指标。标准误差2.686,意味着根据租金来估计不良贷款时,平均的估计误差为2.686个百分点。
图7-14 方差分析表
方差分析表包含了自由度(df)、回归平方和、残差平方和、总平方和(SS)、回归和残差的均方(MS)、检验统计量(F)、F检验的显著性水平(Significance F)等内容。方程分析表给出了线性关系显著性检验的全部结果。F统计量的值为30.933,出现的概率Significance F为0.00,小于给定的显著性水平α=0.05,表明出租率与租金之间存在显著的线性关系。
图7-15 回归参数估计
回归参数估计部分内容包括了回归方程的截距(Intercep)、斜率(X Variable 1)、截距和斜率的标准误差、用于检验回归系数的 t统计量(t Stat)、和P值(P value),以及截距和斜率的置信区间(Lower 95%和Upper 95%)等。从上图可知,回归方程的常数项为49.318,X变量(租金)的系数为0.249。X变量回归系数显著性检验的t统计量为5.562,P值为0.00,因此,X变量的系数不为0,即租金是影响出租率的一个显著性因素。
例4:对上例数据,采用SPSS软件进行一元线性回归分析。
【实验步骤】
1.以出租率为因变量Y,每平方米租金为自变量X,建立一元线性回归模型:
Y=β0+β1X+ε
2.单击“分析”→“回归”→“线性”,进入“线性回归”对话框,如图7-16。把出租率选入因变量框,每平方米租金选入自变量框。
图7-16 “线性回归”对话框
方法:选择自变量进入方式,因为只有一个自变量,所以选择“进入”。
选择变量:选入一个筛选变量,并利用右侧的“规则”建立条件,只有满足这个条件的记录才会进入回归分析。
个案标签:选择一个变量,其取值作为每条记录的标签。
WLS权重:利用该按钮可进行加权最小二乘法的计算。
统计量:单击统计量按钮,打开如图7-17的对话框,该对话框用来定义输出各种常用判别统计量。
①选择“估计”输出回归系数、回归系数的标准差、对回归系数检验的t值、t值双侧检验的P值。
②选择“择置信区间”,输出每个非标准化回归系数的95%置信区间,置信水平可改动。本例保留默认状态。
③选择“协方差矩阵”,输出回归系数的方差。本例保留默认状态。
④选择“模型拟合度”,输出各种默认值,包括判定系数R2、调整的判定系数、回归方程的标准误差、回归方差显著性的F检验的方差分析表。
⑤选择“部分相关和偏相关性”,输出解释变量与被解释变量之间的相关系数。
⑥选择“Durbin-Watson”,判断相邻残差序列的相关性。
⑦选择“个案诊断”,进行样本奇异值判断,并在“离群值”的参数框中设置3,设置观测标准差大于等于3的奇异值。
⑧单击“继续”按钮返回。
图7-17 “线性回归:统计量”对话框
绘制:单击“绘制”按钮,弹出如图7-18所示对话框。该对话框主要通过图形进行残差序列分析。窗口左边各变量名的含义如下:“DEPENDNT”为解释变量,“*ZPRED”为标准化预测值,“*ZRESID”为标准化残差”,“*DRESID”为剔除残差,“*ADJPRED”为调整的预测值,“*SRESID”为学生会残差,“*SDRESID”为剔除学生化残差。
①选取“*ZRESID”为Y轴,“*ZPRED”为X轴绘制图形研究观察变量的分布规律、异常值,点击“下一张”可以选择其它组合进行观察。
②选择“直方图”输出带有正态曲线的标准化残差的直方图,观察残差序列是否服从正态分布。
③选择“正态概率图”输出标准化残差图,观察残差波动幅度。
④单击“继续”返回主对话框
图7-18 “线性回归:图”对话框
保存:单击“保存”按钮,弹出如图7-19的对话框,该对话框主要是在数据编辑窗口保存一些变量。
①在“预测值”选框中选择“未标准化”,输出由方程计算出的因变量的非标准化预测值。
②在“距离”选框中选择“Mahalanobis距离”,计算马氏距离;选择“Cook距离”,计算Cook距离;选择“杠杠值”,计算中性化杠杠值。这三个统计量的计算都是为了找到强影响点和高杠杠值。
③***选择“单某某”,输出个别值预测区间。
④在“残差”选框中选择“未标准化”,输出未标准化残差。
⑤在“影响统计量”选框中选择“DfBeta(B)”,输出因排除一个特定的观察值所引起的回归系数的变化值。
⑥在“系数统计”选框中选择“创建系数统计”,将回归系数保存在一个指定的文件中。
⑦“将模型信息输出到XML文件”可将模型信息输出到指定的文件夹中。
⑧单击“继续”,回到主对话框。
图7-19 “线性回归:保存”对话框
选项:单击“选项”按钮,弹出如图7-20对话框。
①在“步进方法标准”选框中,选择“使用F的概率”选项,采用F检验的概率值作为依据。系统默认“进入”值为0.05,“删除”值为0.10。当一个变量的Sig值小于等于进入值时,该变量被引入方程。当一个变量的Sig值大于等于删除值时,该变量从方程中剔除。
②选择“在等式中包含常量”选项,回归方程中加入常数项。
③在“缺失值选框中选择”按列表排除个案”,排除缺失值。
④单击“继续”,返回主对话框。
图7-20 “线性回归:选项”对话框
3. 单击“确定”,输出运算结果见图7-21,7-22,7-23。
图7-21 回归系数及其检验
非标准化系数下的B栏给出了线性回归方程的常数项为49.318,变量每平方米租金的系数为0.249。据此可以写成出租率与租金之间的直线回归模型:
Y=49.318+0.249X+ε
标准误差栏给出了回归系数的标准误差。用于检验回归系数的 t统计量的值为5.562,显著性概率为0.00,因此,自变量的系数不为0,租金是影响出租率的一个显著性因素。另外,输出结果中还给出标准系数,是标准化预测变量和响应变量后的回归系数。
图7-22 模型汇总
模型汇总给出了线性回归方程的判定系数R2=0.632,说明租金可以解释出租率63.2%的变差,方程拟合效果较好。判定系数的平方根R=0.795,为租金与出租率之间的相关系数,两变量为中等程度线性相关。调整R方值可忽略,在一元线性回归中,判定系数不需要修正。标准估计的误差2.686,意味着根据租金来估计不良贷款时,平均的估计误差为2.686个百分点。
图7-23 线性关系检验
线性回归方程显著性检验的统计量F=30.933,显著性概率0.000,因此,线性关系显著。
例5:一家房地产***想对某城市的房地产销售价格(Y)与地产估价(X1)、房产估价(X2)和使用面积(X3)建立一个模型,以便对销售价格做出合理解释。为此,收集了20栋住宅房地产评估数据。请使用SPSS软件进行回归分析,并解释结果。
【实验步骤】
1.以房地产销售价格为因变量Y,地产股价X1、房产股价X2和使用面积X3为自变量,建立多元线性回归模型:
Y=β0+β1X1+β2X2+β3X3+ε
图7-20 房地产价格原始数据
2.单击“分析”→“回归”→“线性”,弹出如图7-21的对话框。把销售价格选入因变量框,地产股价、房产股价和使用面积选入自变量框。
方法:“方法”下拉框有5个选项,代表5中回归方法。这几种回归方法均可选择,最后得出的有效回归表达式应当是相同的。本例选择“逐步”选项。
①“进入”是强行进入法,即所选自变量全部进入回归模型,该选项是默认方法。
②“删除”选项是消去法,建立回归方程时根据设定条件剔除部分自变量。
③“向后”选项是向后剔除法,先建立全模型,然后根据在“选项”对话框中所设定的判断依据,每次剔除一个最不符合进入模型判断依据的变量。
④“向前”选项是向前剔除法,模型开始时无自变量,根据“选项”对话框设定的判断依据,每次将一个最符合条件的变量进入模型。
⑤“逐步”是逐步回归法,是前向选择法与后向剔除法的结合。根据“选项”对话框设定的判断依据,选择符合条件且对因变量贡献最大的自变量进入回归方程。然后根据后续剔除法,将模型中F值最小且符合剔除判据的自变量剔除出模型。
图7-21 “线性回归”对话框
统计量:单击“统计量”按钮,弹出如图7-22的对话框,输出各种常用判别统计量。
①在“回归系数”框中,选择“估计”输出回归系数、回归系数的标准差、对回归系数检验的t统计量及P值。选择“置信区间”输出每个非标准化回归系数的95%置信区间。选择“协方差矩阵”输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。
②选择“模型拟合度”,输出各种默认值:判定系数、调整的判定系数、回归方程的标准误差、检验回归方程显著性的F检验的方差分析表。
③选择“R方某某”,输出回归方程中引入或剔除一个变量后R2的变化。
④选择“描述性”,输出合法观察量的数量、变量的平均值、标准差、相关系数矩阵及单侧检验显著性水平矩阵。
⑤选择“部分相关和偏相关性”,输出部分相关系数、偏相关系数与零阶相关系数。
⑥选择“共线性诊断”,输出用来诊断自变量共线性的各种统计量,如容忍度、方差膨胀因子、特征值、条件指标、方差比例等。其中容忍度Tolerance越接近于0,表示共线性越强。方差膨胀因子VIF的值越接近于1,解释变量之间的多重共线性越弱。
⑦在“残差”框中,选择“Durbin-Watson”选项,判断相邻残差序列的相关性。选择”个案诊断”,要求进行样本奇异值判断,并在“离群值”的参数框中键入3,设置观察标准差大于等于3的奇异值。
⑧单击“继续”,返回主对话框。
图7-22 “线性回归:统计量”对话框
绘制:单击“绘制”按钮,弹出如图7-22的对话框。该对话框主要通过图形进行残差序列分析。
①选取“*ZRESID”为Y轴,“*ZPRED”为X轴绘制图形研究观察变量的分布规律、异常值,点击“下一张”可以选择其它组合进行观察。
②选择“直方图”输出带有正态曲线的标准化残差的直方图,观察残差序列是否服从正态分布。
③选择“正态概率图”输出标准化残差图,观察残差波动幅度。
④单击“继续”返回主对话框
图7-22 “线性回归:图”对话框
保存:单击“保存”按钮,弹出如图7-23的对话框,该对话框主要是在数据编辑窗口保存一些变量。
①在“预测值”选框中选择“未标准化”,输出由方程计算出的因变量的非标准化预测值。
②在“距离”选框中选择“Mahalanobis距离”,计算马氏距离;选择“Cook距离”,计算Cook距离;选择“杠杠值”,计算中性化杠杠值。这三个统计量的计算都是为了找到强影响点和高杠杠值。
③***选择“单某某”,输出个别值预测区间。
④在“残差”选框中选择“未标准化”,输出未标准化残差。
⑤在“影响统计量”选框中选择“DfBeta(B)”,输出因排除一个特定的观察值所引起的回归系数的变化值。
⑥在“系数统计”选框中选择“创建系数统计”,将回归系数保存在一个指定的文件中。
⑦“将模型信息输出到XML文件”可将模型信息输出到指定的文件夹中。
⑧单击“继续”,回到主对话框。
图7-23 “线性回归:保存”对话框
选项:单击“选项”按钮,弹出如图7-24对话框。
①在“步进方法标准”选框中,选择“使用F的概率”选项,采用F检验的概率值作为依据。系统默认“进入”值为0.05,“删除”值为0.10。当一个变量的Sig值小于等于进入值时,该变量被引入方程。当一个变量的Sig值大于等于删除值时,该变量从方程中剔除。
②选择“在等式中包含常量”选项,回归方程中加入常数项。
③在“缺失值选框中选择”按列表排除个案”,排除缺失值。
④单击“继续”,返回主对话框。
图7-24 “线性回归:选项”对话框
3.单击“确定”,输出运算结果见图7-25,7-26,7-27,7-28。
图7-25 变量进入/剔除情况
从图7-25可知,首先进入方程的是房产估计变量,其次是使用面积变量,地产估价变量未能进入方程。
从图7-26给出了房产估价变量进入(模型1),及使用面积变量进入后(模型2)的回归模型拟合优度指标。最终回归模型的判断系数R2为0.881,修正的判断系数为0.867,说明房产估计与使用面积可以解释86.7%的变差,方程拟合效果非常好。标准估计误差为826.592,意味着根据房产估价与使用面积来估计销售价格时,平均的估计误差为826.592元。
图7-26 模型汇总
图7-27给出了模型1与模型2的线性关系显著性检验过程,包括回归平方和、残差平方和、总平方和、自由度、回归均方、残差均方、线性关系显著性检验的F统计量的值、及显著性概率值。本例线性关系显著性检验的F统计量值为63.092,显著性概率Sig为0.000,因此,线性关系显著。
图7-27 线性关系检验
图7-28给出了模型1及模型2 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。
10
68.5
125
学生实验二
下面是随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。要求:以销售价格为因变量,购进价格与销售费用为自变量进行多元线性回归分析。
【实验要求】
1.写成具体实验步骤;
2.对实验结果进行分析解释;
3.分析实验中碰到的问题及解决方法。
企业编号
销售价格
购进价格
销售费用
1
1238
966
223
2
1266
894
257
3
1200
440
387
4
1193
664
310
5
1106
791
339
6
1303
852
283
7
1313
804
302
8
1144
905
214
9
1286
771
304
10
1084
511
326
11
1120
505
339
12
1156
851
235
13
1083
659
276
14
1263
490
390
15
1246
696
316
[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《实验七 相关与回归分析》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。