实验七 相关与回归分析

本文由用户“dd92100”分享发布 更新时间:2021-08-14 20:24:20 举报文档

以下为《实验七 相关与回归分析》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

实验七 相关与回归分析

【实验目的】

1.学会使用EXCEL和SPSS软件进行相关与回归分析。

2.具备初步的运用相关与回归分析法解决实际问题的能力。

例1:从某一行业中随机抽取12家企业,所得产量与生产费用的数据如图7-1。要求采用EXCEL软件:1. 绘制产量与生产费用的散点图,判断二者之间的关系形态。2. 计算产量与生产费用之间的线性相关系数。



图7-1 原始数据

【实验步骤】

1.绘制产量与生产费用的散点图

(1)点击“图表向导”按钮,进入图表向导对话框。在图表向导第一步中,图表类型选择“XY散点图”,图表子类型选择“散点图”,点击“下一步”进入“源数据”对话框,如图7-2。在数据区域选项下:

数据区域:输入带分析数据区域的单元格引用$B$2:$C$13。

系列产生在:选择“列”,指出输入区域中的数据是按列排列。



图7-2 图表源数据对话框

(2)为了使散点图看上去美观些,可对散点图进行适当修改。点击“下一步”,则进入图表选项对话框,如图7-3。在“坐标”选项下,标注X轴的名称“产量”,及Y轴名称“生产费用”;在“图例”选项中取消“显示图例”;再点击“完成”按钮,得到散点图7-2。在“标题”选项下:“数值(X)Z轴”下空白处填写“产量”,在“数值(Y)轴”下填写“生产费用”。在“图例”选项下,取消“显示图例”。



图7-3 图表选项对话框

(3)单击“完成”按钮,输出结果见图7-4。



图7-4 产量与生产费用的散点图

从散点图可以看出,产量与生产费用之间存在较强的正相关关系。

2.计算产量与生产费用之间的线性相关系数。

(1)点击菜单“工具”→“数据分析”→“相关系数”→“确定”,出现“相关系数”对话框,如图7-5。



图7-5 “相关系数”对话框

输入区域:输入带分析数据区域的单元格引用$B$1:$C$13。

分组方式:单击“逐列”,指出输入区域中的数据是按列排列。

标志位于第一行:***包含标志项,因此选中“标志位于第一行”复选框。

输出区域:输入原始数据右边一个空格的引用$E$2。

新工作表组:单击此选项,可在当前工作薄中插入新的工作表,并由新工作表的A1单元格开始粘贴计算结果。如果需要给新工作表命名,可在右侧的编辑框中键入名称。

新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。

(2)单击“确定”按钮,输出计算结果,如图7-6。



图7-6 相关系数计算结果

从图7-6可知,产量与生产费用直接的相关系数为0.920,两变量直接高度相关。EXCEL软件不提供相关系数的显著性检验功能,相关系数检验在下一案例中采用SPSS软件实现。

例2: 针对例1数据,采用SPSS软件完成以下任务:1.绘制产量与生产费用的散点图,判断二者之间的关系形态。2.计算产量与生产费用之间的线性相关系数。3.对相关系数的显著性进行检验(α=0.01),并说明二者之间的关系强度。

【实验步骤】

把EXCEL数据导入SPSS软件,建立原始数据文件,如图7-7。



图7-7 原始数据的SPSS文档

1.绘制产量与生产费用的散点图,判断二者之间的关系形态。

(1)单击“图形”菜单→“旧对话框”→“散点/点状”,进入“散点图/点图”对话框,选择“简单分布”图形,单击“定义”按钮,进入“简单散点图”对话框,如图7-8。

X轴和Y轴:分别设置散点图所代表的变量。本例把“产量”选入“X轴”,“生产成本”选入“Y轴”。

设置标志:在散点图中通过图例方式来标注散点图中的点,本例保留默认值。

标注个案:给散点图上的点添加文字标识,本例保留默认值。

面板依据:用于设置多组散点图,本例保留默认值。



图7-8 “简单散点图”对话框

(2)单击“确定”按钮,输出结果如图7-8。



图7-8 产量与生产成本散点图

从散点图可以看出,产量与生产费用之间存在较强的正相关关系。

2.计算产量与生产费用之间的线性相关系数

(1)单击“分析”→“相关”→“双变量”,进入“双变量相关”对话框,如图7-9。



图7-9 双变量相关对话框

相关系数:指相关系数的类型,本例选择Pearson。

显著性检验:制定对相关系数检验的类型。如果事先知道关联的方向,选择单侧检验。否则,选择双侧检验。

标记显著性相关:用“*”标识在显著性水平0.05下显著相关系数。用“**”标识在显著性水平0.01下显著相关系数。

(2)单击“确定”,输出结果见图7-10。



图7-10 相关系数及显著性检验结果

3.对相关系数的显著性进行检验(α=0.01),并说明二者之间的强度

从图7-10可知,产量与生产费用直接的相关系数为0.920,两变量直接高度相关。双尾检验的显著性概率为0.00,产量与生产成本在显著性水平0.01下相关。

例3:下图是20个城市写字楼出租率和每平方米月租金数据。设月租金为自变量,出租率为因变量,用EXCEL进行回归,并对结果进行解释和分析。



图7-11 出租率和租金原始数据

【实验步骤】

1.以出租率为因变量Y,每平方米租金为自变量X,建立一元线性回归模型:

Y=β0+β1X+ε

2.单击“工具”菜单→“数据分析”→“回归”→“确定”,进入“回归”对话框,如图7-12。



图7-12 “回归”对话框

Y轴输入区域:选取因变量出租率数据区域的单元格引用$B$2:$B$21。

X轴输入区域:选取因变量出租率数据区域的单元格引用$C$2:$CB$21。

置信度:选择默认置信度95%。

输出区域:选择空白单元格$E$1。

3.单击“确定”,输出运算结果见图7-13,7-14,和7-15。



图7-13 拟合优度指标

判定系数是度量回归直线拟合优度的指标。判定喜事R Square为0.632,表示在出租率取值的变差中,有63.2%可以由出租率与租金之间的线性关系来解释,或者说,在出租率取值的变动中,有63.2%是由租金所决定的。因此,出租率与租金之间有较强的线性关系。

判定系数的配方根Multiple R为0.795。在一元线性回归中,判定系数的配方根实际就是相关系数。相关系数为正,表明出租率与租金之间存在正的相关关系,相关系数小于0.8,两变量之间存在中度相关关系。

Adjusted R Square是修正的判定系数,是多元线性回归中的指标,一元线性回归不需要修正。

标准误差,也称估计标准误差,是对回归模型中残差ε的估计,也是度量回归直线拟合优度的指标。标准误差2.686,意味着根据租金来估计不良贷款时,平均的估计误差为2.686个百分点。

图7-14 方差分析表

方差分析表包含了自由度(df)、回归平方和、残差平方和、总平方和(SS)、回归和残差的均方(MS)、检验统计量(F)、F检验的显著性水平(Significance F)等内容。方程分析表给出了线性关系显著性检验的全部结果。F统计量的值为30.933,出现的概率Significance F为0.00,小于给定的显著性水平α=0.05,表明出租率与租金之间存在显著的线性关系。

图7-15 回归参数估计

回归参数估计部分内容包括了回归方程的截距(Intercep)、斜率(X Variable 1)、截距和斜率的标准误差、用于检验回归系数的 t统计量(t Stat)、和P值(P value),以及截距和斜率的置信区间(Lower 95%和Upper 95%)等。从上图可知,回归方程的常数项为49.318,X变量(租金)的系数为0.249。X变量回归系数显著性检验的t统计量为5.562,P值为0.00,因此,X变量的系数不为0,即租金是影响出租率的一个显著性因素。

例4:对上例数据,采用SPSS软件进行一元线性回归分析。

【实验步骤】

1.以出租率为因变量Y,每平方米租金为自变量X,建立一元线性回归模型:

Y=β0+β1X+ε

2.单击“分析”→“回归”→“线性”,进入“线性回归”对话框,如图7-16。把出租率选入因变量框,每平方米租金选入自变量框。



图7-16 “线性回归”对话框

方法:选择自变量进入方式,因为只有一个自变量,所以选择“进入”。

选择变量:选入一个筛选变量,并利用右侧的“规则”建立条件,只有满足这个条件的记录才会进入回归分析。

个案标签:选择一个变量,其取值作为每条记录的标签。

WLS权重:利用该按钮可进行加权最小二乘法的计算。

统计量:单击统计量按钮,打开如图7-17的对话框,该对话框用来定义输出各种常用判别统计量。

①选择“估计”输出回归系数、回归系数的标准差、对回归系数检验的t值、t值双侧检验的P值。

②选择“择置信区间”,输出每个非标准化回归系数的95%置信区间,置信水平可改动。本例保留默认状态。

③选择“协方差矩阵”,输出回归系数的方差。本例保留默认状态。

④选择“模型拟合度”,输出各种默认值,包括判定系数R2、调整的判定系数、回归方程的标准误差、回归方差显著性的F检验的方差分析表。

⑤选择“部分相关和偏相关性”,输出解释变量与被解释变量之间的相关系数。

⑥选择“Durbin-Watson”,判断相邻残差序列的相关性。

⑦选择“个案诊断”,进行样本奇异值判断,并在“离群值”的参数框中设置3,设置观测标准差大于等于3的奇异值。

⑧单击“继续”按钮返回。



图7-17 “线性回归:统计量”对话框

绘制:单击“绘制”按钮,弹出如图7-18所示对话框。该对话框主要通过图形进行残差序列分析。窗口左边各变量名的含义如下:“DEPENDNT”为解释变量,“*ZPRED”为标准化预测值,“*ZRESID”为标准化残差”,“*DRESID”为剔除残差,“*ADJPRED”为调整的预测值,“*SRESID”为学生会残差,“*SDRESID”为剔除学生化残差。

①选取“*ZRESID”为Y轴,“*ZPRED”为X轴绘制图形研究观察变量的分布规律、异常值,点击“下一张”可以选择其它组合进行观察。

②选择“直方图”输出带有正态曲线的标准化残差的直方图,观察残差序列是否服从正态分布。

③选择“正态概率图”输出标准化残差图,观察残差波动幅度。

④单击“继续”返回主对话框



图7-18 “线性回归:图”对话框

保存:单击“保存”按钮,弹出如图7-19的对话框,该对话框主要是在数据编辑窗口保存一些变量。

①在“预测值”选框中选择“未标准化”,输出由方程计算出的因变量的非标准化预测值。

②在“距离”选框中选择“Mahalanobis距离”,计算马氏距离;选择“Cook距离”,计算Cook距离;选择“杠杠值”,计算中性化杠杠值。这三个统计量的计算都是为了找到强影响点和高杠杠值。

③***选择“单某某”,输出个别值预测区间。

④在“残差”选框中选择“未标准化”,输出未标准化残差。

⑤在“影响统计量”选框中选择“DfBeta(B)”,输出因排除一个特定的观察值所引起的回归系数的变化值。

⑥在“系数统计”选框中选择“创建系数统计”,将回归系数保存在一个指定的文件中。

⑦“将模型信息输出到XML文件”可将模型信息输出到指定的文件夹中。

⑧单击“继续”,回到主对话框。



图7-19 “线性回归:保存”对话框

选项:单击“选项”按钮,弹出如图7-20对话框。

①在“步进方法标准”选框中,选择“使用F的概率”选项,采用F检验的概率值作为依据。系统默认“进入”值为0.05,“删除”值为0.10。当一个变量的Sig值小于等于进入值时,该变量被引入方程。当一个变量的Sig值大于等于删除值时,该变量从方程中剔除。

②选择“在等式中包含常量”选项,回归方程中加入常数项。

③在“缺失值选框中选择”按列表排除个案”,排除缺失值。

④单击“继续”,返回主对话框。



图7-20 “线性回归:选项”对话框

3. 单击“确定”,输出运算结果见图7-21,7-22,7-23。



图7-21 回归系数及其检验

非标准化系数下的B栏给出了线性回归方程的常数项为49.318,变量每平方米租金的系数为0.249。据此可以写成出租率与租金之间的直线回归模型:

Y=49.318+0.249X+ε

标准误差栏给出了回归系数的标准误差。用于检验回归系数的 t统计量的值为5.562,显著性概率为0.00,因此,自变量的系数不为0,租金是影响出租率的一个显著性因素。另外,输出结果中还给出标准系数,是标准化预测变量和响应变量后的回归系数。



图7-22 模型汇总

模型汇总给出了线性回归方程的判定系数R2=0.632,说明租金可以解释出租率63.2%的变差,方程拟合效果较好。判定系数的平方根R=0.795,为租金与出租率之间的相关系数,两变量为中等程度线性相关。调整R方值可忽略,在一元线性回归中,判定系数不需要修正。标准估计的误差2.686,意味着根据租金来估计不良贷款时,平均的估计误差为2.686个百分点。



图7-23 线性关系检验

线性回归方程显著性检验的统计量F=30.933,显著性概率0.000,因此,线性关系显著。

例5:一家房地产***想对某城市的房地产销售价格(Y)与地产估价(X1)、房产估价(X2)和使用面积(X3)建立一个模型,以便对销售价格做出合理解释。为此,收集了20栋住宅房地产评估数据。请使用SPSS软件进行回归分析,并解释结果。

【实验步骤】

1.以房地产销售价格为因变量Y,地产股价X1、房产股价X2和使用面积X3为自变量,建立多元线性回归模型:

Y=β0+β1X1+β2X2+β3X3+ε



图7-20 房地产价格原始数据

2.单击“分析”→“回归”→“线性”,弹出如图7-21的对话框。把销售价格选入因变量框,地产股价、房产股价和使用面积选入自变量框。

方法:“方法”下拉框有5个选项,代表5中回归方法。这几种回归方法均可选择,最后得出的有效回归表达式应当是相同的。本例选择“逐步”选项。

①“进入”是强行进入法,即所选自变量全部进入回归模型,该选项是默认方法。

②“删除”选项是消去法,建立回归方程时根据设定条件剔除部分自变量。

③“向后”选项是向后剔除法,先建立全模型,然后根据在“选项”对话框中所设定的判断依据,每次剔除一个最不符合进入模型判断依据的变量。

④“向前”选项是向前剔除法,模型开始时无自变量,根据“选项”对话框设定的判断依据,每次将一个最符合条件的变量进入模型。

⑤“逐步”是逐步回归法,是前向选择法与后向剔除法的结合。根据“选项”对话框设定的判断依据,选择符合条件且对因变量贡献最大的自变量进入回归方程。然后根据后续剔除法,将模型中F值最小且符合剔除判据的自变量剔除出模型。

图7-21 “线性回归”对话框

统计量:单击“统计量”按钮,弹出如图7-22的对话框,输出各种常用判别统计量。

①在“回归系数”框中,选择“估计”输出回归系数、回归系数的标准差、对回归系数检验的t统计量及P值。选择“置信区间”输出每个非标准化回归系数的95%置信区间。选择“协方差矩阵”输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。

②选择“模型拟合度”,输出各种默认值:判定系数、调整的判定系数、回归方程的标准误差、检验回归方程显著性的F检验的方差分析表。

③选择“R方某某”,输出回归方程中引入或剔除一个变量后R2的变化。

④选择“描述性”,输出合法观察量的数量、变量的平均值、标准差、相关系数矩阵及单侧检验显著性水平矩阵。

⑤选择“部分相关和偏相关性”,输出部分相关系数、偏相关系数与零阶相关系数。

⑥选择“共线性诊断”,输出用来诊断自变量共线性的各种统计量,如容忍度、方差膨胀因子、特征值、条件指标、方差比例等。其中容忍度Tolerance越接近于0,表示共线性越强。方差膨胀因子VIF的值越接近于1,解释变量之间的多重共线性越弱。

⑦在“残差”框中,选择“Durbin-Watson”选项,判断相邻残差序列的相关性。选择”个案诊断”,要求进行样本奇异值判断,并在“离群值”的参数框中键入3,设置观察标准差大于等于3的奇异值。

⑧单击“继续”,返回主对话框。



图7-22 “线性回归:统计量”对话框

绘制:单击“绘制”按钮,弹出如图7-22的对话框。该对话框主要通过图形进行残差序列分析。

①选取“*ZRESID”为Y轴,“*ZPRED”为X轴绘制图形研究观察变量的分布规律、异常值,点击“下一张”可以选择其它组合进行观察。

②选择“直方图”输出带有正态曲线的标准化残差的直方图,观察残差序列是否服从正态分布。

③选择“正态概率图”输出标准化残差图,观察残差波动幅度。

④单击“继续”返回主对话框



图7-22 “线性回归:图”对话框

保存:单击“保存”按钮,弹出如图7-23的对话框,该对话框主要是在数据编辑窗口保存一些变量。

①在“预测值”选框中选择“未标准化”,输出由方程计算出的因变量的非标准化预测值。

②在“距离”选框中选择“Mahalanobis距离”,计算马氏距离;选择“Cook距离”,计算Cook距离;选择“杠杠值”,计算中性化杠杠值。这三个统计量的计算都是为了找到强影响点和高杠杠值。

③***选择“单某某”,输出个别值预测区间。

④在“残差”选框中选择“未标准化”,输出未标准化残差。

⑤在“影响统计量”选框中选择“DfBeta(B)”,输出因排除一个特定的观察值所引起的回归系数的变化值。

⑥在“系数统计”选框中选择“创建系数统计”,将回归系数保存在一个指定的文件中。

⑦“将模型信息输出到XML文件”可将模型信息输出到指定的文件夹中。

⑧单击“继续”,回到主对话框。



图7-23 “线性回归:保存”对话框

选项:单击“选项”按钮,弹出如图7-24对话框。

①在“步进方法标准”选框中,选择“使用F的概率”选项,采用F检验的概率值作为依据。系统默认“进入”值为0.05,“删除”值为0.10。当一个变量的Sig值小于等于进入值时,该变量被引入方程。当一个变量的Sig值大于等于删除值时,该变量从方程中剔除。

②选择“在等式中包含常量”选项,回归方程中加入常数项。

③在“缺失值选框中选择”按列表排除个案”,排除缺失值。

④单击“继续”,返回主对话框。



图7-24 “线性回归:选项”对话框

3.单击“确定”,输出运算结果见图7-25,7-26,7-27,7-28。



图7-25 变量进入/剔除情况

从图7-25可知,首先进入方程的是房产估计变量,其次是使用面积变量,地产估价变量未能进入方程。

从图7-26给出了房产估价变量进入(模型1),及使用面积变量进入后(模型2)的回归模型拟合优度指标。最终回归模型的判断系数R2为0.881,修正的判断系数为0.867,说明房产估计与使用面积可以解释86.7%的变差,方程拟合效果非常好。标准估计误差为826.592,意味着根据房产估价与使用面积来估计销售价格时,平均的估计误差为826.592元。



图7-26 模型汇总

图7-27给出了模型1与模型2的线性关系显著性检验过程,包括回归平方和、残差平方和、总平方和、自由度、回归均方、残差均方、线性关系显著性检验的F统计量的值、及显著性概率值。本例线性关系显著性检验的F统计量值为63.092,显著性概率Sig为0.000,因此,线性关系显著。



图7-27 线性关系检验

图7-28给出了模型1及模型2 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。

10

68.5

125





学生实验二

下面是随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。要求:以销售价格为因变量,购进价格与销售费用为自变量进行多元线性回归分析。

【实验要求】

1.写成具体实验步骤;

2.对实验结果进行分析解释;

3.分析实验中碰到的问题及解决方法。

企业编号

销售价格

购进价格

销售费用



1

1238

966

223



2

1266

894

257



3

1200

440

387



4

1193

664

310



5

1106

791

339



6

1303

852

283



7

1313

804

302



8

1144

905

214



9

1286

771

304



10

1084

511

326



11

1120

505

339



12

1156

851

235



13

1083

659

276



14

1263

490

390



15

1246

696

316





[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《实验七 相关与回归分析》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览