统计学知识点(完整)

本文由用户“shujukulove”分享发布更新时间：2021-08-15 05:26:57 举报文档

以下为《统计学知识点(完整)》的无排版文字预览，完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的，下载的文档就是什么样的。

基本统计方法

第一章概论

1. 总体（Population）：根据研究目的确定的同质对象的全体（集合）；样本（Sample）：从总体中随机抽取的部分具有代表性的研究对象。

2. 参数（Parameter）：反映总体特征的统计指标，如总体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic）：反映样本特征的统计指标，如样本均数、标准差等，采用拉丁字字母表示，是在参数附近波动的随机变量。

3. 统计资料分类：定量（计量）资料、定性（计数）资料、等级资料。

第二章计量资料统计描述

1. 集中趋势：均数（算术、几何）、中位数、众数

2. 离散趋势：极差、四分位间距（QR=P75-P25）、标准差（或方差）、变异系数（CV）

3. 正态分布特征：①X轴上方关于X=?对称的钟形曲线；②X=?时，f(X)取得最大值；③有两个参数，位置参数?和形态参数?；④曲线下面积为1，区间?±?的面积为68.27%，区间?±1.96?的面积为95.00%，区间?±2.58?的面积为99.00%。

4. 医学参考值范围的制定方法：正态近似法：；百分位数法：P2.5-P97.5。

第三章总体均数估计和假设检验

1. 抽样误差（Sampling Error）：由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可避免，产生的根本原因是生物个体的变异性。

2. 均数的标准误（Standard error of Mean, SEM）：样本均数的标准差，计算公式：。反映样本均数间的离散程度，说明抽样误差的大小。

3. 降低抽样误差的途径有：①通过增加样本含量n；②通过设计减少S。

4. t分布特征：

①单峰分布，以0为中心，左右对称；

②形态取决于自由度?，?越小，t值越分散，t分布的峰部越矮而尾部翘得越高；

③当?逼近∞,逼近, t分布逼近u分布，故标准正态分布是t分布的特例。

5. 置信区间（Confidence Interval, CI）：按预先给定的概率（1-?）确定的包含总体参数的一个范围，计算公式：或。95%CI含义：从固定样本含量的已知总体中进行重复抽样试验，根据每个样本可得到一个置信区间，则平均有95%的置信区间包含了总体参数。

6. 假设检验的基本原理：小概率反证法的思想。

①反证法：从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。

②小概率事件：在H0成立的条件下计算检验统计量，根据概率分布确定检验水准?下P值大小，判断是否为小概率事件（通常P≤?视为小概率事件，?通常取????），是则拒绝H0，接受H1；否则尚不能拒绝H0。

7. 假设检验一般步骤：①建立假设（反证法，H0和H1），确定检验水准（?）；②计算统计量：u, t，F；③确定概率值P，做出推断结论。

8. t检验需满足的条件：比较的两个样本相互独立、均服从正态分布。

9. P的含义：是指从H0规定的总体随机抽样，抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。

10. Ⅰ型错误（Type Ⅰ error）：拒绝了实际上成立的H0，这类“弃真”的错误称为Ⅰ型错误，Ⅰ型错误的大小为检验水准?。Ⅱ型错误（Type Ⅱ error）：接受了实际上不成立的H0，这类“存伪”的错误称为Ⅱ型错误，Ⅱ型错误的大小用?表示，1-?表示检验效能。?越小，?越大，增大样本量可以同时降低?和?。

11. 置信区间和假设检验的区别和联系：①可以通过判断置信区间是否包含零假设，判断单样本均数是否来自已知的总体；②置信区间不但能回答差别有无统计学意义，还可提示差别有无实际意义。③假设检验可提供置信区间不能提供的信息，如P值和检验效能等。

第四章方差分析

1. 方差分析的基本思想：根据研究目的和设计类型，把所有测量值的总变异按照处理因素和水平等分解成两部分（组内变异和组间变异）或更多部分，同时把对自由度相应进行分解，再进行比较，评价由处理因素引起的变异是否具有统计学意义。

2. 方差分析的应用条件：各样本是相互独立的随机样本，均来自正态分布的总体，各样本的总体方差相等（具有方差齐某某）。

3. 方差分析表：

变异来源

组间变异

g-1

a/(g-1)

MS组间/MS组内

组内变异

N-g

b/(N-g)

总变异

a+b

N-1

4. g=2时，随机区组设计的方差分析与配对设计资料t检验等价，。

5. 多个样本均数间的多重比较：①LSD-t检验，即最小显著差异t检验，适用于一对或几对在专业上有特殊意义的样本均数间的比较；②Dunnett-t检验：适用于g-1个实验组与一个对照组均数差别的多重比较；③SNK-q检验：适用于多个样本均数两两之间的全面比较。

第五章计数资料的统计描述

1. 相对数的类型：强度相对数（率，如死亡率、发病率等）；结构相对数（构成比）；相对比（如性别比等）

2. 应用相对数的注意事项：①结构相对数不能代替强度相对数；②计算相对数应有足够的数量；③正确计算合计率；④注意资料的可比性；⑤对比不同时期资料应注意客观条件是否相同；⑥样本率（或构成比）的抽样误差。

3. 标准化率（Standardization rate）：采用标准化法进行计算，消除数据内部构成的差异，使标化后的合计率具有可比性，这种经过标化后的合计率称为标准化率。

4. 标准化率的注意事项：①只适用于内部构成不同，影响总率的可比性的问题；②选择的标准不同，计算得到的标准化率也不同，多个标准化率比较时，应选同一标准；③标准化率已经不再反映当地的实际水平；④样本标准化率是样本值，存在抽样误差。比较两样本标准化率，当样本量较小时，需做假设检验。

第六章几种离散型变量的分布及应用

1. 二项分布X～B(n, ?)的适用条件：①每次试验只发生两种对立的可能结果之一；②每次试验产生某结果的概率?固定不变；③重复试验是相互独立的。

2. 二项分布的性质：①阳性次数X的总体均数（）、标准差（）；②样本率p的均数（）、标准差（，即率的标准误）。③二项分布的正态近似条件：np和n(1-p)均大于5。

3. 泊松分布X～P(?)的性质：①总体均数?和总体方差?2相等；②当n很大，?很小，且np=??为常数时，二项分布近似泊松分布；③?≥20时，泊松分布近似正态分布；④泊松分布具备可加性。

第七章 ?2检验

1. ?2检验的基本思想：根据?2分布特征，通过比较实际频数与理论频数的差异，确定在??成立的条件下该差异由抽样误差造成是否为小概率事件，进而判断差异是否具有统计学意义。?2值反映了实际频数与理论频数的吻合程度。

2. R×C列联表中的各格子T≥1，并且1≤T＜5的格子数不宜超过1/5格子总数，否则可能产生偏差。处理方法有三种：①增加样本量，使理论频数增大；②根据专业知识，删除或合并行列；③采用Fisher确切概率法分析。

3. 有序分组资料表线性趋势检验：

①双向无序的R×C列联表：多个样本率的比较采用R×C列联表的?2检验；两个分类变量的关联性分析则采用R×C列联表的?2检验和Pearson列联系数进行分析。

②单向有序的R×C列联表：行有序而列无序：R×C列联表的?2检验；行无序而列有序，采用Wilcoxon秩和检验。

③双向有序属性相同的R×C列联表：配对四格表的扩展，采用一致性检验（Kappa检验）。

④双向有序属性不同的R×C列联表：样本率的比较采用Wilcoxon秩和检验；相关性分析采用Spearman相关分析；线性变化趋势分析采用有序分组资料的线性趋势检验或CMH?2检验等。

第八章非参数检验

1. 秩和检验的适用范围：①总体分布偏态的计量资料；②数据两端有不确定值；③等级资料；④各组离散程度相差悬殊，总体方差不齐的资料。

2. 非参数检验对总体分布的形状差别不敏感，只对总体分布位置差别敏感；非参数检验没有充分利用资料信息，较参数检验的检验效低。故能用参数检验尽量采用参数检验，不满足参数检验条件才使用非参数检验。

3. 不同数据类型的统计分析路径：

（1）样本均数与总体均数的比较：正态，样本均数与总体均数的t检验；非正态，Wilcoxon符号秩检验。

（2）两样本均数比较：①独立正态：两独立样本t检验；②独立非正态：两独立样本的Wilcoxon秩和检验；③配对设计差值正态，配对t检验；④配对设计差值非正态，Wilcoxon符号秩检验。

（3）多样本均数比较：①独立正态（方差齐），方差分析；②独立非正态 Kruskal-Wails H检验；③非独立正态，重复测量资料的方差分析；④非独立非正态，Friedman M检验

第九章双变量回归和相关

1. 直线回归应满足的条件：自变量与因变量呈线性关系、观察值之间相互独立、因变量Y随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为：，为截距，为回归系数，回归系数的估计采用最小二乘法原则（Least Squares Method，使残差平方和最小）进行估计。

2. 决定系数（coefficient of determination）：回归平方和与总平方和的比值，R2=SS回/SS总。R2取值0～1之间无单位，其数值大小反映回归贡献的相对程度，即总变异中回归模型能够解释的百分比。

3. 秩相关的应用适用范围：（1）不服从双变量正态分布而不宜作Pearson相关分析；（2）总体分布型未知；（3）等级资料的相关分析。

4. 相关与回归的区别与联系区别

（1）区别：

① 资料：回归分析资料要求Y为正态随机变量，X为选定变量；相关分析资料X、Y服从双变量正态分布。

② 应用：回归分析是由一个变量值推算另一个变量值（依存关系）；相关分析只反映两个变量间的相互关系。

③ 回归系数b与原度量单位有关，而相关系数r无关。b的绝对值越大，回归直线越陡，即X变化1个单位时Y的平均变化越大；r的绝对值越大，所有点越趋近于一条直线，两变量的关系越密切，相关度越高。

（2）联系：

① r与b值可相互换算，；

② r与b正负号一致；

③ r与b的假设检验等价：对于同一资料，检验完全等价；

④ 回归可解释相关。相关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比（SS回/SS总）。

5. 应用直线回归时的注意事项

（1）作回归分析要有实际意义，不能把毫无关联的两种现象作回归分析，必须对两种现象间的内在联系有所认识。

（2）在进行直线回归分析之前，应绘制散点图，当观察点的分布有直线趋势时，才适宜作直线回归分析，散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数（a、b）的估计产生较大影响。因此，需对异常点进行复查。

（3）建立直线回归方程后，要对系数进行假设检验，以确定回归方程有无意义。

（4）直线回归方程的适用范围一般以自变量的取值范围为限，避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。

第十章统计表和统计图

1. 统计表的基本要求

（1）标题：概括表的主要内容（时间、地点、研究内容等），放在表的上方。表编号与标题间间隔一个汉字距离；如整个表指标统一，还应将指标的单位某某在标题后面。

（2）标目：分别用横标目和纵标目说明每行和每列内容或数字的意义，标明指标的单位。通常描述的对象为横标目，内容（指标）为纵标目，从左向右读可以构成完整的一句话。

（3）线条：至少用3条线：顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开，纵标目线将标目的文字区与表格的数字区隔开，还可用横线将合计和两重纵标目隔开，其他竖线和斜线一概省去。顶线和底线线条粗细一般为1.5磅，其他线条一般为0.5磅。

（4）数字：用阿拉伯数字表示。无数字用“—”表示，缺失数字用“…”表示，数值为0者记为“0”，不留空项。数字按小数点位数对齐，同一指标最好保留相同位数的小数位数。

（5）备注：表中数字区不要插入文字。必须说明者表“*”，在表下方以备注的形式说明。

高级统计方法

第十二章重复测量资料的方差分析

1. 重复测量设计与随机区组设计的区别：（1）重复测量设计中“处理”是在区组（受试者）间随机分配，区组内的各时间点是固定的，不能随机分配；（2）重复测量设计区组内实验单位彼此不独立；

2. 球对称（sphericity）：所有两两时间点变量间差值对应的方差相等，即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。

3. 重复测量资料方差分析的资料条件：

（1）正态性：处理因素的各水平样本个体间是相互独立的随机样本，其总体均数服从正态分布（个体间独立，个体内不独立）；

（2）方差齐某某：相互比较的各处理水平的总体方差相等，即具有方差齐某某；

（3）各时间点组成的协方差阵具有球形性特征。

第十五章多元线性回归分析

1. 偏回归系数（partial regression coefficient）：多元线性回归模型中自变量Xj的系数?j，表示在其他自变量保持不变时，Xj增加或减少一个单位是Y的平均变化量。

2. 复相关系数（multiple correlation coefficient）：，表示因变量Y与多个自变量的线性相关程度，也是观察值Y与估计值之间的相关程度。若只有一个自变量，。

3. 标准化回归系数：对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数，，用来比较各个自变量对Y的影响强度，在有统计学意义的前提下，标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。

4. 多元线性回归模型（）应满足的条件：① Y与X1，X2，…，Xm之间具有线性关系；② 各例观察值Yi相互独立；③ 残差e服从正态分布。

5. 哑变量（dummy variable）：在多元线性回归模型中，当自变量为多分类变量（g个水平）时，需要将原来的多分类变量转化为（g-1）个哑变量并进行编码，每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意：① 哑变量同时存在，其统计学意义是相对而言的，不能采用常规的逐步回归进行变量选择；②可采用加与不加入哑变量的偏回归平方和F检验确定哑变量有无意义。

6. 多重共线性（collinearity）：某些自变量间存在较强的线性关系，使得一个或几个自变量可以由另外的自变量的线性关系表示，则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。

7. 交互作用：当某一自变量对因变量的作用大小与另一自变量的取值有关，则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用，普遍的做法是在模型中加入它们的乘积项（作为交互项）。

8. 线性回归分析的SAS结果解释：

（1）线性回归方程：；

（2）该线性回归模型的统计学检验结果：模型的方差分析统计量F=6.91，P=0.0303＜0.05，说明该线性回归模型具有统计学意义。

（3）R-Square=0.46353的意义：该线性回归模型可以解释因变量Y的总变异的46.353%；

（4）回归系数估计值b=0.99733的意义：表示X对Y影响的大小，X每改变一个单位，Y改变0.99733个单位；其假设检验结果合方差分析结果的联系：方差分析结果说明X与Y之间存在的线性关系，t检验结果说明计算得到的回归系数b有统计学意义，在此问题中，二者是等价的，均说明该回归模型具有统计学意义。

（5）相关系数及其检验结果并解释该结果：r=0.68073，对r进行t检验得到P=0.0303＜0.05，则该相关系数具有统计学意义，说明X与Y之间具有中等强度的正相关关系。

第十六章 Logistic回归分析

1. logistic回归模型一般形式：。将某事件的阳性与阴性结果概率之比去自然对数称为logit变换，记为logit (P)。

2. 回归系数采用最大似然估计（maximum likelihood estimate, MLE，使在一次抽样中获得现有样本的概率最大）得到表示自变量Xj改变一个单位时logit P的改变量。多变量调整后的优势比，表示扣除了其他自变量的影响后危险因素的作用。ORj=1，说明Xj对疾病发生不起作用ORj＞1，说明Xj是一个危险因素；ORj＜1，说明Xj是一个保护因素，ORj的可信区间为：。

3. logistic回归模型假设检验的方法：似然比法（，适合单个和多个自变量的假设检验）、Wald检验（或，适合单个自变量的假设检验）和计分检验（适合样本量较小的情况）。变量筛选的方法：前进法、后退法、逐步法。

4. 条件logistic回归：适用于1:M配对设计资料，条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率，它只估计了表示危险因素作用的，表示匹配组效应的常数项被消去。

5. 有序logistic回归基于累积概率构建回归模型，g个类别的因变量Y的有序logistic回归包括g-1个方程，这些方程的回归系数均相同，差别主要体现在各方程的常数项不同。在对因变量Y赋值时，应将专业上最不利的等级赋最小值，最有利的等级赋最大值。

6. 多分类logistic回归是二分类logistic回归的扩展，即选择一个参照类别，拟合剩余各类别相对于参照类别的logistic回归模型。

第十七章生存分析

1. 生存分析的数据特点：（1）同时考虑生存时间和生存结局；（2）通常含有删失数据（censoring，可能的原因：①研究截止但终点事件仍未出现；②失去联系或其他原因导致失访；③死于其他“事件”）；（3）生存时间的分布通常不服从正态分布。

2. 统计学分析方法：由于生存时间一般不呈正态分布，且需考虑是否为删失值，所以生存分析有其独特的统计方法。

（1）非参数法：

① 生存率的估计采用Kaplan-Meier法、寿命表法（频数表资料）；

② 两组或多组生存率的比较，常用log-rank检验（时序法，权重，对观察后期差别敏感）和Breslow检验（权重，为期初人数，随生存时间增大而逐渐减小，Breslow检验给观察早期差别更大权重，故对观察早期差别敏感）。

（2）半参数法：多因素生存分析常某某Cox比例风险模型（前提条件：假定风险比值h(t)/h0(t)为固定值，即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法：①分类协变量每组的K-M生存曲线无交叉；②协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法）。

（3）参数法：指数分布法、Weibull分布法等回归模型。

3. 多元线性回归、logistic回归和Cox回归的相同点和不同点

（1）相同点：

① 自变量可为连续变量和多分类变量，多分类变量需哑变量化，哑变量在模型中是一个整体，必须同时“进”同时“出”；

② 自变量间存在较强相关关系时可能导致多重共线性问题；

③ 自变量间可能存在交互作用，模型中通常某某自变量的乘积作为交互项；

④ 均可采用逐步回归筛选变量；

⑤ 均可进行影响因素分析、混杂因素校正、预测分析等。

（2）不同点：

第十八、十九章判别分析和聚类分析

1. 判内容过长，仅展示头部和尾部部分文字预览，全文请查看图片预览。、以及容许误差d来确定样本含量。

6. 常用的随机抽样方法：单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。

7. 对照类型：、空白对照、实验对照、标准对照、相互对照、自身对照

诊断试验评价与ROC分析

1. 常用指标：正确百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。

诊断结果 (T)

金某某（D）

合计

病例（D+）

对照(D-)

阳性（T+）

TP(真阳性)

FP(假阳性)

TP+FP

阴性（T-）

FN(假阴性)

TN(真阴性)

FN+TN

合计

TP+FN

FP+TN

2. ① 灵敏度与特异度取值范围均在0～1之间，其值不受患病率的影响；② Youden指数的取值范围在0～1之间，其值越接近于1，诊断准确性越好；③ 阳性似然比的取值范围为（0, ∞），其值越大，检测方法证实疾病的能力越强；④ 阴性似然比的取值范围为（0, ∞），其值越小，检测方法排除疾病的能力越好；⑤ 当灵敏度与特异度为常数时，增加患病率将增加阳性预测值，而降低阴性预测值。

[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

以上为《统计学知识点(完整)》的无排版文字预览，完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的，下载的文档就是什么样的。

统计学知识点(完整)

图片预览

热门关注

相关下载