临床医学ppt课件:方差分析 .ppt
http://www.100md.com
参见附件(139KB)。
方差分析 ANOVA
助教李婕
2003年11月21日
已经学过的知识
* 一位研究者对长子与次子的心理特征感兴趣。他在一年级大学生中随机抽取了10个长子和20个非长子对其施测自尊量表。10个长子在量表上的平均分是X = 48, SS=670。 20个非长子的平均分是X = 41, SS=1010。这些数据表明两组间是否有显著差异?用α= .01 的显著性水平作假设检验。
一个新的情境
* 一位研究者感兴趣影响儿童阅读能力的因素.研究者认为儿童的年龄和每次阅读时间可能是重要的影响因素。研究者设计了以下实验:选取三个年龄组的儿童: 3 岁, 8 岁, 和 14 岁.将每个年龄组的儿童随机分配到三个阅读条件. 组 1阅读时间为 5 分钟; 组 2为15 分钟; 对于组 3为30 分钟.两个星期之后测试了这些儿童的阅读能力。
分析
* t-检验和 z-检验不能用于多于 2 组的数据. 处理这类数据需要用一种新的推论统计程序: 方差分析 (ANOVA). (为什么)
这次课的内容
* 最基本的ANOVA.集中讨论单因素, 独立测量的研究设计.
* 1. ANOVA的简介
* 2.ANOVA的逻辑
* 3. ANOVA的符号.
* 4. ANOVA的过程和例题
* 5. 事后检验
ANOVA简介(1)
* 方差分析即analysis of variance,简称ANOVA。
* 功能:分析实验数据中不同来源的变异对总变异的贡献大小,确定实验中的自变量是否对因变量有重要影响。
方差的来源
什么造成样本的不同(处理间变异)
- 处理/组效应 - 处理造成的差异
个体差异效应 - 个体差异变异
- 随机误差
* 每一个样本内部的变异 (处理内变异)
- 个体差异效应
随机误差
ANOVA简介(2)
* 在方差分析中, 自变量称为因素.
-包含一个自变量的研究称为单因素设计(single-factor design).
- 具有多于一个自变量研究称为因素设计(factorial design).
* 构成因素的个别处理条件称为因素的水平
ANOVA简介(3)
* ANOVA能够处理数据的类型:
- 两个自变量 (称为因素): 年龄和阅读时间,都是组间 (独立样本) 变量.
- 包含组内 (重复测量) 因素的研究设计
- 同时包含组间和组内因素的混合设计(e.g. 假设上例中我们用同一些儿童作纵向研究。年龄是组内变量,阅读时间是组间变量).
* 上述研究称为因素设计, 两个组间因素,每一个因素有 3 个水平 (称为 3 X 3 组间设计).
ANOVA逻辑
* 与假设检验的逻辑是同样的, 只是具体内容有变化
* step 1: 陈述 H0 (和H1) ,确定标准: ? = ?
step 2: ANOVA 检验总是 单尾(不同之处)
* step 3: 指出检验的df (有两个 df)
step 4: 查表找出临界 F统计量
* step 5: 对于样本,计算 F统计量
step 6: 比较 F统计量 和临界 F统计量
step 7: 对于H0 作出结论
单因素, 独立测量研究设计的例子
* 检验三个不同的学习方法的效应。将学生随机分配到3个处理组
* 方法 A:让学生只读课本, 不去上课.
* 方法 B:上课,记笔记,不读课本.
* 方法 C:不读课本,不去上课, 只看别人的笔记
单因素, 独立测量研究设计的例子
* Step 1: 陈述假设和设定标准 (选择 ?)
* H0: ?1 = ?2 = ?3
* H1: 其中一个组与另一个(或更多)的组均值不同。备择假设 可能的形式很多:
* ?1不等于 ?2 = ?3
?1 = ?3 不等于 ?2
?1 = ?2 不等于 ?3
?1 不等于 ?2 不等于 ?3
* 因此,只需给出虚无假设就够了
单因素, 独立测量研究设计的例子
* step 2: ANOVA 检验总是单尾. 因为不存在负的方差. F分布表也只有单侧的Alpha.(F分布图)
* step 3: 找出检验的 df. 注意要考虑几个 df
* step 4: 从表找出临界 F统计量
* step 5:计算样本 的F统计量观测值
* step 6:比较 F统计量的观测值与临界 F统计量 如果 F统计量的观测值 (Fobs) 在统计上显著地大于 1.0 则拒绝 H0
单因素, 独立测量研究设计的例子
* F<或=1, 即MS组间/ MSw组内<1,说明数据的总变异由分组不同造成的变异只占很小的部分,大部分是由试验误差何个体差异所致,就是说不同的实验处理之间变异不大,或者说试验处理基本无效。
* F>1而且落入F分布的临界区,说明实验数据的变异由不同的实验处理所造成,即不同的试验处理之间有差异。
ANOVA的专用符号
* K = 处理条件(或组)的数目
n =每一个组的数目(如果它们相等)
ni = 第i组的数目(如果 它们不等)
N = ?ni = 总的样本容量
Ti = ?Xij
G = ?Xij =总的和
G-bar = G / N = 总的均值
SSi = 每一个组的和方 = ?(Xij - i)2
* ?X2=106
G=30=总的和
* N=15=总的样本容量
G-bar=30/15=2= 总的均值
K = 3 =处理条件 (或组)
ANOVA的过程
* F比率 = 处理间方差 /处理内方差( 需要找出两个方差. )
* 最基本公式s2 = SS/df.
* SS和 = ?X2 - (G2/N)
* SS和= 106 - (302/15) =106 - 60 = 46
* 需要将其分解为组间变异和组内变异.
* SS和 = SS组间 + SS组内
* 如何得到SS组内? 将每一个组SS相加
* SSwithin = ?SS每一个 处理内部 = ?SSi= 6 + 6 + 4 = 16
* 如何得到SS组间?
* 快捷的方法是:
* SS和- SS组内
注意
* 不推荐用这种方法,* 因为:
* 无法检查计算错误
* 未涉及SS组间 是如何组成.
直接计算 SS组间的两个公式 :定义公式和计算公式
* 定义公式:SS间 = ?[ni( X-bar- G-bar)2]
= 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2
= 5 + 20 + 5
= 30
* 计算公式:SS间 = ?(T2/ni) - G2/N
= 52/5 + 202/5 + 52/5 - 302/15
= 5 + 80 + 5 - 60
= 30
* SS和 = SS组间 + SS组内= 16 + 30 = 46
* s2 = SS/df.
df
* 共有两个 (或三个) 自由度, 一个组间方差df,一个组内方差df (以及一个总的 df).
* df和 = N - 1
* df组内 = = N - K
* df组间= K - 1
* df和 = df组内 + df组间
df
* 在例子中:
* df组内 = 15 - 3 = 12
* df组间= 3 - 1 = 2
* df和= 15 - 1 = 14, = 12 + 2
均方:计算方差.
* 方差 = 均方 = MS = SS/df
* MS组间= SS组间/df组间
* --> 上例中 = 30/2 = 15
* MS组内=误差的均方= SS组内/df组内
* --> 上例中 = 16/12 = 1.33
F比率
* F比率 =处理间方差/处理内方差
= MS组间/ MSw组间
* 上例中的F比率是: 15/1.33 = 11.28
查 F表 确定 Fcrit 对假设作出结论
* df组间 = 分子的df
df组内 = 分母的df (误差)
* --> 上例中: df组内 = 12; df组间 = 2
* 如果选择 ? = .05, Fcrit = 3.88
如果选择 ? = .01, Fcrit = 6.93
* F比率的观测值11.28> Fcrit., 所以拒绝 H0 (?1 = ?2 = ?3).
* 报告结果
* F(df组间,df组内) = Fobs, p < ?
报告结果
* 单因素方差分析发现学习方法有显著的效应, F(2,12) = 11.28, p < 0.01.
事后检验(Post hoc tests)1
* ANOVA 的结果是检验H0: ?1 = ?2 = ?3 ,并未提供哪个备择假设得到支持. 也就是说, 只知道一些组与其它组不同, 但并知道差别在哪些组之间.
* 所以从ANOVA得到显著差异的结果 (拒绝H0)后,一定要做作事后检验.
* 事后检验 使我们能够比较各组, 发现差异产生在什么地方.
* 事后检验就是比较每一个处理组与另一个处理组, 一次比较两个. 这称为成对比较.
事后检验(Post hoc tests)2
* 在上例中, 可以比较 ?1 与 ?2, ?1与?3, 以及 ?2与?3.
* 这样的做法有没有问题?
* 每一个比较 都是一个单独的假设检验, 每一个都有犯I类错误的风险. 所以,比较对数越多, 作结论的风险越大。即容易发现实际不存在的差异。 这称为实验导致的(experimentwise)alpha 水平 (或族系(familywise) 误差)
事后检验(Post hoc tests)3
* αEW = 1 - (1 - a)cc = 比较对数
- 对于上述例子, 如果选择 ? = 0.05 作3 对比较
- αEW = 1 - (1 - a)c = 1 - (.95)3 = 1 - .857 = .143
* I类错误的机会增加到14.7%而不再是5%,多数事后检验设计中都控制了实验导致误差.
事后检验(Post hoc tests)4
* 介绍两个事后检验: Tukey's HSD 检验 (honestly差异显著性) 检验和 Scheff 检验.
a) Tukey's HSD 检验
* 可以计算出单一的值确定处理均值间的最小差异,考查此差异在统计上是否显著.
* 此检验要求各组有相等的样本容量.
* HSD = q * sqrt(MS组内/n)
* q 值 可以从表中查出(附表6). 需要用到K和 df组内, 以及αEW
举例
* 在上例中 (用αEW = .05):
* HSD = q * sqrt(MS组内/n)=(3.77) sqrt(1.33/5) = (3.77)(.516) = 1.94
* 比较 1: H0: ?1 = ?2
* 2 -1 = 4.0 - 1.0 = 3.0
* HSD = 1.94 < 3.0,拒绝 H0
* 比较 2: H0: ?1 = ?3
* 3 -1 = 1.0 - 1.0 = 0.0
* HSD = 1.94 > 0.0,不能 拒绝 H0
* 比较 3: H0: ?2 = ?3
* 2 -3 = 4.0 - 1.0 = 3.0
* HSD = 1.94 < 3.0, 拒绝 H0
* 所以 B 与 A 和 C不同,而A 与 C 没有差异
b) Scheff?检验
* 用F比率检验差异. 这是最保守的检验 (降低 I类错误的风险, 但增加II类错误的风险). 特别适用于n 不等的情况
* 重新计算 MS组间, 每次只检验一个比较.注意:用整体的 df组间 和整体的MS组内.
举例:比较 1
* H0: ?1 = ?2
* SS组间 == 52/5+202/5-252/10 = 22.5
* MS组间 = = 22.5/2 = 11.25
* MS组内 = = 16/12 = 1.33
* F比率 = MS间/MS组内= 11.25/1.33 = 8.46
* 查 F表. ? = .05, Fcrit(2,12) = 3.88
* 8.46 > 3.88, 拒绝 H0
举例:比较 2
* H0: ?1 = ?3
* SS组间== 52/5+52/5-102/10= 0
* MS组间 =0/2 = 0
* MS组内 =16/12 = 1.33
* F比率 = MS间/MS组内= 0/1.33 = 0......(后略) ......
方差分析 ANOVA
助教李婕
2003年11月21日
已经学过的知识
* 一位研究者对长子与次子的心理特征感兴趣。他在一年级大学生中随机抽取了10个长子和20个非长子对其施测自尊量表。10个长子在量表上的平均分是X = 48, SS=670。 20个非长子的平均分是X = 41, SS=1010。这些数据表明两组间是否有显著差异?用α= .01 的显著性水平作假设检验。
一个新的情境
* 一位研究者感兴趣影响儿童阅读能力的因素.研究者认为儿童的年龄和每次阅读时间可能是重要的影响因素。研究者设计了以下实验:选取三个年龄组的儿童: 3 岁, 8 岁, 和 14 岁.将每个年龄组的儿童随机分配到三个阅读条件. 组 1阅读时间为 5 分钟; 组 2为15 分钟; 对于组 3为30 分钟.两个星期之后测试了这些儿童的阅读能力。
分析
* t-检验和 z-检验不能用于多于 2 组的数据. 处理这类数据需要用一种新的推论统计程序: 方差分析 (ANOVA). (为什么)
这次课的内容
* 最基本的ANOVA.集中讨论单因素, 独立测量的研究设计.
* 1. ANOVA的简介
* 2.ANOVA的逻辑
* 3. ANOVA的符号.
* 4. ANOVA的过程和例题
* 5. 事后检验
ANOVA简介(1)
* 方差分析即analysis of variance,简称ANOVA。
* 功能:分析实验数据中不同来源的变异对总变异的贡献大小,确定实验中的自变量是否对因变量有重要影响。
方差的来源
什么造成样本的不同(处理间变异)
- 处理/组效应 - 处理造成的差异
个体差异效应 - 个体差异变异
- 随机误差
* 每一个样本内部的变异 (处理内变异)
- 个体差异效应
随机误差
ANOVA简介(2)
* 在方差分析中, 自变量称为因素.
-包含一个自变量的研究称为单因素设计(single-factor design).
- 具有多于一个自变量研究称为因素设计(factorial design).
* 构成因素的个别处理条件称为因素的水平
ANOVA简介(3)
* ANOVA能够处理数据的类型:
- 两个自变量 (称为因素): 年龄和阅读时间,都是组间 (独立样本) 变量.
- 包含组内 (重复测量) 因素的研究设计
- 同时包含组间和组内因素的混合设计(e.g. 假设上例中我们用同一些儿童作纵向研究。年龄是组内变量,阅读时间是组间变量).
* 上述研究称为因素设计, 两个组间因素,每一个因素有 3 个水平 (称为 3 X 3 组间设计).
ANOVA逻辑
* 与假设检验的逻辑是同样的, 只是具体内容有变化
* step 1: 陈述 H0 (和H1) ,确定标准: ? = ?
step 2: ANOVA 检验总是 单尾(不同之处)
* step 3: 指出检验的df (有两个 df)
step 4: 查表找出临界 F统计量
* step 5: 对于样本,计算 F统计量
step 6: 比较 F统计量 和临界 F统计量
step 7: 对于H0 作出结论
单因素, 独立测量研究设计的例子
* 检验三个不同的学习方法的效应。将学生随机分配到3个处理组
* 方法 A:让学生只读课本, 不去上课.
* 方法 B:上课,记笔记,不读课本.
* 方法 C:不读课本,不去上课, 只看别人的笔记
单因素, 独立测量研究设计的例子
* Step 1: 陈述假设和设定标准 (选择 ?)
* H0: ?1 = ?2 = ?3
* H1: 其中一个组与另一个(或更多)的组均值不同。备择假设 可能的形式很多:
* ?1不等于 ?2 = ?3
?1 = ?3 不等于 ?2
?1 = ?2 不等于 ?3
?1 不等于 ?2 不等于 ?3
* 因此,只需给出虚无假设就够了
单因素, 独立测量研究设计的例子
* step 2: ANOVA 检验总是单尾. 因为不存在负的方差. F分布表也只有单侧的Alpha.(F分布图)
* step 3: 找出检验的 df. 注意要考虑几个 df
* step 4: 从表找出临界 F统计量
* step 5:计算样本 的F统计量观测值
* step 6:比较 F统计量的观测值与临界 F统计量 如果 F统计量的观测值 (Fobs) 在统计上显著地大于 1.0 则拒绝 H0
单因素, 独立测量研究设计的例子
* F<或=1, 即MS组间/ MSw组内<1,说明数据的总变异由分组不同造成的变异只占很小的部分,大部分是由试验误差何个体差异所致,就是说不同的实验处理之间变异不大,或者说试验处理基本无效。
* F>1而且落入F分布的临界区,说明实验数据的变异由不同的实验处理所造成,即不同的试验处理之间有差异。
ANOVA的专用符号
* K = 处理条件(或组)的数目
n =每一个组的数目(如果它们相等)
ni = 第i组的数目(如果 它们不等)
N = ?ni = 总的样本容量
Ti = ?Xij
G = ?Xij =总的和
G-bar = G / N = 总的均值
SSi = 每一个组的和方 = ?(Xij - i)2
* ?X2=106
G=30=总的和
* N=15=总的样本容量
G-bar=30/15=2= 总的均值
K = 3 =处理条件 (或组)
ANOVA的过程
* F比率 = 处理间方差 /处理内方差( 需要找出两个方差. )
* 最基本公式s2 = SS/df.
* SS和 = ?X2 - (G2/N)
* SS和= 106 - (302/15) =106 - 60 = 46
* 需要将其分解为组间变异和组内变异.
* SS和 = SS组间 + SS组内
* 如何得到SS组内? 将每一个组SS相加
* SSwithin = ?SS每一个 处理内部 = ?SSi= 6 + 6 + 4 = 16
* 如何得到SS组间?
* 快捷的方法是:
* SS和- SS组内
注意
* 不推荐用这种方法,* 因为:
* 无法检查计算错误
* 未涉及SS组间 是如何组成.
直接计算 SS组间的两个公式 :定义公式和计算公式
* 定义公式:SS间 = ?[ni( X-bar- G-bar)2]
= 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2
= 5 + 20 + 5
= 30
* 计算公式:SS间 = ?(T2/ni) - G2/N
= 52/5 + 202/5 + 52/5 - 302/15
= 5 + 80 + 5 - 60
= 30
* SS和 = SS组间 + SS组内= 16 + 30 = 46
* s2 = SS/df.
df
* 共有两个 (或三个) 自由度, 一个组间方差df,一个组内方差df (以及一个总的 df).
* df和 = N - 1
* df组内 = = N - K
* df组间= K - 1
* df和 = df组内 + df组间
df
* 在例子中:
* df组内 = 15 - 3 = 12
* df组间= 3 - 1 = 2
* df和= 15 - 1 = 14, = 12 + 2
均方:计算方差.
* 方差 = 均方 = MS = SS/df
* MS组间= SS组间/df组间
* --> 上例中 = 30/2 = 15
* MS组内=误差的均方= SS组内/df组内
* --> 上例中 = 16/12 = 1.33
F比率
* F比率 =处理间方差/处理内方差
= MS组间/ MSw组间
* 上例中的F比率是: 15/1.33 = 11.28
查 F表 确定 Fcrit 对假设作出结论
* df组间 = 分子的df
df组内 = 分母的df (误差)
* --> 上例中: df组内 = 12; df组间 = 2
* 如果选择 ? = .05, Fcrit = 3.88
如果选择 ? = .01, Fcrit = 6.93
* F比率的观测值11.28> Fcrit., 所以拒绝 H0 (?1 = ?2 = ?3).
* 报告结果
* F(df组间,df组内) = Fobs, p < ?
报告结果
* 单因素方差分析发现学习方法有显著的效应, F(2,12) = 11.28, p < 0.01.
事后检验(Post hoc tests)1
* ANOVA 的结果是检验H0: ?1 = ?2 = ?3 ,并未提供哪个备择假设得到支持. 也就是说, 只知道一些组与其它组不同, 但并知道差别在哪些组之间.
* 所以从ANOVA得到显著差异的结果 (拒绝H0)后,一定要做作事后检验.
* 事后检验 使我们能够比较各组, 发现差异产生在什么地方.
* 事后检验就是比较每一个处理组与另一个处理组, 一次比较两个. 这称为成对比较.
事后检验(Post hoc tests)2
* 在上例中, 可以比较 ?1 与 ?2, ?1与?3, 以及 ?2与?3.
* 这样的做法有没有问题?
* 每一个比较 都是一个单独的假设检验, 每一个都有犯I类错误的风险. 所以,比较对数越多, 作结论的风险越大。即容易发现实际不存在的差异。 这称为实验导致的(experimentwise)alpha 水平 (或族系(familywise) 误差)
事后检验(Post hoc tests)3
* αEW = 1 - (1 - a)cc = 比较对数
- 对于上述例子, 如果选择 ? = 0.05 作3 对比较
- αEW = 1 - (1 - a)c = 1 - (.95)3 = 1 - .857 = .143
* I类错误的机会增加到14.7%而不再是5%,多数事后检验设计中都控制了实验导致误差.
事后检验(Post hoc tests)4
* 介绍两个事后检验: Tukey's HSD 检验 (honestly差异显著性) 检验和 Scheff 检验.
a) Tukey's HSD 检验
* 可以计算出单一的值确定处理均值间的最小差异,考查此差异在统计上是否显著.
* 此检验要求各组有相等的样本容量.
* HSD = q * sqrt(MS组内/n)
* q 值 可以从表中查出(附表6). 需要用到K和 df组内, 以及αEW
举例
* 在上例中 (用αEW = .05):
* HSD = q * sqrt(MS组内/n)=(3.77) sqrt(1.33/5) = (3.77)(.516) = 1.94
* 比较 1: H0: ?1 = ?2
* 2 -1 = 4.0 - 1.0 = 3.0
* HSD = 1.94 < 3.0,拒绝 H0
* 比较 2: H0: ?1 = ?3
* 3 -1 = 1.0 - 1.0 = 0.0
* HSD = 1.94 > 0.0,不能 拒绝 H0
* 比较 3: H0: ?2 = ?3
* 2 -3 = 4.0 - 1.0 = 3.0
* HSD = 1.94 < 3.0, 拒绝 H0
* 所以 B 与 A 和 C不同,而A 与 C 没有差异
b) Scheff?检验
* 用F比率检验差异. 这是最保守的检验 (降低 I类错误的风险, 但增加II类错误的风险). 特别适用于n 不等的情况
* 重新计算 MS组间, 每次只检验一个比较.注意:用整体的 df组间 和整体的MS组内.
举例:比较 1
* H0: ?1 = ?2
* SS组间 == 52/5+202/5-252/10 = 22.5
* MS组间 = = 22.5/2 = 11.25
* MS组内 = = 16/12 = 1.33
* F比率 = MS间/MS组内= 11.25/1.33 = 8.46
* 查 F表. ? = .05, Fcrit(2,12) = 3.88
* 8.46 > 3.88, 拒绝 H0
举例:比较 2
* H0: ?1 = ?3
* SS组间== 52/5+52/5-102/10= 0
* MS组间 =0/2 = 0
* MS组内 =16/12 = 1.33
* F比率 = MS间/MS组内= 0/1.33 = 0......(后略) ......
附件资料:
相关资料1:
- 骨科医师临床应用+徒手肌力检查法【作+者】....pdf
- [182-临床技术操作规范:麻醉学分册].中华医学会.扫描版.pdf
- 参麦注射液加稳心颗粒治疗急性病毒性心肌炎快速性心律失常临床观察.pdf
- 《现代著名老中医临床诊治荟萃》(张问渠)文字版.pdf
- 热疗临床应用进展.PDF
- 临床基本技能操作教程.pdf
- 急性呼吸窘迫综合征肺复张手法的临床实施.pdf
- 妊娠合并糖尿病临床诊断与治疗推荐指南(草案).pdf
- L刘炳凡.pdf
- 《蔡友敬临床经验集》.蔡光斗.扫描版.pdf
- preview协和妇产科临床备忘录(第二版).pdf
- 《实用临床儿科学·下》(吴梓梁)扫描版.pdf
- 《吴光烈临床经验集》.周建宣.扫描版.pdf
- [异常与临床心理学].(英)贝内特著(中)陈传峰译.扫描版.pdf
- 中国百年百名中医临床家丛书--宋祚民.pdf