第66期“我来读文献”活动即将开始,活动关注《面向学习的测评:一种系统的方法》一书,欢迎参与!
该书详情请点击链接:
第65期“我来读文献”第一阶段线上答疑活动干货汇总请点击链接:
领读专家
王家钺,广西民族大学副教授、硕士生导师。广西民族大学研究生院学术委员会委员,中国英汉语比较研究会中西语言哲学专业委员会终身会员。主要研究方向为应用语言学(语料库语言学)、语义学与语言哲学。
思考题
1. 这些基本计算(如方差、均值、标准差等)的方式与SPSS和Excel有何不同?
在SPSS或Excel中,将这些数值录入工作表,其中SPSS需要单独指定变量类型、小数点位数等。Excel中将数据列选中,设置格式为数字。
SPSS中:点击菜单“分析”-“描述统计”-“描述”,点击变量的名称,点击箭头加入右方的“变量”列表,点“选项”,点选“均值”和下面的“标准差”和“方差”,点“继续”,点“确定”,即可得到所需的结果。
Excel中:选择某个空白单元格,输入公式=average(B1:B20),回车计算均值;输入公式=stdev.s(B1:B20),回车计算标准差;输入公式=stdevp(B1:B20),回车计算方差。
R中:将原始数值录入为一个向量(假设名为x),然后用命令var(x)计算方差、mean(x)计算均值、sd(x)计算标准差。
总体上我认为R的计算方式更简洁一些。
2. Z分数和T分数有何联系?
Z分数是将原始数值转化为统计标准分,以零为平均值,因此Z分数都在零上下,所以一半数值为负数,读起来不是非常直观。
T分数实质上是将Z分数做转化,通常以某个易记的分数,如75为基准分,将原始分对应的Z分数乘以某个经验分数(这里称为扩大系数),然后与基准分相加,所得的分数即T分数。
T分数与Z分数的计算原理是相同的,但基准分和扩大系数的确定有任意性,在教学实践中可能用得比Z分数多一些。
3. p值和关键值(critical value)有何不同?
在推断统计检验中,二者都用于判断结果的显著性,但判断的方式有所不同。
关键值指的是特定理论分布(如卡方分布)上的一个点,这个点用于与实际检验统计量(如卡方值)相比较。每个理论分布都是用数学方法事先计算出来的,换句话说,关键值是事先确定的理论预期值,实际检验值则有偶然性,将二者相比较,看检验值在哪个显著性水平上(称为alpha,如0.05、0.01等)。这种判断方法有点像是拿着一把放大镜在地图上寻找某个地名在什么位置。关键值方法在早期查统计表的时代用得很普遍。
p值是指在零假设成立的前提下,观察到实际统计结果(或者更为极端)的概率有多大,例如p值为0.00012345,则说这个概率是0.012345%,这个概率约是万分之一。p值是根据样本特征计算出来的sd值标准差在excel公式,被与事先约定的alpha值(常定在0.05)做比较。如果p值小于alpha,则认为观察到这一实际检验结果的可能性比alpha还要低(更难以置信),换句话说,观察结果与零假设不相符的概率大于1-alpha=95%,因此检验结果具有显著性。如果p值大于或等于alpha,则认为观察结果与零假设不相符的概率小于95%,未达到判断显著性的标准。
关键值和p值都用于判断显著性,只是思路不同sd值标准差在excel公式,但在统计中都可以用。
4. 如何理解alpha值?统计检验的结果只有是和否两种可能性吗?在实际研究中常以0.05为alpha值,这是否是所有统计检验的唯一设定?为什么?
alpha设定在哪里取决于研究者对判别显著性大小的预期。很多检验将alpha设在0.05,但这并非唯一标准,根据不同的检验需求也可以设为0.01,等等。
5. 如果p值检验取得了显著性,比如在某些检验结论中看到“检验表明某教学方法与传统教学方法存在统计意义上的显著差异”,这是否说明二者存在很大差异?为什么?
p值检验取得了显著性,只说明“观察结果与零假设不相符的概率很大”,比如说某种差异“很有可能是显著的”,但这不等于说“差异特别大”。
在某些检验中,虽然取得了显著性的结果,但差异并不大(建议阅读“相关文献推荐”列表中的张少林 2009、魏日宁 2012)。
要想知道差异实质上有多大,还需要计算效应幅度(effect size)。
6. 在一次期末考试中,某年级三个班的写作课测试成绩如下:
1班:76 74 76 77 75 74 73 78 79 77 86 83 75 78 78 77 80 84 78 80 76 77 80 86 77
2班:84 79 79 87 86 85 86 77 80 79 81 87 78 81 87 88 80 81 83 79 87 87 84 84 83
3班:73 70 73 78 73 73 80 73 81 78 77 69 76 80 76 77 81 77 74 79 76 81 77 78 81
请写R代码回答以下问题:
(1) 用图表示出三个班的成绩分布情况;
(2) 三个班之间是否存在显著差异?
(3) 如果两两比较中创网,哪些班之间存在显著差异?
# 录入原始数据
c1 ->
c(76,74,76,77,75,74,73,78,79,77,86,83,75,78,78,
77,80,84,78,80,76,77,80,86,77)
c2 ->
c(84,79,79,87,86,85,86,77,80,79,81,87,78,81,87,
88,80,81,83,79,87,87,84,84,83)
c3 ->
c(73,70,73,78,73,73,80,73,81,78,77,69,76,80,76,
77,81,77,74,79,76,81,77,78,81)
# 箱图
boxplot(data.frame(c1,c2,c3), names=c(“c1″,”c2″,”c3”), col=c(“red”,”blue”,”green”))
# ANOVA
scores
grp
length(c3)))
analysis
summary(analysis)# 方差分析结果p=1.71e-08表明存在显著的组间差异
# 事后多重检验
install.packages(“DescTools”)
DescTools:ScheffeTest(analysis)# Scheffe检验表明1-2之间(p=4.3e-05)和2-3之间(p=4.5e-08)存在显著差异
7. 在同一次期末考试中,上述2班的阅读考试成绩如下(学生的顺序相同):
2班:79 69 76 78 66 77 78 71 78 77 78 75 71 81 72 73 84 77 85 71 77 76 79 80 84
请写R代码,评估2班的写作成绩和阅读成绩是否存在相关性。
# 录入原始数据
c2r
73,84,77,85,71,77,76,79,80,84)
# 配对样本t检验
t.test(c2, c2r, paired = TRUE) # pearson相关系数为0.8126,表明该组学生的写作成绩与阅读成绩存在强正相关。
8. 某基于语料库的研究中需要计算多个词语的关键性(keyness),包括卡方值、对数似然比和Fisher检验值。从语料检索中得到了基本数据,包括A语料库的容量455,532,B语料库(参照库)的容量907,013,以及各词语的下列频数:
研究者决定用R来计算。请试着编写一个R脚本,计算这些词语的上述显著性。
rm(list=ls()) # 建议先清除已有的各种变量值
mydata
freq1
freq2
write.csv(mydata,”mydatasheet.csv”)
cdata
size.corp1
size.corp2
output.fname = “keyness_calculation_results.csv”
# provide a name for output file
chi.squared
log.likelihood
fisher.pvalue
# 定义一个函数ll,即log-likelihood
ll
o1 = x[1,1]; n1 = x[2,1]
o2 = x[1,2]; n2 = x[2,2]
e1 = n1 * ((o1+o2)/(n1+n2))
e2 = n2 * ((o1+o2)/(n1+n2))
# ifelse是一个判断语句,判断o1*o2==0是否为真
# 如果为真则直接以0为值,为否则以计算结果为值
# 计算公式为 2 * (o1*log(o1/e1) + o2*log(o2/e2))
result
return(result)
# 在数据表中循环
for (i in 1:length(cdata[,1])) {
d size.corp2), ncol=2)
chi.squared[i]
log.likelihood[i]
fisher.pvalue[i]
results
write.csv(results, file=output.fname, row.names = F)