Multivariate Generalization Analysis for Students’ Evaluation on Teaching Level of Teachers in Medical Colleges
-
摘要:
目的 采用多元概化理论评价《医药类院校教师课堂教学水平学生评价量表》信度的同时对各维度条目数优化提出建议,并确定学生评教实践中适宜的学生人数。 方法 收集整理通过该问卷调查的某医科大学422名学生数据,使用mGENOVA进行多元概化分析。先在G研究中估计各种误差来源的方差分量,然后实施一系列改变条目数和学生数D研究获得不同情况下信度系数以评价量表信度。 结果 G研究中每个领域均呈现学生嵌套于教师的方差分量最大。D研究中,在领域水平,除了教学组织和教学方法2个领域外,其余领域的概化系数和可靠性指数均大于0.80;在总量表水平,合成概化系数和合成可靠性指数均高于0.85。保证可靠性指数在0.80及以上的前提下,每班至少抽取的学生数为25人;保证概化系数在0.80及以上的前提下,每班至少抽取的学生数为28人。 结论 基于多元概化分析此量表总体上有很好的信度,若下一步需要修订可考虑在教学组织和教学方法2个领域进行内容调整,在高校学生评教实践中各班抽取28名学生来进行调查最合适。 Abstract:Objective To evaluate the reliability of the Student Evaluation Scale for the Teaching Level of Teachers in Medical Universities (SESTLTMU) and determine the appropriate number of students in the teaching evaluation based on Multivariate Generalizability Theory (MGT) . Methods The data of 422 students from a medical university who were surveyed by this scale were collected and analyzed by using mGENOVA, a special software of multivariate generalizability theory. The variance components of various error sources were estimated in Generalizability Study (G-study), and then several Decision Studies (D-studies) with varying numbers of items and numbers of students were analyzed to obtain reliability coefficients including generalizability coefficient (G) and the indexes of dependability (Ф) in order to evaluate the reliability of the scale. Results In the G-study, the most prominent variation in every domain was introduced by student nested in teacher effect. In the D-study, at the level of domain, the G coefficients and the Ф coefficients for three of the five domains were approximately equal to or greater than 0.80, except for the teaching organization domain and teaching method domain (> 0.70 but < 0.80). For the overall scale, the compositeG and composite Ф coefficients were larger than 0.85. Under the premise that the Ф is 0.80 or above, the minimum number of students selected from each class should be 25. Under the premise that the G is 0.80 or above, the minimum number of students selected from each class should be 28. Conclusions The scale has good reliability as a whole based on the results of MGT. If this scale needs to be revised in the future, it can be considered to adjust the content in the teaching organization domain and the teaching method domain. It is the most appropriate to select 28 students from each class for investigation in the practice of teaching evaluation by university students. -
中华人民共和国教育部每年都要发表《全国普通高校本科教育教学质量报告》[1],可见高等教育大众化后,各高校教学质量已成为社会关注的热点话题,而高校教师的教学质量高低能够一定程度上折射学校的教学水平。学生是教师开展教学的主体,对教师的整体素质水平有直观的了解,很多研究者认为开展学生评教可以增强教师关注学生的课程体验,可以促进教学质量的提升,能为高校管理者提供决策依据[2]。有学者[3]认为学生评教是维持医学教学专业发展的最重要、最低廉方式之一,其中医学生个人兴趣和特殊动机可能会导致普通高等教育与医学教育学生评教差异[4]。在学生评教过程中,研究者常常关注评价工具质量如何、抽选多少个学生进行测量合适、不同测量时间和不同测量场景下研究结果是否有差异等问题。要探查回答以上问题,就需要运用现代测量理论中的概化理论来分析。概化理论包括了一元概化理论(univariate generalizability theory,UGT)和多元概化理论(multivariate generalizability theory,MGT)。多元概化理论是在单变量概化理论基础上发展起来的,能处理多维度、多侧面情况下的特质测评,是一种备受关注的现代教育测量理论[5]。相较于经典测量理论,MGT的优势在于用一次测量的数据资料,研究者可以在多个概化全域下,计算不同测量侧面样本容量下的误差方差分量和信度系数。本研究通过对《医药类院校教师课堂教学水平学生评价量表》进行多元概化理论分析,旨在评价其测量学信度的同时对各维度条目数优化提出建议,并确定学生评教实践中适宜的学生人数。
1. 对象与方法
1.1 研究对象
随机抽取某医科大学2018年9月至2019年1月修流行病学的5个班级(由5位不同教师授课),对选中班级的全体学生共422人发放问卷进行课堂教学水平评价调查,排除无效问卷1份,最终纳入问卷421份。
1.2 研究设计
采用多元随机双面嵌套不平衡测量设计
$( {{s^ \bullet }:{t^ \bullet }} ) \times {i^ \circ }$ ,其对应的一元概化设计为$( {s:t} ) \times ( {i:h} )$ ,测量目标为教师的教学水平,有两个测量侧面,测量侧面中i为量表的条目,s为评价者学生,h表示量表的领域。该设计不仅考虑评教学生s嵌套于被评教师t中,同时考虑评价量表不同条目分属于不同领域即评价条目嵌套于维度h中,两者交叉设计,即由ns位学生使用同一份划分为nh个维度、每个维度含有ni个条目的量表来评价教师t。1.3 学生评教量表的制定
在自主研制的《高校教师教学水平学生评价指标体系》量表[6]基础上,经过教师和学生进行访谈→提出增补条目→德尔菲专家咨询法筛选条目→课题组讨论后,新增9条目形成了《医药类院校教师课堂教学水平学生评价量表》,量表总共33个条目,划分为教学组织(5个条目)、教学领域(7个条目)、教学方法(8个条目)、教学态度(7个条目)、教学效果(6个条目)等五个领域。评分采用Likert scale五点评分(1 = 一点也不;2 = 有一点;3 = 有些;4 = 相当;5 = 非常)。
1.4 数据统计与分析
使用Epidata3.1软件建立数据库,采用双录入并逻辑核查。运用mGENOVA软件,概化理论分为G研究和D研究,首先在G研究中估计各种误差来源的方差分量及其占比,然后在D研究中利用G研究结果通过调整各测量侧面的样本数以改变测量设计,重新构建各概括全域[7] ,分别计算出各领域相对误差和绝对误差的方差分量、各领域概化系数和可靠性指数、合成的相对误差与绝对误差方差分量、合成的概化系数和可靠性指数等指标,从而提出量表条目数分配优化建议和评价者最适宜人数的建议。
概化理论中的绝对误差(
$ \Delta $ )是指被试观测值与概化全域上的全域分数之差,而相对误差($ \delta $ )是指所有随机误差引起的测量误差。概率理论中有两个反映信度的指标分别是概化系数和可靠性指数,概化系数(G)被定义为测量目标的有效方差占测量目标有效方差与相对误差方差之和的比值;而可靠性指数($ \varPhi $ )被定义为测量目标的有效方差占测量目标有效方差与绝对误差方差之和的比值。即概化系数和可靠性指数的计算公式如下:$$ G = {\sigma ^2}(P)/[{\sigma ^2}(P) + {\sigma ^2}(\delta )] $$ (1) $$ \varPhi = {\sigma ^2}(P)/[{\sigma ^2}(P) + {\sigma ^2}(\Delta )] $$ (2) 式中,
$ {\sigma ^2}(P) $ 表示测量目标的方差分量,${\sigma ^2}(\Delta )$ 表示绝对误差的方差分量,${\sigma ^2}({\delta _{}})$ 表示相对误差的方差分量。本研究设定当概化系数或可靠性指数在0.80及以上时研制的量表信度较好。
2. 结果
2.1 评价者基本信息
参与评教的421名学生中有6名学生性别信息缺失,其中男性153人(占36.9%);女性262人(占62.3%)。年级构成方面:二年级学生有39人,占9.3%;三年级学生有282人,占67.0%,四年级学生有100人,占23.8%。专业构成方面:医学实验技术班39人,临床医学班90人,全科医学班119人,临床医学班(全科方向)73人,预防医学班100人。
2.2 G研究主要结果
对各个领域的变异来源分解后发现:学生嵌套于教师效应的方差分量最大,学生条目交互并嵌套于教师的效应其次,条目效应及条目教师交互效应的方差分量均较小。横向比较反映教师(t)的各领域方差分量,最大的是教学方法,其次是教学效果,最小的是教学组织,见表1。
表 1 各领域方差及协方差分量估计Table 1. The estimated variance-covariance components for every domain效应 教学组织 教学内容 教学方法 教学态度 教学效果 t 0.0200 1.0282 1.0582 1.0586 1.0764 0.0262 0.0324 1.0068 1.0223 1.0118 0.0333 0.0404 0.0497 0.9881 1.0431 0.0243 0.0299 0.0358 0.0264 1.0172 0.0325 0.0389 0.0496 0.0353 0.0455 s:t 0.2235 0.1911 0.1908 0.2055 0.1976 0.2648 0.1726 0.1643 0.1820 0.1901 0.2112 0.2020 0.2686 0.1991 0.3510 i 0.0142 0.0138 0.0774 0.0012 0.0022 ti 0.0063 0.0008 0.0344 0.0073 0.0031 si:t 0.2083 0.1472 0.3348 0.1083 0.1697 对角线上加粗标注的值为各效应的方差分量,对角线以上的值是典型相关系数,而对角线以下值是各个领域的协方差分量。 2.3 原始测量长度的D研究
原始测量长度条件下的多元D研究结果呈现于表2中。各领域上,相对误差方差和绝对误差方差均小于0.05,概化系数均大于0.8,可靠性指数除教学组织与教学方法两个领域大于0.8但小于0.7外,其余领域均大于0.8。总量表上看,合成相对误差方差和合成绝对误差方差小于0.005,合成概化系数为0.9152和合成可靠性指数为0.8981。
表 2 基于原始测量长度条件下多元D研究结果Table 2. D-study results for design based on original test length指标 教学组织 教学内容 教学方法 教学态度 教学效果 总量表 $n'_i =5$ $n'_i =7$ $n'_i=8 $ $n'_i =7$ $n'_i =3$ $n'_i=33 $ $\sigma^2_P $ 0.0200 0.0324 0.0497 0.0264 0.0450 0.0356 $\sigma_{\delta}^2 $ 0.0049 0.0030 0.0085 0.0039 0.0058 0.0033 $\sigma_\Delta^2$ 0.0078 0.0050 0.0182 0.0041 0.0061 0.0040 $\sigma_{X_Pl}^2 $ 0.0078 0.0091 0.0213 0.0062 0.0106 0.0085 G 0.8023 0.9145 0.8535 0.8720 0.8878 0.9152 Ф 0.7203 0.8664 0.7318 0.8671 0.8816 0.8981 $\sigma^2_P $全域分数方差, $\sigma_{\delta}^2 $:相对误差方差, $\sigma_\Delta^2 $:绝对误差方差, $\sigma_{X_Pl}^2 $ :用样本均数来估计全域分数时的误差方差,G:概化系数,Ф:可靠性指数。 进一步分析表明:在教学内容、教学态度和教学效果领域中,领域全域分数对合成全域分数的方差贡献率接近各领域条目数比例;而在教学组织领域与教学方法领域中,领域全域分数对合成全域分数的方差贡献率与领域条目数比例间相差较大,见表3。
表 3 各个领域的领域条目数比例与方差贡献率间比较Table 3. Comparison between the CRCUS and the PDS in every domain指标 教学组织 教学内容 教学方法 教学态度 教学效果 条目数 5 7 8 7 6 领域条目数比例/权重系数(%) 15.15 21.21 24.24 21.21 18.18 领域全域分数对合成全域分数的方差贡献率(%) 11.79 20.26 28.76 18.29 20.89 方差贡献率与领域条目数比例间的绝对差(%) −3.36 −0.95 4.52 −2.92 2.71 方差贡献率与领域条目数比例间的相对差(%) −22.19 −4.49 18.64 −13.78 14.89 绝对差 = 方差贡献率−领域条目数比例;相对差 = (方差贡献率−领域条目数比例)/领域条目数比例×100%。 2.4 调整条目侧面样本数的多元D研究
鉴于教学组织和教学方法领域可靠性指数小于0.8,基于原始量表各个领域的条目分配情况(模型1),在这教学组织和教学方法领域上分别增加1个条目,而在其余领域分别减少1个条目形成了模型2;在这教学组织和教学方法领域上分别增加2个条目,而在其余领域分别减少3个条目形成了模型3。结果显示无论增添还是删减条目数,对合成概化系数和合成可靠性指数均影响较小。即使将教学组织和教学方法领域的条目数增加为7条和10条时,领域可靠性指数也仍然小于0.80。即使教学内容、教学态度和教学效果三个领域条目减少为原来一半,各领域概化系数和可靠性指数也仍大于0.80,见表4。
表 4 不同测量长度下各领域及共性量表的两信度系数间比较Table 4. Comparison of two reliability coefficients of every domains and universe under different test length领域 条目数 概化系数(G) 可靠性指数(Ф) 模型1 模型2 模型3 模型1 模型2 模型3 模型1 模型2 模型3 教学组织 5 6 7 0.8023 0.8123 0.8196 0.7203 0.7411 0.7567 教学内容 7 6 4 0.9145 0.9128 0.9069 0.8664 0.8574 0.8272 教学方法 8 9 10 0.8535 0.8615 0.8681 0.7318 0.7497 0.7646 教学态度 7 6 4 0.8720 0.8660 0.8457 0.8671 0.8603 0.8376 教学效果 6 5 3 0.8878 0.8847 0.8724 0.8816 0.8773 0.8605 总量表 33 32 28 0.9152 0.9135 0.9088 0.8981 0.8937 0.8818 2.5 调整学生侧面样本数的多元D研究
为探讨保证一定测量信度前提下需要的最少学生人数实施了一系列D研究。通过保持原始量表测量条目数不变,而调整学生人数来形成不同模型再计算各模型的概化系数和可靠性指数。其中模型A保持了原始测量学生数(各班人数依次为90、119、73、39、99),模型B、模型C及模型D依次是调整各班人数为原始人数的2/3、1/2及1/3(无法整除时四舍五入);模型E至模型F中各班人数一致,即班级数为5,每班抽样人数相等,从模型E到F各班学生数依次为90、60、30、28、27、25、20。结果发现若按模型H(五班各取样28人)来抽取学生,合成概化系数和合成可靠性指数仍然在0.8以上;若按模型I(五班各取样27人),合成概化系数等于0.8但合成可靠性指数低于0.8。若按模型K(五班各取样20人),合成概化系数和可靠性指数均是小于0.8但大于0.7,见表5。
表 5 不同样本下各领域及共性量表的两信度系数间比较Table 5. Comparison of the two reliability coefficients of every domains and universe under different samples size样本模型 合计样本数 概化系数(G) 可靠性指数(Ф) 模型A 420 0.9152 0.8981 模型B 281 0.8815 0.8600 模型C 212 0.8524 0.8376 模型D 140 0.7944 0.7815 模型E 450 0.9289 0.9112 模型F 300 0.9010 0.8844 模型G 150 0.8264 0.8124 模型H 140 0.8168 0.8031 模型I 135 0.8115 0.7980 模型J 125 0.8000 0.7868 模型K 100 0.7633 0.7513 3. 讨论
G研究发现变异来源中条目及教师条目交互效应的占比均较小,提示量表条目变异小,测量工具质量好。而学生嵌套于教师效应的占比最大,提示在学生评教中影响教师水平的有很多是来自学生方面的因素,如有研究显示男女两类学生对于不同性别教师评价具有差异[8],亦有研究认为学生对教师的教学评价更多在于学生期望值与实际教学距离[9-10]。在五个领域中,教学方法和教学效果两领域方差分量具有更大变异性,提示在学生评教中教师的教学方法和教学效果对最终评价影响较大。
概化系数及可靠性指数均可作为该量表评价信度指标,其中概化系数侧重指示常模参照测验,可靠性指数侧重指示标准参照测验。通常对同一个领域,概化系数高于可靠性指数。教学水平评价的应用可能有两个目的,一是应用评价结果对教师水平排序以便开展绩效考核,此时属于常模参照测验;二是建立一个水平线以评判教师教学水平是否达到某个标准,此时属于标准参照测验。通常研究者决策风险越高,对信度系数的要求越高[11]。关于信度系数多大时表示信度较好,多数研究者[12-13]认为:概化系数或可靠性指数在0.80及以上时表示测量工具信度较好。学生评教的结果有可能用于对教师水平进行排序,也有可能是需要建立一个应达到的水平线。结合本研究中原始测量长度下D研究的结果(合成概化系数及合成可靠性指数均高于0.80),量表已达常模参照测验及标准参照测验要求,测量信度好,可推广于实践应用。而各领域的概化系数均大于0.80,仅有教学组织和教学方法可靠性指数低于0.80但大于0.70,提示这两个领域可作为下一步量表优化重点领域。
本研究尝试通过增加教学组织和教学方法领域的条目数来提高这两个领域的可靠性指数,但发现条目增加对可靠性指数影响甚微,因此建议若需修订量表,可考虑在教学方法和教学组织内容上修订或合理划分新领域。另一方面,实际学生评教中,同样信度下条目精简的量表更佳,本研究以保证信度系数达到0.80标准为前提,对教学内容、教学态度和教学效果等三个领域的条目数进行减少方向的调整,结果发现以上三个领域条目数减少为原来一半后信度依旧较好。因此下一步修订时,可考虑将教学内容、教学态度和教学效果等三个领域的条目数调整为4、4、3。
有研究[14]表明不同人数学生评教样本数对评教结果具有显著影响,本研究也同样发现在现有量表各领域条目分配方案下,学生容量越大信度系数越高,但是实际测评中,笔者期望能够确定信度较好前提下的最少学生人数。如前所述,本研究以信度系数在0.80以上为信度好的标准,若目的是按某一水平线来评价教师教学水平是否达标,则每班最低需抽取25人;若目的是依据学生评教结果对教师教学水平进行排序,则每班需最低需抽取28人。
-
表 1 各领域方差及协方差分量估计
Table 1. The estimated variance-covariance components for every domain
效应 教学组织 教学内容 教学方法 教学态度 教学效果 t 0.0200 1.0282 1.0582 1.0586 1.0764 0.0262 0.0324 1.0068 1.0223 1.0118 0.0333 0.0404 0.0497 0.9881 1.0431 0.0243 0.0299 0.0358 0.0264 1.0172 0.0325 0.0389 0.0496 0.0353 0.0455 s:t 0.2235 0.1911 0.1908 0.2055 0.1976 0.2648 0.1726 0.1643 0.1820 0.1901 0.2112 0.2020 0.2686 0.1991 0.3510 i 0.0142 0.0138 0.0774 0.0012 0.0022 ti 0.0063 0.0008 0.0344 0.0073 0.0031 si:t 0.2083 0.1472 0.3348 0.1083 0.1697 对角线上加粗标注的值为各效应的方差分量,对角线以上的值是典型相关系数,而对角线以下值是各个领域的协方差分量。 表 2 基于原始测量长度条件下多元D研究结果
Table 2. D-study results for design based on original test length
指标 教学组织 教学内容 教学方法 教学态度 教学效果 总量表 $n'_i =5$ $n'_i =7$ $n'_i=8 $ $n'_i =7$ $n'_i =3$ $n'_i=33 $ $\sigma^2_P $ 0.0200 0.0324 0.0497 0.0264 0.0450 0.0356 $\sigma_{\delta}^2 $ 0.0049 0.0030 0.0085 0.0039 0.0058 0.0033 $\sigma_\Delta^2$ 0.0078 0.0050 0.0182 0.0041 0.0061 0.0040 $\sigma_{X_Pl}^2 $ 0.0078 0.0091 0.0213 0.0062 0.0106 0.0085 G 0.8023 0.9145 0.8535 0.8720 0.8878 0.9152 Ф 0.7203 0.8664 0.7318 0.8671 0.8816 0.8981 $\sigma^2_P $全域分数方差, $\sigma_{\delta}^2 $:相对误差方差, $\sigma_\Delta^2 $:绝对误差方差, $\sigma_{X_Pl}^2 $ :用样本均数来估计全域分数时的误差方差,G:概化系数,Ф:可靠性指数。 表 3 各个领域的领域条目数比例与方差贡献率间比较
Table 3. Comparison between the CRCUS and the PDS in every domain
指标 教学组织 教学内容 教学方法 教学态度 教学效果 条目数 5 7 8 7 6 领域条目数比例/权重系数(%) 15.15 21.21 24.24 21.21 18.18 领域全域分数对合成全域分数的方差贡献率(%) 11.79 20.26 28.76 18.29 20.89 方差贡献率与领域条目数比例间的绝对差(%) −3.36 −0.95 4.52 −2.92 2.71 方差贡献率与领域条目数比例间的相对差(%) −22.19 −4.49 18.64 −13.78 14.89 绝对差 = 方差贡献率−领域条目数比例;相对差 = (方差贡献率−领域条目数比例)/领域条目数比例×100%。 表 4 不同测量长度下各领域及共性量表的两信度系数间比较
Table 4. Comparison of two reliability coefficients of every domains and universe under different test length
领域 条目数 概化系数(G) 可靠性指数(Ф) 模型1 模型2 模型3 模型1 模型2 模型3 模型1 模型2 模型3 教学组织 5 6 7 0.8023 0.8123 0.8196 0.7203 0.7411 0.7567 教学内容 7 6 4 0.9145 0.9128 0.9069 0.8664 0.8574 0.8272 教学方法 8 9 10 0.8535 0.8615 0.8681 0.7318 0.7497 0.7646 教学态度 7 6 4 0.8720 0.8660 0.8457 0.8671 0.8603 0.8376 教学效果 6 5 3 0.8878 0.8847 0.8724 0.8816 0.8773 0.8605 总量表 33 32 28 0.9152 0.9135 0.9088 0.8981 0.8937 0.8818 表 5 不同样本下各领域及共性量表的两信度系数间比较
Table 5. Comparison of the two reliability coefficients of every domains and universe under different samples size
样本模型 合计样本数 概化系数(G) 可靠性指数(Ф) 模型A 420 0.9152 0.8981 模型B 281 0.8815 0.8600 模型C 212 0.8524 0.8376 模型D 140 0.7944 0.7815 模型E 450 0.9289 0.9112 模型F 300 0.9010 0.8844 模型G 150 0.8264 0.8124 模型H 140 0.8168 0.8031 模型I 135 0.8115 0.7980 模型J 125 0.8000 0.7868 模型K 100 0.7633 0.7513 -
[1] 本书编委会. 全国普通高校本科教育教学质量报告(2020年度)[M]. 北京: 高等教育出版社, 2021: 1-264. [2] 陈银燕. 高校发展性评价体系构建:教师和机构的双维度评价[J]. 内蒙古师范大学学报(教育科学版),2016,29(03):76-78. [3] Debroy A,Ingole A,Mudey A. Teachers’ perceptions on student evaluation of teaching as a tool for faculty development and quality assurance in medical education[J]. Educ Health Promot,2019,8:218-225. [4] Constantinou C,Wijnen-Meijer M. Student evaluations of teaching and the development of a comprehensive measure of teaching effectiveness for medical schools[J]. BMC Med Educ,2022,22(1):113. doi: 10.1186/s12909-022-03148-6 [5] 黎光明,甄锋泉,王幸君,等. 多元概化理论在教育测量与评价中的多维化分析[J]. 教育测量与评价(理论版),2016,180(2):13-17. [6] 孟琼,张美霞,陈莹,等. 医科院校教师教学水平学生评价量表的信度效度分析[J]. 卫生软科学,2016,30(7):46-48+53. doi: 10.3969/j.issn.1003-2800.2016.07.012 [7] 张志明, 张雷. 测评的概化理论及其应用[M]. 北京: 教育科学出版社, 2003: 52-53. [8] Nicaise V,Bois J E,Fairclough S J,et al. Girls’ and boys’ perceptions of physical education teachers' feedback:effects on performance and psychological responses[J]. Sports Sci,2007,25(8):915-926. doi: 10.1080/02640410600898095 [9] Wolbring T,Riordan P. How beauty works. Theoretical mechanisms and two empirical applications on students’ evaluation of teaching[J]. Soc Sci Res,2016,57:253-272. doi: 10.1016/j.ssresearch.2015.12.009 [10] Doubleday A F,Lee L M. Dissecting the voice:Health professions students’ perceptions of instructor age and gender in an online environment and the impact on evaluations for faculty[J]. Anat Sci Educ,2016,9(6):537-544. doi: 10.1002/ase.1609 [11] Briesch A M,Swaminathan H,Welsh M,et al. Generalizability theory:A practical guide to study design,implementation,and interpretation[J]. Sch Psychol,2014,52(1):13-35. doi: 10.1016/j.jsp.2013.11.008 [12] Vispoel W P,Morris C A,Kilinc M. Applications of generalizability theory and their relations to classical test theory and structural equation modeling[J]. Psychol Methods,2018,23(1):1-26. doi: 10.1037/met0000107 [13] Keller L A,Clauser B E,Swanson D B. Using multivariate generalizability theory to assess the effect of content stratification on the reliability of a performance assessment[J]. Advances in Health Sciences Education,2010,15(5):717-733. doi: 10.1007/s10459-010-9233-8 [14] Ibrahim A M. Using generalizability theory to estimate the relative effect of class size and number of items on the dependability of student ratings of instruction[J]. Psychol Rep,2011,109(1):252-258. doi: 10.2466/03.07.11.PR0.109.4.252-258 期刊类型引用(1)
1. 黄艳红. 高职院校三方评教实施策略分析. 知识窗(教师版). 2023(07): 123-125 . 百度学术
其他类型引用(1)
-