1. 蓬莱阁传说 | 蓬莱阁旁! | 神话故事!首页
  2. 道家文化

构建科学有效的学术产出测量体系(构建科学有效的学生评价体系研究价值)

摘要:通过对学术产出的测量方法,包括数量测量、质量测量以及混合测量等进行全面梳理,以期在“双一流”建设的背景下,探讨科学有效的学术产出测量体系,对首都高校师资队伍绩效评价提出建议。

关键词:“双一流”建设;学术产出;测量体系

“十三五” 时期是落实新时期首都城市战略定位、建设国际一流和谐宜居之都的关键时期。高等教育在坚持和强化首都核心功能上发挥着重要作用。同时,国务院颁布《统筹推进世界一流大学和一流学科建设总体方案》(以下简称《方案》)定调了未来我国高教发展的重心—“双一流”建设。因此,建成一批世界一流大学以及一流学科,已成为首都高教改革题中之义。从世界公认的大学排行榜来看,教师队伍在指标体系中占据重要地位,尤其是教师的学术产出。建设世界一流大学必须有一流的教师,必须有一流的学术产出,必须遵循世界上通用的大学教师评价考量体系,必须构建科学有效的学术产出测量体系。《方案》明确指出坚持以绩效为杠杆;强化目标管理,构建完善中国特色的世界一流大学和一流学科评价体系。近年来,随着新管理主义的渗透,高校运作已更加市场化,首都高校也纷纷开展以提高学术产出效率为目标的用人制度改革。在此改革进程中,理解并且准确测量学术产出成为核心议题之一。本文对学术产出测量方法进行梳理,以期在“双一流”建设背景下,探讨科学有效的学术产出测量体系以对首都高校学术产出绩效评价提出建议。

学术产出的概念内涵

学术产出内涵丰富,这与“学术”含义宽泛有关。梁启超先生认为:“学也者,观察事物而发明其真理者也;术也者,取所发明之真理而致诸用者也。”而目前所谈的“学术”多引自西方“Academic”一词,泛指高等教育和研究,即由受过专业训练的人在具备专业条件的环境中进行的探索。

国际学者对学术产出的研究颇丰。伯顿·克拉克认为大学是“知识的生产者、批发商和零售商”,是“建立在各种知识群基础上,并包含懂得如何运用这些知识群的各种不同集团”。各集团“发现、保存、提炼、传授和应用知识的工作组合形式”各异。高校学术产出包括“新知识、毕业生、或法学、或医学、或自然科学、或哲学领域中的各种服务”等。[1]在高校生产过程中,虽然学术职业者承担研究、教学及服务等角色,但多数文献将学术职业者个人的学术产出定义为学者的学术性出版物,如期刊论文、会议论文、专著、指导论文数、原始数据的搜集、研究资助、编辑工作、专利、实验设计、设计作品及社会评论工作等。较多国内学者研究大学作为科研团队的学术产出考核。有研究将高校团队考核分为团队整体考核和团队成员个人绩效考核指标体系。[2]有学者认为影响科研业绩评价的因素包括投入,产出,效益;其中产出主要包括承担项目、论文、论著、奖励、专利、成果转化等。[3]学术产出既可从院校或团队层面考量,也可从个体层面测算。本文讨论的测量方法对不同层面的学术产出均有一定应用空间。

学术产出的数量测量

学术产出数量测量是计算某段时间的学术发表情况。那么不同类型的产出权重如何界定?传统测量方法将不同类型的产出乘以相应产出的权重之后求和得到最后的产出水平。例如:凯韦克(Kyvik,1989)曾提出,每篇文章(1分)、学术类专著(2分~6分)、教科书(2分~4分)、编著(2分~3分)、译书(2分~3分),其中各类产出的浮动得分根据该类产出的页数多少调整。布拉克斯顿与图姆斯(Braxton,Toombs,1982)提出“专家评议法”,即通过问卷咨询若干知名学者对不同类型产出权重打分而后取均值。某次专家评议结果显示:权重从高到低的产出分别为教科书(9.3分)、会议论文(8.9分)、学术刊物评论(8.8分)、列为课程阅读的书目(5.5分)、新闻等出版物上的文章(4.5分)、编著(4.2分)等。[4]

但是,传统方法的缺点是同一类型产出的权重对每位学者都是相同的,而学者内部及高校管理者对相同类型产出的重要性理解不同,易对指标信效度产生怀疑。因此,有些学者认为需构建多维度的产出得分,使不同学者的同类产出权重是浮动的,如基于数据包络分析原理发展而来的BOD(Benefit-of-the doubt)模型。而数据包络分析法用于评价生产效率,首先找到处于前沿线(面)上的决策单位,认为该决策单位是最小化投入或最大化产出的单位,再测量其他决策单位距离前沿线的距离。据此,BOD模型假定相比其他个体,某位学者在某类学术产出上的表现越好,那么这类产出在这位学者的权重体系中被赋予越高权重。[5]但是,BOD模型的缺陷是容易受异常值影响。因此,如何对数据做分样本处理以消除异常值影响是BOD模型改进的方向之一。[6]

学术产出的质量测量

质量测量包括同行评议以及引文分析。同行评议指若干专家对一位学者的产出的评价。但同行评议也存在两点不足:一是同行评议易受到被评议人个人魅力及学者所在工作单位的声望所影响。二是同行评议结果往往与学者的发表数量存在显著相关性,而不同评议人对不同类型发表的心理权重难以把握。即使是同类产出,评议人对其发表内容的心理权重也不同,以发表期刊为例,有些评议人侧重被评议人对知识的应用,而有些侧重被评议人的创新研究。[7]

相比同行评议,引文测量受到更多学者的关注。引文分析能较好地反映学者的研究认可,一位学者的文章引用次数越多,表明他为学术界贡献了越多的思想、概念、发现与方法。但是引文测量同时存在多处不足:一是不同学科的引用情况不同。学科部落的规模、生产周期等因素都将影响一篇文章的引用情况。乔纳森·科尔与斯蒂芬·科尔(Cole,Cole,1973)(以下简称科尔兄弟)认为,引文分析应当对每个学科领域分别统计并标准化。二是相比文章发表,文章引用存在滞后,引文数量与学者工作年限存在高相关性。[8]三是引文分析往往只计算第一作者,而年轻学者往往不是第一作者,即引文分析将低估年轻学者的产出质量。四是引文的作用参差不一,斯蒂芬·科尔(Cole,1975)的研究发现,默顿的经典文献Social Structure and Anomie在1950年—1972年间被引用共123次。其中,24%的文献中,引文无实质性贡献;在18%的文献中,引文为文章观点提供支持。[9]类似认为引文的作用不过“敷衍了事”的研究还有穆拉维斯克与穆鲁格山(Moravcsik,Murugesan,1975)、丘宾与莫伊切(Chubin,Moitra,1975)。[10] [11]

因此,有学者提出改进意见。穆拉维斯克与穆鲁格山提出应从以下四个方面辩证看待被引文章:第一,概念化或者操作化,被引文章为待发表文章提供了理论或概念框架,还是提供可行的分析工具?第二,用途化或形式化,被引文章是待发表文章真正需要的,还是仅仅因为两篇文章的关注点类似?第三,推进贡献或同义转化,被引文章是否为待发表文章提供改进空间?第四,赞同或反对,被引文章的观点是被认可的,还是被批判的?从文章发表时间上看,科尔兄弟提出引文加权的观点。以物理学为例,论文的半衰期不超过5年,即在某一特定年份内发表的论文中,至少有半数的引证出自前5年内发表的工作成果。因此,引文分析需考虑时间限制,即加权引证技术,对旧引证的加权比对新近引证加权大一些。但是,科尔兄弟将物理学家三年内的成果的加权引证数与未加权引证数对比后发现,两者存在极高相关性(相关系数达到0.96),并因此认为,如果不采用加权方法,也不影响研究结论。[12]

学术产出的混合测量

如何克服单一测量方法的不足、设计出混合测量方法一直是学术产出评价领域的难点。该方面最具代表性的是美国物理学家赫希(Hirsch)于2005年提出的H指数。在某个科学家发表的所有论文中,有H篇论文至少被引用了H次,同时其余论文的引用次数都小于H时,该科学家 H指数值为H。[13]相比其他测量,H指数有四方面优势:第一,简单易懂,适用于任何层面的评估;[14]第二,鼓励学者发表高质量的论文;[15]第三,对高被引论文和低被引论文均不敏感,论文数量上的增长对其不产生直接影响,一定程度遏制片面追求论文数量的不良倾向;[16]第四,数据库收录错误不会对H指数产生较大影响,H指数具有一定弹性和恢复能力。[17]鉴于以上优势,近年来,H指数的运用较为广泛。例如:研究人员的学术产出评价有高江勇(2015)对农林院校大学校长的学术影响力进行评估[18],崔建强等(2015)对体育研究界高影响力的57位体育学者的H指数的计算[19]。期刊评价方面有布劳恩(Braun,2005)对SCI收录的63种期刊的H指数计算,杜建杰、张桂东对图书馆学核心期刊的H指数实证研究等[20]。在组织评价方面有陈万超、夏莹(2015)对近十年南京市高校图书馆科研产出及学术影响力的计量分析[21]。此外,H指数还被应用于科学基金的评价(赵星等,2009)[22]、专利评价(官建成等,2008)[23]。

H指数在学术产出评价中仍存在诸多不足,金碧辉等将其总结为以下六点:第一,对从事科研时间较短的人员不利,因为他们的论文数量和被引次数相对较低;第二,不利于论文数量少但被引频次高的科学家;第三, H指数只升不降,无法反映学者研究活力的衰退情况;第四,缺乏灵敏度, H指数越大,上升所需时间越长, H指数可能常年不变;第五,缺乏区分度,大部分学者的H指数相近,对个体绩效评估缺乏效度;第六,不同学科间的H指数无法直接比较。[24]此外,H指数对独著与合著一视同仁的做法也值得商榷。[25]为此,大量研究聚焦于如何修正H指数以提高其测量效度,如埃格赫(Egghe)提出g指数以反映高被引论文对学术产出的贡献,金碧辉与鲁索(Rousseau)提出A指数、R指数以及AR指数以改善H指数的灵敏度、区分度等。[26]

结语

在全球化浪潮中,各国高等教育体系有了越来越多的共同活动准则。虽然大学排名不能充分说明世界一流大学、一流学科的完整内涵,但这样的标准化评价使得大学主动向其靠拢。在“双一流”建设进程中,任何一所大学都将在一定程度上受到这些评价的影响。各国的情况不同,高等教育环境也不同,采用一味趋同的评价标准指导大学办学也是不科学的。如何在“双一流”建设背景下,借鉴世界先进经验,立足首都本土实际,建立更适应我国国情和首都自身特点的师资队伍学术产出考核评价体系,服务于建设世界一流大学和一流学科,是未来首都高等教育必须聚焦用力的方向。

本文梳理了学术产出的数量测量、质量测量以及混合测量。通过梳理发现,三类方法各有优势与不足:第一,数量测量优势在于覆盖了各种类型的学术产出,其计算结果能全面反映出学术产出水平,但是核心问题在于如何界定不同类别产出的权重。BOD模型提出了浮动权重的分析思路,但BOD方法易受异常值影响,结果较敏感。第二,质量测量包括同行评议与引文分析,关注学术产出的高质量部分,其计算结果更能体现个人、团体或组织的学术影响力。相比同行评议,引文分析受到更多关注,但是引文测量仍存在滞后性、不利于低谷年轻学者以及引文原因多样化等不足,并且引文分析更多运用于发表文章。第三,以H指数为代表的混合测量优势明显,兼顾学术产出的数量、质量两个维度,但仍存在不利于年轻的科研人员、低灵敏性、区分度等不足。此外,三种测量的共同问题在于学科间的可比性低。为此,有学者提出分学科进行学术产出评价,或者对每个学科领域分别统计后再标准化处理,或者对指标进行相应修正。但是,造成学科之间可比性低的根本原因还在于各学科在发展过程中所形成的学科文化差异。

综上,构建科学有效的首都高等教育学术产出测量体系应注意以下几个方面:第一,首都高等教育资源丰富,各高校办学定位、发展阶段均不同。不同类型的高校应结合自身特点侧重不同的测量方式或做不同的技术处理,切忌“一刀切”。例如:对市属应用型高校与部属研究型高校作为整体构建BOD模型容易导致测量结果失效。第二,尊重学科文化对学术产出的影响,适当借鉴相关学科分类思路对不同类型的首都高校进行测量,首都高校内分学科进行产出测量。例如:采用数量测量时,将综合性大学与专科性大学区别测量;将物理、化学、药学、数学等学科与历史学、语言学、社会学、法学等学科区别测量。采用质量测量时,相比历史、社会、地理等学科,物理、生物化学等注重学术共同体交流、研究领域较为聚集的学科采用质量测量的效果更佳。(作者:王嘉颖,单位:北京教育科学研究院高等教育科学研究所)

参考文献:

[1]伯顿·R.克拉克.高等教育系统—学术组织的跨国研究[M].王承绪,等,译.杭州:杭州大学出版社,1994:17.

[2]姬焕芳.高校科研团队考核工作方法探微[J].科技与创新管理,2010(3):282-284.

[3]陈春花,杨映珊.科研团队运作管理[M].北京:科学出版社,2004:1-10.

[4]Braxton, J & Toombs, W.. Faculty uses of doctoral training: consideration of a technique for the differentiation of scholarly effort from research activity[J].Research in Higher Education,1982(3):265-286.

[5] Melyn,W.,& Moesen, W..Towards a synthetic indicator of macroeconomic performance:Unequalweighting when limited information is available[R]. Public Economics Research Paper 17. Leuven: CES,KULeuven,1991.

[6]Cazals, C., Florens, J. P., & Simar, L.. Nonparametric frontier estimation: A robust approach[J]. Journal of Econometrics,2002, 106(1), 1-25.

[7]Nelson, T, Buss, A & Katzko, M. Rating of scholarly journal by chairpersons in the social sciences[J]. Research in Higher Education, 1983(19):469-497.

[8]Line, M.. Citation decay of scientific papers: variation according to citations Received[J]. Journal of Information Science, 1984(9):90-91.

[9]Cole, S. The growth of scientific knowledge: Theories of deviance as a case study[C].L. A.Coser (Ed.), The idea of social structure: Papers in honor of Robert K. Merton. NewYork: Harcourt Brace Jovanovich, 1975.

[10]Moravcsik, M. J., & Mumgesan, P. Some results on the function and quality of citations[J].Social Studies of Science, 1975(5): 86-92.

[11]Chubin, D. E., & Moitra, D. Content analysis of references: Adjunct or alternative to citation counting?[J]. Social Studies of Science, 1975(5): 423-441.

[12]Cole R, Cole S. Social stratification in science[M]. University of Chicago Press.1973.

[13][24] Hirsch JE . An index to quantify an individual's scientific research output [C]. Proceedings of the National Academy of Sciences of the United States of America, 2005,102( 46) : 16569-16572.

[14]Glnzel W. On the opportunities and limitations of the H-Index [J].Vision Research,2006,35(10):1393-1399.

[15]Egghe L, Rousseau .An improvement of the h-index: the g-index[ J] .ISSI Newsletter,2006,2(1):8-9.

[16]金碧辉.科学家为自己设计了一项评价指标:h指数[J].科学观察,2006,1(1):8-9.

[17]Vanclay J.On the robustness of the h-index[J] .Journal of the American Society for information Science & Technology,2007,58(10):1547-1550.

[18]高江勇.农林院校大学校长学术影响力探析—基于我国32所农林大学校长科技论文产出分析的视角[J].高等农业教育.2015(8)13-17.

[19]崔建强,刘文娟,李勇勤.h指数在体育学者学术影响力评价中的应用及其相关性分析[J].北京体育大学学报.2015(2):43-47.

[20]杜建杰,张桂东.H指数在图书馆学核心期刊评价中的实证研究[J].中华医学图书情报杂志,2011(5):65-72.

[21]陈万超,夏莹.近十年南京市高校图书馆科研产出及学术影响力的计量分析[J].上海高校图书情报工作研究,2015(2):28-35.

[22]赵星,高小强,何培.科学基金h指数:基金论文成果数量与影响力的综合衡量[J].中国科学基金.2009(1):15-18.

[23]官建成,高霞,徐念龙.运用h指数评价专利质量与国际比较[J].科学学研究,2008(5):932-937.

[25]Wan JK, Hua PH, Rousseau R. The pure h-index: calculating an author's h-index by taking co-authors into account [J]. Journal of Scientometrics and Information Management, 2007(2):4-6.

[26]金碧辉,Rousseau Ronald.R指数、A R指数: h 指数功能扩展的补充指标[J].科学观察, 2007, 2(3): 1-8.

《北京教育》杂志