首页 > 读刊·中国学派 > 《中国社会科学评价》 > 2024年第1期

生成式人工智能参与学术评价的反思

2024-06-11 作者：叶继元郭卫兵来源：《中国社会科学评价》2024年第1期P37—P48

微信公众号

— 分享 —

链接已复制

摘要：在学术研究和学术评价中使用生成式人工智能应依规谨慎，将它视为潜在的辅助工具，而非替代研究者或同行评议专家的独立思考和判断。生成式人工智能可有效提升学术评价效率，但不宜取代人类评价；可作为有效辅助工具，但必须以人类专家评价为主导；学术评价因技术发展而推陈出新，但评价的人文属性不变；生成式人工智能促进学术评价现代化，但评价的本质是人的活动。人工智能时代，我们应秉持积极的“悲观”和谨慎的“乐观”态度，对可能出现的技术异化现象保持高度警觉，在此前提下持续关注人工智能技术进步与学术评价体系的耦合关系，探索人机交互、共情、协同的新评价模式，注重学术“全评价”。

关键词：生成式人工智能;学术评价;ChatGPT;全评价

作者叶继元，南京大学信息管理学院教授（南京210023）；郭卫兵，南京理工大学数字经济研究院研究员（南京210094）。

　　一年多来，以ChatGPT为代表的生成式人工智能掀起数字经济时代全领域内容生产力革命，科研人员面临前所未有的挑战。一方面，新兴生成式人工智能可以自动检索、汇编甚至主动生成学术论文，引发学术界对于学术研究专属于人的严肃性及意义消解的担忧；另一方面，学术评价体系滞后于新技术发展，可能导致诸如内容可信度、学术不端、量化评价等新旧问题的叠加显现。

　　在生成式人工智能的“加持”下，学术门槛有所降低、科研效率大幅提升、学术发表与出版的内卷化日益严重。这种不平衡、不稳定的学术生态，会对学术研究尤其原始创新类研究的真正价值产生负面影响，学术界迫切需要正视技术的应用、反思学术研究及学术评价的目的。作为一种工具或范式，将生成式人工智能应用到学术评价会有哪些局限？未来，它能否助力人类更好地评价学术贡献的多样性和复杂性？如何规范其使用？本文尝试利用国内外生成式人工智能工具进行测试，在提出假设的基础上深入探讨这些问题，以期提供一种思路、发出预警声音、引起相关讨论。

　　一、应用与研究现状

　　生成式人工智能（Generative Artificial Intelligence， GAI）指基于生成对抗网络GAN、大规模预训练模型等人工智能，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。其核心思想是基于人工智能算法，根据一定条件或指导，生成与之相关、具有一定创意和质量的文字、图像和音视频等。ChatGPT生成的文本、GitHub Copilot生成的代码、Midjourney生成的图片等，均属于生成式人工智能生成的内容，即AIGC（AI-Generated Content）。与此前决策式人工智能模型（Discriminant Model）根据已有数据分析、判断、预测生成内容不同，生成式人工智能更强调在学习归纳已有数据后进行演绎创造，生成全新内容。

　　当前，生成式人工智能以出色的生成能力开始影响一些行业解决问题的习惯，包括科学研究领域（AI for Science）在内的现实应用场景已经出现。2023年6月，东南大学、香港科技大学（广州）、南京理工大学等高校发布公告面向全校上线ChatGPT服务，揭开我国高校使用生成式人工智能的序幕。紧接着，国家开放大学、北京航空航天大学、温州大学等高校亦对ChatGPT等大语言模型展开应用探索，或用于智能问答，或用于教学，或用于心理咨询，以有效推动教学科研创新，满足高校师生的多元需求。以南京理工大学为例，该校通过与向量数据库结合的“小私有模型”方式，向全校师生提供基于ChatGPT的自动解答、知识库建设、写作辅助、文献翻译等智能化服务。据统计，该校ChatGPT应用日均问答量超1万次，这些问答主要集中在科技领域，在人文社科领域有对网红经济、著作权保护、企业财会等名词概念，以及诸如“你认为人工智能的创作与人类的创作是否存在根本上的区别”等问题的解答。该校师生认为，ChatGPT能够高效解答一些学术问题、辅助论文写作、进行文献翻译，提升教学、科研和管理的工作效率，降低获取信息的门槛。然而，ChatGPT给出的答案看似具体，实则用处并不多，观点也颇有些“骑墙”，仅对初学者有些许帮助。这是由人文社会科学研究的主观性、经验性、本土性、内部多元性和成果多样性等特性，以及大语言模型与生俱来的局限性共同决定的。

　　将生成式人工智能产品应用于教育评估抑或学术评价时，将产生怎样的作用？国内外学术界在2023年亦有一些探讨。首先，有医学教育相关领域的研究者肯定了在提供详细提示和研究背景时，ChatGPT可生成高质量研究，显示出一定的文本输出能力。其次，ChatGPT及其同类产品的产生与发展，对学校教育产生了巨大冲击，“数字时代，人工智能融入教育评价成为深化新时代教育评价改革的现实之需”，为此，学者倡导形成“思维比知道重要、问题比答案重要、逻辑比罗列重要的学习评价新思维”；而针对ChatGPT对在线评估的道德影响和教育影响，国外研究认为，ChatGPT在评估中的开发与整合方面提供了令人兴奋的机遇和挑战。最后，将ChatGPT用于论文创新性评价，效果如何？是否有可行性？从学术生产、学术评价、学术传播三个角度来看，生成式人工智能一方面可以助力建立评价体系，另一方面可能产生潜在歧视。相关研究亦有学者撰文详细分析，认为ChatGPT在论文创新性评价任务中展现出良好性能，能较好地完成多学科领域的论文创新性评价，但评价的稳定性、准确性与真实性稍显不足。还有学者认为，以 ChatGPT为代表的人工智能聊天机器人，将影响科研成果创新性评价、科研成果权属认定、科研成果评价生态和人才评价客观性等，并尝试提出合理使用ChatGPT为科研成果及人才评价服务的应对策略。从检索结果看，鲜见专门探讨反思生成式人工智能参与学术评价的论述或案例。

　　二、赋能评价：知识工作者的“工业革命”

　　学术评价的终极目的是实现学术繁荣，造福人类，创新评价是其本质。然而，传统的学术评价体系难以实现真正的创新评价，“唯量化”和得不到充分开展的同行专家评审，导致形式化、简单化、评价主体淡化、评价结果软化等问题依然存在。近年来，我国大力推动学术评价改革，力图破除“四唯”“五唯”等过度依赖量化评价指标的现象。不过，即便破除“四唯”“五唯”，学术评价依然面临一些困境。首先，如何公正合理地评价学术成果的质量成为一个难题。如果采用传统同行定性评价方式，仍旧会引起评价不公、主观性强等问题。其次，如何保证评价的客观性和公正性是一个挑战。由于评价标准的多样性，不同学科、不同类型的学术成果很难用一套标准来衡量。

　　就微观评价而言，结合同行评议，生成式人工智能的出现为解决论文评价提供了一条可能的路径。生成式人工智能的核心能力大致分为生成（generate）、总结（summarize）、提取（extract）、分类（classify）、检索（search）与改写（rewrite）。生成是其核心能力：根据输入提示或在上下文中生成具有语法正确性和连贯性的输出，包括自然语言文本、图像、音频和其他多媒体内容。总结能力基于预训练的神经网络模型和文本生成算法，结合注意力机制，使得大语言模型从数据中提取关键信息，生成概括性的回应或总结。提取是指大语言模型从文本中提取特定信息的能力，能够识别数据中的命名实体、关键词、日期、地点等。分类是将文本或数据分为不同类别的能力，经过特征提取、模型选择、数据标记和模型训练等步骤，大语言模型可有效完成包括文本分类、情感分析、文档归档等任务。从数据集中查找和返回相关信息的能力即检索，可实现文档检索、信息检索、搜索引擎、问题回答、推荐等功能。改写是指大语言模型基于给定数据进行重新表达的能力，重新表达的数据具有多样性，与原始数据相关且保持基本含义不变，可用于处理文本增强、摘要和其他文本相关任务。

　　以上六大核心能力赋予生成式人工智能在自然语言处理及相关领域的多功能性。这些能力相互协同，为开展学术研究提供诸多方便，具体而言，可以从文献综述、产生理论、研究设计、搜集数据、分析数据等多个方面对社会科学研究赋能。不过，假如让这个“好助理”越俎代庖直接生产文本甚至论文，将使得发现剽窃抄袭更为困难，这也是国外一些学校禁止学生使用生成式人工智能撰写论文的理由，尽管这些禁令对阻挡学生利用ChatGPT写论文、做作业的趋势收效甚微。就国内而言，目前我们对生成式人工智能在学术研究甚或学术评价中作用的分析仍处于探索阶段。笔者在测试中发现，它对于处理复杂的学术评价任务确实可以发挥一定作用，尤其是在辅助建立小同行评审专家库、集成评价信息等方面具有潜力。

　　（一）概括文献的主要贡献，辅助文献比较

　　基于生成式人工智能的生成和总结能力，研究者能够在短时间内处理大量文献，概括文献的主要贡献和创新点，生成学术评价报告。就这一假设，笔者分别使用Zotero文献管理工具中的zotero-gpt插件（微软Azure OpenAI国内服务的GPT-3.5）、百度文心一言大模型3.5和Aminer AI（清华智谱的GLM）单篇对话三种工具，测试大语言模型的概括文献能力。结果显示：3种大语言模型均能较好地用中文总结“The Potential and Concerns of Using AI in Scientific Research: ChatGPT Performance Evaluation”的主要创新点，且3种大语言模型总结的主要创新点基本一致，与该领域专家精读后给出的结论一致。此外，在提示工程的“加持”下，大语言模型处理复杂任务的能力有望进一步增强，能够理解文献的背景、实验、方法、结果、结论等，并综述研究现状、对比研究方法、分析技术趋势、获得创新思路。这种高效性使得评价主体有更多精力投入到深入分析、判断和决策等高层次任务中去，以提升学术评价的效率和准确性。不过，大语言模型无法确保生成内容的准确性和可信度，研究者需要运用批判性思维和领域知识对生成内容进行审查和补充，以确保评价的全面性和准确性。

　　生成式人工智能拥有处理大规模文献的卓越能力，能够同时综合分析数百甚至上千篇文献，以快速辨识并提取其中的重要信息。这种综合分析和评价的能力可用于学术研究、政策制定和市场分析等多个领域，亦适用于一般评价目的的学术评价活动。从大量待评审文献中筛选质量较高的文献，减少了重复劳动和无效劳动,削减了评价成本,提升了评价效率,减轻了评价专家的工作负担。不过，对于有较高要求或特定目的的学术评价则不宜采用，这类学术评价活动更适合专家精读式的内容评价，并依赖时间和实践的效用评价。值得注意的是，尽管大语言模型在处理文献时具备出色的效率和规模优势，但仍需关注信息的质量和可信度。

　　（二）为分析文献价值提供一些信息和见解

　　这是由生成式人工智能生成、总结和提取三个核心能力决定的。首先，大语言模型在开展观点评述和讨论方面有望发挥作用。以ChatGPT为例，它能帮助知识生产者续写文字、进行头脑风暴，甚至开展观点讨论。不过，由于大语言模型可能不具备足够的领域专业知识，进行学术评价时领域专家的专业知识和人工审查不可或缺。其次，大语言模型能够理解和生成特定的学术评价内容。比如，将ChatGPT 用于论文创新性评价后发现：ChatGPT能较好地完成多学科领域的论文创新性评价，可在相关任务中将之视为高效的论文创新性评价辅助工具。尽管ChatGPT可以提供有用的信息和见解，但它仅能提供初步判断，最终的文献评估需要结合领域专业知识和深入研究来确定。最后，大语言模型可以帮助学术评价人员在海量稿件中快速甄别并判断文章质量。国外学者利用GPT-4对3096篇Nature系列论文和1709篇ICLR论文生成了审稿意见，并与人类同行评审专家的审稿意见进行定量比较。结果显示：GPT-4生成的审稿意见只是在具体性方面比人类专家稍逊一筹，超过50%的AI审稿意见与至少一名人类审稿专家一致，82.4%的作者表示GPT-4生成的审稿意见相当有帮助。即便如此，文献质量和可信度依然是重要的评估因素，在评估文献价值时应综合考虑多个因素，并结合领域专家的专业知识进行深入审查。

　　（三）辅助建立小同行评审专家库

　　基于提取和分类两个核心能力，生成式人工智能有望助力人类建立学术评价知识库、小同行评审专家库等数据库。以人文社会科学学术评价为例，由于它具有主观性、经验性、本土性、内部多元性和成果多样性等特点，其评价较复杂、难度较大，相关实践存在诸多问题。开展以创新和质量为导向的人文社会科学学术评价在学术界已成共识，建立能够真正用于创新和质量评价，涵盖文献、案例、评论、报道数据，囊括学者基础数据、学术内容数据、学术评论数据、社交网络数据、社会影响数据在内的人文社会科学学术评价知识库，实施动态更新、专家可信度高的人文社会科学小同行专家库势在必行。生成式人工智能可从海量学术文献中提取作者、标题、摘要、关键词等信息，构建学术评价知识库的基础数据；可以根据文献实质内容，将文献及其作者分类到不同主题领域，这是筛选学术小同行的数据基础；还可以通过分析学术文献及其相互引用关系，帮助识别学者间的学术关系。尽管生成式人工智能能够显著提升文献内容的准确识别速度，从而增强检索功能、规避学术主观因素的干扰，为学术研究和学术评价提供强大的技术支持。但是，在使用这类产品时，仍需谨慎处理其中涉及的伦理和隐私问题，同时积极与领域专家合作，确保学术评价知识库、评价专家数据库的内容和结构符合严格的学术标准。

　　（四）集成评价信息

　　基于大语言模型的提取和改写能力，生成式人工智能可从海量文献中提取引语并分析引用数据，如被正面、中性、负面引用情况，被哪些作者引用、评论，感情色彩是否强烈，等等。Scite就是这样一款通过智能引擎发现和评估学术文献的工具，它能帮助研究者轻松找到相关论文并了解其质量。ChatGPT因编造不存在的参考文献而饱受诟病，但Scite消除了这个弊端。Scite从ChatGPT中获取信息，再到自身的数据库中搜索，将之与真正的参考资料进行语义匹配，从而帮助研究者了解文献的引用情况和被其他研究者的评价情况。在Scite中，只要点击文献名称就能看到详细的被引用数据：被支持的引用数量、反向对比的引用数量、仅提及的引用数量、存在引用声明的文献数量等，进而发现文献间推导的逻辑链、学者间观点辩论的详情，帮助研究者判断一篇文章在学术界的影响力，以便更深入地分析和评价。此外，ChatGPT能够捕捉文献间的内在联系、共性观点和相关领域的前沿动态，帮助研究者更好地选择要阅读的文献、了解领域内的关键工作、探索新的理论和方法、发现新的知识和研究方向。

　　（五）助力建立多元主体参与、多维尺度协调、共性与个性并存的学术评价体系

　　随着科学研究快速发展，文献评审需求爆发式增长，传统的同行评审方法因效率低、时间长、成本高而不堪重负；文献计量学评价方法虽评价效率稍高，但缺乏对学术成果内容的深入评价，无法满足准确判断学术价值的需求。生成式人工智能的出现为解决上述问题提供了机遇。首先，它能自动分析大规模文本和数据，用于生成适用不同领域和任务的多元化评价标准，从而减少评价的主观性和不一致性，降低评价成本和时间消耗。其次，评价成本的降低和效率的提高，进一步使生成式人工智能实时更新学术评价结果，以反映不断变化的数据和信息，确保评价结果的时效性。最重要的是，大语言模型拥有卓越的内容阅读、总结归纳和推理能力，这使得生成式人工智能可以轻松获取文献的形式数据，提炼文献核心内容和创新点，及时推理出文献未来的实用价值，进一步降低了依赖时间和实践的效用评价成本。

　　总结而言，生成式人工智能依托大数据、大模型、大算力等基础支撑，在学术评价领域展现出一定的潜力。它不仅有望成为学术评价决策的有力工具，亦有可能扮演推动学术生态发展的重要角色，正如微软首席执行官萨蒂亚·纳德拉在2023年的世界经济论坛中所言，对于知识型工作者来说，这完全等同于工业革命。

　　三、“一本正经地胡说”：涌现导致幻觉

　　研究者对大语言模型的表现抱有疑虑，认为尤其是当问题没有确定答案时，大语言模型就会提供荒谬的回答。即使是那些创造Transformer模型的谷歌科学家、研发ChatGPT的OpenAI科学家，以及测试ChatGPT的微软专家，都难以解释它为什么会发生。大语言模型呈现出四大令人难以置信的能力，抑或四个不可解释的现象：涌现、幻觉、语言迁移和逻辑增强。涌现是指大语言模型具有从原始训练数据中自动学习并发现新的、更高层次特征和模式的能力，这是大语言模型开发者始料未及的。幻觉指大语言模型生成的输出包含一些与输入不符合，可能是错误、无关或者荒谬的信息。语言迁移表现为某种语言的逻辑、推理和知识处理能力在应用到其他语言时也能得到很好的体现。逻辑增强则是指大语言模型使用自然语言回答问题时的逻辑性获得了显著提升。一般认为，涌现导致的幻觉是生成式人工智能存在一定局限性的根本原因。

　　（一）输出内容稳定性、真实性不足，存在误导现象

　　在模型参数规模扩展至千亿级别时，大语言模型的推理性呈指数级提升，尤其对于GPT-4这种多模态大语言模型来说，跨模态迁移更利于知识获取，加速了能力的涌现。当对某些问题缺乏理解或受到输入干扰时，大模型就会出现幻觉，这种幻觉可能出现在文本生成、图文分析和问答系统等任务中，有含义相关、语义扩张和结构错误等几种类型。目前认为，大模型的幻觉与其涌现能力具有相关性。亦有观点认为，包括GPT-4在内的大模型本质上可视作人类知识、语言的有损压缩，因此大模型无法完整复现或应答原始知识，这种信息有损压缩偏差是导致多模态幻觉的根本原因。随着大模型语言迁移和逻辑能力的愈加完善，在回答事实性问题时，其幻觉会变得更加危险。研究者可以通过幻觉单词检测器及一系列温度和多样性控制，从技术上减少幻觉，但其生成内容的可信度和准确性仍难以被有效验证。这就好比一位受人尊敬的智者被发现说了假话，之后人们再也无法信任他。在知识更新速度上，GPT-4的训练数据截至2021年9月，2023年11月6日发布的升级版本GPT-4 Turbo亦步亦趋，融合了截至2023年4月的网络新知。它们均未能将在线的新知识纳入其中，只擅长回答推理性较强的知识，而不擅长获取实时性较强的资讯，可回答的知识范围具有明显边界。当然，可以综合使用微软与OpenAI合作的新一代搜索引擎New Bing来解决实时性问题。

　　就学术评价本身而言，评价标准和指标概念不清也是生成式人工智能输出稳定性和可信性不足的原因之一。评价标准相当复杂，不同评价目的下的评价标准和指标有所区别和侧重。评价标准过分量化、指标泛化等问题的存在，使得生成式人工智能所依赖的“指令”先天不足，进而无法生成精确可信的内容。总之，数据偏见、源数据质量、预训练数据多样性和时效性、模型错误和无法预测的回应等多种因素的存在，导致生成式人工智能对专业领域知识的理解和运用存有局限。此外，缺乏对输出内容可信性、准确性和事实性的校验手段，使得它容易引入专业领域的误导信息，产生有害建议，严重削弱在高准确度学术工作中的应用价值，给定性的学术评价带来一定冲击。值得注意的是，当前的生成式人工智能远未达到强人工智能水平，它既无法模拟人类专家的思考模式和行为习惯，也难以及时将专家意见融入预训练模型中。因此，在需要高准确度和可信度的学术评价领域，它可能无法保证学术价值判断的公允性。

　　（二）输出内容存在法律和道德风险

　　以GPT-4为例，它仍是一个黑盒模型，外界尚无法分解其内部算法逻辑。首先，它能生成具有误导性或有害性的错误信息或偏见，违反OpenAI的政策和用户偏好的内容。其次，GPT-4有潜在能力将不同信息聚合在一起，挖掘大量隐含信息，可能导致隐私信息泄露。假如生成式人工智能参与学术评价，可能会带来法律和道德风险。首先，生成的内容可能违反学术期刊、出版商或教育机构的政策和规范，这对于学术研究和评价来说是不可接受的。其次，挖掘出隐含信息，可能导致学术评价中包含未经授权的隐私信息，进而触发隐私问题和法律责任。最后，输出难以重复，学术评价的重复性和验证变得更加困难，这将导致产生难以核实和确认的研究和评价结果。初学者尤其青年学生无法分辨其生成内容的准确性、是否具有法律道德风险，进而缺乏对问题的深入理解和批判性思考。这也是不少学术机构明确禁止使用ChatGPT等生成式人工智能工具的原因之一。我国应加快探索构建适应新一代人工智能应用环境的法律法规制度体系，以前瞻性的制度设计全面释放新技术的创新活力。

　　（三）输出的评价内容无法有效分级

　　学术评价旨在遴选学术精品，其结果必然要求分出评价对象的等级与层次。理论上说，生成式人工智能可以概括文献的主要贡献，为分析文献价值提供一些信息和见解，进而生成评价结果；研究者可进一步利用它比较评价结果，生成定性意见。

　　就这一推断，笔者于2023年底选取ChatGPT、文心一言和Aminer AI三个工具，根据下表中的两篇论文，针对相关论文的创新性评价对比展开测试。检索后发现，这两篇论文均尚未被三个工具的数据集收录。这意味着，三个工具需利用各自的概括和推理能力进行主观判断，而无其他客观数据支持。测试时的提问语句如下：“比较下选中的这两篇学术论文，哪一篇更具有创新性?并给出理由。”ChatGPT根据文献标题和摘要信息给出它的理由来辅助人类判断，并未直接给出评价结果，而是认为需要根据评价目的来确定。Aminer AI输出了比较结果和三点理由。文心一言则未给出比较结论。经领域专家确认，ChatGPT对论文基本内容的总结和Aminer AI的3点理由总结基本正确。另外，结合王雅琪等人的研究可以发现，ChatGPT仅根据论文部分重要信息进行创新性评价。至于Aminer AI，由于黑盒模型的限制，尚无法得知它判断论文创新性的依据是全文抑或仅是部分重要信息。如能获取参考文献、引用数据等更多信息，论文创新性评价将更加全面，利用提示词工程构建各专业领域的学术评价系统，开展分类评价，或许评价结果更加精确。因此，本文认为，在没有人类专家的干预时，生成式人工智能无法对生成的评价结果进行有效分级(见下表)。

　　（四）输入的特定内容无法被识别

　　生成式人工智能并非百事通，它也存在一些限制。首先，无法识别论文中的特定内容，比如插图。如果提供一张图片，内容为一个系在树枝上的气球，提问“用刀子切断气球下的绳子会发生什么？” GPT-4能够给出“气球会飘走”等答案，这表明它具有简单的图片识别及推理能力。然而，它无法理解学术论文中高度逻辑化的数据流图、流程图等图片的含义。其次，对输入文本的长度有限制。在ChatGPT API中，文本输入最长为4096个令牌 (tokens) ，一个令牌可以是一个单词、一个字符或者一个子词。如果输入超过这个限制，就需要缩短或分割成多个请求。GPT-4 Turbo拥有128k上下文，大约300页文本，可以满足多数研究者的使用需求，但更长的输入可能导致更长的响应时间，因为大语言模型的处理速率是一定的，速率的提升需要用户支付更多费用。最后，ChatGPT等同类型产品对提问者的提问水平有一定要求，往往依赖于提示工程，多次反复提问方可得到准确答案。如果提问水平不高，生成的答案质量就不高。这些会使生成式人工智能失去对学术对象特定内容的辨识和理解，从而无法准确把握文本上下文，难以精确辨认和理解特定的学术内容，最终导致对学术内容的评价不够准确或全面。

　　四、积极应对：合理引导深度融合

　　随着深度学习的发展、大数据的兴起及算力的提升，生成式人工智能涉足实际应用领域指日可待。在学术界，它有望降低获取信息的门槛，提高研究效率，为研究者提供新的视角和工具，使研究者更快速高效地获取信息、生成内容和回答问题。这种高效性将推动知识的生产和传播，拓展多语言翻译和文化交流的可能性，促进跨学科合作和全球知识共享。同时，大模型的出现，要求研究者具有更丰富的想象力、对全局的把控力和深度的洞察力。在新技术普及的情况下，研究水平的高低取决于个体与大模型对话的能力。现在面临的最大问题是如何规范，特别是需要认真对待和解决其带来的数据隐私、信息操纵和模型偏见等挑战。

　　（一）逐步探索制定相关制度与规范

　　不同地区学术机构对ChatGPT的使用态度不尽相同。2023年，英国有28所大学明确宣布禁止学生在论文和课程作业中使用ChatGPT，否则将被视为学术不端，可能会面临严重处分。Nature颁布禁令要求ChatGPT不能充当论文作者，Science则直接禁止投稿使用ChatGPT生成文本。伦敦大学官网显示，可以将人工智能工具与考试评估相结合，但只能将人工智能技术用作辅助工具，绝不能直接用人工智能技术生成论文。我国《图书情报工作》《中国科技期刊研究》等学术刊物表示，原则上不接受作者署名中包含人工智能工具的论文投稿，同时参考文献中也不应包含将人工智能列为作者的论文；须在论文的数据来源、方法设计或结语部分明确说明是否使用人工智能工具、使用了何种人工智能工具、详细使用过程及其作用和贡献，以便审稿人和编辑部对论文的原创性进行评判。与此同时，相关机构也在积极探索生成式人工智能的使用边界。

　　2023年7月10日，国家网信办、教育部等七部委联合发布《生成式人工智能服务管理暂行办法》，其中第四条要求：提供和使用生成式人工智能服务，应当遵守法律、行政法规，尊重社会公德和伦理道德。紧接着，全国信息安全标准化技术委员会对《网络安全标准实践指南——生成式人工智能服务内容标识方法（征求意见稿）》公开征求意见。该指南是为贯彻落实《生成式人工智能服务管理暂行办法》中对生成内容进行标识的要求，指导生成式人工智能服务提供者等有关单位做好内容标识工作而编制的，它围绕文本、图片、音频、视频四类生成内容给出内容标识方法。2023年9月，中国科学技术信息研究所携手爱思唯尔、施普林格·自然、约翰威立国际出版集团联合发布《学术出版中AIGC使用边界指南》；同月，《信息安全技术生成式人工智能预训练和优化训练数据安全规范》公开征集参编单位。2023年10月11日，《生成式人工智能服务安全基本要求》技术文件面向社会公开征求意见，为该服务的提供者开展安全评估、相关主管部门评判其服务的安全水平，提供了有效参考。2023年12月21日，科技部监督司发布《负责任研究行为规范指引（2023）》，其中对生成式人工智能参与学术评价有明确的规定，一是严格遵守相关安全保密、资源和数字共享、知识产权归属等规定依规合理使用；二是审稿人在审稿过程中使用生成式人工智能应依规谨慎；三是在评议活动中使用生成式人工智能的，应事先征得评议活动组织者同意，操作中应防止泄露评议内容。

　　值得一提的是，针对输出内容可能触犯用户隐私的情况，OpenAI在GPT-4 Turbo中引入了“版权护盾”机制：如果ChatGPT企业版用户和API用户面临版权侵权的法律索赔时，OpenAI将介入并支付相关费用。针对输出不稳定的情况，GPT-4 Turbo提供了seed参数和system_fingerprint响应字段，以实现模型对每次请求都给出确定性的输出。

　　以上管理办法、规范文件和技术措施的出台，说明各国政府、教育机构、学术机构以及人工智能公司正在积极应对。这些措施对保障学术研究的可信度、原创性和独立性，推动学术研究和新技术持续发展、深度融合具有重要意义。

　　（二）以人为中心，尝试建立人机协同的学术评价机制

　　人文社会科学领域研究结论不易复现、有较强的地域性和文化特征等，使得其价值和效用可能长期延续。这些领域涉及复杂的文化、社会现象和人类情感。目前，人工智能无法理解和解释人文社会科学研究涉及的文化、社会、人类行为等。因此，在学术评价时人类同行评审仍是主要责任者，学术共同体的个人经验、专业知识和独立思考能力至关重要。他们可以结合人工智能提供的辅助信息，整合多方面的参考资料对评价内容有效分级，形成综合的评价观点，确保评价的准确性和公正性。也就是说，人工智能为人文社会科学学术评价提供有价值的数据和见解，但最终的判断和决策仍需人类的专业智慧。人工智能无法替代那些不能被数字化和逻辑化的劳动。再者，大语言模型的局限性目前尚未得到有效改善，仍属于弱人工智能，因此,人们应仅将它视为潜在的辅助评价工具，而不是替代研究者或同行评议专家的独立思考和判断。生成式人工智能有助于帮助研究者迅速获取所需信息、提高研究效率、减轻数据统计负担，这对于开展数据驱动的学术评价及其研究具有积极作用，但更重要的是在研究中始终保持专业判断和思考。

　　（三）贯彻分类评价原则，探索开发专用智能学术评价系统

　　学术评价要求，通过分类分层明确不同学科、研究领域、评价类型和文献形态学术评价的核心要素，对评价对象采取各有侧重的评价标准。分类构建体现不同评价对象类型的专业知识库，采用与向量数据库相结合的方式进行。一方面，这些知识和标准要有可及性和区分度；另一方面，要重视不同学科、研究领域、评价类型和文献形态学术评价的差异化需求，使不同评价对象得到科学评价。

　　建议利用大语言模型开发智能学术评价专用系统的步骤如下：第一，采集国家标准、法规、书籍、领域网站、通用语料数据，作为构造知识库的基础数据；甚至可以对这些数据进行标引以提供特定领域的术语和概念解释，辅助大语言模型更好地理解和应用，生成特定的学术评价内容。第二，构造单轮和多轮对话数据，对生成内容进行筛选和调整，深入对评价对象语言、文化、社会现象等复杂领域的语义理解和文化背景的把握，以提供更精准和更有针对性的评价结果。第三，不可忽略同行评审专家的重要作用，需引入适当的审核和监控机制、申诉和复审制度，确保评价结果的可控性和可信度。对于使用ChatGPT且有更高评价需求的组织，可以利用OpenAI推出的定制模型计划，与专门的OpenAI研究团队合作，针对评价领域训练定制GPT4。具体包括修改模型训练过程的每个步骤，从执行额外的特定领域预训练，到运行为特定评价领域量身定制的自定义训练过程。组织拥有对其自定义模型的独占访问权限；定制模型不会提供给其他组织使用或共享，也不会用于训练其他模型；提供给OpenAI用于训练定制模型的专有数据，不会在其他环境中重新使用。

　　（四）注重学术“全评价”，革新学术评价体系

　　笔者认为，一个有组织的评价体系，至少由评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度六大要素组成，任何评价客体均可从形式、内容和效用三方面去评价，并将形式评价置于合适地位，注重内容评价与效用评价。形式评价既包含同行的定性评价，也包含定量评价；内容评价由同行专家通过直接观察、阅读、讨论来进行；效用评价既强调用一段时间、有限的实践、已有的历史事实来评价，更注重长时间、更多实践和事实的评价。

　　生成式人工智能的出现对贯彻学术“全评价”体系提供了技术支持。首先，它可从海量学术文献中提取发表论著数、被引用数等数据用以开展形式评价。其次，其总结和提取能力，辅助专家对评价对象内容的逻辑性、合理性、价值等进行直接评价。最后，真正有效的学术创新是学术对象能推动学术的进步与发展，引导人们更好地认识和改造世界，成为政府制定战略和决策的理论依据，甚至通过政府的决策过程和结果转化为在社会上具有广泛影响力的成果，这便是学术创新的效用。学术评价应进一步在理论上论证其有效性或在实践中检验其实用性，关注学术评价对象的学术效益和社会效益。生成式人工智能在某些情况下可以根据已有信息和语言模式、复杂的建模方法和领域专家的知识生成文本，这些文本提供关于可能发生的事件的推理：既包括学术对象理论上的有效性或实践中的实用性，也可能是其产生的学术效益和社会效益。

　　结语

　　学术研究应起源于真问题，重要的是利用合适的研究方法或工具解决这一问题，其精髓是创新，目的是促进人类文明和福祉。学术评价是研究的“逆过程”——将研究的结果作为问题，其目的与研究之目的相同。只要存在问题，就会有研究；只要人类能控制机器智能，学术研究与学术评价的目的就不会因手段、工具的进化而发生根本改变。可以预见，生成式人工智能将在创意或创新内容领域有很大作为，只要合理应用就能提升人类整体学术研究水平。从这个意义上说，学术研究专属于人的严肃性及意义似乎被消解。今后，一位优秀的学者不仅要有出色的创新意识，还要有与AI对话的能力，能够训练出优秀的模型，具备出色的prompt编写技能。就目前而言，生成式人工智能还存在“一本正经地胡说”“幻觉”等问题，距离强人工智能还有很长的路要走。即使技术不断发展，原有问题解决了，又会产生新的问题，因此学术研究不会终结，随之，学术评价亦不会终结。

　　当生成式人工智能作为资料收集与初步分析工具等应用于学术评价时，它对评价体系的影响是可控的；但如果将作为人类智慧成果的学术论文或论著，完全交由生成式人工智能去评价时，自然会引起质疑。我们应秉持积极的“悲观”和谨慎的“乐观”态度，对今后可能产生的技术异化现象保持高度警觉，并采取有效的预防，在此前提下大力发展、应用新技术。因为归根到底，尽管人类造物有了某些“智能”，但工具不能代替目的，学术研究和学术评价的主体始终是人。当然，这还取决于我们能否明智地反思和对待新技术的发展和历史，牢牢把握学术研究与学术评价的目的性及其时代性。假如有一天，生成式人工智能得以应用到学术评价中去，我们提倡应注意把握度，进一步探索生成式人工智能与人类同行专家相结合的新型评价模式，以发挥各自优势，人机互动共情，助力建立合理、公正、多元的学术评价体系。我们还应时刻牢记：人工智能虽能有效推动学术评价智能化，但学术评价的本质是人的活动，只有融合人文关怀、充分发挥人的作用，才能更有效地促进学术进步、造福人类社会。学术界应持续关注人工智能技术进步与学术评价体系的耦合关系，在培育良好学术生态的同时，不断反思学术评价体系改革的方向，逐步完善学术评价体系。

　　〔本文注释内容略〕

　　原文责任编辑：陈静

转载请注明来源：中国社会科学网【编辑：苏威豪】

社科推荐

学科体系

新媒体矩阵

生成式人工智能参与学术评价的反思