图源 | Internet
周海晨1 章成志2 胡志刚3 徐硕4 毛进5 陈亮6
1.中国科学院成都文献情报中心, 成都, 610299;
2.南京理工大学经济管理学院, 南京, 210094;
3.华南师范大学科学技术与社会研究院, 广州, 510631;
4.北京工业大学经济与管理学院, 北京, 100124;
5.武汉大学信息管理学院, 武汉, 430072;
6.中国科学技术信息研究所, 北京, 100038
关键词
全文本计量 大语言模型 颠覆性技术 创新识别
引用格式
周海晨,章成志,胡志刚,等.大模型时代下全文计量分析的应用与思考——2023全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2024,14(2):162-168,封2.
1 引言
随着开放获取(Open Access,OA)运动的推进和学术界对知识共享和学术传播的重视日益增强,以及人工智能、深度学习、大语言模型等技术的快速发展,处理和分析大规模全文本数据得到了强有力的支持。全文本计量研究因此成为众多学者关注的热点话题,为研究者提供了更全面的视角和深入的见解。在这一背景下,南京理工大学经济管理学院的章成志教授、华南师范大学科学技术与社会研究院的胡志刚教授以及北京工业大学经济与管理学院的徐硕教授先后在2018年9月、2019年11月和2022年12月的天府论坛上共同发起了三次“全文本文献计量沙龙”活动[1-3],受到了与会者的积极参与。通过三届沙龙的推动,相关研究的学术影响力不断提升,学界和业界参与研究和讨论的热情也越来越高涨。这为相关领域的发展注入了新的活力。
为进一步促进全文本文献计量研究的繁荣和发展,2023年9月,章成志、胡志刚、徐硕共同发起了第四届“全文本文献计量分析”学术沙龙,特邀武汉大学信息管理学院毛进副教授、中国科学技术信息研究所技术支持中心陈亮副研究员、中国科学院成都文献情报中心周海晨助理研究员作为沙龙嘉宾。此次活动吸引了来自全国各高校、科研机构及企业的师生、学者和从业人员共计80余人参加。与会嘉宾们介绍了自己最新的研究成果,在交流环节,与会者们围绕全文本文献计量分析的相关主题进行了深入讨论,气氛热烈活跃。
通过对本次沙龙内容的梳理和总结,本文将从大语言模型与全文本计量分析、全文计量分析的应用视角等方面来解读本次沙龙,以揭示全文本文献计量分析的研究现状与发展趋势,为该领域的发展提供新的思路和方法。
2 大语言模型与全文本计量分析
大语言模型依靠大量的文本数据来学习语言的语法、语义和上下文信息,进而实现对自然语言的有效理解和生成。在全文本计量分析中,大语言模型也发挥着关键作用。全文本计量分析旨在从海量的文本数据中高效地提取有价值的信息和知识,而大语言模型则通过其强大的学习和理解能力,帮助研究人员实现更精准的信息提取和文本分析等任务。本次沙龙探讨了大语言模型在全文本计量分析、学术评价中的应用,以及其在全文本计量分析领域的机遇和挑战。
2.1 大语言模型与全文计量分析
2022年11月30日,OpenAI发布了对话式语言大模型ChatGPT (Chat Generative Pre-trained Transformer)①。ChatGPT从面世到家喻户晓,进入了大规模应用阶段,市面上基于ChatGPT API的AI应用犹如雨后春笋般层出不穷,并引发了新一轮的自然语言处理范式的发展[4]。胡志刚利用ChatDOC pro②学术工具,进行了基于Scientometrics期刊数据的全文计量分析。他从语词、语句、语篇层面开展了关键词分类、引用句识别、论证结构解析等方面的研究,并对结果进行了比对与分析。发现在全文计量分析的应用上,ChatGPT目前仍存在以下局限性:①很难进行全文解析,主要体现在对长文本及多PDF的支持上;②通用性有余而专业性不足;③不能进行规则抽取,格式信息和结构化信息无法识别和利用;④返回结果存在错误和随机性。
然而,尽管存在这些局限性,胡志刚强调,ChatGPT仍然是一个强大的工具,它提供了人机交互的自然语言界面,这使得人们能够以自然语言的方式与机器进行交互和沟通。同时他指出ChatGPT在今后发展中,有望与文献检索数据库、文献管理工具、科学知识图谱、论文写作工具等实现深度集成。通过这些集成,ChatGPT将能够更好地为科学研究领域提供支持,帮助科研人员解决更多实际问题。
2.2 大语言模型与学术评价
ChatGPT的出现进一步将生成式人工智能(Generative Artificial Intelligence)引入公众视野[5]。生成式AI是AI的一种形式,它从样本数据中学习人工制品(artifacts)的数字化表示,并使用它来生成新的、原始的、真实的人工制品[6],这种AI模型的主要特点在于,它能够生成与训练数据相似但不完全重复的新内容,这使得各领域用户将生成式AI用于决策参考中。
为验证生成式AI在学术评价应用的可能性、实现途径和实际效果,周海晨及其团队设计了一系列实验,将专家评价分数和Copilot评价分数进行评分差异分析,专家评价文本和Copilot评价文本进行文本差异分析。基于H1connect同行评议数据网站,选取2020年发表的800多篇Cell Biology领域只被点评一次的论文作为分析对象,针对Cell Biology领域设计一套评价体系以提高Copilot生成内容的针对性与可靠性。Copilot被设定为科学家,被要求对每篇论文的原创性(originality)、精确性(accuracy)、概念的先进性(conceptual advance)、时效性(timeliness)、重要性(significance)5个维度进行评价,并给出推荐分数(1分代表好,2分代表非常好,3分代表卓越),最后进行综合评价。评分结果显示,Copilot与专家的分歧较大,对于专家评分为1的论文,Copilot往往给出3分;对于专家评分为2分和3分的论文,Copilot与专家的意见统一度会更高。评价文本结果显示,Copilot的评价句子数量和句子长度都少于专家,且Copilot多采用宽泛的形容词,而专家则聚焦于研究的实体。
2.3 大语言模型的机遇挑战
大语言模型的快速发展使得其相关成果广泛应用于各个领域[7-9],对社会各行业都产生了巨大冲击[10]。在图书情报领域,大语言模型对科技文献全文计量工作将产生哪些影响成为一个亟待回答的问题。章成志指出,大语言模型的发展必然会带来工作方法、工作范式的变革,对于该领域而言更多的是机遇,大语言模型帮助降低专业门槛,其在实体识别、情感分类、概念抽取、句子识别等基础任务上的效果较好。胡志刚认为文献计量学存在很多应用场景,从科技知识图谱角度而言,大语言模型具有强大的潜力,可以将那些人类可能无法全面理解的知识,通过语言处理和自然语言生成技术,转化为直观、易懂的图谱,从而为科学研究提供有力的支持。周海晨认为,传统的数据采集方法往往受到诸多限制,如人力有限、语言障碍、访问权限等,然而大语言模型可以在学习有限的论文后生成学术全文本数据,扩展数据源,增加数据量。
陈亮指出,如果想用大语言模型开展科技文献评价,需要专业领域的语料和训练,如何将科技知识转移到大语言模型中是应用的挑战之一。毛进、陈亮、周海晨认为,大语言模型需要处理大量的文本数据、进行复杂的语言处理和生成任务,这需要强大的计算能力来支持其运行,但开展大语言模型训练、微调的高校院所,其实验室设备往往不够充足。徐硕、陈亮认为,大语言模型可能会产生信息泄露问题,在开展全文本计量分析研究时,应注意数据收集和利用的合规性。陈亮在使用大语言模型后发现,在命名实体识别这个具体任务上,大语言模型的性能仍然与基于监督学习的深度学习模型存在一定的差距,并且发现在面对事实型和推理型问题时,大语言模型存在胡编乱造的情况。
注释:
①:https://chat.openai.com
②:https://chatdoc.site
3 全文本计量分析的应用场景
3.1 学者研究主题与研究方法的性别差异
近年来,科学工作者性别差异问题引起了社会各界的广泛关注[11]。国内外众多学者探讨了性别结构与规模、学术产出与影响、学术合作的性别倾向等一系列问题[12-14]。这些研究有助于科学领域的女性学者获得公平[15],同时在促进科学发现、提高科研效率等方面有着不可忽视的潜力。章成志对图书情报领域内的学者研究主题与方法选择的性别差异开展研究,基于JASIST、JDoc和LISR期刊研究型论文,构建基于全文认知的研究方法自动分类模型CogFT。研究结果表明:①在图书情报领域,女性作者偏好的主题有健康信息、高校图书馆、信息素养等,男性作者偏好的主题有信息检索、模型和算法、科学评价等,女性作者倾向于访谈、问卷调查和观察,而男性作者则倾向于文献计量和理论方法;②在不同的图书情报研究主题中,女性作者在特定的主题中表现出强烈的使用访谈的倾向,男性作者在四个由女性主导的特定主题中表现出更多使用理论方法的倾向;③在不同图书情报领域的期刊中,不同期刊关注的主要研究主题少有交叉,无论何种期刊,男性作者都明显倾向于使用理论方法,而女性作者则明显更喜欢访谈[16]。
3.2 基于领域知识实体的创新识别与评价
毛进从情报学角度出发去思考全文本分析的问题,并梳理出研究思路:数据处理-知识表示-创新识别-创新评价-规律发现。首先,从知识模因的角度去理解跨学科知识流动。模因[17](meme)是一个传播学的概念,指可以在人与人之间传播传递着特定的现象、主旨和内涵的想法和行为,模因能实现自我复制、突变等过程,其传播的主要机制是模仿[18]。其次,从引用句视角探究跨学科知识流动。具体来说,可以通过提取引文中的名词短语,观察它们是否出现在被引文章的标题、摘要和关键词中,从而确定其是否属于知识引用[19]。毛进以eHealth领域为例,使用同时出现在引用句和被引文章中的名词短语来揭示跨学科领域的整合知识结构以及分析不同学科对跨学科领域的知识贡献角色[20]。再次,毛进指出可以从两个角度开展基于知识实体的颠覆性指标的探索,即现有知识基础和知识发展脉络颠覆[21]。然后,从领域视角讨论知识创新与影响力关系,这需明确区分两个问题,即区分知识创新的两个角度:知识创造和知识移植;区分影响力的两种类型:领域内影响力和领域外影响力。最后,面向科学发现探索并挖掘创新路径,即在科学发现领域数据集中,进行科学发现事件抽取,通过网络建模和关联分析来表示创新路径。
3.3 颠覆性技术识别与多标识主题分类
颠覆性技术是指具有一系列新功能,且能够代替主流技术并对现有市场或产业格局产生颠覆性影响的技术[22]。如何识别及预判颠覆性技术成为当前亟需解决的关键问题。徐硕团队将颠覆性技术识别问题转化为机器学习中的二分类问题,基于全文本内容,采用词性标注、C-value方法等自然语言处理技术抽取专利术语,在实现术语抽取后,每个文本将会由不同数量的术语表示[23]。基于专业术语,兼顾技术创新性和技术影响力两个维度,构建了涵盖5个指标的颠覆性技术识别指标体系。为验证颠覆性技术度量的有效性,徐硕团队选取了太阳能光伏领域的相关专利数据进行实证研究,借助所构建的颠覆性指标体系,引入决策曲线分析方法(Decision Curve Analysis,DCA)[24]以确定最优的分类阈值。实证研究在太阳能光伏领域取得较好的预测效果,验证了方法的有效性,为颠覆性技术预判、专利价值衡量等研究提供了新的视角。
多标识主题分类任务的目的是将某条数据准确划分到一个或多个主题下(如某篇新闻被同时划分到“政治”和“体育”主题),与单标识主题分类任务相比,其具有更高的复杂性和更高的难度。随着科技文献数量的快速增长以及研究领域的不断细化,如何高效、准确地识别科技文献中的所有主题成为了一项具有挑战性的任务。新冠疫情相关研究的爆发式增长,使得这一问题变得更为迫切[25]。为此,徐硕团队在BC7-LitCovid语料库①所提供元数据的基础上,进一步补充了全文本、生物实体、MeSH数据,提出了一套多标识主题分类框架,该框架同时考虑了主题间的相关性以及不均衡性以提升预训练模型的性能。其实验结果表明元数据是最有价值的特征,全文和MeSH比生物实体更能提升对多标签主题分类的性能,但提升水平有限。
3.4 专利命名实体识别与发展脉络抽取
面对大量的专利文本,如何更高效地识别出专利命名实体[26],并且快速准确地发现领域内具有重要影响的知识演化脉络,支撑未来的科技创新与科技决策,成为目前研究者关注的焦点[27]。陈亮结合专利文本与引文信息,开展了“技术分类号辅助的无标注专利命名实体识别研究”和“文本信息辅助的知识发展脉络抽取方法研究”。他指出,在领域命名实体识别的标注数据准备工作中,存在人力高度密集、标注数据无法跨领域使用等问题。对此,针对无标注命名实体的识别,可以采用专利技术分类号,通过主题模型将技术分类号对文章的标注转化为对实体的标注[28]。对无标注的命名实体识别结果进行筛选、排序,形成命名实体识别标注种子,转为指令在大语言模型微调,实现性能提升。
主路径分析法(Main Path Analysis,MPA)是一种基于引文网络的知识脉络抽取方法,被广泛用于追踪技术领域的发展轨迹,虽然该方法能够帮助人们快速洞察目标领域的知识发展脉络[29],但其高权重路径普遍在单一主题上聚集[30]。为解决该问题,陈亮提出一种新方法——语义MPA(sMPA),基于文本信息实现覆盖不同主题的多主路径抽取,该方法在候选路径生成和主要路径选择两个步骤中利用语义信息。通过将文本附加到引文网络中的顶点,获得两个链接顶点之间的文本相似性,并将其与拓扑权重相结合,作为候选路径生成中主题一致性改进的基础。此外,为了更好地表示不同子领域的发展脉络,陈亮对路径集合进行聚类,并选取每个聚簇中权重最大的路径作为这个子领域的主路径[28]。
注释:
①https://ftp.ncbi.nlm.nih.gov/pub/lu/LitCovid/biocreative/)
4 全文本计量分析的讨论与思考
全文本计量分析作为挖掘文本数据信息和知识的重要手段之一,正逐渐在学术研究和科学实践中占据重要地位。然而,在实际应用中,全文本计量分析仍然面临着一些挑战和问题。本次沙龙探讨了如何推进全文本计量分析走向实用化,分析投入-产出视角下的局限性以及文本选取的粒度悖论问题,以期更好地理解文本数据的结构和规律,挖掘出更有价值的信息和知识,为全文本计量分析的发展提供新的思路和方向。
4.1 推进全文本计量分析实用化
全文本计量分析的实用化是当前学界和业界共同关注的重要议题,它对于推动科学研究和行业发展具有重要意义。徐硕认为,一方面要工具化,即充分利用好现有工具与资源,比如CiteSpace、VOSviewer等工具,这些工具不仅易于上手使用,而且具有广泛的应用领域,可以更快速、准确地获取和分析文本数据中的信息;另一方面要标准化和规范化,全文本数据存在html、pdf、xml等诸多格式,这些往往会对文本内容的分析产生干扰,建立全文计量分析的标准化和规范化流程,将有助于提高全文计量分析的准确性和可靠性,并促进其在实际应用中的推广和使用。在某些领域已经有相关工具,如生物领域的BioC[31]。章成志、毛进认为,除了工具化外,还需要注重数据开放。当前全文数据的获取较为困难,常用的全文数据库如PubMed等往往只涵盖了一部分可用数据,而其他很多数据由于版权、隐私等各种因素并没有公开。因此,如何推动数据开放,增加可用的全文数据语料,是推进全文计量分析转向实用化的关键步骤。此外,章成志还提到了应当考虑算力等实际问题,需要具备足够的计算能力来处理和分析大规模的全文数据,以保证全文计量分析的准确性和效率。
4.2 投入-产出视角下的局限性
投入-产出关系是经济学领域永恒的研究主题,在科学活动中,投入-产出关系也是一个重要的方面,被应用于各个科学领域[32-34]。科学计量学往往则从科学投入、产出和影响及其相互关系,以及科学活动的角度审视科学。在全文本计量分析中,其投入主要是指在文本数据采集、预处理和特征提取等过程所投入的各种人力、物力、财力资源,产出主要是指通过文本数据挖掘、计量学分析所得到的研究成果和实际应用效果。徐硕提出,在获取全文本数据、数据清洗、数据标注过程中需要付出大量的精力和时间,但往往大家更倾向于将积极的结果发表在论文中,而忽略了一些消极的结果,这可能会导致一些问题的存在和积累,从而影响全文本计量分析的发展和应用效果。章成志、周海晨认为在全文本计量分析研究中,投入-产出的局限性是不可避免的,在全文中开展数据挖掘、数据分析研究,本身就需要投入大量时间和精力,但全文本数据具有的完整性、灵活性、多样性等特征,使用这类数据往往能够挖掘出更深层次的信息,为后续的研究提供更多的启示和参考,这使其仍然成为一种有价值的研究方法。
4.3 文本选取的粒度悖论
全文本计量的粒度悖论主要是指,在对文本数据进行计量时,如果数据的粒度级别不一致,可能会导致得到的结果不一致,甚至可能产生矛盾。在全文本计量分析中,粒度指的是将文本数据划分为不同的层次或级别,以便更好地进行数据分析。文本中涉及的粒度对象包含字符级、词语级、句子级、段落级、篇章级等[35]。毛进指出,在处理具体的计量任务时,选取合适的文本粒度是至关重要的。他发现,在基于知识实体的颠覆性研究的数据选取过程中,使用医学主题词MeSH和keyword关键词进行实验,结果存在差异。章成志认为,这种差异是因为不同粒度具有不同的解释能力和适用范围。在开展计量分析工作时,粒度的选取应当考虑问题的复杂性、文本的特点和应用场景,而不是过分追求普适性,使用不当可能会导致结果不准确或无意义。往往大家会采用多粒度、多层次的文本计量方法,以便更全面、准确地理解和处理文本数据[36-37]。
5 总结
随着大模型时代的来临,全文本数据集的规模日益扩大,同时语言模型和新兴信息技术的快速发展,为全文本计量分析提供了更为丰富的数据资源和更加强大的工具。此背景下,“全文本文献计量分析”学术沙龙围绕大语言模型与全文本计量分析、全文计量分析的应用视角等主题,从实用化、局限性和粒度悖论三个角度对全文本文献计量分析的研究现状、发展趋势及存在问题展开了分析与讨论。在这场学术沙龙中,学者们分享最新的研究成果,探讨学术领域的热点问题,相互间交流和启发,不仅拓宽了研究视野,也推动了全文本文献计量分析领域的发展。
综上所述,全文本计量分析在近年来得到了广泛的关注和研究,其主要聚焦在大语言模型与学术评价、命名实体识别与发展脉络抽取、颠覆性技术识别与多标识主题分类、创新识别与评价等方向。然而,如何推进全文本计量分析走向实用化、打破现有局限性,以及进一步推进数据开放是亟待解决的问题。这需要加强学术交流与合作,促进不同学科领域的交叉融合,搭建更加开放共享的学术平台,共同推进全文本计量分析的研究和应用工作。
致谢:特别感谢中国科学院成都文献情报中心创新研究部主任、科技创新评价研究中心(SERC)主任陈云伟研究员为本次沙龙提供场地支持。
参考文献
作者简介
*原文载于《信息资源管理学报》2024年第2期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
周海晨,章成志,胡志刚,等.大模型时代下全文计量分析的应用与思考——2023全文本文献计量分析学术沙龙综述[J].信息资源管理学报,2024,14(2):162-168,封2.
往期 · 推荐
▲点击访问信息资源管理学报小程序
制版编辑 | 王伊杨
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊