应用bibliometrix包进行文献计量学(二)

文摘   2024-10-15 00:35   北京  

A brief introduction to bibliometrix(二)

包网址:https://www.bibliometrix.org

教程网址:https://www.bibliometrix.org/vignettes/Introduction_to_bibliometrix.html

文献计量分析

第一步是对文献数据帧执行描述性分析。

函数bibleoanaly使用以下语法计算主要的文献计量指标:

results <- biblioAnalysis(M, sep = ";")

函数biblioAnalysis返回一个“bibleometrix”类的对象。 “bibleometrix”类的对象是包含以下组件的列表:

返回的结果

总结和绘图功能

要总结文献计量分析的主要结果,请使用通用函数summary。它显示有关文献数据框架和几个表格的主要信息,如年度科学产量、按引用次数计算的顶级手稿、最富有成效的作者、最富有成效的国家、每个国家的总引用、最相关的来源(期刊)和最相关的关键字。

主信息表根据文档数量、作者数量、来源数量、关键字数量、时间跨度和平均引用次数来描述集合大小。

此外,还显示了许多不同的共同作者指数。特别是,每篇文章的作者指数是根据作者总数和文章总数之间的比率计算的。每篇文章的共同作者指数是根据每篇文章的共同作者平均人数计算的。在这种情况下,该指数考虑了作者的出现,而对于“每篇文章的作者”,即使作者发表了多篇文章,也只计算一次。因此,每篇文章的作者指数≤每篇文章索引的合著者。

协作指数(CI)计算为多作者文章的总作者/多作者文章的总作者(Elango和Rajendran,2012;Koseoglu,2016)。换句话说,协作指数是仅使用多作者文章集计算的每篇文章的共同作者指数。

summary函数接受两个额外的参数。k是一个格式值,指示每个表的行数。pause 是一个逻辑值(TRUE或FALSE),用于允许(或不)屏幕滚动中的暂停。选择k=10,您决定查看前10个作者、前10个来源等。

options(width=100)
S <- summary(object = results, k = 10, pause = FALSE)

一些基本的图形可以使用通用函数绘制。

plot(x = results, k = 10, pause = FALSE)

引用参考文献分析

函数citations生成引用次数最多的参考文献或引用次数最多的第一作者(参考文献)的频率表。

对于每个手稿,引用的参考文献以单个字符串存储在数据帧的“CR”列中。

为了正确提取,您需要识别ISI或SCOPUS数据库使用的不同引用之间的分隔符字段。通常,默认分隔符是“;”或 ". " (双倍空格的点)。

M$CR[1]
该图显示了第一个手稿的参考字符串。在这种情况下,分隔符字段是sep = ";"

获取最常被引用的手稿:

CR <- citations(M, field = "article", sep = ";")
cbind(CR$Cited[1:10])

要获得最常被引用的第一作者:

CR <- citations(M, field = "author", sep = ";"
)
cbind(CR$Cited[
1:10])

localCitations函数生成本地引用最多的作者的频率表。本地引用衡量此集合中包含的作者(或文档)被集合中的其他作者引用的次数。

获取最常被引用的本地作者:

CR <- localCitations(M, sep = ";")
CR$Authors[1:10,]
CR$Papers[1:10,]

作者贡献排名

函数 dominance计算作者的优势度排名,由Kumar&Kumar,2008提出。 参考文献见下

Kumar, S., & Kumar, S. (2008). Collaboration in research productivity in oil seed research institutes of India. In Proceedings of Fourth International Conference on Webometrics, Informetrics and Scientometrics.

函数参数是:由bibleoAnalysis获得的结果(bibleometrix的对象);和k(分析中要考虑的作者数量)。

DF <- dominance(results, k = 10)
DF

优势因子-Dominance Factor是一个比率,表示学者作为第一作者出现的多作者文章的比例。

在这个例子中,Kostoff和Holden主导了他们的研究团队,因为他们在所有论文中都是第一作者(Kostoff 8人,Holden 3人)。

作者h指数

h指数是一个作者级别的指标,试图衡量科学家或学者出版物的生产力和引用影响。 该指数基于科学家被引用次数最多的论文集以及他们在其他出版物中获得的引用次数。 函数Hindex计算文献集合中作者的H指数或来源的H指数及其变体(g-index和m-index)。

函数参数是:

  • M一个书目数据帧
  • field是字符元素,它根据作者(field="auhtor")或来源(field="source")定义分析单元
  • elements是一个字符向量,其中包含要计算H索引的作者姓名(或来源名称)。参数的形式为c("SURNAME1 N","SURNAME2 N",…)。换句话说,对于每个作者:姓氏和首字母由一个空格分隔。即对于作者ARIA MASSIMO和CUCCURULLO CORRADO,元素参数是元素=c("ARIA M","CUCCURULLO C")。

要计算此集合中Lutz Bornmann的h指数:

indices <- Hindex(M, field = "author", elements="BORNMANN L", sep = ";", years = 10)


# Bornmann's impact indices:
indices$H
# Bornmann's citations
indices$CitationList

要计算前10位最有生产力的作者的h指数(在此集合中):

authors=gsub(","," ",names(results$Authors)[1:10
])

indices <- Hindex(M, field = 
"author", elements=authors, sep = ";", years = 50
)

indices$H

to be continued


广告-新课推荐

高分文章新方法-基于R语言的动态预测模型课程第三期

开课目的及前言

预测模型类文章目前总结起来发展经历了以下三个阶段:

  1. 基于传统流行病学的列线图模型(本质都是cox回归及glm回归),简单的统计学分析模型,是模型依赖的方法,临床上实际情况很难满足其前提假设,实际效果不好。

  2. 基于机器学习/深度学习的预测模型的构建(在数据上提高了维度,在算法上引入了机器学习),虽然算法上引入了机器学习模型,处理数据更加灵活,模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测,与临床实际不符。

  3. 基于纵向数据的动态预测模型(基于纵向多次随访数据,模型应用联合模型等动态预测模型方法),应用患者的多次随访数据对最终的生存结果进行预测,从数据和方法上都更类似于临床实际。

考虑到动态预测模型有以下特点,因此必然是后续高分文章的必备方法:

  1. 数据上必须有同一个患者的多次随访数据,相对于既往横断面一次基线数据,数据的收集难度更大,而且动态预测模型需拟合纵向的线性混合模型,因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。

  2. 应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法,并且还需要熟悉纵向数据分析的广义线性混合模型,再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据,另外对于联合模型,模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。

文章示例-动态预测模型预测筛查肠癌患者
文章示例-动态预测模型预测前列腺癌预后
文章示例-动态预测用于创伤外科
文章示例-动态预测对比传统模型在糖尿病患者中的应用
顶刊文章示例-动态预测模型用于肾移植后再次肾功能不全诊断
杂志情况

授课老师

1 灵活胖子

双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。

2 Rio

医学博士,临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。

课程目录及安排

第一部分:R语言基础部分

第二部分:传统临床基础统计图表制作

第三部分:常规生存分析部分

第四部分:高级生存分析部分

第五部分:动态预测模型部分

授课形式及时间

授课形式:远程在线实时直播授课。

授课时间:2024年12月开课,总课时不少于30小时,每周利用休息时间进行4-6小时的授课,预计4-6周完成所有授课内容。

答疑支持:建立课程专属微信群,1年内课程内容免费答疑。

视频回看:3年内免费无限次回看。

课程售价及售后保证

课程售价:总价3000元,报名可先交300元预定,开课后2周内交齐即可

对公转账等手续务必提前联系助教

承办公司:天企助力(天津)生产力促进有限公司

奖励政策:学员应用所学内容发表IF 10+文章可退还学费(具体要求及流程需要咨询助教)

报名咨询

可联系我的助教进行咨询

我的助教微信

助教联系电话:18502623993


灵活胖子的科研进步之路
医学博士,R语言及Python爱好者,科研方向为真实世界研究,生信分析与人工智能研究。
 最新文章