CiteSpace参数设置及聚类、时间线图、突现分析指南

文摘   2024-10-25 22:00   重庆  

CiteSpace  

专题三  参数设置与可视化结果


前言

    在上期内容中(上期链接:citespace简易操作流程),小硕为大家介绍了CiteSpace的基本操作流程,那么本期小硕就接着上期内容,为了让生成的图谱更科学更美观,给大家介绍几种常用的参数设置和可视化结果调试。参数设置:时间切片、节点类型和阈值分析;几中常用的可视化结果调试分析:聚类分析、时间线视图和突现分析。

1


时间切片(Time Slicing)

    在任何知识图谱分析中,时间分区是关键,它定义了你所要分析的时间跨度和粒度。合理设置时间段有助于捕捉不同时间阶段的研究热点变化。

    Time Slicing:选择起始年和终止年,并设定时间间隔。例如,选择2000-2023年,时间间隔为1年。

图1  时间分区

如果你想分析较长的时间趋势,适当加大时间间隔(如每2-5年为一个单位)。如果研究较短期热点,选择1年甚至更短的时间间隔。

2


节点类型(Node Types)

    节点类型决定了在知识图谱中你想要分析的元素,如作者、机构、关键词、文献等。常用节点类型包括:

Author:分析学者合作网络。

Institution:分析机构合作网络。

Keyword:研究热点词汇。

Cited Reference:被引文献,可用于识别经典文献和基础理论。

    每种节点类型都适用于不同的研究目的,合理选择可以帮助聚焦你的研究。

图2  节点类型

如果想研究某个领域的发展趋势和热点,选择关键词或文献节点。如果想了解学术合作网络,选择作者或机构节点。

3


阈值设置(Thresholds)

    阈值设置决定了图谱中哪些节点和连线会被显示,是CiteSpace中影响图谱复杂度和精度的核心参数之一。Thresholds分为三类:Citations(引用次数)、Co-citations(共被引用次数)、Cosine Similarity(余弦相似度),通常根据你的数据量和研究目的进行调整。以下是常用的两个设置:

    1、Top N per slice:每个时间片段中选择前N个节点。例如,如果N=50,CiteSpace会从每个时间片段中选择引用最多的50篇文献进行分析。

    2、Pruning:简化图谱结构,用于控制网络的简化程度。如果你的网络图过于复杂,启用此选项可以简化图谱结构,使其更易解读。CiteSpace提供了几种剪枝方法,如Minimum Spanning Tree(最小生成树)和Pathfinder

图3  阈值设置

建议

    1、如果你的数据量较大,且你希望捕捉较多的研究细节,可以将Top N设置为100甚至更高。这将有助于展示较多的节点和连线。

    2、若希望图谱清晰简洁,可适当减少N值,比如N=20,减少节点数量,避免图谱过于密集。

    3、逐步调整:在分析过程中,可以先设置较低的Top N(如30),观察图谱效果后再逐步提高数值,找到信息量和图谱清晰度的最佳平衡点。

4


聚类分析(Clustering)

    聚类分析是CiteSpace中的核心功能之一,用于对文献进行分类,识别不同主题或学科群体。

    一、为了进行关键词聚类分析,首先需要生成图谱:通过设置了上述小硕介绍的几种参数设置,接下来就可以生成图谱,在主界面点击Go,生成共引或共现网络。若图谱过于复杂,可以通过Pruning功能减少冗余连线,优化图谱结构。生成图谱后,可以根据下图示例启动聚类分析。

图4  聚类分析(K-显示关键词聚类名称)

    其中Modularity Q & Silhouette:分别用于衡量聚类结构的质量和聚类结果的紧密性。Q值越高表示网络分离度越高,常用来评估聚类的有效性。Silhouette值越高表示聚类的紧密度越高,得分越接近1,表示聚类内的节点相似性越高,用于评估每个聚类的内部一致性。

    二、聚类标签显示:每个聚类会有一个标签(基于选定的命名方式生成),用于帮助识别聚类的主题,常见的命名方式有:LLR:基于文本内容提取的聚类标签,适合分析大规模文献。MI:基于共现词的互信息法为聚类命名。生成聚类结果后,系统会在图谱中为每个聚类自动分配不同的颜色,并显示聚类编号。

图5  聚类标签显示

    三、查看聚类结果:在完成聚类分析后,CiteSpace会根据算法自动为每个聚类分配编号和颜色。你可以通过不同的颜色和编号来查看各个聚类的详细信息,进一步分析这些聚类的研究内容和特征。

    四、进一步调试可视化结果:通过面板调节标注阈值、标签效果、字体大小、节点大小、颜色及透明度等信息使图谱更美观。这里小硕就不给大家展示了,面板中都有对应的信息,大家可以试着调节,从而达到自己所需要的样子。

图6  调节面板信息

    、聚类高级设置通对聚类线条颜色、宽度、轮廓,聚类标签显示与筛选等设置使得关键词聚类图谱效果更好。下图为其设置示例。

图7  聚类高级设置示例

5


时间线视图(Timeline View)

    Timeline View 是CiteSpace的一项高级功能,用于展示不同研究主题或文献的时间演化过程。你可以通过调节节点大小、连接线的颜色来突出重点信息。

    1、Nodes:节点的大小表示文献的重要性(如引用次数)。

    2、Links:连接线的颜色代表时间线,通常从蓝色(早期)到红色(近期)渐变。

    具体操作:在关键词聚类分析得到的图谱基础上,点击面板中布局>Timeline>背景颜色选择背景白色>得到如下图的时间线图。

图8  时间线图步骤

    时间线视图将展示每个聚类随时间的发展情况,每个聚类在不同时间段的节点分布会以水平线排列显示。你可以通过调整一些参数来优化图形的可读性,使其更清晰。

    导出时间线视图:在顶部菜单中,点击File ,选择导出时间线图PNG等格式,选择保存路径,点击保存。

建议:

    1、使用时间线视图可以清晰展示研究的演化过程,适合用来展示热点主题如何在时间上展开和发展。

    2、在视图中调节节点的大小和颜色,能帮助你更直观地观察趋势变化。

6


突现检测(Burst Detection)

    CiteSpace的突现检测功能用于识别某一领域中突然显著增长的关键词、文献或作者等,这些突现的节点可以反映出某个领域的热点、前沿趋势或新兴方向。通过对文献的时间序列分析,通过突现分析,研究者能够了解某个学术领域在特定时间内的动态变化,抓住前沿趋势。

    一、分析步骤

    点击面板中Burstness,设置参数(一般为默认值),点击Refresh即开始计算并显示每个节点的突现强度及时间段。下图为CNKI数据库进行得突现分析的示例:

图9  操作示例

    二、查看Burst检测结果

    CiteSpace完成Burst检测后,会在图谱中高亮显示突现节点,并在右侧的面板中列出突现强度及时间段。点击View,示例中有25个突现性节点,点击确定。

图10  检测结果(上图仅作为示例)

    可以看到所有检测到的突现节点,并显示其突现强度Strength和突现时间段(Begin-End )。完成突现分析后,你可以将突现检测结果导出,方便后续使用或进一步分析。

    温馨提示:没有检测到突现词的常见原因及解决方法。

    1. 数据量不足

    增大数据集规模,确保你的数据量足够大,至少包含数百条甚至上千条引文记录。

    2. 时间切片设置不合理

    缩短时间切片,尝试将时间切片设为1年,这样可以捕捉到更精确的时间段变化。如果时间切片太大(例如5年、10年),一些突现词可能会被忽略。

    扩大时间范围,确保你选择的时间范围足够宽泛,能包含整个研究领域的变化趋势。例如,如果你研究的时间范围过短(如只选择了3-5年),突现词可能会较少。

    3. 节点类型选择不当

    如果你选择的节点类型不适合你的研究目的,可能会导致没有检测到任何突现词。例如,如果你关注的是关键词突现,而你选择的是“Cited References”(被引文献)作为节点类型,就不会检测到关键词突现。

★ 结语 ★

    CiteSpace强大的文献分析和可视化功能需要通过合理的参数设置来实现其最大潜能。掌握时间分区、节点类型、阈值、聚类、时间线视图、突现分析的调整技巧,能让你的分析结果更加精准和丰富。在实际使用过程中,可以根据具体的研究需求灵活调整这些参数,从而为学术研究提供强大的支持。

    温馨提示:在进行分析时,请务必结合自己的研究问题,合理设置参数,避免过度简化或复杂化网络图,确保分析结果准确且易于解读。

    小硕希望这篇推文能帮助你更好地掌握CiteSpace参数设置与可视化结果分析的使用技巧!

瓦斯10点

更多瓦斯小硕分享

请关注公众号瓦斯10点

关注 瓦斯小硕 专栏

作者 | 丁军堡          重庆大学

审核 | 刘晓庆          重庆大学

瓦斯10点
煤矿瓦斯可防可治。分享新进展,吸引新思路,探索新方向,开拓新局面。
 最新文章