大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

文摘 2025-01-08 11:45 北京

今天是2025年01月08日，星期三，北京，天气晴。

今天我们看看大模型用在舆情分析领域事件分析上的一些应用，这是我们之前事件图谱的一个延续，最近跟进下这个专题，盘活一下，看看有哪些有趣的思路，重点看时间线生成。

专题化，体系化，会有更多深度思考。大家一起加油。

一、事件分析中的时间线生成

如何有效地聚合相关文档以围绕中心主题构建有意义的事件图谱是一个有趣的事儿。

时间线总结（TLS，Timeline Summarization）旨在从随时间变化的众多文本来源中提取并排序关键事件，提供历史发展的结构化视图，其综合了事件发展的时间顺序叙述，也可以被视为多文档总结的扩展，可以应用于追踪事件和话题随时间的进展。

如果要细分，可以细分为主题时间线总结(event timeline summarization)和话题时间线总结(topic timeline summarization)两个，其区别在于，事件TLS为用户提供详细的摘要，以便跟踪特定事件的演变，而主题TLS则有助于快速理解关于某个主题的重要事件。

当然，很直接的做法，就是直接梭哈给llm，一步到位，如使用GPT4:

但在封源环境下不奏效，怎么办，那就分开做。

但是，合成时间线的核心是建立事件之间的时间和因果关系。这个实现是比较可行的，我们可以假设LLMs所包含的知识使其能够辨别事件描述之间的相关性，可预见的，可以使用LLMs作为来解决诸如“事件i和j是否指代同一事件？”或“新推文i是否与时间线j指代同一事件？”之类的查询。这也是目前可以使用prompt进行处理的范式。

这种自然的想法，在《From Moments to Milestones: Incremental Timeline Summarization Leveraging Large Language Models》(https://github.com/nusnlp/LLM-TLS)中得到了验证，思路很简单，如下：以“史蒂夫·乔布斯”为主题的话题TLS，事件被分为几个簇（A-F），灰色圆圈表示不太重要的事件。

簇是被排序的，关键事件按时间顺序排列，以展示史蒂夫·乔布斯生活和事业中的里程碑。

一篇新到达的文章被概括成一个标记为“？”的事件描述，并通过与相邻的事件节点比较来评估其相关性。具体判断过程也是有设计思想的，当新的新闻文章到达时，首先使用LLM生成与主题关键词相关的最重要事件的简要总结。 然后再使用LLM进行成对分类，确定两个总结是否属于同一事件。将事件总结编码为向量，并在向量数据库中进行检索，找到与查询总结最相似的N个总结，然后，使用LLM判断这两个总结是否属于同一事件。

通过迭代执行这一过程，最终形成一个事件图，其中每个节点代表一个事件。最后，根据节点连接数对事件聚类进行排名，选择前K个聚类，并使用TextRank算法提取每个聚类的关键句子，形成完整的时间线。

二、workflow范式的时间线生成工作Unfolding the Headline

也是昨天，看到的一个工作，《Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization》（https://arxiv.org/abs/2501.00888，https://github.com/Alibaba-NLP/CHRONOS，https://modelscope.cn/studios/vickywu1022/CHRONOS），为了提升时间线生成全面性，将工作设计为多步骤执行，并且通过自我提问、分而治之的思路进行处理，很有趣，值得一看。一个具象化的流程如下：

简单说，该方案的核心思路：通过迭代自问的方式利用大模型来生成和更新新闻时间线。，流程图如下：

首先，使用目标新闻标题作为关键词进行搜索，获取最相关的新闻文章，称为“新闻上下文”。

然后，为了获得更全面的信息，LLM根据新闻上下文生成一些问题，这些问题无法根据当前的新闻上下文回答。这些问题旨在探索更多相关的事件，接着根据生成的问题，LLM迭代搜索新的参考文章，以获取更多信息。

为了提高自问的质量，利用LLM的上下文学习（ICL）能力，通过少量提示（few-shot prompt）指导LLM生成问题，所以，会有一个Topic-Questions Example Pool(利用GPT-4o生成了针对Crisis、T17和Open-TLS数据集中主题的50个问题)，具体的，当为新目标新闻报道生成问题时，利用BERT基础模型来嵌入查询关键词，并应用余弦相似度从池中检索最相似的主题和相关示例对。这些动态检索的几例演示确保了示例在上下文中是相关的，并且在时间上是有信息的。

但由于生成的问题通常较为复杂，难以直接用于搜索，所以，重写机制将复杂或表现不佳的查询分解为2-3个专注的查询，以提高搜索精度。

这个逻辑是成立的。例如，“政府针对硅谷银行和签名银行崩溃建议了哪些行动？”直接将这个问题作为搜索引擎中的查询，检索效果不佳。因此，可以利用大模型将每个复杂或表现不佳的查询分解成2-3个重点查询，如“政府对硅谷银行崩溃的应对措施”和“签名银行倒闭后政府的行动”。这种分解提高了检索文档的特异性和覆盖率，使后续的总结任务更加有效。

最后，在每一轮自我提问结束时，LLM被要求提取具有明确日期的重大里程碑事件，并撰写这些事件的详细摘要。

在分别处理完每一轮之后，合并生成的时间线，以确保只保留最重要的事件。合并过程涉及对齐不同轮次的事件，并解决日期和描述的任何冲突。这一个也是使用prompt来控制，LLM从原始时间线中选择前1个重要里程碑事件。

但是，有3个根本问题是很明显的：

一个是这种思路本质上依赖于迭代的自我提问的迭代次数，迭代多少次，其实很难控制，通过增加提问轮数，可以检索到更多新闻报道，从而增强其新闻数据库的全面性。但过多的检索到的新闻报道会使得合并成一个连贯的时间线有影响，性能最初随着更多轮次的提问而提升，但最终会下降。

另外一个点，就是检索多少个新闻，也是一个量的问题，检索更多的文档为模型提供了更丰富的上下文。然而，由于在整合不太相关的新闻时可能会引入噪声，进一步增加检索到的新闻数量时观察到的边际改善表明了一个阈值，超过该阈值后好处趋于平稳。如下，将数量从20篇文档增加到30篇文档显著改善了结果，而增加到40篇文档时改善则较为有限。

一个是可以看到，整个的流程都是使用prompt 来驱动大模型的，所以，对大模型自身的能力要求是很高的，新闻报道的一个明显特点就是主题领域广泛，所以对大模型要求很高，如这个工作里面所说的，可能是因为这些领域需要大量的领域知识和实体，大模型在经济和政体主题上表现就不好。

总结

本文主要围绕情报分析时间线这个话题，介绍了两个代表工作，其中流程上的设计值得大家看看。

参考文献

1、https://arxiv.org/abs/2501.00888

2、https://github.com/nusnlp/LLM-TLS

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉