TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models
作者及对应单位:曹家欢(华南理工大学、合合信息-华南理工大学文档图像分析与理解联合实验室), 彭德智(华南理工大学),张沛荣(华南理工大学),施永鑫(华南理工大学),刘洋(华南理工大学、合合信息-华南理工大学文档图像分析与理解联合实验室), 丁凯(上海合合信息科技股份有限公司、合合信息-华南理工大学文档图像分析与理解联合实验室), 金连文(华南理工大学、合合信息-华南理工大学文档图像分析与理解联合实验室),
论文简介:本文提出了通古,一个专为古汉语理解和分析设计的大语言模型。为了训练通古大模型,本文设计了一个数据生成流程并自动生成了400万古汉语指令数据集ACCN-INS,是首个公开的涵盖多样化古文任务的古文指令数据集。在此基础上,针对大模型在监督指令微调(SFT)存在的灾难性遗忘问题,提出了一种冗余度感知微调(Redundancy Aware Tuning, RAT)新方法,在保留基础知识的同时有效获取新的能力。此外,为了解决大模型在知识问答时存在的幻觉问题,我们采用了一种高效的检索增强生成(Retrieval-Augmented Generation, RAG)方法,大幅度提高了通古在古汉语知识密集型任务中的回答准确性。在广泛的古汉语理解和分析任务上的测试结果表明,本文提出的通古大模型在这一领域的取得了领先的性能。
Paper链接:
https://arxiv.org/abs/2407.03937
Code链接:
https://github.com/SCUT-DLVCLab/TongGu-LLM
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
作者及对应单位:Jiapeng Wang(华南理工大学),Chengyu Wang(阿里云计算有限公司),Kunzhe Huang(阿里云计算有限公司),Jun Huang(阿里云计算有限公司),Lianwen Jin(华南理工大学)
论文简介:本文提出了VideoCLIP-XL模型,旨在强化CLIP方法对视频长描述的理解能力。本文构建了一个大规模的视频-长描述数据集,且在预训练过程中提出了文本相似性引导的主成分匹配过程,并引入了细节感知描述排序和幻觉感知描述排序任务,以进一步提升模型的表现。
Paper链接:
https://arxiv.org/abs/2410.00741
Code链接:
https://huggingface.co/alibaba-pai/VideoCLIP-XL
See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning
作者及对应单位:郑诚信(北京工业大学计算机学院),冀俊忠(北京工业大学计算机学院),时彦钊(北京工业大学计算机学院),张晓丹(北京工业大学计算机学院),屈靓琼(香港大学数据科学研究院)
论文简介:针对脑 CT 报告生成领域中存在的表示不一致问题,研究引入了一种病理线索驱动的表示学习方法,从多种粒度构建病理线索,以挖掘视觉语义病理信息;并通过构建不同微调指令,使用大语言模型进行跨任务联合训练,获取统一的综合语义表示。
ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws
作者及对应单位:Ruihang Li (中国科学技术大学),Yixuan Wei (清华大学),Miaosen Zhang (东南大学),Nenghai Yu (中国科学技术大学),Han Hu (微软亚洲研究院),Houwen Peng (微软亚洲研究院)
论文简介:高质量数据对大型语言模型的预训练至关重要。现有过滤方法依赖参考数据集,可能引入偏见。我们提出ScalingFilter,通过两个语言模型的困惑度差异评估文本质量,消除参考数据集影响。实验表明,ScalingFilter提高了模型的零样本性能,并在下游性能和语义多样性之间实现了较好的平衡。
Paper 链接:
https://arxiv.org/abs/2408.08310
R-Judge: Benchmarking Safety Risk Awareness for LLM Agents
作者:袁童鑫*,何志威*,董凌众,王一鸣,赵瑞杰,夏天,徐立珍,周秉霖,李方圻,张倬胜,王瑞,刘功申(* 共同一作)
单位:上海交通大学电子信息与电气工程学院
论文简介:本论文引入了基准测试 R-Judge,旨在评估大模型在判断和识别智能体交互记录中的安全风险的能力。R-Judge包含569条多轮智能体交互记录,并由人工标注安全标签和风险表述,涵盖了5个应用类别中的27个关键风险场景和10种风险类型。
Paper链接:
https://arxiv.org/abs/2401.10019
Code链接:
https://github.com/Lordog/R-Judge
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)