当前以大语言模型为代表的人工智能得到迅猛发展。据国家数据局统计,中国10亿参数规模以上的大模型数量已超一百多个,涉及通用、医疗、商业、交通、媒体、气象预测、农业、工业和学术研究等各个领域。在学术研究的大语言模型中,目前主要是面向自然科学的学术文献、生物基因和化学公式等构建垂直领域的大语言模型,且所使用的学术文献仍然以标题和摘要信息为主。人文社会科学作为整个学科重要的组成部分,在人工智能迅速发展的当下,需要基于人文社会科学学术全文本构建相应的大语言模型并进行应用探究。
在此大背景下,沈思副教授所获批的国家社会科学基金重点项目,面向人文社会科学学术全文本这一研究对象,以数据科学、数据工程和大语言模型的理论、理念和技术为基础,结合信息资源管理学科的相关方法,拟完成人文社会科学学术全文本大语言模型的构建,并从应用的角度探索领域大语言模型下的检索。