近日,市城建档案馆承担的市档案局课题《基于历史档案数据挖掘的多维上海近代历史建筑专题知识库建设研究》通过专家验收。专家组对课题给予了高度评价,认为该课题在历史建筑专题知识库标准设计、数据挖掘建库及历史建筑档案展示利用系统建设三个方面研究成果显著,在同行业和相关领域具有示范推广价值。
市城建档案馆收藏了大量历史建筑档案,是研究上海城市历史和风貌保护的重要资料。为了满足上海城市建设、历史风貌保护、学术研究的需要和公众对城市认知的需求,进一步提高历史档案利用效率,拓宽利用渠道,市城建档案馆开展了《基于历史档案数据挖掘的多维上海近代历史建筑专题知识库建设研究》。该课题根据“点、线、面”相结合的风貌保护对象体系,从人工智能在历史档案著录和编研领域的应用出发,通过OCR文字识别、自然语言处理、地理空间信息和知识图谱等技术,选取外滩和人民广场两个历史风貌区的1300余个历史建筑档案,提取历史档案中的信息内容,形成一整套集合建筑信息、知识图谱和时空地图的历史档案专题库和知识系统,并以此为基础开发了“历史建筑档案展示利用系统”。
“历史建筑档案展示利用系统”
“历史建筑档案展示利用系统”包含“建筑作品”“建筑专题”“知识图谱”“时空地图”和“图集”五大模块。
1、建筑作品
系统集合了1323个历史建筑项目的建筑信息,包括建筑名称、建筑用途、建筑结构、许可编号、申请日期、竣工日期、地址、占地面积、建筑面积、设计者、施工者等建筑基本信息,视频、音频、图像等多媒体资料,以及档案分析研究形成的建筑物改扩建、修缮情况。信息主要来自通过OCR文字识别和机器学习等技术从关联请照单、工程进度表、图纸等历史档案提取的结构化数据,以及部分经考证的外部数据。
2、建筑专题
系统根据不同分类标准,对1323个历史建筑打上了多个标签。在“建筑专题”模块,可以通过所处位置、建造年代、历史意义等特征,对历史建筑进行筛选、展示,形成专题历史建筑档案库,筛选条件可以自定义。
3、知识图谱
系统根据所抽取的建筑、人物、机构、档案、事件等五个维度的知识,构建RDF数据结构,并按照实体、属性、关系的三元组形式存储至图数据库。在“知识图谱”模块中实现关联分析、查询检索、路径查询、知识推荐、知识图谱展示。
4、时空地图
系统从时间和空间两个维度,结合建筑师、机构、建筑用途等可定制的标签,在地理信息平台上对历史建筑进行筛选、展示,并与知识库、原始档案相关联,追溯展现上海城市发展历程。
空间地图1910-1920
空间地图1920-1930
5、图集
系统还对各种表式表格、标志、图像进行了分类收集,形成专题图集,例如请照单库(73种),中外建筑师签名库(2580个),建筑机构图章库(2322 个),图签库(6434 个)等等。
“历史建筑档案展示利用系统”还在将历史档案“数据”转化为历史建筑“知识”方面做了大量探索,逐步实现档案数据由只可浏览、不可应用的“图像”,向可阅读、可编辑、可摘要、可分析、可汇总的“资源”转变,为历史档案的进一步深入研究和利用提供知识储备与服务,为未来其他类型档案的智慧化应用提供借鉴和启发。