档号是档案的身份标识,在馆藏档案中档号是唯一的。在档案数字化工作的开展中,或因工作人员著录失误,或因系统数据来回倒腾出现差错,再或因系统设计有缺陷数据有问题,可能造成档号不唯一。
实际工作的开展中,档案室和档案馆用的可能不是同一版本的档案软件,需要通过离线导入的形式将数据移交档案馆系统。有的单位可能使用的是档案管理软件,有的单位可能使用的是电子表格,不管那种形式,都需要确保档号的唯一性。
最近就遇到一个问题,之前做好的几十万卷档案数字化原文已经挂接,后来发现里面有不连续的近两万卷有问题,又重新数字化扫描,现在需要将数据库中这两万卷的目录数据删除,原文数据删除,再重新原文挂接。这里面关键点是问题“卷”不连续,如果通过编程解决,笔者能力有限,还得找专业人员编写代码,于是想到通过电子表格删选重复数据,再批量运行删除代码的办法。
本文介绍通过电子表格来判断档号唯一性的操作方法,供大家学习使用,不足部分可以给笔者提供反馈意见。
01
排序法
一般,档号的设定规则是:全宗号+档案门类代码+类别号+年度+期限+卷/件号,那么就按照全宗号、档案门类代码、类别号、年度、期限排序,如果是连续的卷/件号,则为正确,否则可能有误。
1.增加排序列,快速填充1,2,3……
2.增加判断值
02
比较排除法
先对数据按照档号进行排序,排序后如果有档号相同的,则档号相同的在相邻位置,再通过公式进行判断得出筛选结果。
03
设置高亮重复项
“高亮重复项”也叫“条件格式”,电子表格软件自动对本列进行数据比较,如有重复项的,自动高亮显示予以提醒。笔者使用过程中发现,如果数据量较小,软件判断的速度挺快,但是判断结果选择上处理速度较慢,容易被卡住……
04
COUNTIF函数使用
COUNTIF是一个统计函数,用于统计满足某个条件的单元格的数量。使用公式COUNTIF(A$2:A$23,A2),可以判断A2在A$2:A$23中有无重复值。具体使用中,如果数据量大,计算量非常大,运行的可能需要些时间。
上述几种判断的方法各异,但是都是判断有无重复,即是否唯一,不同方法也可以综合使用,能快速检验数字化的成果有无问题。
读
推荐阅读: