李道新 | CTOP对话CCKS:当朱本军研究馆员开发的汉字统一OCR(CTOP)与中国电影知识体系(CCKS)共创

学术   2024-10-22 17:24   北京  

   

  

    在数字化与人工智能时代,谁还不认得几个英语缩写呢?例如:USA、PKU、CPU、ID和ChatGPT什么的。不认得的话,当然无伤大雅,不会吃不上饭,也没有什么生命危险,但可以承认,确实是有点out了。

    当然,out也不是什么坏事,仅仅一种世界观和人生态度而已。想想梦过蝴蝶的庄周、结庐在人境的陶潜和一蓑烟雨任平生的苏东坡,都是为了in而选择了out,其实蛮值得羡慕的。

    基于以上认知,也是为了in或ing而最终可以选择out,秋生便一刻不停地追赶着这些英语缩写,AI、AI的没完;后天还要带着团队开发的CCKS平台和CCKS-Cinematrics工具赶赴浙江横店,合作主持CACC2024大会论坛,跟陈宝权、ScottRoss和孙立军、郭帆、夏鹏等计算机和电影领域大咖共议AI与未来影像。想来想去,秋生敢于亮相这种计算机专业的“顶会”,也是因为在一般的人文学者中,早了几年跟DH(Digital humanities, 数字人文)打交道,并负责创建了CCKS(movie.yingshinet.com,中国电影知识体系平台),开始做一些即将超出一个人文学者尤其电影史学者疯狂想像的学术工程。

    这就要从CCKS参加2022年北大“数字与人文年”首届数字人文作品展说起。在此前后,秋生完全是抱着虚心学习和寻求指导的姿态,在校园里找到了老乡,现为北京大学出版研究院副院长的同事朱本军老师,并请他专门在课堂上至少做了两次数字人文相关的讲座,还帮CCKS暑期学校培训了两届学员。因为是同事兼老乡,本军老师每次都是非常爽快地接受邀请并倾尽全力地解疑答惑,让不少DH小白登堂入室并逐渐进化,甚至完成了某种逆袭。秋生及其团队知道,本军老师不仅发表过Digital Humanities Cyberinfrastructure for Ancient China Studies: Past,Present,and Future.(2020)、《面向文化遗产整理与人文研究的数字人文时间基础设施:学理基础、应用构想与实施路径》(2022)等重要论文,而且搭建了“数字人文基础设施:汉语统一时间标尺平台”(http://www.histchina.cn)。一看就是雄心壮志。

    当然,作为数字人文、数字图书馆及古典文献学与中国古代史领域的重要专家,本军老师也是最了解秋生想要干什么的人,还非常懂得CCKS的“影人年谱”在名人日记书信手稿、晚清民国报刊文本识别等方面正在面临的问题;更重要的是,CCKS“影人年谱”的问题,也正好跟本军老师力图在汉字(汉语)“统一”时间标尺和识别平台(OCR)创建领域的宏大目标发生了内在的关联。两者之间,也就自然而然地展开了颇有成效的对话与共创。

    正是在这种彼此期待的共生型学术(创业)氛围中,本军老师成功推出了他的汉字统一识别平台(http://ocr.histchina.cn),并在今天上午秋生作为群主的“数字人文与电影研究”群聊中,“报告”了平台的强大功能。

    

    这样的消息,自然是令人兴奋的。群中沸腾,纷纷点赞。做年谱做到太费眼睛的小晶表示心脏受不了,“朱老师这是救了多少人的命啊!”同在报刊出版界的见多识广的小檀非常敏锐,直接看到了朱老师这款OCR不可估量的商业前景;而做年谱做得最好的小婧,迅速而又直接地给平台投喂了《大公报》文字和《图画剧报》手写版,得出的结果,自然是TOP的存在。其他的人,爬了楼之后,也就竖起了大拇指。

    秋生觉得,总该提出点什么问题继续改进。于是开始纠结这个平台的中英文命名及其缩写方式。小普和小婧都是某个阶段的海归,相继提出了自己的“粗浅想法”。秋生则建议,平台可命名为:汉字统一OCR平台,英文对应:Chinese Text OCR Platform,缩写:CTOP。

    眼疾手快行动力强的小婧即刻问了一下Cloude:

    OVER。

光影绵长李道新
中国电影、影视文化
 最新文章