数据出版编辑:基本内涵与核心范畴研究
刘璐,于泓,皮雪花 | 文
原文刊载于《数字出版研究》2024年第4期。
引用本文请注明文献来源:
刘璐,于泓,皮雪花.数据出版编辑:基本内涵与核心范畴研究[J].数字出版研究,2024,3(4):58-65.
作者简介
刘璐,于泓,皮雪花
刘璐,女,博士,上海理工大学出版学院讲师。研究方向:网络舆论、文化传播、传播心理。
于泓,女,吉林省出版产品质量监测中心主任。研究方向:数字出版、出版教育、出版产品服务。
皮雪花,女,人民卫生出版社运营总监、人卫研究院总经理。研究方向:出版管理、科技出版、数据与出版。
摘要:数据出版编辑是激活出版数据要素潜能、释放出版数据要素价值、发展数据出版新业态的主体性力量和重要推动力。其核心范畴包括素质范畴、类型范畴和活动范畴。其中,素质范畴包括政治素质、出版业务素质和数据专业素养;类型范畴包括出版首席数据官、出版数据工程师、出版数据分析师、出版数据建模师、出版数据产品编辑、出版数据营销专员、出版数据安全专员、出版数据治理专员8种类型;活动范畴包括数据收集、数据存储、数据使用、数据加工、数据传输、数据提供、数据公开共7类数据编辑活动。
关键词:数据出版;出版数据要素;数据出版编辑;数据出版编辑人才培养;新质生产力;数字出版
DOl: 10.3969/j.issn.2097-1869.2024.04.007
知网链接:《数据出版编辑:基本内涵与核心范畴研究》
数据出版编辑作为数据出版发展的主体动力和第一资源,是数据出版领域的新型劳动者,对数据出版的发展至关重要。本文以数据出版编辑为研究对象,希望在厘清其内涵的基础上,亦对其范畴展开探究,以全面把握数据出版编辑的素质、类型与工作活动内容,并对数据出版编辑的培育路径进行探究,以期深化对数据出版编辑这一主体的认识,对数据出版理论体系的建构有所助益。
1 数据出版编辑的基本内涵
在厘清数据出版编辑的内涵之前,须明确数据出版的基本概念。“数据出版,是指以数据作为生产要素,把文字、图片、音视频等都当作数据的一种表现形式,围绕着数据的挖掘、采集、标引、存储、计算开展出版工作,通过数据模型的建构,最终上升到数据应用和数据服务的层面”。可见,数据是出版业的关键生产要素,是出版新的劳动对象,一切出版活动围绕数据展开,并强调数据的应用和服务功能。数据出版是出版业数据化改革的重要成果,数据出版产业链包括数据采集、数据加工、数据标引、数据计算、数据建模、数据服务、数据应用、数据治理等主要环节,围绕数据出版活动展开,充分挖掘并发挥出版中的数据要素价值。
编辑作为出版业生产力的劳动者要素,是推动数据出版发展的重要主体。对编辑一词素有“编辑功能论”“编辑词性论”“职业分类论”“文化属性论”“媒介传播论”等不同角度的界定。其中,从功能上来看,“编辑是一种策划、审理作品使之适合流传的再创造活动”,广义上指“为了社会文化生产所进行的系列整理、加工、积累、传播的文化创造活动”,狭义上指“在出版过程中所从事的出版物整理、加工等系列化工作”;从词性上来看,依据编辑名词、动词的不同内涵,可以认为静态的编辑是指编辑活动的从业者或职业,而动词的编辑则是指一种出版活动。
基于此,本文从编辑功能、编辑词性两个维度界定数据出版编辑。从编辑功能的角度看,数据出版编辑是一种通过挖掘、采集、标引、存储、计算数据,开展应用和服务知识生产与传播的再创作活动。广义上,数据出版编辑是按照一定的社会规范和价值标准,为知识生产与传播围绕出版数据所进行的系列策划、采集、加工、计算、建模、应用的文化创造活动;狭义上,数据出版编辑立足出版数据这一新兴生产要素,以出版数据资源为生产对象,为知识生产和传播进行出版产品策划、出版数据采集、出版数据加工、出版数据标引、出版数据计算、出版数据建模、出版数据服务、出版数据应用、出版数据治理等系列化工作。从编辑词性的角度看,名词的数据出版编辑指专门从事数据出版编辑工作的人员,本文认为主要可以分为出版首席数据官、出版数据工程师、出版数据分析师、出版数据建模师、出版数据产品编辑、出版数据营销专员、出版数据安全专员、出版数据治理专员8种类型;动词的数据出版编辑包括数据收集、存储、使用、加工、传输、提供、公开等工作活动。
从数据出版编辑的性质来看,编辑活动的本质是文化属性,数据出版编辑以出版数据作为生产要素,而出版数据是以知识为核心和主体的高质量数据,其本质仍为文化属性,服务文化生产与传播。从功能属性来看,数据出版编辑以出版数据为工作对象,其工作内容为数据处理,即通过数据收集、存储、使用,使出版原始数据转变为数据资源,再通过数据加工、传输、提供、公开,将数据投入到出版生产经营过程中,使之成为数据要素,推动数据共享共用,释放数据价值红利。数据出版编辑是数据的建设者与应用者。从价值属性来看,数据出版编辑挖掘数据价值,开发数据产品,推动数据资源的有效流动和管理,对于激活出版数据要素潜能、推动出版进入深度融合发展新阶段具有重要价值。
2 数据出版编辑的素质范畴
范畴是对概念的本质与关系的概括,“原理因范畴而生,是以范畴为基点的一种思维延展与逻辑呈现,是对编辑活动过程、本质及其规律的整体抽象和理论凝练”。在出版学的范畴体系中,编辑主体是“关键扭结”,在出版活动中居于核心位置。“主体作为社会历史和社会实践发展的产物,它是一个动态的范畴。”随着出版活动在内容、形式、载体、渠道、技术、传播途径等方面的变化,编辑的工作和行为模式也相应调整,催生出新的编辑岗位和编辑类型,数据出版编辑即是如此。对其范畴的研究应充分把握编辑主体的动态变化,从而推动数据出版范畴体系的构建和完善。
在素质范畴中,编辑素质指编辑的能力和知识结构,其构成多元且具有“博而专”的结构特征。编辑素质具有其内在的规律性、自洽性并与时代特征相匹配,随着时代变迁与技术发展,编辑的素质范畴也随之拓展更新。政治素质与出版业务素质是编辑的主要素质构成,在数据出版阶段,数据出版编辑还须具备较强的数据专业素养,以熟练使用专业分析工具与分析方法,实现对数据这一新型生产要素的有效利用。其中政治素质是基础,出版业务素质是核心,数据专业素养是关键。
2.1 政治素质
出版业是社会主义意识形态建设的主要阵地,数据出版编辑“把关人”的角色价值首先体现在意识形态把关。数据出版编辑须坚持以习近平新时代中国特色社会主义思想为指导,以社会主义核心价值观引领出版工作,增强“四个意识”、坚定“四个自信”、做到“两个维护”。数据出版编辑须始终坚持以较高的政治素质开展数据出版活动,在数据出版产品策划,出版数据采集、加工、标引、计算、建模、服务、应用,以及出版数据治理过程中严把意识形态关,在数据载体、数据产品、数据空间、数据内容等领域守好、筑牢意识形态阵地,做到守土有责、负责和尽责,以确保出版内容数据、运维数据、交互数据等所承载的内容积极健康向上,符合主流意识形态,契合社会主义核心价值观。
2.2 出版业务素质
数据出版编辑的本质是编辑主体,具有一套完整的理论体系和工作流程,须充分掌握编辑理论知识与编辑规范,以提升业务能力。一方面,数据出版编辑须掌握编辑业务知识的基本功,另一方面,数据出版编辑是数据出版新形态伴生下的新岗位,还需要具备数据采集、数据加工、数据标引、数据计算、数据建模、数据服务、数据应用、数据治理等不同工作环节的业务能力,以推动出版数据的投入、应用、传播和治理。总体来看,数据出版编辑需要努力汲取语言文字知识、出版政策法规知识、出版技术与规范,以及出版数据的挖掘、计算与转化等知识内容,以强化业务素质,提升业务能力。
2.3 数据专业素养
新质生产力要求新型劳动者具备新质劳动技能,在出版业则具体表现为“数智编辑力”,即运用先进的数据分析工具开展业务的出版数据思维和决策能力。在数据出版的新业态下,数据出版编辑需要深度参与数据挖掘、数据计算、数据建模等数据编辑工作,即“数据编辑力”。数据编辑力是数据出版编辑在数据出版新业态下的核心专业素质,一方面,数据编辑力体现为对专业知识的充分把握,需要具备统计学、数学、计算机等专业学习背景,熟练掌握人工智能、机器学习、神经网络等专业知识,充分把握数据挖掘、关系型数据库等内容,能够对出版机构的数据资源进行有效分类分级,并探究出版数据的作用和关系,挖掘出版业发展的潜在模式和规律。另一方面,数据编辑力还体现为对专业工具与分析方法的熟练使用,包括熟练运用数据分析工具如Python、Spark等,以此完成读者、出版物的数据采集,开展出版数据接入、数据清洗、底层重构、业务主题建模等工作。数据出版编辑还应熟练使用PEST、金字塔原理等数据分析方法,全面掌握出版市场、业务、读者行为的表现、特征与趋势,提供出版决策支持。
3 数据出版编辑的类型范畴
表1 数据出版编辑的类型与职责
3.1 出版首席数据官
出版首席数据官是数据出版编辑的统领者,是统筹、组织、管理出版数据资产,系统推进出版内外部数据开发利用、价值挖掘的首要负责人。出版首席数据官“从战略层面负责出版单位的数据要素挖掘、数据价值实现、数据产品服务规划、数据出版业态创新、数据资产评估和入表等事宜”,出版单位可在决策层设置首席数据官职位,由其管理数据人才队伍,统筹数据战略、数据治理、数据开发利用、数据安全、数据人才、数据文化等工作。出版首席数据官的职责涵盖数据出版活动范畴的全部内容,在顶层设计和战略规划层面负责出版数据采集、存储、使用、加工、传输、提供和公开任务。
3.2 出版数据工程师
该岗位主要负责出版数据接入、出版数据清洗、出版业务建模等工作,通过采集、存储读者、出版物、出版活动产生的数据,推动出版数据库架构、建设与落地,整合形成数据集,为出版数据运营提供基础支撑。同时,出版数据工程师还负责搭建出版数据平台,开发出版数据产品。
3.3 出版数据分析师
分析师的职责对应数据使用范畴,主要负责收集、整理和分析大量出版数据,根据其不同的对接主体可进一步划分为出版市场分析师、出版业务分析师、读者行为分析师。其中,出版市场分析师聚焦出版市场发展与变化趋势,关注大众出版、教育出版、专业出版等领域的竞争态势,以此提出洞见和建议,用数据支撑管理层决策;出版业务分析师对接出版产业链上不同公司的业务需求,从业务数据中挖掘问题并提出对策,以数据驱动业务发展;读者行为分析师则关注读者行为,包括读者留存、促活和经营等。
3.4 出版数据建模师
建模师的职责同样对应数据使用范畴,准确来说是负责计算建模,对学术能力和知识储备的要求较高,需要其熟练掌握算法、人工智能、机器学习、神经网络等专业知识,能熟练使用数据分析工具,搭建数据出版模型,通过数据模型挖掘出版需求、提供出版服务、推动出版转型,预测出版未来发展增长点并进行定制推荐。
3.5 出版数据产品编辑
该岗位负责将出版数据转化为有价值的出版产品和服务。数据产品编辑须了解出版市场需求、读者行为和数据分析,并与技术团队、营销团队密切合作,推动出版数据产品的开发和推广。
3.6 出版数据营销专员
数据营销专员对应数据加工范畴的营销推广,主要利用大数据分析,为出版单位制定营销策略和推广计划。该类编辑需要掌握数字营销工具和分析平台,充分了解出版市场趋势和读者行为,并运用数据驱动的方法来优化出版市场活动和广告投放,以反馈数据跟踪并评估产品营销效果。
3.7 出版数据安全专员
随着数据泄露和安全威胁风险的不断增加,出版数据安全专员成为数据出版稳定发展的重要保障。其职责涵盖整个数据活动范畴,主要集中在数据提供和公开环节,该岗位工作人员负责保护出版大数据系统和出版数据资产的安全性,需要了解网络安全、加密技术和身份验证方法,设计和实施安全措施,监测和应对安全漏洞和攻击。
3.8 出版数据治理专员
数据治理专员的职责同样涵盖全部出版数据活动范畴,需要了解出版行业的法规和标准,如欧盟《通用数据保护条例》(GDPR)和美国《加州消费者隐私法案》(CCPA)等,须根据出版机构的特性制定数据管理策略、数据安全政策,并与出版产业链上不同部门合作,确保出版机构内部数据的一致性和合规性,并监督数据质量、保护数据隐私。
从数据出版编辑的结构体系来看,出版首席数据官居于统领位置,其管理数据出版的全部数据处理活动,并推动实施决策部署。出版数据工程师、出版数据分析师与出版数据建模师处于结构体系的核心位置,主要负责原始数据的收集、存储与使用,在推动原始数据转化为数据资源过程中发挥关键作用。出版数据产品编辑与出版数据营销专员在结构体系中发挥转化作用,推动数据进入出版生产经营环节,将数据资源转化为数据要素,形成数据产品并推动数据流通。出版数据安全专员与治理专员在结构体系中发挥支撑作用,保护数据安全,保证数据质量,为数据开放合作走向纵深保驾护航。
4 数据出版编辑的活动范畴
数据出版编辑的编辑活动即为数据处理,对不同的数据进行挖掘、加工、转化与应用,将原始数据转化为价值数据,体现出版数据的服务价值。根据我国《数据安全法》的规定,数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。基于此,数据出版编辑活动范畴也可以相应分为这7类,编辑数据处理的全流程也是出版数据要素建设与应用的全过程,推动原始数据到数据资产的转化(见图1)。
图1 数据出版编辑活动流程图
4.1 出版数据收集
数据收集是数据出版活动中的基础环节,也是数据出版编辑工作的首要环节,主要由出版数据工程师参与完成。该环节的主要目标是从不同来源获取出版原始数据,包括文字、数字、图像、音频、视频等。
首先,确定收集范围。在属性范畴内,需要确定收集出版数据产生时间、数据类型、数据格式、数据量等。在内容范畴内,一般包括书刊名、书刊号、装帧、封面、用纸、印张、开本、费用等数据。在类型范畴内,则包括一般分类上的资源数据、人员数据、空间数据、设施数据、服务数据、演化数据等,包括出版专属分类的内容数据、用户数据、交互数据和治理数据,也包括基于专业出版、教育出版、部委出版单位所产生的条数据和基于地域性出版机构、地方出版集团所产生的块数据。在格式范畴内,包括EPUB 文档、PDF文档、音频文件等。
其次,选取收集技术。出版机构一般采取手工收集和API数据接口同步的方式,出版数据工程师还可借助网络爬虫、数据挖掘、自然语言处理等工具,根据不同的数据源采用针对性收集技术。
最后,整理收集数据。为保证数据的一致性、准确性和完整性,需要对数据进行加工和标引。一方面,由于原始数据来源于不同的系统、终端、数据库,且包含排版文件、评论文字、销售数据等,需要在分析前进行数据清洗、去重、格式化等步骤,对缺失、重复、异常数据进行加工。另一方面,需要进一步标引权利人、许可方式、语种、地区等版权内容,有助于出版数据工程师完成出版数据的整合与标准化工作。
4.2 出版数据存储
数据采集完成后,出版数据工程师还须将采集到的数据妥善存储,以便进行后续的数据分析与应用。早期出版业的数据存储主要采用集中式存储或分布式存储。数据出版阶段除分布式存储外,还包括云存储、关系型数据库等新的存储方式。在数据存储环节,有的需要出版数据安全专员的充分参与,设计并实施安全措施,如出版存储平台的多重权限分配、数字版权管理、安全外部链等功能,以此保护处理权、编辑权和版权。
4.3 出版数据使用
该环节中,出版数据分析师和建模师需要完成出版数据的分析、处理和转换工作。通过出版数据分析,可以对出版机构的数据资源进行有效的分类分级和整合,以此探究数据的作用和关系,挖掘潜在的模式和规律,提供数据价值分析与数据产品战略思维。如高等教育出版社立足数据中台训练数据形成的教育大模型和学科大模型,支持学生开展个性化学习、自适应学习、跨学科学习,支持教师开展个性化教学、测评和教学评估,助力教育出版高质量发展。
4.4 出版数据加工
基于出版数据的分析和建模工作,出版数据产品编辑与出版数据营销专员可进一步开展数据加工,以满足业务需求。一方面是提供出版数据产品服务,数据产品编辑根据对读者需求、行为数据的分析,开发有竞争力的数据出版产品和服务,如数字出版物、数据资源库、数据元素产品等。如人民卫生出版社基于医疗大数据平台,推出“人卫知识数字服务体系”,囊括专科知识库、医学规则库、医学术语库、疾病数据集、人卫知识图谱5类分支,形成了特色医学卫生知识库。另一方面是要形成数据营销广告,大数据分析可以帮助数据营销专员充分了解市场趋势和读者偏好,通过个性化推荐、定向广告,用数据优化运营。如上海外语教育出版社基于用户画像大数据,与育儿类微信公众号“包妈”开展定向营销,一周内成功售出压仓的2 000套库存图书,充分发挥了数据营销优势。
4.5 出版数据传输
一直以来,出版单位尤其是大型出版机构数据量大、系统复杂,不能有效解决企业对个体、机构、内部、外部的数据传输问题,“FTP+XML”接口模式虽被广泛使用,但因维护、更新耗资巨大,仍较难实现统筹化、自动化管理。在出版数据传输环节,一方面,出版数据工程师需要根据出版数据特性,搭建高度适配的统一传输系统,该系统需要具有较强的管控、分类和集成能力,实现统筹式出版数据传输。如由北京理工大学出版社有限责任公司牵头的出版产业通用数据交换技术重点实验室提出了“端交换方案+中间标准库”协同运作的耦合数据交换技术解决方案,为数据传输做出有益尝试。另一方面,传输过程不仅关涉传输速度和效率,更关乎传输安全性,需要出版数据安全专员参与设计加密技术和身份验证方法,保证数据安全。
4.6 出版数据提供
数据提供指将出版数据处理结果提供给使用者,一般包括出版单位内部工作人员、用户,或出版单位外部合作伙伴(如合作企业、信息技术公司、其他出版机构)等。提供数据时需要在全面把握使用者需求的基础上,确保数据的准确性、可靠性、安全性与隐私性。目前国内已具备一些数据提供平台,如武汉理工数字传播工程有限公司的智能平台整合了中国国家版本馆图书数据、1.7亿读者数据、全国新华集团的线下销售数据及天猫等线上销售数据,通过融合分析等提供数据服务,拓展了图书数据的价值空间。
4.7 出版数据公开
《数据二十条》指出,“加强数据分级分类管理,把该管的管住、该放的放开”。数据公开指出版机构在将数据分级分类的基础上,把已处理的、可放开的数据对外发布或共享,公开方式包括出版数据开放、数据共享、数据出售等,并将这些数据用于科学研究、社会治理、商业开发等领域。需要注意的是,出版数据公开并非无限制开放。数据公开需要尊重出版数据产权与知识产权,数据创作者、拥有者有权决定是否公开及公开条件。另外,公开的数据须遵守数据隐私与安全规定,对于敏感信息须设置授权访问。对此,数据安全专员应采取必要安全措施如加密技术、访问控制机制、安全审计等,防止数据被非法获取或滥用。如人民卫生出版社研发的“人卫inside知识库”产品,是基于数据要素的新产品新服务,其在数据公开和数据安全方面,做好数据分级管理,通过数据加密、数据脱敏等安全措施,保障数据的安全访问。
5 结语
数据作为新型生产要素,推动出版业新质生产力的形成。出版业从数字化转型走向数据化改革,数据出版编辑作为数据出版活动中的关键主体,是驱动出版业高质量发展的重要动力。对数据出版编辑内涵与范畴的探索性研究有助于推进编辑岗位优化和编辑队伍建设,从主体与资源建设的角度助力数据出版的建设,推动出版数据化转型与创新性发展。在出版实践中,国内外数据出版业务情况有所不同,国内头部数字出版机构已从不同范围设置了数据工程师、分析师、建模师、数据产品编辑、营销专员、安全专员岗位,但尚未出现设置首席数据官和数据治理专员岗位的机构或单位。同时,客观上也存在着同一数据出版编辑承担数据分析、建模、安全等多种数据出版职责的情形,因此,本文提出的数据出版编辑类型仅供出版业参考并因“社”制宜地设立。有关数据出版编辑的研究,尚需学界、业界和管理界同仁全面、持续、深入地加以开展,诸如数据出版编辑体制机制、编辑数据素养与技能、数据编辑继续教育培训、数字出版与数据出版编辑的异同分析、国外出版传媒集团数据编辑编辑比较研究等核心议题,伴随着数据出版新业态、新模式的涌现将逐步得到论证和研究。
本文摘自《数字出版研究》2024年第4期 刘璐,于泓,皮雪花《数据出版编辑:基本内涵与核心范畴研究》,注释及参考文献从略。阅读全文或学术引用请参见原文。
国际标准连续出版物号:ISSN 2097-1869
国内统一连续出版物号:CN 10-1854/G2
邮发代号: 80-913 季刊 定价:40元/期
电话: 010-6488 3888
邮箱:editor@dpresearch.cn
投稿网址:https://szcb.cbpt.cnki.net