儿童用品质量安全知识图谱构建研究

乐活   2024-11-15 16:07   北京  

殷姣 张天龙 管旭琳 | 江苏省质量和标准化研究院


本研究着眼于国内外儿童用品召回数据和其他质量安全信息的整合和利用,提出了儿童用品质量安全知识图谱的构建思路。通过实体识别和知识抽取技术,从数据源中提取关键信息,通过LDA主题建模和相似度分析消除数据冗余、完成知识融合,构建一个相对全面的儿童用品质量安全知识图谱。该图谱有效融合了不同数据源,可以为企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑,为监管部门了解儿童用品质量安全状况、制定儿童用品质量监管措施提供技术支持和决策依据。



1 背景

儿童是国家的未来和民族的希望,他们的健康成长直接关系到国家的长远发展。儿童用品作为儿童日常生活中不可或缺的一部分,其质量安全直接影响到儿童的身体健康和生命安全。
近年来,国家高度重视儿童用品的质量安全问题。2020年,国务院发布《中国儿童发展纲要(2021-2030)》,提出要持续开展儿童用品质量安全守护行动,加强对产品造成儿童伤害的信息监测、分析、监督检查和缺陷产品召回工作。2024年,市场监管总局、教育部、工业和信息化部联合发布《关于加强重点儿童和学生用品安全管理的公告》,对规范儿童用品的生产销售、强化质量安全监管、推进社会共治等提出了更严格要求。据统计,截至2024年5月20日,我国累计实施儿童用品召回2057次,涉及产品1826万件。儿童用品召回为消除产品缺陷、保护儿童安全发挥重要作用的同时,也为大数据时代推进市场监管智慧化、数字化提供了有效的数据支撑。
随着大数据等现代信息技术的发展,探索市场监管数据和资源的有效整合和利用,实现对市场主体和监管对象的精准画像,成为数据赋能市场监管高质量发展的有效途径。知识图谱[1]作为一种新型的知识表示与推理方式,可以实现异构多源数据的整合和高效利用。近年来,不少学者开始探索知识图谱在市场监管领域的应用。邵宜添[2]利用知识图谱对农产品质量安全隐患进行可视化分析,通过构建包含实体、关系和属性的知识图谱,揭示了农产品质量安全领域的内在联系和规律。孙梦捷等[3]

利用知识图谱进行含有植物纤维或玉米淀粉的食品接触产品质量安全风险研究,通过整合多源数据,构建了全面的风险评估模型,为相关产品的安全监管提供了科学依据。冀晓东等[4]聚焦于化学安全,构建了儿童用品化学安全知识图谱,并分析了其应用场景。上述研究为产品质量安全领域中知识图谱的构建与应用提供了思路和范例。
本研究构建的儿童用品质量安全知识图谱,通过对儿童用品召回数据及其他质量安全信息进行深入挖掘和关联,为企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑,也为监管部门了解儿童用品质量安全状况、制定儿童用品质量监管措施提供技术支持和决策依据。


2 儿童用品质量安全知识图谱构建

儿童用品质量安全知识图谱构建的主要思路是:通过爬虫技术采集目标数据,经过数据清洗等预处理,建立实体关系模型,完成实体、实体关系、实体属性等知识抽取,并进一步通过相似度分析、LDA主题建模[5]等方式建立实体链接和文本聚类,完成知识融合,最后采用Neo4j[6]进行三元组知识的存储。除此之外,通过爬虫技术不断进行数据更新,完成知识图谱的动态扩展和更新。儿童用品质量安全知识图谱构建框架如图1所示。

图1 儿童用品质量安全知识图谱构建框架

2.1 数据采集与治理
本研究通过网络爬虫技术自动化收集与儿童用品质量安全相关的各种文本数据,如产品召回数据、产品质量监督抽查数据、消费者投诉等。对收集到的数据进行清洗,去除无关信息,修正错误数据,标准化文本格式等,为后续的知识抽取和融合打下基础。
2.1.1 召回数据
产品召回数据能够直接反映儿童用品所存在的质量安全风险情况,因此儿童用品召回数据是此次儿童用品质量安全知识抽取的主要数据集之一。为了最大限度地扩大儿童用品质量安全知识的广度,本文不仅对国内的召回数据进行了采集,还对欧盟、美国的召回信息进行了研究,获取对构建知识图谱有益的相关数据项。
由江苏省缺陷产品管理技术中心直接提供的召回数据以表格形式存储,结构化程度较高,可直接用于数据的处理;国内其他省市召回数据以及欧盟、美国的召回数据则需使用爬虫技术进行爬取。本研究使用的召回数据来源及采集数据项见表1。
表1 召回数据来源及采集数据项
2.1.2 其他质量安全信息
为了使知识图谱能够综合反映和评价儿童用品质量安全状况,本研究着眼于对多源质量安全信息的有效利用,将消费者投诉平台12315上的产品投诉信息、中国裁判文书网上的法律诉讼信息、国家企业信用信息系统公示的企业运营信息以及各级各地区市场监管部门官网发布的儿童用品质量监督抽查结果一并纳入数据集,以便从市场反馈和企业信用的角度,更加全面地反映儿童用品质量安全状况。
2.2 知识抽取
2.2.1 问题建模
知识抽取是通过自动化或半自动化从数据中获得实体、关系和属性等需要的知识单元[7]。基于儿童用品召回数据的内容特点,结合儿童用品质量安全知识需求,本研究针对采集的召回数据定义了五种实体,分别是产品名、产品部件、潜在伤害、生产企业、产品类别。在定义实体的基础上建立实体关系模型,从而将原始数据转化为更加结构化和可解释的知识形式,更加清晰地呈现不同实体之间的关联关系。
本模型中的关系类别包括包含、导致、生产三种,实体类别与关系之间的对应关联关系见表2。同时,“缺陷”作为产品部件导致潜在伤害的原因,成为“产品部件,导致,潜在伤害”的关系属性,添加到模型中。例如,“笔帽,导致,窒息”的关系属性是“形成小零件”。
表2 实体关系与示例
此外,为了能够更加全面地反映知识图谱中生产企业的质量安全管理状况,本文基于其他质量安全风险信息数据,为企业实体定义了四类属性,具体情况见表3。
表3 企业实体的属性
2.2.2 抽取方法
从采集的数据结构可以看出,“产品名称”“生产企业”等信息在不同数据源均是结构化数据,可以直接基于规则进行实体的识别。但对于“产品存在的主要缺陷”及“可能造成的后果”是一段复杂的描述,这段描述当中包括了“产品部件”和“潜在伤害”两类实体,以及这两类实体之间的关系属性“缺陷”。如果直接利用这段描述来构建知识图谱,除了会造成实体名称的复杂,还会影响知识图谱使用的效率,因此需要对这段描述进一步处理,得到可用于图谱构建的有效信息。
为解决这一问题,使用GPT-3[8]模型作为预训练模型,通过Prompt Tuning[9]技术对模型进行微调。具体步骤如下:
(1)使用基于大量语料训练后的原始GPT-3模型作为预训练模型。
(2)根据任务需求,我们需要得到一个命名实体识别模型,因此选择合适的提示词,并将其添加到模型输入中。
(3)使用调整后的提示词对预训练模型进行微调,观察输出的结果。
(4)重复步骤2和3,不断调整提示词,直到模型性能达到预期效果。
为了使模型能够更精准地处理信息,运用CO-STAR 框架[10]工具构建有效的提示。CO-STAR 框架组成及最终形成的提示词见表4。
表4 CO-STAR 框架及提示词
此外,为了让模型快速学习上下文并理解任务的目标,我们还提供了一些示例供模型进行少样本学习[11],部分示例如下:
例子输入
"缺陷:1、该款产品的头颈部有较长绳带,不符合标准要求;2、该产品的pH值的检测达不到标准要求。后果:1、该产品的头颈部存在绳带,儿童在活动时绳带容易缠绕,钩住,造成勒伤、窒息等伤害;2、该产品的pH值过高,可能对儿童皮肤造成一定的伤害。"
例子输出
"{[\"头颈部绳带\",\"产品部件\"],[\"绳带较长,不符合标准要求\",\"缺陷\"],[\"勒伤、窒息\",\"潜在伤害\"]},{[\"pH值\",\"产品部件\"],[\"pH值过高\",\"缺陷\"],[\"对儿童皮肤造成一定伤害\",\"伤害事件\"]}"
利用上述提示词和示例,我们可以得到一个应用产品缺陷相关的命名实体识别模型。这样对于新的描述产品缺陷及后果的数据,我们可以使用该提示词对数据进行处理,得到构建知识图谱的有效信息,进而提高图谱使用的效率。
2.3 知识融合
知识融合是将多个来源的知识进行整合的过程,旨在消除数据冗余,提升知识图谱的准确性和一致性。在儿童用品质量安全知识图谱中,知识融合用于将不同数据源中的相同实体和相关信息进行整合。
2.3.1 文本聚类
由于儿童用品召回数据和其他质量安全信息中,存在许多相类似的描述,故通过文本聚类的方式进行自动标注,将同一含义的不同表述进行合并,消除冗余信息。具体步骤如下:
(1)采用中文分词库jieba分词处理原始文本数据,去除无关内容,提取关键字;
(2)使用文本特征提取工具CountVectorizer将处理后的文本数据转换为词频矩阵;
(3)使用线性判别分析LDA算法进行主题建模,从词频矩阵中提取潜在共同文本进行聚类。
LDA模型是一种典型的词袋模型,它可以将每篇文档的主题以概率分布的形式给出,通过分析抽取出文档的主题(分布),再根据主题(分布)进行主题聚类或文本分类。使用LDA进行文本聚类的例子如图2所示。

图2 LDA文本聚类示例

2.3.2 实体链接
因数据来源、信息体裁、语言习惯等因素,儿童用品质量安全知识图谱中的实体存在多种表述。对于表述灵活的实体词,需要从相似度的角度将其链接到统一、规范的实体对象。
由于儿童用品质量安全知识图谱中的实体和属性具有较强的领域性,人工构建语义知识词典的成本过大且适用性不强。因此,本研究选择从统计角度出发,利用词向量[12]衡量实体词的语义相似度。借助性能优越、受业界广泛认可的Word2Vec模型[13],将待链接的实体名称转化为对应的词向量,对词向量进行余弦度计算,从而衡量语义上的相似度。其计算方式如下:

其中向量x,y分别代表计算相似度的词向量,xi,yi是多维空间中向量x,y在第i维的分量。以潜在伤害实体词的链接为例。图谱中潜在伤害实体词为“火灾”“摔倒”,待输入图谱的词汇为“起火”“失火”“跌倒”“摔伤”。经计算:
词“火灾”和“起火”的余弦相似度为0.6118;
词“火灾”和“失火”的余弦相似度为0.6769;
词“摔倒”和“跌倒”的余弦相似度为0.8246;
词“摔倒”和“摔伤”的余弦相似度为0.6533;
词“火灾”和“跌倒”的余弦相似度为0.3109;
词“火灾”和“摔伤”的余弦相似度为0.4112。
经过大量数据计算,最终确认语义相似度在0.6以上的词语被视为相似或同义词,可以进行实体链接。
2.4 知识存储与更新
本研究采用Neo4j进行知识图谱的存储,利用其强大的图数据库功能,实现对复杂关系数据的高效管理和快速查询。在Neo4j的核心数据结构中,存在三个基本元素:节点、属性和关系。每个节点可以代表一个实体,如产品名称或生产企业;属性则用于描述节点的特征,例如生产企业的运营状态、法律诉讼信息;而关系则用来表示不同节点间的连接,比如“包含”或“导致”。这些元素均以键值对(key-value)的形式存储,从而为数据提供了丰富的语义信息和灵活的结构。
知识图谱作为动态知识体系,需要持续更新,以应对现实世界的变化和获取最新知识。由于儿童用品质量安全知识图谱的数据源是不断更新的,因此本研究建立增量化知识图谱更新机制,通过网络爬虫不断爬取新的数据,经过数据处理与知识融合,不断更新和扩展知识图谱。


3 儿童用品质量安全知识图谱展示

本研究构建了儿童用品质量安全知识图谱,图3展示部分数据。

图3 儿童用品质量安全知识图谱概览

图3中产品部件到伤害事件的关系属性中保存了导致该种伤害事件的原因。通过儿童用品质量安全知识图谱能够直观地展现出儿童用品安全问题的全貌:哪些儿童用品存在哪些安全隐患,这些隐患又是如何导致伤害事件发生的,以及生产企业在其中扮演的角色。这不仅有助于我们深入分析问题根源,制定针对性的预防措施,还可以为相关部门的监管工作提供有价值的支持。
通过识别儿童用品中各部件可能导致的伤害,可以帮助我们发现重点监管领域和薄弱环节,为制定针对性的治理措施提供依据。例如,可以针对某品类或某生产企业存在的普遍性安全隐患,采取重点监管、行业约谈等措施;也可以根据不同时期安全风险的变化趋势,调整监管政策和资源投入。
以图4为例,我们可以看到儿童服装类的产品召回中,涉及召回频次比较高的缺陷部件为绳带,可能导致的伤害包括勒伤、窒息等。

图4 儿童服装的部分图谱

另外,我们也可以从企业质量风险的维度,明确地识别企业的召回产品情况、消费者投诉情况、涉及的法律诉讼情况,以及被抽检不合格情况等,如图5所示。这些信息可以为一个企业建立一个相对完善的质量安全画像,帮助生产企业以及监管部门发现产品质量管理的痛点和质量提升的关键点。

图5 生产企业节点展示


4 结语

本研究基于儿童用品国内外召回数据和其他质量安全信息的采集和有效利用,提出了儿童用品质量安全知识图谱的构建方法,设计了知识抽取、知识融合、知识存储和更新机制。构建的儿童用品质量安全知识图谱实现了不同产品、产品类别、生产企业、产品缺陷部件以及潜在伤害之间复杂关系的清晰展示,可以为生产企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑,同时可以辅助监管部门快速识别潜在风险,提升监管的针对性和有效性。未来,可以在儿童用品质量安全知识图谱的基础上建立儿童用品质量安全风险评价模型,将图谱中整合的各类知识转化为评价指标,为开展产品质量安全风险评价研究提供完整的知识结构和数据基础。

参考文献


1. CHEN X,JIA S,XIANG.A review:knowledge reasoning over knowledge graph[J].Expert Systems with Applications,2020(141):112948.

2. 邵宜添.我国农产品监管研究的可视化知识图谱分析.信阳农林学院学报[J],2020(9):89-93.

3. 孙梦捷,李洁君,杨建平,等.含有植物纤维或玉米淀粉的食品接触产品质量安全风险研究[J].塑料工业,2021,49(3):106-109.

4. 冀晓东,孙高岭,涂新雨,等.儿童用品化学安全知识图谱构建与应用分析.标准科学[J],2024(6):34-41.

5. Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J]. Journal of machine Learning research,2003,3(Jan): 993-1022.

6. Guia J,Soares V G,Bernardino J.Graph Databases:Neo4j Analysis[C]//ICEIS (1).2017: 351-356.

7. AL-MOSLMI T,et al.Named entity extraction for knowledge graphs:a literature overview[J].IEEE Access,2020 (8):32862-32881.https://doi.org/10.1109/ACCESS.2020.2973928.

8. Brown T B.Language models are few-shot learners[J].arXiv preprint arXiv:2005.14165,2020.

9. Han X,Zhao W,Ding N,et al.Ptr:Prompt tuning with rules for text classification[J].AI Open,2022,3:182-192.

10. Teo S.How I Won Singapore’s GPT-4 Prompt Engineering Competition[J].Towards Data Science,Medium,2023,29.

11. Song Y,Wang T,Cai P,et al.A comprehensive survey of few-shot learning: Evolution, applications, challenges, and opportunities[J].ACM Computing Surveys,2023,55(13s):1-40.

12. Worth P J.Word embeddings and semantic spaces in natural language processing[J].International journal of intelligence science,2023,13(1):1-21.

13. Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in neural information processing systems,2013,26.


作者简介:殷姣,硕士研究生,高级工程师,研究方向为缺陷产品召回管理及标准化。
基金项目:本文受国家市场监督管理总局科技计划项目“基于知识图谱的消费品质量安全风险评价预测技术及应用研究”(2022MK039)资助。
*本文来自《产品安全与召回》杂志2024年第5期,转载请注明来源。
推荐阅读

10月汽车产销量环比同比双增长

2024中国汽车软件大会在上海举行,5大亮点、8项成果集中发布

国家市场监督管理总局主管
关注产品安全与产品召回的权威媒体

产品安全与召回
关注安全时讯,聚焦召回热点,追踪质量问题,为质量与安全发声。
 最新文章