儿童用品质量安全知识图谱构建研究

乐活 2024-11-15 16:07 北京

殷姣张天龙管旭琳 | 江苏省质量和标准化研究院

本研究着眼于国内外儿童用品召回数据和其他质量安全信息的整合和利用，提出了儿童用品质量安全知识图谱的构建思路。通过实体识别和知识抽取技术，从数据源中提取关键信息，通过LDA主题建模和相似度分析消除数据冗余、完成知识融合，构建一个相对全面的儿童用品质量安全知识图谱。该图谱有效融合了不同数据源，可以为企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑，为监管部门了解儿童用品质量安全状况、制定儿童用品质量监管措施提供技术支持和决策依据。

1 背景

儿童是国家的未来和民族的希望，他们的健康成长直接关系到国家的长远发展。儿童用品作为儿童日常生活中不可或缺的一部分，其质量安全直接影响到儿童的身体健康和生命安全。

近年来，国家高度重视儿童用品的质量安全问题。2020年，国务院发布《中国儿童发展纲要（2021-2030）》，提出要持续开展儿童用品质量安全守护行动，加强对产品造成儿童伤害的信息监测、分析、监督检查和缺陷产品召回工作。2024年，市场监管总局、教育部、工业和信息化部联合发布《关于加强重点儿童和学生用品安全管理的公告》，对规范儿童用品的生产销售、强化质量安全监管、推进社会共治等提出了更严格要求。据统计，截至2024年5月20日，我国累计实施儿童用品召回2057次，涉及产品1826万件。儿童用品召回为消除产品缺陷、保护儿童安全发挥重要作用的同时，也为大数据时代推进市场监管智慧化、数字化提供了有效的数据支撑。

随着大数据等现代信息技术的发展，探索市场监管数据和资源的有效整合和利用，实现对市场主体和监管对象的精准画像，成为数据赋能市场监管高质量发展的有效途径。知识图谱[1]作为一种新型的知识表示与推理方式，可以实现异构多源数据的整合和高效利用。近年来，不少学者开始探索知识图谱在市场监管领域的应用。邵宜添[2]利用知识图谱对农产品质量安全隐患进行可视化分析，通过构建包含实体、关系和属性的知识图谱，揭示了农产品质量安全领域的内在联系和规律。孙梦捷等^[3]利用知识图谱进行含有植物纤维或玉米淀粉的食品接触产品质量安全风险研究，通过整合多源数据，构建了全面的风险评估模型，为相关产品的安全监管提供了科学依据。冀晓东等[4]聚焦于化学安全，构建了儿童用品化学安全知识图谱，并分析了其应用场景。上述研究为产品质量安全领域中知识图谱的构建与应用提供了思路和范例。

本研究构建的儿童用品质量安全知识图谱，通过对儿童用品召回数据及其他质量安全信息进行深入挖掘和关联，为企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑，也为监管部门了解儿童用品质量安全状况、制定儿童用品质量监管措施提供技术支持和决策依据。

2 儿童用品质量安全知识图谱构建

儿童用品质量安全知识图谱构建的主要思路是：通过爬虫技术采集目标数据，经过数据清洗等预处理，建立实体关系模型，完成实体、实体关系、实体属性等知识抽取，并进一步通过相似度分析、LDA主题建模[5]等方式建立实体链接和文本聚类，完成知识融合，最后采用Neo4j[6]进行三元组知识的存储。除此之外，通过爬虫技术不断进行数据更新，完成知识图谱的动态扩展和更新。儿童用品质量安全知识图谱构建框架如图1所示。

图1 儿童用品质量安全知识图谱构建框架

2.1 数据采集与治理

本研究通过网络爬虫技术自动化收集与儿童用品质量安全相关的各种文本数据，如产品召回数据、产品质量监督抽查数据、消费者投诉等。对收集到的数据进行清洗，去除无关信息，修正错误数据，标准化文本格式等，为后续的知识抽取和融合打下基础。

2.1.1 召回数据

产品召回数据能够直接反映儿童用品所存在的质量安全风险情况，因此儿童用品召回数据是此次儿童用品质量安全知识抽取的主要数据集之一。为了最大限度地扩大儿童用品质量安全知识的广度，本文不仅对国内的召回数据进行了采集，还对欧盟、美国的召回信息进行了研究，获取对构建知识图谱有益的相关数据项。

由江苏省缺陷产品管理技术中心直接提供的召回数据以表格形式存储，结构化程度较高，可直接用于数据的处理；国内其他省市召回数据以及欧盟、美国的召回数据则需使用爬虫技术进行爬取。本研究使用的召回数据来源及采集数据项见表1。

表1 召回数据来源及采集数据项

2.1.2 其他质量安全信息

为了使知识图谱能够综合反映和评价儿童用品质量安全状况，本研究着眼于对多源质量安全信息的有效利用，将消费者投诉平台12315上的产品投诉信息、中国裁判文书网上的法律诉讼信息、国家企业信用信息系统公示的企业运营信息以及各级各地区市场监管部门官网发布的儿童用品质量监督抽查结果一并纳入数据集，以便从市场反馈和企业信用的角度，更加全面地反映儿童用品质量安全状况。

2.2 知识抽取

2.2.1 问题建模

知识抽取是通过自动化或半自动化从数据中获得实体、关系和属性等需要的知识单元[7]。基于儿童用品召回数据的内容特点，结合儿童用品质量安全知识需求，本研究针对采集的召回数据定义了五种实体，分别是产品名、产品部件、潜在伤害、生产企业、产品类别。在定义实体的基础上建立实体关系模型，从而将原始数据转化为更加结构化和可解释的知识形式，更加清晰地呈现不同实体之间的关联关系。

本模型中的关系类别包括包含、导致、生产三种，实体类别与关系之间的对应关联关系见表2。同时，“缺陷”作为产品部件导致潜在伤害的原因，成为“产品部件，导致，潜在伤害”的关系属性，添加到模型中。例如，“笔帽，导致，窒息”的关系属性是“形成小零件”。

表2 实体关系与示例

此外，为了能够更加全面地反映知识图谱中生产企业的质量安全管理状况，本文基于其他质量安全风险信息数据，为企业实体定义了四类属性，具体情况见表3。

表3 企业实体的属性

2.2.2 抽取方法

从采集的数据结构可以看出，“产品名称”“生产企业”等信息在不同数据源均是结构化数据，可以直接基于规则进行实体的识别。但对于“产品存在的主要缺陷”及“可能造成的后果”是一段复杂的描述，这段描述当中包括了“产品部件”和“潜在伤害”两类实体，以及这两类实体之间的关系属性“缺陷”。如果直接利用这段描述来构建知识图谱，除了会造成实体名称的复杂，还会影响知识图谱使用的效率，因此需要对这段描述进一步处理，得到可用于图谱构建的有效信息。

为解决这一问题，使用GPT-3[8]模型作为预训练模型，通过Prompt Tuning[9]技术对模型进行微调。具体步骤如下：

（1）使用基于大量语料训练后的原始GPT-3模型作为预训练模型。

（2）根据任务需求，我们需要得到一个命名实体识别模型，因此选择合适的提示词，并将其添加到模型输入中。

（3）使用调整后的提示词对预训练模型进行微调，观察输出的结果。

（4）重复步骤2和3，不断调整提示词，直到模型性能达到预期效果。

为了使模型能够更精准地处理信息，运用CO-STAR 框架[10]工具构建有效的提示。CO-STAR 框架组成及最终形成的提示词见表4。

表4 CO-STAR 框架及提示词

此外，为了让模型快速学习上下文并理解任务的目标，我们还提供了一些示例供模型进行少样本学习[11]，部分示例如下：

例子输入

"缺陷：1、该款产品的头颈部有较长绳带，不符合标准要求；2、该产品的pH值的检测达不到标准要求。后果：1、该产品的头颈部存在绳带，儿童在活动时绳带容易缠绕，钩住，造成勒伤、窒息等伤害；2、该产品的pH值过高，可能对儿童皮肤造成一定的伤害。"

例子输出

"{[\"头颈部绳带\"，\"产品部件\"]，[\"绳带较长，不符合标准要求\"，\"缺陷\"]，[\"勒伤、窒息\"，\"潜在伤害\"]}，{[\"pH值\"，\"产品部件\"]，[\"pH值过高\"，\"缺陷\"]，[\"对儿童皮肤造成一定伤害\"，\"伤害事件\"]}"

利用上述提示词和示例，我们可以得到一个应用产品缺陷相关的命名实体识别模型。这样对于新的描述产品缺陷及后果的数据，我们可以使用该提示词对数据进行处理，得到构建知识图谱的有效信息，进而提高图谱使用的效率。

2.3 知识融合

知识融合是将多个来源的知识进行整合的过程，旨在消除数据冗余，提升知识图谱的准确性和一致性。在儿童用品质量安全知识图谱中，知识融合用于将不同数据源中的相同实体和相关信息进行整合。

2.3.1 文本聚类

由于儿童用品召回数据和其他质量安全信息中，存在许多相类似的描述，故通过文本聚类的方式进行自动标注，将同一含义的不同表述进行合并，消除冗余信息。具体步骤如下：

（1）采用中文分词库jieba分词处理原始文本数据，去除无关内容，提取关键字；

（2）使用文本特征提取工具CountVectorizer将处理后的文本数据转换为词频矩阵；

（3）使用线性判别分析LDA算法进行主题建模，从词频矩阵中提取潜在共同文本进行聚类。

LDA模型是一种典型的词袋模型，它可以将每篇文档的主题以概率分布的形式给出，通过分析抽取出文档的主题（分布），再根据主题（分布）进行主题聚类或文本分类。使用LDA进行文本聚类的例子如图2所示。

图2 LDA文本聚类示例

2.3.2 实体链接

因数据来源、信息体裁、语言习惯等因素，儿童用品质量安全知识图谱中的实体存在多种表述。对于表述灵活的实体词，需要从相似度的角度将其链接到统一、规范的实体对象。

由于儿童用品质量安全知识图谱中的实体和属性具有较强的领域性，人工构建语义知识词典的成本过大且适用性不强。因此，本研究选择从统计角度出发，利用词向量[12]衡量实体词的语义相似度。借助性能优越、受业界广泛认可的Word2Vec模型[13]，将待链接的实体名称转化为对应的词向量，对词向量进行余弦度计算，从而衡量语义上的相似度。其计算方式如下：

其中向量x,y分别代表计算相似度的词向量，xi,yi是多维空间中向量x,y在第i维的分量。以潜在伤害实体词的链接为例。图谱中潜在伤害实体词为“火灾”“摔倒”，待输入图谱的词汇为“起火”“失火”“跌倒”“摔伤”。经计算：

词“火灾”和“起火”的余弦相似度为0.6118；

词“火灾”和“失火”的余弦相似度为0.6769；

词“摔倒”和“跌倒”的余弦相似度为0.8246；

词“摔倒”和“摔伤”的余弦相似度为0.6533；

词“火灾”和“跌倒”的余弦相似度为0.3109；

词“火灾”和“摔伤”的余弦相似度为0.4112。

经过大量数据计算，最终确认语义相似度在0.6以上的词语被视为相似或同义词，可以进行实体链接。

2.4 知识存储与更新

本研究采用Neo4j进行知识图谱的存储，利用其强大的图数据库功能，实现对复杂关系数据的高效管理和快速查询。在Neo4j的核心数据结构中，存在三个基本元素：节点、属性和关系。每个节点可以代表一个实体，如产品名称或生产企业；属性则用于描述节点的特征，例如生产企业的运营状态、法律诉讼信息；而关系则用来表示不同节点间的连接，比如“包含”或“导致”。这些元素均以键值对（key-value）的形式存储，从而为数据提供了丰富的语义信息和灵活的结构。

知识图谱作为动态知识体系，需要持续更新，以应对现实世界的变化和获取最新知识。由于儿童用品质量安全知识图谱的数据源是不断更新的，因此本研究建立增量化知识图谱更新机制，通过网络爬虫不断爬取新的数据，经过数据处理与知识融合，不断更新和扩展知识图谱。

3 儿童用品质量安全知识图谱展示

本研究构建了儿童用品质量安全知识图谱，图3展示部分数据。

图3 儿童用品质量安全知识图谱概览

图3中产品部件到伤害事件的关系属性中保存了导致该种伤害事件的原因。通过儿童用品质量安全知识图谱能够直观地展现出儿童用品安全问题的全貌：哪些儿童用品存在哪些安全隐患，这些隐患又是如何导致伤害事件发生的，以及生产企业在其中扮演的角色。这不仅有助于我们深入分析问题根源，制定针对性的预防措施，还可以为相关部门的监管工作提供有价值的支持。

通过识别儿童用品中各部件可能导致的伤害，可以帮助我们发现重点监管领域和薄弱环节，为制定针对性的治理措施提供依据。例如，可以针对某品类或某生产企业存在的普遍性安全隐患，采取重点监管、行业约谈等措施；也可以根据不同时期安全风险的变化趋势，调整监管政策和资源投入。

以图4为例，我们可以看到儿童服装类的产品召回中，涉及召回频次比较高的缺陷部件为绳带，可能导致的伤害包括勒伤、窒息等。

图4 儿童服装的部分图谱

另外，我们也可以从企业质量风险的维度，明确地识别企业的召回产品情况、消费者投诉情况、涉及的法律诉讼情况，以及被抽检不合格情况等，如图5所示。这些信息可以为一个企业建立一个相对完善的质量安全画像，帮助生产企业以及监管部门发现产品质量管理的痛点和质量提升的关键点。

图5 生产企业节点展示

4 结语

本研究基于儿童用品国内外召回数据和其他质量安全信息的采集和有效利用，提出了儿童用品质量安全知识图谱的构建方法，设计了知识抽取、知识融合、知识存储和更新机制。构建的儿童用品质量安全知识图谱实现了不同产品、产品类别、生产企业、产品缺陷部件以及潜在伤害之间复杂关系的清晰展示，可以为生产企业在设计和生产儿童用品过程中避免产品缺陷提供数据支撑，同时可以辅助监管部门快速识别潜在风险，提升监管的针对性和有效性。未来，可以在儿童用品质量安全知识图谱的基础上建立儿童用品质量安全风险评价模型，将图谱中整合的各类知识转化为评价指标，为开展产品质量安全风险评价研究提供完整的知识结构和数据基础。

参考文献

1. CHEN X,JIA S,XIANG.A review:knowledge reasoning over knowledge graph[J].Expert Systems with Applications,2020(141):112948.

2. 邵宜添.我国农产品监管研究的可视化知识图谱分析.信阳农林学院学报[J]，2020(9):89-93.

3. 孙梦捷,李洁君,杨建平,等.含有植物纤维或玉米淀粉的食品接触产品质量安全风险研究[J].塑料工业,2021,49(3):106-109.

4. 冀晓东,孙高岭,涂新雨,等.儿童用品化学安全知识图谱构建与应用分析.标准科学[J]，2024(6):34-41.

5. Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J]. Journal of machine Learning research,2003,3(Jan): 993-1022.

6. Guia J,Soares V G,Bernardino J.Graph Databases:Neo4j Analysis[C]//ICEIS (1).2017: 351-356.

7. AL-MOSLMI T,et al.Named entity extraction for knowledge graphs:a literature overview[J].IEEE Access，2020 (8):32862-32881.https://doi.org/10.1109/ACCESS.2020.2973928.

8. Brown T B.Language models are few-shot learners[J].arXiv preprint arXiv:2005.14165,2020.

9. Han X,Zhao W,Ding N,et al.Ptr:Prompt tuning with rules for text classification[J].AI Open,2022,3:182-192.

10. Teo S.How I Won Singapore’s GPT-4 Prompt Engineering Competition[J].Towards Data Science,Medium,2023,29.

11. Song Y,Wang T,Cai P,et al.A comprehensive survey of few-shot learning: Evolution, applications, challenges, and opportunities[J].ACM Computing Surveys,2023,55(13s):1-40.

12. Worth P J.Word embeddings and semantic spaces in natural language processing[J].International journal of intelligence science,2023,13(1):1-21.

13. Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in neural information processing systems,2013,26.

作者简介：殷姣，硕士研究生，高级工程师，研究方向为缺陷产品召回管理及标准化。

基金项目：本文受国家市场监督管理总局科技计划项目“基于知识图谱的消费品质量安全风险评价预测技术及应用研究”（2022MK039）资助。

*本文来自《产品安全与召回》杂志2024年第5期，转载请注明来源。

推荐阅读

10月汽车产销量环比同比双增长

2024中国汽车软件大会在上海举行，5大亮点、8项成果集中发布

国家市场监督管理总局主管

关注产品安全与产品召回的权威媒体

http://mp.weixin.qq.com/s?__biz=MzIyNzA1MzM4NQ==&mid=2247513514&idx=2&sn=33d664ee13df871c09ff4d5e0ccf4338

产品安全与召回

关注安全时讯，聚焦召回热点，追踪质量问题，为质量与安全发声。

最新文章

见证历史！我国新能源汽车年产量首破1000万辆

儿童用品质量安全知识图谱构建研究

基于CPSC违规通知的非食用消费品出口美国风险分析

汽车隐私保护标识来了！这些车型已获得

2024中国汽车软件大会在上海举行，5大亮点、8项成果集中发布

10月汽车产销量环比同比双增长

10月召回68.97万辆汽车，欧系为主、宝马车主需重点关注

【10月消费品召回典型案例】部分飞利浦紫外线空气消毒机存起火隐患，立马电动自行车单月召回18次

开展消费品质量分级标准化工作势在必行——GB/T 44164－2024《消费品质量分级通则》国家标准解读

以案说车 AEB无故启动导致的争议

“我”的交通事故零伤亡愿景——访中国汽研指数管理中心智能安全主线执行负责人、汽车安全中心前瞻技术研究室室主任刘煜

检验检测机构风险管理探讨

【视点】当“功能”遇上“安全”

【汽车文化】中国汽车工业对外合作的推动者——吕福源

推广新能源汽车，国管局、中直管理局发文！

3D打印筑未来健康安全就现在——浅谈儿童3D打印笔质量安全风险问题

一场汽车科技工作者的盛会！将于11月11日至14日在重庆举办

开源“小满”安全车控操作系统代码正式上线

电动自行车以旧换新有何新进展？

【汽车文化】中国民营汽车的开拓者——李书福

动力电池质量如何提升？

我国首个汽车芯片认证审查技术体系正式发布！

2024世界智能网联汽车大会（WICV）圆满闭幕

市场监管总局：到2024年底，对这9类重点工业产品开展质量安全追溯（附政策解读+一图读懂）

WICV 2024在京开幕并发布智能网联汽车全球十大发展突破

市场监管总局：加快制修订设备更新和消费品以旧换新相关重点标准的进程

浅谈产品质量安全风险监测与缺陷消费品召回的区别和联系

四部门发文！加强电动自行车产品准入及行业规范管理

9月汽车产销数据发布，新能源汽车产销创历史新高

《产品安全与召回》增刊征稿通知

9月汽车召回欧系占八成，宝马、奔驰车主需重点关注

9月消费品召回典型案例：购买流行玩具需谨慎，网红“挤痘痘捏捏乐”存划伤隐患

电动汽车充换电安全再加码

2024世界新能源汽车大会成功举办并发布大会共识

智能网联汽车驾驶辅助安全标准稳链经验交流现场推进会暨国家标准发布会在深圳召开

工信部：建立健全汽车碳排放标准体系

换设备、换车、换家电……12个领域更新换新细则全面出台！

应对挑战，抢抓机遇 | 2024中国汽车供应链大会在武汉召开

国家发改委：预计全年实现200万辆低排放标准乘用车退出

2024中国（郑州）新能源汽车生态伙伴大会暨智能网联汽车大赛顺利举办

方向盘皮套出油是质量问题吗？

食品用玻璃制品常见缺陷分析

进一步全面深化市场监管领域改革——访国家市场监督管理总局党组书记、局长罗文

定了！2024世界智能网联汽车大会将于10月在京召开

全方位的质量管理体系造就高品质汽车产品——访一汽-大众汽车有限公司质量保证总监张博

聊聊我眼中的召回新变化｜召回20周年特别策划

澳大利亚ACCC2023年至2024年产品安全优先事项

标准助力“芯”未来

8月汽车生产、市场需求均放缓，新能源汽车销量占44.8%

8月汽车召回超300万辆，特斯拉和宝马车主需重点关注

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉