专家观点 | 法律监管+技术人工审核：提升AI内容输出可控性

科技 2024-11-25 19:24 北京

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

文 | 中国传媒大学媒体融合与传播国家重点实验室、计算机与网络空间安全学院教授范永开

AI聊天角色在回答中可能出现色情擦边、暴力对话等情况，主要与“数据来源的混杂性、商业模式的诱导性、监管机制的滞后性”这三大关键因素有关。

从数据来源维度剖析，AI剧情聊天软件背后的大语言模型，其训练数据主要来源于对话式小说或提取自小说的文本内容。然而，网络小说数量巨大且质量参差不齐，其中不乏包含色情、擦边以及暴力的内容。如果这些内容没有被有效过滤，模型在输出时就容易出现问题。

从商业模式视角审视，部分AI剧情聊天软件为吸引用户，即便在青少年模式中，仍存在允许“擦边对话”的现象。例如通过设定极富想象力的剧情和风格迥异的人物角色来打动用户，这种商业模式不仅推动了用户黏性增长，但也容易诱导用户实施不适当行为。

从监管角度考量，目前针对AI生成内容的监管机制尚不完善，许多平台也可能缺乏有效的内容过滤技术措施，导致一些含有色情、暴力等不当内容的对话能够顺利输出给用户。

虽然相关企业通常会实施内容修订流程等操作，甚至建立用户反馈机制，根据用户的年龄段、身份特征等因素，限制未成年用户访问包含敏感或禁止内容在内的数据源，但实际上，受制于商业利益、技术不足等因素，全面的内容审查与控制难以实现。

为了应对这种情况，可进一步优化大语言模型的筛选机制，以降低甚至杜绝涉黄、暴力或侮辱性内容的输出。比如对于隐蔽或隐喻等内容，可通过开发长记忆链技术来更好地捕捉语言中的长距离依赖关系，提高模型对不当内容的识别和过滤能力；或者利用词嵌入、序列模型与注意力机制等技术，来增强模型对文本内容的深度剖析能力。通过强化技术手段，模型能够更精确地理解文本中的上下文关系，从而更准确地判别文本是否包含不当内容。

但需明确的是，技术不能解决所有的问题，还需要法律及人工介入等多种方式协同解决内容输出控制的问题。从法律角度，对用于训练大语言模型的数据进行严格的筛选与分类，确保数据源合法且内容健康，坚决剔除包含色情、暴力等不当元素的文本数据。对于现有的模型，可运用数据遗忘等技术手段，消除已有模型的不当内容输出或在干净数据上的重新训练，生成优质大模型。此外，引入人工审核机制是一种必要的手段，对自动化系统标记为敏感或禁止的内容进行人工复核，推动开放研究、社区合作、线索举报等多种措施，进一步优化大语言模型的筛选机制，最大限度减少或消除不良内容的输出。

不良内容的输出，会对受众的思想行为产生较为严重的负面影响。更深远的影响在于，通过AI大模型的使用去改变受众的认知，影响认知安全。

维护认知安全，需要从多个层面入手加强防护措施：首先，在技术研发阶段就应充分考虑伦理道德因素，并建立健全配套的监管机制；其次，加大对网络空间中各类信息的审核力度，及时发现并清除有害内容；再次，提升公众的信息素养教育水平，增强其辨别真伪信息的能力；最后，构建一个开放透明且富有责任感的AI生态系统，鼓励各方积极参与、共同维护良好的数字环境。

（来源：法治日报）

分享网络安全知识强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情

http://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664230517&idx=6&sn=e0cdeffeaef945346749b2786816d35d

中国信息安全

《中国信息安全》杂志，介绍国内外最新网络安全动态，深度解读网络安全事件。

最新文章

全球视野 | 国际网安快讯（第38期）

行业 | 360发布全球首份《大模型安全漏洞报告》，曝光近40个大模型相关安全漏洞

关注 | 四部门开展“清朗·网络平台算法典型问题治理”专项行动

关注 | 建设100个以上可信数据空间，这份文件以可信安全促要素流通

前沿 | 推动构建网络空间命运共同体迈向新阶段

专家观点 | 法律监管+技术人工审核：提升AI内容输出可控性

国际 | 印度惊现“数字逮捕”电诈骗局

关注 | 多名网络主播被约谈！

发布 | 国家数据局印发《可信数据空间发展行动计划（2024—2028年）》（附全文）

专家解读 | 什么是可信数据空间？国家针对这一新型数据基础设施进行布局

一图读懂 | 可信数据空间发展行动计划（2024—2028年）

《中国信息安全》2024年第9期目录

聚焦乌镇 | 全球AI大模型攻防挑战赛乌镇收官：十强选手现场用AI对抗AI 保护大模型安全

警惕 | 针对我国用户的“银狐”木马病毒出现新变种！

通知 | 国家数据局就《国家数据基础设施建设指引（征求意见稿）》向社会公开征求意见（附全文）

重点防范！又公布一批境外恶意网址和恶意IP

关注 | 《2024中国数字银行调查报告》发布

关注 | 缅北规模化电诈园区全部被铲除

前沿 | 《密码法》颁布五周年：法治成效、实施难点与未来走向

聚焦乌镇 | 《中国互联网发展报告2024》和《世界互联网发展报告2024》蓝皮书发布

聚焦乌镇 | 2024年世界互联网大会乌镇峰会主论坛举行

外交部：中方愿与各方深化数据跨境流动领域交流合作

聚焦乌镇 | 世界互联网大会人工智能专业委员会成立

通知 | 网安标委发布《网络安全标准实践指南——粤港澳大湾区（内地、香港）个人信息跨境处理保护要求》（附全文）

聚焦乌镇 | 打造大模型安全标杆！360安全大模型在世界互联网大会连获两项殊荣

聚焦乌镇 | 《2024年全球发展倡议数字合作论坛主席声明》发布（附全文）

习近平向2024年世界互联网大会乌镇峰会开幕视频致贺

发布 | 全球数据跨境流动合作倡议

聚焦乌镇 | 共同推动构建网络空间命运共同体迈向新阶段——写在2024年世界互联网大会乌镇峰会开幕之际

CNNVD | 关于Palo Alto Networks PAN-OS安全漏洞的通报

CNNVD | 关于Apache OFBiz安全漏洞的通报

图解｜我国数据出境合规指引

评论 | 让未成年人模式真正成为“保护盾”

杂志征订 | 2025年《中国信息安全》杂志征订开始！

聚焦乌镇 | 2024年世界互联网大会“互联网之光”博览会在浙江乌镇开幕

聚焦乌镇 | 共赴美好数字未来——我国积极推动全球互联网发展治理迈向更高水平

发布 | 17家单位联合发布《工业和信息化领域数据安全合规指引》（附下载）

专家解读 | 构建国家数据标准体系推动数据要素高水平应用

专家观点 | 法治化防控人工智能风险

关注 | 起底网络水军：“这必然是一场持久的较量”

评论 | 为“吃谷”未成年人构建防诈安全网

全球视野 | 国际网安快讯（第37期）

王崧：共同推动构建网络空间命运共同体迈向新阶段

通知 | 住建部印发《城市数字公共基础设施标准体系》（附全文）

专家解读 | 构建国家数据标准体系，助力数据要素可信流通发展

专家解读 | 《个人信息保护法》实施三周年：十大亮点赢群众叫好

国际 | 美国科技巨头各出奇招争相“押宝”人工智能赛道相关监管政策和立法监管迟缓

评论 | “未成年人模式”防沉迷，握好“钥匙”是前提

2024年网络安全漏洞研究人才培养交流活动成功举办

发布 | 国家网信办发布《移动互联网未成年人模式建设指南》（附全文）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉