打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

创业 2022-05-24 21:29

进入21世纪以来，人工智能（Artificial Intelligence，AI）取得了长足发展，已经逐步在自然语言处理、计算机视觉、语音识别、自动驾驶等领域落地。AI与人类紧密的结合，使得智能化的人机协同成为大势所趋。人类在全方位应用AI的同时，更希望能理解、信任、管理AI。因此，发展可解释、可扩展、安全可靠的AI显得至关重要。

而人工智能技术的高速发展也面临诸多困难与挑战。其中，如何把AI技术的基本原理，其自动决策机制，潜在风险及防范措施，以通俗易懂的方式向人类说明，成为发展可信赖，安全可靠人工智能的首要任务。

可解释性在我们的日常生活当中比比皆是，比如，一位医生在向一位病人解释诊断结果和治疗措施时，要给病人一个好的病因和治疗解释，让病人放心。

而现实情况是，由于核心AI算法，尤其是深度学习算法，通常运行在类似于“黑盒”中的工作模式下，导致AI系统的运行结果，并不能以合乎情理的方式被人类所理解和认同。

深度学习尚存理论与应用缺陷，打造可解释AI势在必行

作为当前人工智能的核心算法之一，深度学习的不可解释性体现在理论和应用两个层面。

在理论层面，有实验证明，给出若干样本图片，被用于训练一个深度神经网络结合逻辑回归的识别模型；该模型能够将绝大部分的正确图片分类，但却会将雪地背景中的哈士奇误判为狼。因为该识别器从训练数据中学到“可以将图片中的大面积白色背景（雪地）作为识别狼的依据”。由于在输入数据和预期结果之间建立（概率）关联是一种虚假关系，当面对与训练样本不一致的情况时，模型的表现就会大失水准。

在应用层面，通过数据驱动得到的AI系统存在一系列隐患，并可能引发严重的社会问题。

首先，由于数据样本收集的局限和偏见，导致数据驱动的AI系统也是有偏见的，这种偏见甚至无异于人类社会中的偏见。比如，芝加哥法院使用的犯罪风险评估算法COMPAS 被证明对黑人犯罪嫌疑人造成了系统性歧视，白人更多被错误地评估为具有低犯罪风险，而黑人被错误地评估为具有高犯罪风险，且黑人的概率比白人高出一倍[1]。
其次，“黑盒”似的深度神经网络还常常犯一些十分低级的、人类不可能犯的错误，表现出安全性上的潜在风险。例如，一个深度神经网络原本能够正确识别图片中有一辆校车，但在对少量图片像素做一些人眼不能察觉的改动之后，图片就被识别为鸵鸟[2]。
更有甚者，人们只要戴上一副特制的眼镜，在现实环境中就能够骗过使用深度神经网络的人脸识别系统[3]；考虑到人脸识别系统在金融支付等场景中的广泛应用，这种潜在的金融和社会风险令人不寒而栗。
最后，最重要的是从决策机制来看，当前对深度学习算法的分析还处于不透明的摸索阶段。尤其是拥有亿万个参数的超大规模预训练神经网络，如BERT[4]、GPT3[5]等，其决策过程在学术上仍然没有清晰的说明。这种“黑盒”似的深度神经网络暂时无法获得人类的充分理解与信任，大规模应用此类预训练模型的潜在风险不容忽视。

推动AI持续落地，需满足各类用户对AI可解释性需求

在涉及人身财产安全的重大领域中，如金融、医疗、自动驾驶等，模型的可解释性成了决定用户能否信任模型的关键。针对不同解释受众，模型要获得不同人群的信任，必须要考虑每个人的立场背景、教育程度等因素，提供不同内容与形式的解释。

对于AI 使用者，他们往往是没有相关专业背景的普通人群。他们更关心AI 系统的结果如何影响自身及客户的利益，当出现问题时，需要向他们解释系统做出决策的原因。

例如，某家医院引入一套AI医疗诊断系统。如果该系统给出判断表明病人的癌症检测为阳性，概率为90%，那么这个结论往往是不被接受的。病人会问：你是如何做出这个判断的？根据什么特征和经验？……对于医生等专业人士来说，可能会问：系统做出这种预测，是否符合医院和医管单位的要求？有没有按照正规的医疗程序来做推断？这种推论是否可靠？有多大的风险？这个系统在多少个案例里面被测试过？是不是稳定、可靠、全面、科学的？

再比如，在电商平台中，系统设计者也需要向用户做出解释，帮助人们理解“为什么”算法向他们推荐了某些特定的商品，以此来提高推荐系统的透明度、说服力、有效性、可信赖性和满意度。

对于AI 系统开发者，他们往往是具备专业AI 背景知识的系统开发人员及测试人员，需要准确和深入的专业解释，以便完成对AI 系统的开发调试及测试任务。例如：对于一个大模型来说，是哪一部分的数据对结论起了关键作用？系统的哪一部分被启动？如果发生错误，最大的可能性来自哪里？如何修补？

AI系统亟须满足各级合规要求

除了技术层面，现行的条例法规[6][7]同样要求AI系统的开发使用流程必须在合规的条件下运行。比如，数据收集及模型学习过程是否符合隐私保护及数据治理条例[8]，必须要有准确无误的解释及认证。而对违反要求的智能体行为，也需要有明确的事故分析，为严格的问责机制提供技术说明[9]。

同时，如何将制度层面的规则具体细化落实为可实现的技术方案，仍是可解释AI亟待研究和解决的挑战。

因此，发展可解释AI具有重要的理论意义与现实意义，一方面，可帮助用户建立对AI系统的信任，防止因为算法的黑盒特性做出有偏见的结论，促进算法的公平性；另一方面，可以满足合规要求，促进AI向公平性、鲁棒性、安全性发展。

在此背景下，由来自机器学习、计算机视觉、自然语言处理，以及在生物医疗、金融、推荐系统等应用领域的12位著名专家，联合创作了《可解释人工智能导论》一书，现已重磅上市！

本书内容

本书全面介绍可解释AI的基础知识、理论方法和行业应用。全书分为三部分，共11章。

第1章揭示基于数据驱动的人工智能系统决策机制，提出一种基于人机沟通交互场景的可解释人工智能范式。

第2～5章介绍各种可解释人工智能技术方法，包括贝叶斯方法、基于因果启发的稳定学习和反事实推理、基于与或图模型的人机协作解释、对深度神经网络的解释。

第6～10章分别介绍可解释人工智能在生物医疗、金融、计算机视觉、自然语言处理、推荐系统等领域的应用案例，详细说明可解释性在司法、城市管理、安防和制造等实际应用中发挥的积极作用。

第11章对全书进行总结，并论述可解释人工智能研究面临的挑战和未来发展趋势。

参考文献：

[1] Angwin, Julia; Larson, Jeff. “machine bias”[EB/OL]. 2016. https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing.

[2] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[C/OL]//International Conference on Learning Representations. 2014. http://arxiv.org/abs/1312.6199.

[3] CHEN X, LIU C, LI B, et al. Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning[J]. arXiv e-prints, 2017: arXiv:1712.05526.

[4] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv e-prints, 2018: arXiv:1810.04805.

[5] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[C/OL]//LAROCHELLE H, RANZATO M, HADSELL R, et al. Advances in Neural Information Processing Systems: volume 33. Curran Associates, Inc., 2020: 1877-1901. https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.

[6] 中国人民银行. 金融科技（FinTech）发展规划（2019-2021 年）[Z]. 2019.

[7] 中国人民银行. 人工智能算法金融应用评价规范[Z]. 2021.

[8] 欧盟法规编号：(EU) 2016/679. General Data Protection Regulation(GDPR)[Z]. 2018-05.

[9] European Commission High-Level Expert Group on Artificial Intelligence. Ethics guidelines for trustworthy ai[Z]. 2019.

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247484949&idx=1&sn=a71436bf1420c6c74b94cb04cbde3661

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉