可解释机器学习最新综述:应用于实时场景中的机遇与挑战
时间:2023-02-28 11:06:59 来源:商业新知网
(相关资料图)
大数据文摘 授 权 转载自将门创投
作者: Gu anchu Wang
论文链接:
https://arxiv.org/abs/2302.03225 代码链接: https://github.com/ynchuang/awesome-efficient-xai 什么是可解释机器学习?
深度模型(神经网络)的推理过程是黑盒化的、不可解释的。机器学习发展至今仍然无法完全打开这个黑盒子。可解释机器学习的研究内容就是为深度模型的推理结果提供人类可以理解的解释(原因)。这在有道德约束下的应用场景中是极其重要的。例如,某银行利用深度学习算法来预测用户的信用度以决定是否贷款给用户。对于信用度预测值较低的用户,银行有责任提供合理的解释来说明认定该用户信用度低的原因。 模型解释可分为两种:模型层面的解释和样本层面的解释,如图1所示。模型层面的解释是展示出模型判断的逻辑,如图1(a)所示;样本层面的解释是展示出每个样本的不同特征对于模型预测的贡献度,如图1(b)所示。由于复杂模型对于不同样本的推理过程是多样性的,所以宏观的模型层面解释很难适用于所有样本。目前主流的研究工作更关注样本层面的解释。 因此,本文所讨论的解释算法都是样本层面的解释,不涉及模型层面的解释。 图1 (a)模型层面的解释和(b)样本层面的解释。 实时系统需要怎样的模型解释算法?
虽然解释算法能够客观地反映深度模型的推理依据,但是为每个样本生成解释的过程有相当高的计算复杂度。以目前主流的解释算法为例:Shapley解释如式(1)所示,其中 U 是全部特征组成的集合。计算规模随着特征数量的增多而指数级增长;积分梯度是一种有效的图像解释算法,如式(2)所示。它需要沿着积分路径多次采样模型的梯度值来近似估计积分值。 然而,在实时场景中,如在线推荐系统,医疗系统的实时监测以及自动驾驶的实时目标检测等,我们需要算法可以快速高效地生成解释。这就需要对现有解释算法进行加速,以满足实时系统的需求。本文汇总了目前主流的(算法层面)加速模型解释算法(不涉及系统层面),分析了已有工作的局限性,并提出了未来研究的技术难点。 图 2 模型解释加速算法的分类。 非批量解释的加速方法
非批量解释的加速是指直接加速解释量的估计,即直接加速式(1)以及式(2)或者其他解释量的估计。该类方法可以分为以下几种技术路线:优化特征选取、优化采样过程、基于近似算法加速等。下面详细描述每一种技术路线的代表工作。 优化特征选取:这类方法通过去掉在Shapley解释的估计过程中影响较小的特征来减少计算复杂度。比较有代表性的工作是 SHEAR [1]。SHEAR 选取每个特征与待估计特征的相互作用强度来选取少量的伴随特征,这样。其他有代表性的工作是 L-Shapley 和 C-Shapley [2]。该工作在图结构的解释中提出两种概念:Local Shapley 和 Connected Shapley,分别指的是每个节点在其所在子图中的贡献以及边缘贡献。L-Shapley 和 C-Shapley 可以通过对邻居节点的枚举快速估计。进一步,该工作指出 L-Shapley 和 C-Shapley 在某些条件下是 Shapley 解释的无偏估计。因此可通过估计 L-Shapley 和 C-Shapley 来近似加速 Shapley 解释。 优化采样过程:这类方法通过优化采样分布来加速Shapley解释估计的收敛速度。比较有代表性的工作是 APS [3] 和 OSC [4]。APS 的全称是 Antithetical Permutation Sampling。该工作提出一种对称采样策略(Antithetical Sampling)来减小 Permutation Sampling 对于Shapley解释的估计方差,从而加速估计值收敛与Shapley解释;同理,OSC 是 Orthogonal Spherical Codes 的缩写。该方法提出了在希尔伯特空间选取相互正交的特征排序。这种特征排序可以应用到估计Shapley解释中来提高估计值收敛于真值的速度。 基于近似算法加速:这类方法通过将不可解释的深度模型近似为可解释的模型进而实现快速得到解释。具有代表性的工作是 Tree-SHAP [5] 和 Fast-IG [6]。Tree-SHAP 是针对树模型的解释算法,其时间复杂度是 O(TLD2),其中T、L和D分别是树的数量、平均叶子数和平均深度。实际应用中,可以用树模型来逼近神经网络这类黑盒模型的输出,进而用树模型的解释来代表神经网络的解释;Fast-IG 是一种加速积分梯度的算法。该工作发现具有非负齐次性的模型的积分梯度解释可以通过模型的一次前馈传播估计得到。但是神经网络模型不具有非负齐次的性质,因此该工作提出了将神经网络模型进行适当的近似从而满足非负齐次性,进而实现加速模型解释。基于近似算法的加速由于对原模型进行了一定近似,所以会影响模型的性能(准确率、召回率、F1得分等)。 批量解释的方法
批量解释方法是针对实时场景的解释方法。从本文前几段的内容可知,非批量解释方法对每一个样本的解释都是分别进行的,即对每个样本都分别执行一次解释过程,如图3(a)所示。这无疑是浪费时间的。为了实现高速估计模型解释,一些工作开创性地提出了批量解释方法,如图3(b)所示。 总的来说,批量解释方法假设模型解释的结果服从某种分布,这种分布可以通过一个全局解释器来学习。学习过程在训练集上进行,训练好的解释器可以在实际场景中批量生成解释。批量解释方法是模型解释加速的质的飞跃。 批量模型解释的技术路线有:基于预测模型、基于生成模型和基于强化学习等。下面详细叙述每一条技术路线的代表工作。 图3 (a)非批量解释方法和(b)批量解释方法。 基于预测模型:这类方法通过监督或者半监督的方式来学习全局解释器。代表作有 L2X [7]、FastSHAP [8] 以及 CORTX [9]。L2X 训练全局解释器对数据特征进行遮掩,训练目标是遮掩的特征不影响原模型的推理过程。这样未被遮掩的特征就是重要特征。L2X 只能将特征大致分为重要的和不重要的。FastSHAP 训练全局解释器生成Shapley解释,训练目标是Shapley解释的必要条件:任何一个特征子集的Shapley解释之和表征了原模型基于该特征子集的预测值。FastSHAP 可以快速生成较为精确的解释,但是需要利用原模型进行监督训练。CORTX 开创性地提出通过对比学习的方式来预训练解释器,而后通过少量的解释标注来 Fine-tune 解释器,从而实现轻量级的解释器训练以及实际场景中的高精度解释。 基于生成模型:这类方法通过训练生成模型来快速提供因果解释。代表作有 MCS [10] 和 DiVE [11]。MCS 通过训练一个条件对抗生成网络来生成反事实样本。反事实样本可以推翻原模型的预测结果,这样从原样本到反事实样本变化量就是模型预测值的因果解释。DiVE 通过一个变分自编码器来学习特征空间的非耦合隐空间(特征在原空间中是相互耦合的),进而在隐空间中生成反事实样本,在通过变分自编码器把反事实样本映射至原空间进而估计解释值。 基于强化学习:这类方法通过强化学习来优化反事实样本的生成过程。代表作有 RELAX [12] 和 FASTAR [13]。这类将原样本变换为反事实样本的过程抽象为马尔科夫过程决策过程,即原样本在每个时刻都发生一点变化,经过多个时刻的演化最终变为反事实样本。RELAX 和 FASTAR 用强化学习的方式学习一个演化策略。原样本经过演化策略生成的一系列变化量成为反事实样本,累计变化量就是原模型的因果解释值。 现有工作的局限性及未来研究的难点
解释性能和速度的此消彼长:目前大部分的模型解释方法都存在解释性能和速度的此消彼长,例如 KernelSHAP [14]、LIME [15]、IG [16] 等。 对原模型采样更多的预测值可以提高解释的精度,但是会降低解释生成的速度。此外,批量解释方法需要在训练集上学习全局解释器。训练过程的时间及空间消耗和训练精度之间也存在类似的平衡关系。已有工作为可解释机器学习提供了基准,未来解释算法需要能达到性能和速度二者更优的平衡。 解释方法的部署:在已有工作中,解释及加速方法的设计、实现及验证都是基于 CPU 和 GPU结构的硬件。但是在实际应用场景中有很多其他种类及结构的硬件。已有算法无法从系统层面上达到最优的性能(内存消耗及运行速度)。部署模型解释方法以适应不用种类及结构的硬件系统将会推动可解释机器学习走向实际应用。 全局解释器的隐私保障:在目前批量解释算法中,由于全局解释器学到了训练数据的分布,因此这会有信息泄露的风险。所谓信息泄露指的是第三方可以从训练好的全局解释器中恢复出训练数据的分布。因此防止解释器泄露训练数据的分布也是推动可解释机器学习走向实际应用需要克服的困难之一。 加速方法的选择:本文所介绍的以及更多的模型解释算法都存在此消彼长的关系,即不存在某一种算法在所有的应用场景中都是最优的。然而决策者需要在实际应用中从众多的解释方法中选取最符合需求的一种或者几种解释方法。这无疑是困难的。一个解决方案是用算法来实现解释方法的选取,这使得决策者在不用了解所有解释方法的情况下仍然可以得到一种符合需求的解释方法。 结束语
本文首先阐明了可解释机器学习部署到实际场景中的速度需求,进而系统地介绍了目前主流的加速模型解释算法;最后分析了已有工作的局限性,并提出了未来研究的技术难点。
推荐内容
可解释机器学习最新综述:应用于实时场景中的机遇与挑战
2023-02-28
世界即时:阿里巴巴2022年全年裁员1.9万人
2023-02-28
观天下!蚂蚁集团第二次分红派息319亿元,两次累计超438亿元
2023-02-28
当前头条:腾讯要代理Meta Quest,是妙招,但修Bug得趁早
2023-02-28
全球热门:河南广电与大象融媒签署战略合作协议,推动河南省5G发展新格局
2023-02-28
环球速读:【阿里四位大总裁“期末交卷”:谁才是“全村的希望”?】
2023-02-28
全球观天下!上海商汤智能科技注册资本增22.6%至162亿元
2023-02-28
快播:龙竹科技2022年净利润4357.95万元,同比减少37.36%
2023-02-28
许单单离任:拉勾网已由前程无忧接管继续运营
2023-02-28
今日热闻!夸克成长的烦恼:被抄袭、盗用
2023-02-28
分布式存储只能是“小而美”吗?
2023-02-27
今日最新!没完没了!马斯克开启入主推特后第八轮裁员,距离倒闭不远了?
2023-02-27
全球通讯!乐享办公,Zoho Cliq即时通讯工具多项功能更新
2023-02-27
即时看!私域动态:抖音回应多地虚假"外卖招商";名创优品在越南开发供应链;迅雷远程下载回归…
2023-02-27
天天头条:科普 | 以太坊智能合约的ERC标准是什么?
2023-02-27
热点聚焦:欢迎上海国家会计学院常州市第二期会计领军(后备)人才信息班来访
2023-02-27
环球热点!网易新财报:游戏养家,教育维稳、音乐快走
2023-02-27
阿里巴巴:软银持有股份低于 15%,失去董事会席位
2023-02-27
今日播报!阿里巴巴获2023年度公益企业奖
2023-02-27
环球头条:【万有AI】听腻了ChatGPT,看看IBM 的AI如何帮助 NASA 研究人员挖掘地球数据
2023-02-27
【天天聚看点】游戏产业会被AI颠覆吗?
2023-02-27
世界微速讯:马蹄能量圈 | 值得买科技荣膺“2022年度北京商业模式创新品牌”
2023-02-27
焦点要闻:BAT抢滩的元宇宙,凉了
2023-02-27
每日聚焦:FBEC大会 | HTC企业发展全球副总裁汪丛青:由元宇宙所构建的数字时代,生产力可以无限
2023-02-27
环球时讯:字节高管为何多数都在新加坡?
2023-02-27
FBEC大会 | 钉钉副总裁 硬件生态总经理林锋:我们正从理想办公迈入混合办公时代
2023-02-27
卓朗科技及股东张坤宇为天津卓朗发展1亿元借款提供担保
2023-02-27
瑞信维持百度集团“跑赢大市”评级,目标价升至171港元
2023-02-24
疾驰的元宇宙,SOUL真能靠它慰藉“灵魂”?
2023-02-24
【当前热闻】ChatGPT浪潮下,搜狐静悄悄
2023-02-24
环球百事通!数据资产&数据货币|政治技术经济学导论(下)
2023-02-24
【快播报】AI画的美女已经在小红书上有1.5万粉丝了
2023-02-24
人工智能ETF(159819)规模居同类之首
2023-02-24
每日热议!ChatGPT之后,下个AIGC杀手级应用已近在眼前
2023-02-24
天天快资讯丨微信下场"种草”做“小绿书”,叫板小红书?
2023-02-24
每日速递:利润下滑!蹭上ChatGPT?百度的能力和野心|曝财报①
2023-02-24
全球热文:安华金和入选信创安全“久安计划”首批合作伙伴
2023-02-24
中科院计算所-中国移动研究院联合创新中心正式揭牌
2023-02-24
每日快播:人工智能推动场景构建,ChatGPT助力元宇宙发展!
2023-02-24
热门:中国电信发布5G Inside合作计划
2023-02-24
Laserfiche加入Boomi技术合作伙伴计划
2023-02-24
Gartner发布至2025年影响技术提供商的9大趋势
2023-02-24
基础设施降本提效进入第三层,多云的独有优势
2023-02-24
焦点滚动:驱动ChatGPT的核心技术
2023-02-24
全球报道:中电科网络底价4786.041万元挂牌转让成都数字城市运营30%股权
2023-02-24
热头条丨跟AI唠嗑,年入33万美元!prompt成核心竞争力
2023-02-24
短讯!Coinbase L2 网络 Base 的五个重点:不发币 加入OP生态 引入1亿用户
2023-02-24
全球新动态:扩展性之外,零知识证明的Web3用例还有很多
2023-02-24
热消息:反其道而行,大学教授鼓励学生用 ChatGPT 写论文
2023-02-24
世界头条:河北广电新品发布会,广电5G数字化生活系统赋能未来社区全场景!
2023-02-24
三星note3怎么提高性能?三星手机note3跑分多少?
2023-02-28
dnf更新不了怎么回事?dnf手游更新慢解决方法是什么?
2023-02-28
【全球独家】虚拟现实政策西南片区宣贯会在四川成都召开
2023-02-28
可解释机器学习最新综述:应用于实时场景中的机遇与挑战
2023-02-28
uc浏览器怎么取消自动续费?uc浏览器qq浏览器哪个好?
2023-02-28
联想一键强制恢复出厂设置?联想自带系统怎么恢复?
2023-02-28
电脑桌面横条怎么设置?电脑下方任务栏一直闪烁怎么回事?
2023-02-28
使命召唤9电脑屏幕黑屏?使命召唤9无法运行什么原因?
2023-02-28
联想v550怎么做系统?联想v550开机没声音?
2023-02-28
中关村在线买电脑可以吗?中关村和中关村在线?
2023-02-28
为什么优酷有时候没有弹幕?优酷弹幕在哪里打开?
2023-02-28
现在的高端显卡笔记本有哪些?3050ti属于中端显卡吗?
2023-02-28
环球速读:【阿里四位大总裁“期末交卷”:谁才是“全村的希望”?】
2023-02-28
观天下!蚂蚁集团第二次分红派息319亿元,两次累计超438亿元
2023-02-28
世界即时:阿里巴巴2022年全年裁员1.9万人
2023-02-28
当前头条:腾讯要代理Meta Quest,是妙招,但修Bug得趁早
2023-02-28
全球热门:河南广电与大象融媒签署战略合作协议,推动河南省5G发展新格局
2023-02-28
许单单离任:拉勾网已由前程无忧接管继续运营
2023-02-28
今日热闻!夸克成长的烦恼:被抄袭、盗用
2023-02-28
快播:龙竹科技2022年净利润4357.95万元,同比减少37.36%
2023-02-28
每日视讯:甲流来袭!流感“神药”奥司他韦又断货,儿科医院排长龙
2023-02-28
全球观天下!上海商汤智能科技注册资本增22.6%至162亿元
2023-02-28
藏海花原著结局_藏海花结局是什么
2023-02-28
【聚看点】丁磊慢“炖”网易云
2023-02-28
打工人心中的“快餐之王”,谁是第一
2023-02-28
Shein蒸发的300多亿美元去哪儿了?
2023-02-28
焦点热讯:传统豪华车阵形大乱,特斯拉直追BBA
2023-02-28
【天天新视野】卷不动的大厂,写不动OKR的打工人
2023-02-28
世界百事通!抖音做外卖,少了骑手可不行
2023-02-28
每日精选:只剩一个孙宏斌
2023-02-28
每日讯息!打怪升级、粉丝后援,这些年轻人这样“养基”
2023-02-28
焦点要闻:从国家级贫困县到黑土地奶业振兴“排头兵” 东北小城林甸县域经济发展观察
2023-02-28
天天快讯:反比例函数图像与性质教学反思_反比例函数图像与性质
2023-02-27
天天讯息:慢性胃炎严重吗 后果是什么_慢性胃炎严重吗
2023-02-27
专访:波兰想念中国游客——访波兰旅游局北京办事处首席代表唐云珠
2023-02-27
世界报道:谁才是储能赛道的头号玩家?
2023-02-27
分布式存储只能是“小而美”吗?
2023-02-27
三世三生 倾离
2023-02-27
每日信息:腾讯游戏今年第一枪,不响
2023-02-27
世界最资讯丨合同可以写两个人名字吗
2023-02-27
qq里的腾讯网打不开怎么回事?qq每次打开就是同一个人的界面?
2023-02-27
全球实时:融资丨「赤霄科技」完成数千万元A轮融资,绿洲资本独家投资
2023-02-27
宠物医疗神话破灭
2023-02-27
【独家】一笔打车费,四方分食
2023-02-27
【天天播资讯】融资丨「蓝星光域」完成数千万元Pre-A轮融资,小苗朗程领投
2023-02-27
天天热资讯!伊利蒙牛的夹缝间,中小乳企如何生存?
2023-02-27
今日最新!没完没了!马斯克开启入主推特后第八轮裁员,距离倒闭不远了?
2023-02-27
融资丨「小派科技」完成2亿元C1轮融资,端木资本领投
2023-02-27
世界消息!融资丨「竹间智能」完成D2轮融资,已发布类ChatGPT产品
2023-02-27
全球通讯!乐享办公,Zoho Cliq即时通讯工具多项功能更新
2023-02-27
喜悦智行:接受浙商证券等机构调研
2023-02-27
即时看!私域动态:抖音回应多地虚假"外卖招商";名创优品在越南开发供应链;迅雷远程下载回归…
2023-02-27
全球热议:面板行业景气回暖信号愈发明显,面板龙头TCL科技反弹动力十足
2023-02-27
天天头条:科普 | 以太坊智能合约的ERC标准是什么?
2023-02-27
时讯:信噪比高好还是低好_信噪比大好还是小好
2023-02-27
热点聚焦:欢迎上海国家会计学院常州市第二期会计领军(后备)人才信息班来访
2023-02-27
环球热点!网易新财报:游戏养家,教育维稳、音乐快走
2023-02-27
世界最新:估值半年暴涨近4倍,这个家族摆地摊起家,靠锂矿冲刺IPO
2023-02-27
【天天聚看点】游戏产业会被AI颠覆吗?
2023-02-27
今日播报!阿里巴巴获2023年度公益企业奖
2023-02-27
环球头条:【万有AI】听腻了ChatGPT,看看IBM 的AI如何帮助 NASA 研究人员挖掘地球数据
2023-02-27
阿里巴巴:软银持有股份低于 15%,失去董事会席位
2023-02-27
【世界热闻】《流浪地球 2》成真?武汉动画师长江边“建起”太空电梯
2023-02-27
首发丨「仁景生物」获Pre-A+轮融资,加速mRNA管线产品开发
2023-02-27
世界微速讯:马蹄能量圈 | 值得买科技荣膺“2022年度北京商业模式创新品牌”
2023-02-27
融资丨「嘉晨西海」完成两轮近亿美元融资,加速推进产品全球临床开发及商业化
2023-02-27
每日聚焦:FBEC大会 | HTC企业发展全球副总裁汪丛青:由元宇宙所构建的数字时代,生产力可以无限
2023-02-27
环球时讯:字节高管为何多数都在新加坡?
2023-02-27
焦点要闻:BAT抢滩的元宇宙,凉了
2023-02-27
FBEC大会 | 钉钉副总裁 硬件生态总经理林锋:我们正从理想办公迈入混合办公时代
2023-02-27
环球观速讯丨02月25日新房成交509套;涨价房源335套
2023-02-27
世界观焦点:大厂抢滩的元宇宙,凉了
2023-02-27
银河航天徐鸣:全球拥抱航天大时代
2023-02-27
卓朗科技及股东张坤宇为天津卓朗发展1亿元借款提供担保
2023-02-27
《灌篮高手》提前锁定内地日影票房冠军?
2023-02-27
世界热议:出道即成现象级虚拟主播,令颜欢做对了什么?
2023-02-27
安徽省25项社保服务事项“就近办”
2023-02-27
好了伤疤忘了痛,美国“支付宝”得长记性
2023-02-27
她用ChatGPT写了一篇文章,日赚14000元
2023-02-27
全球看点:品牌和MCN如何“种草”?聊聊小红书商业化的下一步
2023-02-27
神女赋
2023-02-27
驾校新规2019年新政策_驾校新规
2023-02-27
国家能源局负责人访问希腊、西班牙和葡萄牙推动清洁能源伙伴关系
2023-02-26
塑钢窗
2023-02-26
比尔·盖茨“狂饮”喜力啤酒,花62亿入股;菲律宾、越南和印尼争抢比亚迪丨Going Global
2023-02-26
【世界快播报】最新人事动态
2023-02-26
环球热消息:印第安纳大学伯明顿分校
2023-02-26
今日观点!田园春来早
2023-02-26
天天看热讯:提前还房贷,我开始后悔了
2023-02-26
网易财报发布后,我才知道每天有3000万人在玩《蛋仔派对》
2023-02-26
全球快看:碳酸锂创一年新低,谁真笑谁装笑?
2023-02-26
当前快讯:腾讯《黎明觉醒》出师不利?头部游戏大厂2023末世求生
2023-02-26
每日视讯:黑木耳的功效做法_黑木耳的功效
2023-02-26
世界热头条丨92岁巴菲特2023致股东信:十几只股票成就了伯克希尔
2023-02-26
今日热搜:瑜伽连锁龙头梵音爆雷,行业仍在过冬
2023-02-26
全球今日报丨崔俊杰
2023-02-26
轨道15号线二期加紧施工
2023-02-26
每日播报!首富钟睒睒与农夫山泉的新战役
2023-02-26
全球聚焦:我在广州城中村开粉面店,月入10万!
2023-02-26
环球新消息丨其实《流浪地球2》最大的惊喜,在于海外市场大卖
2023-02-26