可解释人工智能 (XAI) 文献的趋势

本文源于Alon Jacovi的博文

这是一份关于 XAI-Scholar 的报告,是Alon Jacovi收集的 XAI* 论文合集,以及作者从中得出的一些有趣的趋势和见解。这是此处 Arxiv 报告的非正式版本。重现代码和数据可在这个 github 存储库中获得。该集合基于使用此 Python API 的 SemanticScholar 数据库。

*对于 XAI,我指的是研究文章的相对包容性定义,这些文章讨论了现代人工智能系统中解释/解释的发展、实施或实践(无论它们是否这样称呼自己)。这个定义与我在各种精选的 XAI 论文、研讨会和 XAI 期刊问题中观察到的最常见定义一致。

近年来,XAI 研究已经开始达到这样的规模:(1) 难以通过人工测量掌握; (2) 足够大,可以看到整体经验和统计趋势。我的目标是收集大量格式良好的 XAI 论文,以使这种实证分析成为可能。下面的分析可以作为概念证明,说明可以用它做什么。作者个人的动机是研究 XAI 的多学科性,但还有许多其他可能的用途。

与类似领域相比,XAI 研究具有多种特性,使其难以从整体上观察:

  1. 它涉及到的学科非常多,在许多不同领域都有不可忽视的社区,这些社区不经常互动或共享领域的研究。

  2. 论文用来自称 XAI 研究的术语并不是 XAI 独有的(例如,“xai”和“Xai Xai”是研究中出现的具有多重意义的名称),而且这个术语比 XAI 的研究历史更长。

  3. “XAI 研究”论文最流行的定义通常包括那些不自称为 XAI 的论文,只要它们试图解释 AI 技术。

一些发现:

  1. XAI 研究在 2016 年、2018 年和 2021 年(尤其是 2021 年)在计算机科学之外出现了最大的“扩张”增长峰值。
  2. 随着时间的推移,由传统上发表在两个或更多不同研究领域的作者撰写的论文的相对比例明显增加。
  3. CS 与不同的 XAI 领域有不同的引用关系。例如,XAI-CS 引用 XAI-Psychology 的频率高于反之亦然,但 XAI-CS 和 XAI-Medicine 的关系则相反。这种影响的“方向”显示了当前文献中哪些领域经常提到/被哪些其他领域提到。
  4. XAI 领域之间的差异在于它们涉及非 XAI 研究的频率。比例最高的是XAI-Biology、XAI-Engineering和XAI-Law——而比例最低的是XAI-Psychology、XAI-Business和XAI-Philosophy,它们的影响往往更多地延伸到其他XAI文献。
  5. 论文之间的引用行为在不同领域之间存在显着差异。例如,XAI-Philosophy 引用的top-cited Philosophy 论文与XAI-CS 引用的Philosophy 论文明显不同,等等。不出所料,领域外的引用往往集中在该领域的少数论文,但“突破”其领域传统界限的论文并不总是该领域被引用次数最多的论文。
  6. 例如,该集合可以通过查看哪些 XAI 论文对其领域外或 XAI 之外的论文最具影响力来充当论文发现引擎;或者特定领域的哪些非 XAI 论文对另一个领域的 XAI 最有用。 arxiv 报告和 github 存储库中有很多示例,但我也会在此处包含一些示例。

收集方法

第一步:关键词搜索

我在 SemanticScholar 查询中搜索了以下关键字,并使用论文标题 + 摘要使用精确匹配来过滤它们。
关键词是:“xai”、“(xai)”、“hcxai”、“explainability”、“interpretability”、“explainable ai”、“explainable artificial intelligence”、“interpretable ml”、“interpretable machine learning”、“interpretable模型”、“特征归因”、“特征重要性”、“全局解释”、“局部解释”、“局部解释”、“全局解释”、“模型解释”、“模型解释”、“显着性”、“反事实解释” ”。(The keywords are: *“ xai “, “(xai)”, “hcxai”, “explainability”, “interpretability”, “explainable ai”, “explainable artificial intelligence”, “interpretable ml”, “interpretable machine learning”, “interpretable model”, “feature attribution”, “feature importance”, “global explanation”, “local explanation”, “local interpretation”, “global interpretation”, “model explanation”, “model interpretation”, “saliency”, “counterfactual explanation”.*)

这组关键字实际上是相当保守的(最初我从一个更大的列表开始),但即使使用这个保守的集合,不幸的是,1-keyword-match 过滤导致许多非 XAI 论文因各种原因被检索——所以我只包括论文匹配 2 个或更多唯一关键字。 100 篇论文的随机样本通过人工检查产生了 99% 的精度(一篇论文在摘要中提到关键词只是作为相邻研究的动机)。

基于关键字的搜索检索到 3101 篇论文。

第二步:人工搜集

我从以下精选列表中获取了论文:

  1. https://xainlp2020.github.io/xainlp/table
  2. https://github.com/hbaniecki/adversarial-explainable-ai
  3. https://github.com/SinaMohseni/Awesome-XAI-Evaluation
  4. https://github.com/wangyongjie-ntu/Awesome-explainable-AI
  5. https://github.com/pbiecek/xai_resources
  6. https://github.com/lopusz/awesome-interpretable-machine-learning
  7. https://github.com/rehmanzafar/xai-iml-sota
  8. https://github.com/kevinmcareavey/chai-xai
  9. https://github.com/feifeife/All-about-XAI
  10. https://github.com/samzabdiel/XAI
  11. https://github.com/AstraZeneca/awesome-explainable-graph-reasoning
  12. https://github.com/anguyen8/XAI-papers

然后使用带模糊匹配的 SemanticScholar API 按标题搜索它们。这使 766 篇论文增加到 3867 篇论文。

第三步:带有手动过滤的引文树扩展

我从步骤 1-2 的论文集中取出了前 2000 篇被引用最多的论文,并从中手动选择了关于 XAI 的论文。

这使 648 篇论文增加到 4515 篇论文。

第 4 步: 带自动过滤的引文树扩展

在上面的每个步骤 1-3 之后,我检索了所收集论文的所有引文和参考文献,并通过 2-keyword-match 方法过滤它们。我以递归方式执行此操作,直到不再添加新论文为止。

总共增加了 709 篇论文,总数达到 5224 篇。

第 5 步 :人工质量检查

最后,我试探性地浏览了数据集,发现了 25 篇归因错误的论文。删除它们使最终数量减少到 5199 篇论文。

总结

第 1 步和第 4 步基于关键字自动过滤,其作用是根据最近流行的术语检索自我识别为 XAI 的论文。第 2 步和第 3 步基于不限于特定关键字的手动过滤,其作用是检索在 XAI 术语收敛之前发表的论文,以及未自我识别为 XAI 但被社区认为是 XAI 的论文。

收集到的论文合集

最终合集有5199篇论文。
每篇论文都有:

  • The SemanticScholar ID and URL
  • Title
  • Abstract
  • Authors
  • Number of citations
  • Number of references
  • Year
  • Venue
  • Field of study
  • SemanticScholar’s “tldr” summary

每篇论文的以下数据也可以分别从 SemanticScholar 中检索:

  • 参考文献列表
  • 引文列表
  • SemanticScholar 的嵌入向量

数据的最终大小为 19 MB。从 SemanticScholar 检索参考和引用后,完整数据的大小约为 950 MB。
这是跨研究领域的分布:

img

考虑到易读性,不含CS的分布:

img

不足之处

  1. 不用说,这里的检索是有偏见的:第 1 步和第 4 步偏向于特定术语,第 2 步和第 3 步偏向于 CS 和数学中有影响力/高引用的论文。
  2. SemanticScholar 有噪声数据——不要指望完美的格式。有些论文缺少摘要;部分论文字段错误;地点名称不一致(即,有多个字符串指的是同一个地点);缺少引文/参考文献、作者等。这是少数,但也不容忽视。
  3. 低于100% 精确度——我尽力了,但一些非 XAI 论文可能漏掉了。从我做的抽样来看,你可以期待非常高的精度,但不是 100%。
  4. 显然,这个集合远没有达到 100% 的召回率。根据我非常有偏见和轶事的观察,我估计截至 2022 年 12 月 31 日,XAI 文献的“真实”主体大约是这个集合的 x1.5 到 x2——所以总共有大约 8k 到 10k 篇论文。遗漏的论文可能早于术语开始融合的时间,或者由于步骤 2-3 优先考虑高被引论文而导致引用量较低。
  5. 该集合在 2022 年 12 月的一段时间内被检索,但有些场馆似乎从出版日期到论文集/Semantic Scholar 出现有所延迟——因此对增长趋势的观察可能要将 2022 年视为部分年份(我没有任何证据表明这个问题有多大或多小)。

在使用集合时,请依靠您自己的判断来决定观察到的趋势是否可以克服基于这些限制的误差范围。

研究结果

增长趋势

首先,XAI 通常显示出相对的年度增长——但这种增长在很大程度上是由计算机科学控制的(它显示出相同的增长趋势)。

img

限制了非CS 论文揭示了不同的增长趋势。例如,XAI-Medicine 呈指数级增长,尤其是在 2016 年、2018 年和 2021 年的相对增长较大。

img

在控制非医学和非 CS 论文时,这些趋势也成立。

img

总体而言,XAI 似乎在 2016 年、2018 年和 2021 年向“非中心”领域进行了最大的扩张。

合作趋势

我们可以通过将作者的“领域”定义为他们大部分论文的领域(通过 SemanticScholar 单独检索)来查看研究领域变量与作者-论文图之间的相互作用。
然后我们可以统计合作的次数。

我们可以将此网络可视化为加权无向图。边的权重是所有论文中至少有一个合作的百分比(低于 5% 的边缘被忽略)。

img

和以前一样,由于 CS 扭曲了整个尺度,我们可以在没有 CS 的情况下查看同一张图,以获得其他场配对的细粒度视图(省略了低于 3% 的边):

img

当然,我们可以检查合作的增长趋势。该图显示了所有年度论文中合作论文的年度数量:

img

很难在这张图中看到,但如果我们绘制合作论文的百分比,我们可以看到随时间的比例增长:

img

如果我们将 2016 年视为异常值,传统上在不同领域发表论文的作者合作的论文比例会逐渐增加。

引文趋势

最后,我们可以检查研究领域变量和引用参考图之间的交互作用。

最容易分析的趋势是围绕 CS,因为所有领域都与 CS 有显着的引用关系。

例如,哪些 XAI 领域被 XAI-CS 引用最多(前 5 名)?

img

受到XAI-数学的影响当然是有道理的,但我们也可以看到 XAI-工程、XAI-心理学、XAI-医学和 XAI-商业对 XAI-CS 文献的影响不可忽视。

CS与其他领域的引用关系的“方向”是什么?

我们可以将其可视化为加权有向图:下面我们可以看到围绕 CS 的 XAI 字段之间的引用与参考关系——两个字段之间的每对边都被归一化为总和为 100%。两边跨度少于 100 个引用的关系将被忽略。

img

该图基本上显示了两个领域中哪个领域更多地被另一个领域所借鉴。我们可以看到,心理学和数学领域的XAI论文被XAI-CS引用的频率比其他领域高。XAI-Engineering/XAI-Medicine大致相当,而对于所有其他领域,这种关系是翻转的–意味着它们更多地被XAI-CS告知,而不是XAI-CS被它们告知。

XAI 中非 CS 领域之间的引用关系是什么?

和以前一样,我们可以省略 CS 来查看其他配对。该图显示了每个 XAI 领域的前 3 个引用 XAI 领域。来自一个节点的所有出边都被归一化为总和为 100%。对其他字段的引用少于 20 次的字段将被忽略。

img

哪些 XAI 领域对非 XAI 文献的影响最大?

如果我们将集合之外的论文定义为非 XAI 论文,则该图显示了 XAI 领域的排名,按非 XAI 引用占该 XAI 领域所有引用的百分比。它基本上显示了哪些领域最经常为非 XAI 文献提供信息。 (引用少于 100 次的字段被忽略)。

img

例如,XAI-Biology相对来说经常被非XAI文献引用,而XAI-Philosophy则相反,它似乎相对来说更经常被XAI引用。

论文层面的引文趋势和论文发现

最后,我们可以在个别论文的层面上看一下引用行为。

例如,当XAI-CS引用哲学时,他们是在引用各种各样的论文,还是在引用少数精选的论文?

img

被XAI-CS引用最多的10篇哲学论文控制了这些领域之间32%的引文。我们可以通过查看XAI-CS对每个领域的论文引用的论文分布熵来更普遍地检查这一点。

img

正如我们预期的那样,我们可以在这里看到哲学有一个相对峰值的分布。顺便说一句,如果你很好奇——XAI-CS 的“法律”引用绝大多数由一篇论文(“可计算算法”)控制,引用率为 44% 😃

img

为了说明问题,下面是另一个关于心理学和CS的场景。

img

img

我们可以问的其他问题是:

被本领域以外的论文引用最多的 XAI 论文有哪些?

换句话说,哪些论文在他们的领域之外“突破”了?

img

img

特定领域的哪些 XAI 论文在该领域被引用最多?

img

结论

XAI 研究正在大规模地围绕特定术语进行融合,这使得根据经验观察趋势成为可能。虽然检索过程有一些局限性和偏见,但可以在某种程度上解释它们(例如,通过承认检索偏向 CS,并看到在相反方向上克服这种偏见的趋势)。

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2017-2024 善良的右行
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信