ПОНИМАНИЕ МЕТОДОВ XAI

Методы XAI — шумовой туннель

Что такое Шумовой туннель? Как это может повысить точность методов XAI? В чем его главный недостаток?

Что такое Шумовой туннель?

Noise Tunnel [1] — это не метод атрибуции, а техника, повышающая точность методов атрибуции. Он объединяет SmoothGrad [2], SmoothGrad-Square (неопубликованная версия SmoothGrad) и VarGrad [3] и работает с большинством методов атрибуции.

Noise Tunnel решает проблему, описанную в статьях Методы XAI — управляемое обратное распространение и Методы XAI — интегрированные градиенты, где мы обсуждали проблему с функцией активации ReLU и градиентами, производящими шумные, часто нерелевантные атрибуции. Поскольку частная производная

оценки моделей F_c​ для класса cc относительно значения пикселя x_i​ колеблется, Smilkov et al. [2] считает, что добавление гауссовского шума N(0, 0,01²) и вычисление среднего значения выборочных атрибуций решит проблему.

Улучшить методы с помощью Noise Tunnel

SmoothGrad (уравнение 1) вычисляет атрибуцию (M_c), используя любой доступный метод, предоставляя этому методу входные данные с гауссовым шумом. Затем он вычисляет среднее значение из всех выборок, чтобы уменьшить важность менее частых атрибуций. Идея состоит в том, что при добавлении шума к входному изображению важные атрибуты будут видны большую часть времени, и шум может меняться между атрибутами.

Еще одна версия шумового туннеля SmoothGrad — SmoothGrad-Square. Он меняет только способ расчета среднего значения с использованием среднего квадрата атрибуций, а не только атрибуций (уравнение 2). Этот метод обычно дает менее зашумленные результаты (сравните Рис. 1c и Рис. 1d), но часто удаляет менее важные признаки, которые все еще являются допустимыми признаками.

Третья версия Noise Tunnel — это версия, использующая VarGrad (см. Рис. 1e), которая является дисперсионной версией SmoothGrad и может быть определена как Eq. 3, где M^_c — значение SmoothGrad.

При сравнении всех методов, используемых в Noise Tunnel, мы можем увидеть существенные отличия по сравнению с исходной атрибуцией (см. Рис. 1). Использование SmoothGrad (Рис. 1c), по-видимому, обнаруживает больше краев входного изображения (по сравнению с чистой атрибуцией IG на [Рис. 1b]), и это можно интерпретировать как обнаружение границы решения. SmoothGrad-Square (рис. 1d) и VarGrad (рис. 1e) удаляют большое количество шума, но обычно также и некоторые важные особенности, видимые на атрибуции от SmoothGrad (посмотрите на хвост динго).

Недостатки

Даже если метод Noise Tunnel повышает точность методов XAI, он увеличивает объем вычислений. Каждый образец, созданный методом, требует повторного запуска всего метода XAI (для этого образца). Это линейное увеличение вычислений, и чтобы сделать метод эффективным, вы должны использовать как минимум 5 сгенерированных выборок шума (в 5 раз больше вычислений, чем при использовании только исходного метода XAI). Это может быть проблематично на более медленных машинах или если реализация складывает все сэмплы в память одновременно (графическим картам может не хватить памяти).

дальнейшее чтение

Я решил создать серию статей, объясняющих наиболее важные методы XAI, используемые в настоящее время на практике. Вот основная статья: Методы XAI — введение

Использованная литература:

  1. Н. Кохликян, В. Миглани, М. Мартин, Э. Ван, Б. Алсаллах, Дж. Рейнольдс, А. Мельников, Н. Клюшкина, К. Арая, С. Ян, и в. Каптум: Единая и родовая библиотека интерпретируемости моделей для pytorch. Препринт arXiv arXiv: 2009.07896, 2020.
  2. Д. Смилков, Н. Торат, Б. Ким, Ф. Вьегас, М. Ваттенберг. Smoothgrad: удаление шума путем добавления шума. Препринт arXiv arXiv: 1706.03825, 2017.
  3. Дж. Адебайо, Дж. Гилмер, М. Мюлли, И. Гудфеллоу, М. Хардт, Б. Ким. Проверки работоспособности для карт значимости. Препринт arXiv arXiv: 1810.03292, 2018.
  4. А. Хосла, Н. Джаядевапракаш, Б. Яо, Л. Фей-Фей. Набор данных Стэнфордских собак. https://www.kaggle.com/jessicali9530/stanford-dogs-dataset, 2019 г. Дата обращения: 01.10.2021.

Первоначально опубликовано на https://erdem.pl.