Последние обновления байесовских нейронных сетей, часть 3 (машинное обучение)

Апостериорный вывод о бесконечно широких байесовских нейронных сетях с весами с неограниченной дисперсией (arXiv)

Аннотация: Из классических и влиятельных работ Нила (1996) известно, что предел масштабирования бесконечной ширины байесовской нейронной сети с одним скрытым слоем является гауссовым процессом, \emph{когда веса сети имеют ограниченную априорную дисперсию}. Результат Нила был распространен на сети с несколькими скрытыми слоями и на сверточные нейронные сети, также с ограничениями масштабирования гауссовского процесса. Податливые свойства гауссовских процессов позволяют затем сделать прямой апостериорный вывод и количественную оценку неопределенности, что значительно упрощает изучение предельного процесса по сравнению с сетью конечной ширины. Однако веса нейронной сети с неограниченной дисперсией создают уникальные проблемы. В этом случае классическая центральная предельная теорема не работает, и хорошо известно, что скейлинговый предел является α-устойчивым процессом при подходящих условиях. Однако современная литература в основном ограничивается прямым моделированием этих процессов, и проблема апостериорного вывода при таком пределе масштабирования остается в значительной степени нерешенной, в отличие от случая гауссовского процесса. С этой целью наш вклад представляет собой интерпретируемую и вычислительно эффективную процедуру апостериорного вывода с использованием \emph{условно-гауссовского} представления, которая затем позволяет в полной мере использовать механизм гауссовского процесса для управляемого апостериорного вывода и количественной оценки неопределенности в негауссовом режиме.

2. Индивидуальная справедливость в байесовских нейронных сетях (arXiv)

Автор: Элис Доэрти, Мэттью Уикер, Лука Лауренти, Андреа Патане.

Аннотация: мы изучаем индивидуальную справедливость (IF) для байесовских нейронных сетей (BNN). В частности, мы рассматриваем понятие ε-δ-индивидуальной справедливости, которое требует, чтобы для любой пары входных точек, которые являются ε-подобными в соответствии с заданными метриками подобия, выход BNN находился в пределах заданного допуска δ>0. Мы используем ограничения статистической выборки по входному пространству и взаимосвязь между устойчивостью к состязательным действиям и индивидуальной справедливостью, чтобы получить основу для систематической оценки ε-δ-IF, разрабатывая Fair-FGSM и Fair-PGD как глобальные, учитывающие справедливость расширения для атаки на основе градиента для BNN. Мы эмпирически изучаем IF множества приблизительно выведенных BNN с различными архитектурами на тестах справедливости и сравниваем с детерминированными моделями, полученными с использованием частотных методов. Интересно, что мы обнаружили, что BNN, обученные с помощью приближенного байесовского вывода, последовательно имеют тенденцию быть заметно более индивидуальными, чем их детерминированные аналоги.

Последние обновления байесовских нейронных сетей, часть 3 (машинное обучение)

Вопросы по теме