1. Примечание о пределах диффузии для стохастического градиентного спуска(arXiv)

Автор: Альберто Ланконелли, Кристофер С. А. Лаурия

Аннотация: В литературе по машинному обучению стохастический градиентный спуск недавно широко обсуждался из-за его предполагаемых свойств неявной регуляризации. Большая часть теории, которая пытается прояснить роль шума в алгоритмах стохастического градиента, широко аппроксимирует стохастический градиентный спуск стохастическим дифференциальным уравнением с гауссовским шумом. Мы предлагаем новое строгое теоретическое обоснование этой практики, демонстрирующее, как естественным образом возникает гауссовость шума.

2. От градиентного потока при убыли населения к обучению с помощью стохастического градиентного спуска(arXiv)

Автор: Сатьен Кале, Джейсон Д. Ли, Крис Де Са, Аюш Сехари, Картик Шридхаран.

Аннотация:Стохастический градиентный спуск (SGD) был методом выбора для изучения крупномасштабных невыпуклых моделей. В то время как общий анализ того, когда работает SGD, был труднодостижимым, в последнее время был достигнут значительный прогресс в понимании сходимости градиентного потока (GF) по потерям населения, отчасти из-за простоты, которую нам дает анализ непрерывного времени. Главной темой нашей статьи является предоставление общих условий, при которых SGD сходится, предполагая, что GF по потерям населения сходится. Нашим основным инструментом для установления этой связи является общая обратная теорема типа Ляпунова, из которой следует существование потенциала Ляпунова при мягких предположениях о скоростях сходимости GF. Фактически, используя эти потенциалы, мы показываем однозначное соответствие между скоростями сходимости GF и геометрическими свойствами основной цели. Когда эти потенциалы дополнительно удовлетворяют определенным свойствам самоограничения, мы показываем, что их можно использовать для обеспечения гарантии сходимости для градиентного спуска (GD) и SGD (даже когда пути GF и GD/SGD довольно далеко друг от друга). Оказывается, эти самоограничивающие предположения в некотором смысле также необходимы для работы GD/SGD. Используя нашу структуру, мы предоставляем унифицированный анализ для GD/SGD не только для классических настроек, таких как выпуклые потери или цели, которые удовлетворяют свойствам PL/KL, но также и для более сложных задач, включая восстановление фазы и матричный квадратный корень, а также расширение результатов. в недавней работе Чаттерджи 2022

3. Строгая динамическая теория среднего поля для методов стохастического градиентного спуска(arXiv)

Автор:Седрик Гербело, Эмануэле Трояни, Франческа Миньякко, Флорент Крзакала, Ленка Здеборова

Аннотация: мы доказываем уравнения в замкнутой форме для точной многомерной асимптотики семейства градиентных методов первого порядка, изучая оценщик (например, M-оценщик, неглубокая нейронная сеть и т. д.) на основе наблюдений. на гауссовских данных с минимизацией эмпирического риска. Сюда входят широко используемые алгоритмы, такие как стохастический градиентный спуск (SGD) или ускорение Нестерова. Полученные уравнения соответствуют уравнениям, полученным в результате дискретизации уравнений динамической теории среднего поля (DMFT) из статистической физики применительно к градиентному потоку. Наш метод доказательства позволяет нам дать явное описание того, как ядра памяти формируются в эффективной динамике, и включить неразделимые функции обновления, позволяющие использовать наборы данных с неидентичными ковариационными матрицами. Наконец, мы предоставляем численные реализации уравнений для SGD с общим размером партии и с постоянными скоростями обучения.