Работа с выпуклой онлайн-оптимизацией, часть 4 (машинное обучение)

Проксимальные алгоритмы для сглаженной выпуклой онлайн-оптимизации с прогнозами (arXiv)

Автор: Спандан Сенапати, Ашвин Шенай, Кетан Раджават.

Аннотация: В этой статье мы рассматриваем задачу сглаженной выпуклой онлайн-оптимизации (SOCO) с прогнозами, где учащийся имеет доступ к конечному окну просмотра вперед с изменяющимися во времени затратами на стадии, но получает штраф за изменение своих действий на каждой стадии. На основе концепции переменного проксимального градиентного спуска (APGD) мы разрабатываем альтернативный проксимальный спуск с отступающим горизонтом (RHAPD) для проксимируемых, негладких и сильно выпуклых стадий и RHAPD-Smooth (RHAPD-S) для непроксимируемых, гладких и сильно выпуклые стадийные издержки. В дополнение к тому, что предлагаемые нами алгоритмы превосходят алгоритмы на основе градиентного спуска при сопоставимой сложности времени выполнения, они также позволяют решать более широкий круг задач. Мы предоставляем теоретические верхние границы динамического сожаления, достигаемые предложенными алгоритмами, которые экспоненциально затухают с длиной окна просмотра вперед. Эффективность представленных алгоритмов эмпирически продемонстрирована с помощью численных экспериментов на задачах негладкой регрессии и динамического отслеживания траектории.

2. Выпуклая онлайн-оптимизация для ограниченного управления линейными системами с использованием эталонного регулятора (arXiv)

Автор: Марко Нонхофф, Йоханнес Кёлер, Маттиас А. Мюллер.

Аннотация: В этой работе мы предлагаем схему управления для линейных систем с точечными во времени состояниями и входными ограничениями, которая направлена на минимизацию переменных во времени и априорно неизвестных функций стоимости. Предлагаемый контроллер основан на выпуклой онлайн-оптимизации и эталонном регуляторе. В частности, мы применяем онлайн-градиентный спуск для отслеживания изменяющегося во времени и априори неизвестного оптимального стационарного состояния системы. Кроме того, мы используем λ-сжимающий набор, чтобы обеспечить выполнение ограничений и достаточную скорость сходимости замкнутой системы к оптимальному устойчивому состоянию. Мы доказываем, что предложенная схема рекурсивно реализуема, гарантирует, что ограничения на состояние и вход всегда выполняются, и достигает динамического сожаления, которое линейно ограничено изменением функций стоимости. Производительность алгоритма и удовлетворение ограничений проиллюстрированы с помощью примера моделирования.

Работа с выпуклой онлайн-оптимизацией, часть 4 (машинное обучение)

Вопросы по теме