1. STAP: последовательность политик, не зависящих от задач (arXiv)

Автор: Кристофер Агиа, Токи Мигимацу, Джиаджун Ву, Жаннетт Бог.

Аннотация: Достижения в приобретении роботизированных навыков позволили создать универсальные библиотеки изученных навыков для последующих задач манипулирования. Однако наивное выполнение этих навыков одно за другим вряд ли увенчается успехом без учета зависимостей между действиями, преобладающими в долгосрочных планах. Мы представляем Sequencing Task-Agnostic Policies (STAP), масштабируемую структуру для обучения навыкам манипулирования и координации их геометрических зависимостей во время планирования для решения долгосрочных задач, которые никогда не встречались ни одному навыку во время обучения. Учитывая, что Q-функции кодируют меру выполнимости навыков, мы формулируем задачу оптимизации, чтобы максимизировать совместный успех всех навыков, упорядоченных в плане, который мы оцениваем как произведение их Q-значений. Наши эксперименты показывают, что эта целевая функция аппроксимирует осуществимость плана наземной истины и, когда она используется в качестве цели планирования, уменьшает близорукое поведение и тем самым способствует успешному выполнению долгосрочных задач. Далее мы демонстрируем, как STAP можно использовать для планирования задач и движений, оценивая геометрическую осуществимость последовательностей навыков, предоставляемых планировщиком задач. Мы оцениваем наш подход в моделировании и на реальном роботе. Качественные результаты и код доступны по адресу https://sites.google.com/stanford.edu/stap.

2. TAME: независимое от задач непрерывное обучение с использованием нескольких экспертов (arXiv)

Автор: Хаоран Чжу, Марьям Майзуби, Арихант Джейн, Анна Хороманска.

Аннотация: Цель обучения на протяжении всей жизни состоит в том, чтобы постоянно учиться на нестационарных распределениях, где нестационарность обычно определяется последовательностью отдельных задач. Предыдущие работы в основном рассматривали идеалистические настройки, когда идентичность задач известна, по крайней мере, при обучении. В этой статье мы сосредоточимся на принципиально более сложной, так называемой задачно-независимой настройке, когда идентичность задач неизвестна, и обучающаяся машина должна вывести их из наблюдений. Наш алгоритм, который мы называем TAME (непрерывное обучение, независимое от задачи, с использованием нескольких экспертов), автоматически определяет сдвиг в распределении данных и переключается между сетями экспертов по задачам в режиме онлайн. При обучении стратегия переключения между задачами основывается на чрезвычайно простом наблюдении, что для каждой новой поступающей задачи происходит статистически значимое отклонение значения функции потерь, знаменующее начало этой новой задачи. При выводе переключение между экспертами регулируется сетью селекторов, которая направляет тестовую выборку в соответствующую экспертную сеть. Сеть селекторов обучается на небольшом подмножестве данных, равномерно выбранных случайным образом. Мы контролируем рост сети экспертов по задачам, а также сети селекторов, используя онлайн-сокращение. Наши экспериментальные результаты показывают эффективность нашего подхода к контрольным наборам данных непрерывного обучения, превосходя предыдущие методы, не зависящие от задач, и даже методы, которые допускают идентичность задач как при обучении, так и при тестировании, в то же время используя сопоставимый размер модели.