Инструмент для выполнения действий в совместной манере и получения большего вознаграждения или более быстрого совместного решения более сложных задач.

Обучение с подкреплением используют не только автономные автомобили, но и центры обработки данных, системы управления светофорами, домены здравоохранения, области обработки изображений, робототехника, обработка естественного языка, игры (все знают об AlphaGo) и даже маркетинг и т. д. и т. п. теперь, чтобы помочь им генерировать большие вознаграждения или большую точность. Таким образом, мы можем с уверенностью сказать, что за последнее десятилетие прогресс в области обучения с подкреплением был выдающимся.

Теперь подобласть обучения с подкреплением наделала много шума для исследователей. Люди в отрасли хотят, чтобы эта область становилась все лучше и лучше, чтобы выполнять свои задачи в гораздо более эффективное время и с большей точностью. Это подполе называется Многоагентное обучение с подкреплением.

Многоагентное обучение с подкреплением

Основное внимание уделяется изучению поведения нескольких обучающих агентов, которые сосуществуют в общей среде. Каждый агент использует ту или иную форму обучения с подкреплением для обновления своей политики с течением времени.

Мультиагентную систему можно разделить на три части:

1: сотрудничество: когда несколько агентов со схожими интересами могут общаться и работать вместе для достижения общей цели.

Настройки чистого сотрудничества исследуются в развлекательных кооперативных играх, таких как Overcooked, а также в реальных сценариях робототехники.

2: Конкурентный/состязательный: когда несколько агентов конкурируют друг с другом. Отдельные агенты пытаются максимизировать свои собственные вознаграждения и минимизировать вознаграждения других агентов.

Проекты AlphaGo демонстрируют, как оптимизировать работу агентов в условиях чистой конкуренции.

3:Смешанный: когда несколько агентов имеют элементы как сотрудничества, так и конкуренции.

Подумайте о баскетбольной игре 5 на 5, в которой люди из одной команды координируют свои действия друг с другом, но две команды соревнуются друг с другом.

or

Когда несколько беспилотных автомобилей планируют свои маршруты, у каждого из них есть интересы, которые расходятся, но не исключают друг друга: каждый автомобиль сводит к минимуму время, необходимое для достижения пункта назначения, но все автомобили имеют общий интерес избежать дорожно-транспортных происшествий. .

Многоагентные подходы к обучению с подкреплением

Существует два общих подхода к классификации MARL:

1: Централизованный подход. Центральное подразделение принимает решение за всех агентов.

2: Децентрализованный подход. Действия/решения принимаются самими агентами.

Мы рассмотрим эти два подхода более подробно с их преимуществами и недостатками в следующей части на примере. А пока вы можете посмотреть это видео на YouTube, в котором люди разработали многороботные системы реального мира, работающие с использованием этих двух подходов.

Проблемы мультиагентного обучения с подкреплением

Модели MARL предлагают ощутимые преимущества для задач глубокого обучения, учитывая, что они являются наиболее близкими представлениями многих когнитивных действий в реальном мире. Тем не менее, существует множество проблем, которые необходимо учитывать при реализации этого типа модели.

1: Проклятие размерности.Многие стратегии MARL, которые работают в определенных игровых средах, ужасно терпят неудачу по мере увеличения числа агентов/игроков.

2: Обучение. Координация обучения большого количества агентов — еще один кошмар в сценариях MARL. Как правило, модели MARL используют некоторые механизмы координации политики обучения, чтобы свести к минимуму влияние задач обучения.

3. Неоднозначность: модели MARL очень уязвимы для сценариев неоднозначности агентов. Представьте себе многопользовательскую игру, в которой два агента занимают одинаковые позиции в окружающей среде. Чтобы справиться с этими проблемами, политика каждого агента должна учитывать действия, предпринимаемые другими агентами.

Посмотрите это видео, где агенты пытаются играть в прятки друг с другом. Я считаю, что это один из лучших примеров для просмотра и понимания MARL, многоагентного обучения с подкреплением.

Надеюсь это поможет!!

Ссылки

  1. Истории успеха обучения с подкреплением: https://categitau.medium.com/success-stories-of-reinforcement-learning-9b4064171668
  2. Мультиагентное обучение с подкреплением: https://en.wikipedia.org/wiki/Multi-agent_reinforcement_learning
  3. Мультиагентное обучение с подкреплением (MARL) и совместный ИИ: -8f1e241606ac»
  4. Области исследований в мультиагентном обучении с подкреплением: https://ankurdhuriya.medium.com/areas-of-research-in-multi-agent-reinforcement-learning-5a018830fa88