Инструмент для выполнения действий в совместной манере и получения большего вознаграждения или более быстрого совместного решения более сложных задач.
Обучение с подкреплением используют не только автономные автомобили, но и центры обработки данных, системы управления светофорами, домены здравоохранения, области обработки изображений, робототехника, обработка естественного языка, игры (все знают об AlphaGo) и даже маркетинг и т. д. и т. п. теперь, чтобы помочь им генерировать большие вознаграждения или большую точность. Таким образом, мы можем с уверенностью сказать, что за последнее десятилетие прогресс в области обучения с подкреплением был выдающимся.
Теперь подобласть обучения с подкреплением наделала много шума для исследователей. Люди в отрасли хотят, чтобы эта область становилась все лучше и лучше, чтобы выполнять свои задачи в гораздо более эффективное время и с большей точностью. Это подполе называется Многоагентное обучение с подкреплением.
Многоагентное обучение с подкреплением
Основное внимание уделяется изучению поведения нескольких обучающих агентов, которые сосуществуют в общей среде. Каждый агент использует ту или иную форму обучения с подкреплением для обновления своей политики с течением времени.
Мультиагентную систему можно разделить на три части:
1: сотрудничество: когда несколько агентов со схожими интересами могут общаться и работать вместе для достижения общей цели.
Настройки чистого сотрудничества исследуются в развлекательных кооперативных играх, таких как Overcooked, а также в реальных сценариях робототехники.
2: Конкурентный/состязательный: когда несколько агентов конкурируют друг с другом. Отдельные агенты пытаются максимизировать свои собственные вознаграждения и минимизировать вознаграждения других агентов.
Проекты AlphaGo демонстрируют, как оптимизировать работу агентов в условиях чистой конкуренции.
3:Смешанный: когда несколько агентов имеют элементы как сотрудничества, так и конкуренции.
Подумайте о баскетбольной игре 5 на 5, в которой люди из одной команды координируют свои действия друг с другом, но две команды соревнуются друг с другом.
or
Когда несколько беспилотных автомобилей планируют свои маршруты, у каждого из них есть интересы, которые расходятся, но не исключают друг друга: каждый автомобиль сводит к минимуму время, необходимое для достижения пункта назначения, но все автомобили имеют общий интерес избежать дорожно-транспортных происшествий. .
Многоагентные подходы к обучению с подкреплением
Существует два общих подхода к классификации MARL:
1: Централизованный подход. Центральное подразделение принимает решение за всех агентов.
2: Децентрализованный подход. Действия/решения принимаются самими агентами.
Мы рассмотрим эти два подхода более подробно с их преимуществами и недостатками в следующей части на примере. А пока вы можете посмотреть это видео на YouTube, в котором люди разработали многороботные системы реального мира, работающие с использованием этих двух подходов.
Проблемы мультиагентного обучения с подкреплением
Модели MARL предлагают ощутимые преимущества для задач глубокого обучения, учитывая, что они являются наиболее близкими представлениями многих когнитивных действий в реальном мире. Тем не менее, существует множество проблем, которые необходимо учитывать при реализации этого типа модели.
1: Проклятие размерности.Многие стратегии MARL, которые работают в определенных игровых средах, ужасно терпят неудачу по мере увеличения числа агентов/игроков.
2: Обучение. Координация обучения большого количества агентов — еще один кошмар в сценариях MARL. Как правило, модели MARL используют некоторые механизмы координации политики обучения, чтобы свести к минимуму влияние задач обучения.
3. Неоднозначность: модели MARL очень уязвимы для сценариев неоднозначности агентов. Представьте себе многопользовательскую игру, в которой два агента занимают одинаковые позиции в окружающей среде. Чтобы справиться с этими проблемами, политика каждого агента должна учитывать действия, предпринимаемые другими агентами.
Посмотрите это видео, где агенты пытаются играть в прятки друг с другом. Я считаю, что это один из лучших примеров для просмотра и понимания MARL, многоагентного обучения с подкреплением.
Надеюсь это поможет!!
Ссылки
- Истории успеха обучения с подкреплением: https://categitau.medium.com/success-stories-of-reinforcement-learning-9b4064171668
- Мультиагентное обучение с подкреплением: https://en.wikipedia.org/wiki/Multi-agent_reinforcement_learning
- Мультиагентное обучение с подкреплением (MARL) и совместный ИИ: -8f1e241606ac»
- Области исследований в мультиагентном обучении с подкреплением: https://ankurdhuriya.medium.com/areas-of-research-in-multi-agent-reinforcement-learning-5a018830fa88