Обучение с подкреплением (RL) — это мощная область ИИ, которую можно использовать для решения широкого круга проблем. Тем не менее, сообщество обучения с подкреплением сталкивается с рядом проблем. Одной из проблем является потребность в более совершенных методах отладки и устранения неполадок алгоритмов обучения с подкреплением во время обучения и во время реализации, особенно в многоагентных условиях частичного наблюдения, когда полная наблюдаемость состояния не поддерживается всеми агентами на каждом этапе их принятия решения.

В условиях частичного наблюдения с несколькими агентами большую часть времени агенты проводят свои собственные независимые наблюдения за некоторым лежащим в основе процессом состояния, и у агентов обычно есть очень мало избранных способов эффективного сотрудничества для решения сложной задачи, включая: алгоритмы распределенного обучения, протоколы связи и социальные нормы или соглашения, такие как установление заранее определенного порядка принятия решений. Объединение наблюдений агента с центром слияния датчиков или агентом-лидером также возможно для лучшей координации принятия решений.

Еще одна проблема заключается в отсутствии стандартной или общей платформы для сравнительного анализа, которую можно использовать для сравнения различных алгоритмов RL, которая является более открытой и управляемой сообществом, аналогичной arXiv; тем не менее, есть тренажерный зал OpenAI, который, похоже, заполняет этот пробел. Среды Gym предлагают некоторые известные или классические среды, такие как Cart Pole или Mountain Car, для сравнения алгоритмов RL:



Тем не менее, необходимо повышать осведомленность о спортзалах OpenAI, поскольку многие исследователи до сих пор не знают об этом замечательном проекте ИИ. Я полагаю, что со временем среда станет более разнообразной, а сообщество продолжит расти. Со временем необходимо создать больше сред для многоагентных и частично наблюдаемых настроек, чтобы продолжать развивать область RL. Простота использования сред Gym также должна улучшаться с течением времени, чтобы учащиеся — даже в старших классах — могли начать практиковаться и изучать область RL.

Кроме того, исследования RL часто разрознены, и разные исследователи работают над разными аспектами области. В результате может быть трудно опираться на предыдущую работу и добиваться прогресса на уровне техники. Или, другими словами, исследователи часто попадают в ловушку, думая, что один инструмент, такой как Deep Q-networks (DQN), является идеальным молотком для каждого гвоздя, упуская шанс изобрести что-то новое или внести новый вклад в область RL.

За последние несколько лет RL добилась впечатляющих результатов в целом ряде задач, от игр до управления роботами. Несмотря на эти успехи, RL по-прежнему сталкивается с рядом проблем с точки зрения перехода к более сложным или реалистичным областям. Одной из таких проблем здесь является недостаточная эффективность данных. Алгоритмы RL обычно требуют большого количества взаимодействий со средой, чтобы изучить эффективные политики. Это может быть проблематично в условиях, когда данные ограничены или требуют больших затрат.

Еще одна проблема — сложность масштабирования алгоритмов RL для решения сложных задач. Большинство методов RL предназначены для сред с небольшим количеством состояний и элементов управления. Однако многие реальные среды намного сложнее, что затрудняет прямое применение методов RL. Наконец, алгоритмы RL часто борются с компромиссами между разведкой и эксплуатацией. Чтобы изучить эффективные политики, агенты RL должны сбалансировать исследование (пробование новых вещей) с эксплуатацией (использование полученных знаний). Если агент слишком много внимания уделяет исследованию, он может никогда не получить полезную информацию. Если он слишком сосредоточится на эксплуатации, он может никогда не найти новых, потенциально лучших решений. Поиск правильного баланса между разведкой и эксплуатацией имеет решающее значение для агентов RL, но на практике этого может быть трудно достичь, когда динамика среды может постоянно меняться.

Несмотря на эти проблемы, обучение с подкреплением — это быстро развивающаяся область с огромным потенциалом, особенно для бизнес-приложений, где многие люди, даже на руководящих должностях, понятия не имеют о том, как RL изменит их отрасль в течение оставшейся части этого десятилетия и в более долгосрочных временных горизонтах. , с точки зрения оптимизации процессов принятия решений и создания беспрецедентной эффективности. Продолжая исследования и разработки, сообщество обучения с подкреплением преодолеет проблемы, представленные в этой статье, и продолжит добиваться прогресса в решении реальных проблем, которые могут создать реальную ценность для бизнеса и, возможно, огромную прибыль для молодых предпринимателей с творческим духом.

Начните изучать RL, Python и другие важные темы уже сегодня, подписавшись на этот блог. если вы хотите оставаться в курсе событий и никогда не пропускать мою историю, подпишитесь на мою рассылку. Подумайте о том, чтобы стать участником Medium, чтобы получить неограниченный доступ к моим работам и работам других авторов: