Краткое объяснение функции значения состояния-действия (Q) в RL

Краткое объяснение функции значения состояния-действия (Q) в RL.

Алгоритм обучения с подкреплением (RL) находит оптимальную политику, которая максимизирует отдачу, взаимодействуя со средой, которая моделируется как марковский процесс принятия решений (MDP).

Прежде чем перейти к функции значения состояния-действия, необходимо обсудить несколько важных компонентов.

Награда и возвращение

Награда определяет, насколько удачно действие из состояния для достижения следующего состояния. Это важнейший компонент RL, который определяет обучение агента RL.

С другой стороны, доход — это совокупная сумма взвешенных вознаграждений от текущего состояния до целевого состояния. Гамма гарантирует, что немедленное вознаграждение будет иметь более высокий вес по сравнению с вознаграждением в конце.

состояния

Состояние s — это полное описание состояния мира, состояния которого полностью наблюдаемы.

Действие

Агент выполняет действие в среде для достижения следующего состояния из текущего состояния. Например, в задаче навигации примером действия является поворот налево или поворот направо.

Политика

Политика представляет собой сопоставление состояний с действиями. Другими словами, политика определяет поведение агента из конкретного состояния.

Функция значения

Функция value возвращает значение пары состояние или состояние-действие. Существует две функции значения: функция значения состояния и функция значения состояния-действия. Функция значения состояния дает ожидаемый доход, если мы начинаем с состояния s и действуем в соответствии с политикой. Принимая во внимание, что функция значения состояния-действия Q(s, a) дает ожидаемый доход, если мы начнем с состояния s и предпримем произвольное действие a, а затем действуем в соответствии с политикой.

Функция значения состояния-действия

Давайте объясним больше о функции значения состояния-действия на примере марсохода.

У нас есть марсоход, который может двигаться влево или вправо. Есть два терминальных состояния, которые имеют вознаграждения 100 и 40 соответственно, а остальные состояния имеют нулевое вознаграждение. Гамма установлена на уровне 0,5.

Теперь представьте, что наша политика ровера заключается в том, чтобы всегда идти влево, и марсоход стартует из состояния 5. Итак, общий возврат состояния 5 рассчитывается, как показано ниже:

Аналогичным образом мы можем вычислить возвращение марсохода, начиная с состояния 4, придерживаясь политики движения влево.

Наконец, мы можем вычислить возврат всех состояний, придерживающихся политики движения влево, как показано ниже.

Рассмотрим новую политику: всегда идти направо. Здесь мы можем вычислить доходность в каждом состоянии, используя формулу возврата, которую мы применили выше. Это может дать нам разную прибыль в каждом штате, поскольку политика сейчас другая.

Таким образом, мы можем построить график различной доходности марсохода в каждом состоянии, следуя разным политикам.

Поскольку у нас есть доходы от обеих политик, мы можем легко определить лучшую политику для марсохода на основе самой высокой доходности в каждом состоянии, как показано ниже.

Мы можем с уверенностью сказать, что движение налево — лучшая политика в каждом штате, кроме штата 5, где движение налево дает доход только 6,5, а движение направо может получить 20.

Значение состояния-действия или значение Q — это общий доход, начиная с состояния s, предпринимая произвольное действие a, а затем действуя в соответствии с политикой.

Давайте вычислим значение Q, начиная с состояния 2 и совершая произвольные действия в направлении вправо. Теперь марсоход находится в состоянии 3 и, согласно определению Q, он следует следующей политике, а здесь политика — идти налево.

Как показано на рисунке выше, он переходит из состояния 3 в состояние 2, затем из состояния 2 в состояние 1, чтобы достичь конечного состояния. Итак, мы можем вычислить значение Q, как показано ниже.

Аналогично, если произвольное действие на первом этапе было правильным, то, следуя наилучшей политике, мы можем вычислить значение Q следующим образом.

Таким образом, мы можем вычислить значения Q всех возможных действий из всех возможных состояний. Это даст нам рисунок ниже со всеми возможными значениями Q.

уравнение Беллмана

Теперь, основываясь на определении, мы можем определить формальное уравнение значения состояния-действия Q.

Интуиция, лежащая в основе уравнения, заключается в том, что значение Q действия, a из состояния, s, представляет собой сумму вознаграждения текущего состояния и наилучшего возможного значения Q из следующего состояния, s¹. Рассмотрим пример вычисления значения Q, начиная с состояния 4 и совершая произвольное действие — движение налево.

После выполнения произвольного действия марсоход достиг состояния 3. Два возможных действия: движение влево и движение вправо из состояния 3. После вычислений мы видим, что движение влево имеет самые высокие значения Q из состояния 3. Итак, max Q(3, a¹) будет значением Q поворота налево, которое оказалось равным 25.

Благодарность общему содержанию принадлежит специализированному курсу Эндрю Нга по машинному обучению на Coursera.

Если вам понравилась моя статья, подпишитесь на меня в профилях Github, Linkedin и/или Medium.

Ссылка

https://www.v7labs.com/blog/deep-reinforcement-learning-guide

Краткое объяснение функции значения состояния-действия (Q) в RL