Усиленное обучение — это ветвь машинного обучения, в которой специалисты по обработке и анализу данных фокусируются на принятии решений и обучении на основе вознаграждения. Обучение с подкреплением работает, изучая окружающую среду и корректируя ее поведение, чтобы максимизировать вознаграждение. Это имитирует то, как мы учимся: мы не всегда получаем положительное подкрепление, делаем ошибки и идем путем проб и ошибок, чтобы достичь своих целей.

Обучение с подкреплением широко используется в робототехнике, играх, науке о данных и финансовой торговле. Поскольку мы можем ожидать от агентов принятия сложных решений и достижения долгосрочных целей, это одна из самых захватывающих тенденций в области ИИ.

Обучение с подкреплением использует принципиально иной подход, чем обучение с учителем, более распространенный метод машинного обучения, в котором модели учатся делать прогнозы на основе обучающих примеров, которые им предоставили.

Если человек пытается выучить французский язык, знакомство с французским текстом, грамматическими правилами и словарным запасом ближе к подходу к обучению с учителем, говорит Ралука Джорджеску, инженер-исследователь-программист, работающий над проектом Paidia в лаборатории Microsoft Research Cambridge UK.

С подходом обучения с подкреплением они отправятся во Францию ​​и будут учиться, разговаривая с людьми. По ее словам, они будут наказаны озадаченными взглядами, если скажут что-то не так, и будут вознаграждены круассаном, если закажут его правильно.

Агент обучения с подкреплением учится, взаимодействуя со своей средой, либо в реальном мире, либо в смоделированной среде, что позволяет ему безопасно исследовать различные варианты. Он выполняет действие и ждет, приведет ли оно к положительному или отрицательному результату, исходя из установленной системы вознаграждения. Как только эта обратная связь получена, модель узнает, было ли это решение хорошим или плохим, и соответствующим образом обновляет себя.

Даже черви могут обучаться с подкреплением — они могут научиться идти навстречу вещам и избегать их, основываясь на некоторой обратной связи, эта способность учиться на самом базовом уровне из вашей среды — это что-то сверхъестественное для нас, но в машинном обучении это немного сложнее. и деликатный и требует больше размышлений, чем обучение под наблюдением.

Для клиентов, которые проводят крупномасштабные пробы и ошибки, Annoberry позволяет исследовать эти данные, используя правильные методы и услуги аннотирования.

Посетите нас на Услуги аннотации | Annoberry или следите за нами на https://www.linkedin.com/company/annoberry.