Обучение с подкреплением, основанное на самостоятельной игре, позволило агентам ИИ превзойти производительность человека на уровне экспертов в популярной компьютерной игре Dota и настольных играх, таких как шахматы и го. Несмотря на хорошие результаты, недавние исследования показали, что самостоятельная игра может быть не такой надежной, как раньше…