Вулкан без регистрации

03.07.2017

Через регулярные интервалы выбирается новый режим сбора предметов; переход в другой режим активизируется после поступления сигнала вознаграждения (например, связанного с тем, что необходимый предмет получен) или по истечении определенного времени. Обучение осуществляется с помощью простого статистического метода. Для обновления оценки отдачи текущее вознаграждение складывается со значением в накопителе суммарного вознаграждения, после чего наращивается значение переменной, применяемой для подсчета количества выборок. Оцениваемая отдача представляет собой указанную сумму, деленную на количество выборок (т.е. среднее значение).

В процессе обучения новое действие выбирается стохастически, с вероятностями, пропорциональными оцениваемой отдаче. Если результаты обучения являются удовлетворительными, то созданная форма поведения, связанная со сбором предметов, может включать несколько режимов одновременно (например, обеспечивая в одно и то же время сбор средств обеспечения жизнеспособности и доспехов).

Моделирование движения

В ситуациях борьбы на выживание могут использоваться различные типы движений. Компонент О-обучения отвечает за отображение ситуации на правильный тип движения, а сигнал вознаграждения формируется с учетом настроений и успехов в игре вулкан без регистрации .

Действия

Действия соответствуют различным типам движений. К ним относятся стояние на месте, изучение обстановки и сбор предметов в отсутствие противника, а также включены преследование и уклонение от ударов во время боя. Движение каждого типа может осуществляться с разными скоростями, поэтому появляется возможность создавать такие варианты, как ходьба и бег. Но это приводит к увеличению размеров пространства действий, поэтому обеспечение возможности движения на разных скоростях следует предусматривать, только если это позволяет достичь практических преимуществ.








Поделиться новостью

Ответить

Следуй за нами!

опенок в вконтакте

опенок в одноклассниках