Предыдущая публикация
Роботы, работающие на складах, уже становятся привычными. Но научить устройство ориентироваться в трёхмерном пространстве и возможности реагировать на изменяющиеся условия — одна из самых сложных задач.
Чтобы решить её, исследователи из Университета науки и технологий МИСИС и Высшей школы экономики предложили новый метод формирования функции вознаграждения. Он основывается на дополнительных вторичных вознаграждениях — шейпинге вознаграждения.
Эксперименты в лабиринтах, где нейросети нужно выполнить до 20 миллионов шагов, чтобы найти выход, показали, что новый метод повысил её эффективность на 15%.
#десятилетиенауки


Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев