Проблема Montezuma's RevengeБольшие проблемы у базовых RL-алгоритмов возникают тогда

Knowledge Accumulator

Проблема Montezuma's Revenge

Большие проблемы у базовых RL-алгоритмов возникают тогда, когда награды за действия возникают редко, и нет шансов получить положительную награду просто случайным нажатием кнопок - а значит, вы не выучите абсолютно ничего с момента инициализации.

Это называют проблемой exploration - нам нужно "исследовать" среду и побывать в как можно большем наборе состояний среды, и уже в них пытаться нажимать случайные кнопки 😄

Для решения изобрели, пожалуй, десятки методов на основе intrinsic motivation - это когда вы конструируете искусственную награду за исследование новых состояний, сами её считаете и добавляете к настоящей награде. Обучение на такую награду позволяет мотивировать агента совершать действия, приводящие к новому состоянию среды.

В 2018 году был предложен абсурдно простой и при этом эффективный метод, который закрепился во многих последующих работах. Про такой эффект я уже говорил.

Завтра я про него расскажу, не переключайтесь!

@knowledge_accumulator

www.tg-me.com/kr/Knowledge Accumulator/com.knowledge_accumulator/20

714 viewsMar 12, 2023 at 10:01

tg-me.com/knowledge_accumulator/20

Create: 2023-03-12
Last Update: 2025-06-25 04:17:18

BY Knowledge Accumulator

Share with your friend now:
tg-me.com/knowledge_accumulator/20

Knowledge Accumulator Telegram | DID YOU KNOW?

Telegram hopes to raise $1bn with a convertible bond private placement

Проблема Montezuma's RevengeБольшие проблемы у базовых RL-алгоритмов возникают тогда