Telegram Group & Telegram Channel
Meta-Learning Bidirectional Update Rules [2021] - обучаем бэкпроп

На мой взгляд, за мета-обучением будущее, но обучаемый алгоритм не должен содержать много параметров, чтобы не переобучиться на мета-трейне. На днях наткнулся на данную работу, предлагающую свой вариант мета-параметризации.

Рассмотрим полносвязную нейросеть в такой перспективе: у каждого нейрона есть 2 "канала" - для forward и backward. Мы сначала совершаем цепочку расчётов по первому каналу нейрона слева направо, далее считаем градиент ошибки по последнему слою, и по второму каналу совершаем цепочку расчётов справа налево. Это будет градиент, который мы потом с некоторым learning rate применим к весам. Это на картинке слева. Обобщаем это следующим образом:

1) Теперь у каждого нейрона K "каналов", причём они не независимы, и суммируются все со всеми и в forward, и в backward, и даже в weights update. Но мы обучаем несколько матриц K x K, используемые как веса при суммировании из каждого в каждый канал во всех этапах.

2) Добавим мета-параметры, похожие на momentum и learning rate

3) На вход первому слою будем подавать как обычно input, а последнему просто правильный ответ, чтобы алгоритм сам обучился тому, как обновлять параметры

Теперь эти ~O(K^2) параметров можно обучать, оптимизируя производительность на валидационном датасете. Обучать их можно как генетикой, так и напрямую градиентным спуском, если модель обучать не так много шагов.

Если подумать, схема похожа на ту же VSML, с разницей в том, что здесь авторы строят свою модель именно как обобщение схемы forward-backward, из-за чего возникает много лишней нотации и слегка переусложнённых конструкций. Авторы указывают, что в их работе нет RNN, но это различие скорее в интерпретации происходящего. Глобальная логика та же - обучаемые небольшие матрицы регулируют пробрасывание информации по архитектуре, а также обновление содержащейся в ней памяти, именуемой весами.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/177
Create:
Last Update:

Meta-Learning Bidirectional Update Rules [2021] - обучаем бэкпроп

На мой взгляд, за мета-обучением будущее, но обучаемый алгоритм не должен содержать много параметров, чтобы не переобучиться на мета-трейне. На днях наткнулся на данную работу, предлагающую свой вариант мета-параметризации.

Рассмотрим полносвязную нейросеть в такой перспективе: у каждого нейрона есть 2 "канала" - для forward и backward. Мы сначала совершаем цепочку расчётов по первому каналу нейрона слева направо, далее считаем градиент ошибки по последнему слою, и по второму каналу совершаем цепочку расчётов справа налево. Это будет градиент, который мы потом с некоторым learning rate применим к весам. Это на картинке слева. Обобщаем это следующим образом:

1) Теперь у каждого нейрона K "каналов", причём они не независимы, и суммируются все со всеми и в forward, и в backward, и даже в weights update. Но мы обучаем несколько матриц K x K, используемые как веса при суммировании из каждого в каждый канал во всех этапах.

2) Добавим мета-параметры, похожие на momentum и learning rate

3) На вход первому слою будем подавать как обычно input, а последнему просто правильный ответ, чтобы алгоритм сам обучился тому, как обновлять параметры

Теперь эти ~O(K^2) параметров можно обучать, оптимизируя производительность на валидационном датасете. Обучать их можно как генетикой, так и напрямую градиентным спуском, если модель обучать не так много шагов.

Если подумать, схема похожа на ту же VSML, с разницей в том, что здесь авторы строят свою модель именно как обобщение схемы forward-backward, из-за чего возникает много лишней нотации и слегка переусложнённых конструкций. Авторы указывают, что в их работе нет RNN, но это различие скорее в интерпретации происходящего. Глобальная логика та же - обучаемые небольшие матрицы регулируют пробрасывание информации по архитектуре, а также обновление содержащейся в ней памяти, именуемой весами.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/177

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

How to Invest in Bitcoin?

Like a stock, you can buy and hold Bitcoin as an investment. You can even now do so in special retirement accounts called Bitcoin IRAs. No matter where you choose to hold your Bitcoin, people’s philosophies on how to invest it vary: Some buy and hold long term, some buy and aim to sell after a price rally, and others bet on its price decreasing. Bitcoin’s price over time has experienced big price swings, going as low as $5,165 and as high as $28,990 in 2020 alone. “I think in some places, people might be using Bitcoin to pay for things, but the truth is that it’s an asset that looks like it’s going to be increasing in value relatively quickly for some time,” Marquez says. “So why would you sell something that’s going to be worth so much more next year than it is today? The majority of people that hold it are long-term investors.”

Telegram Be The Next Best SPAC

I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.

Knowledge Accumulator from ca


Telegram Knowledge Accumulator
FROM USA