Telegram Group & Telegram Channel
#математика

↗️ Идея вот в чем. Если посчитать производную L по a1, а остальные переменные считать константами, получится так называемая частная производная L по a1. А вектор, координатами которого будут частные производные L по a1, a2, ... и ad - называется градиентом. Так вот оказывается, что градиент соответствует направлению наискорейшего роста функции. Т.е. если вам скажут чуть-чуть изменить коэффициенты a1, a2, ..., ad так, чтобы L выросла как можно сильнее - то надо менять их в направлении градиента.

💡 Какое это имеет отношение к нашей задачи поиска минимума? Самое прямое. Если вы хотите как можно быстрее уменьшить L, надо менять параметры в направлении антиградиента (градиент, умноженный на минус 1). Это породило простую идею: начинаем с некоторых случайных весов a1, a2, ..., ad, а дальше считаем антиградиент и меняем веса в его направлении, затем пересчитываем антиградиент уже с новыми весами, а потом снова меняем веса в направлении антиградиента и так до посинения. Ну ладно, не до посинения, а до момента, когда L уже существенно не уменьшается. Найденные значения коэффициентов и будут тем, что мы искали.

Таким образом, найти коэффициенты модели, при которых мы будем как можно точнее работать на обучающей выборке (и понадеемся, что на новых примерах прогнозы будут тоже адекватными) можно с помощью численной оптимизации, например с помощью описанного выше градиентного спуска.

Что из математики при этом нужно знать вам? Если вы применяете ML алгоритмы как черные ящики, то почти ничего. А если вы претендуете на понимание их работы и умение все вывести и расписать - ну тогда достаточно уметь брать производные и знать, как перемежаются матрицы. В нейросетях еще потребуется не пугаться правила дифференцирования сложной функции (chain rule) и его версии для функции многих переменных (гуглим, что такое граф вычислений и как он связан с производной сложной функции) 🙂

А в следующий раз мы поговорим о том, что же нужно знать из теории вероятностей и математической статистики (и зачем).

P.S.: Если вы будете заниматься всякими теоретическими оценками в машинном обучении (если у вас нет математического образования - скорее всего не будете), например оценками обобщающей способности или доказательством того, что при определенных условиях все локальные минимумы ошибки нейросети являются глобальными, вам потребуются гораздо более глубокие вещи. Там найдется место и множествам меры нуль по Лебегу, и устойчивости по Ляпунову, но все это другая история, которой мы коснемся когда-нибудь в другой раз 🙂
🔥45👍2813💯9👏3🥰1



tg-me.com/kantor_ai/253
Create:
Last Update:

#математика

↗️ Идея вот в чем. Если посчитать производную L по a1, а остальные переменные считать константами, получится так называемая частная производная L по a1. А вектор, координатами которого будут частные производные L по a1, a2, ... и ad - называется градиентом. Так вот оказывается, что градиент соответствует направлению наискорейшего роста функции. Т.е. если вам скажут чуть-чуть изменить коэффициенты a1, a2, ..., ad так, чтобы L выросла как можно сильнее - то надо менять их в направлении градиента.

💡 Какое это имеет отношение к нашей задачи поиска минимума? Самое прямое. Если вы хотите как можно быстрее уменьшить L, надо менять параметры в направлении антиградиента (градиент, умноженный на минус 1). Это породило простую идею: начинаем с некоторых случайных весов a1, a2, ..., ad, а дальше считаем антиградиент и меняем веса в его направлении, затем пересчитываем антиградиент уже с новыми весами, а потом снова меняем веса в направлении антиградиента и так до посинения. Ну ладно, не до посинения, а до момента, когда L уже существенно не уменьшается. Найденные значения коэффициентов и будут тем, что мы искали.

Таким образом, найти коэффициенты модели, при которых мы будем как можно точнее работать на обучающей выборке (и понадеемся, что на новых примерах прогнозы будут тоже адекватными) можно с помощью численной оптимизации, например с помощью описанного выше градиентного спуска.

Что из математики при этом нужно знать вам? Если вы применяете ML алгоритмы как черные ящики, то почти ничего. А если вы претендуете на понимание их работы и умение все вывести и расписать - ну тогда достаточно уметь брать производные и знать, как перемежаются матрицы. В нейросетях еще потребуется не пугаться правила дифференцирования сложной функции (chain rule) и его версии для функции многих переменных (гуглим, что такое граф вычислений и как он связан с производной сложной функции) 🙂

А в следующий раз мы поговорим о том, что же нужно знать из теории вероятностей и математической статистики (и зачем).

P.S.: Если вы будете заниматься всякими теоретическими оценками в машинном обучении (если у вас нет математического образования - скорее всего не будете), например оценками обобщающей способности или доказательством того, что при определенных условиях все локальные минимумы ошибки нейросети являются глобальными, вам потребуются гораздо более глубокие вещи. Там найдется место и множествам меры нуль по Лебегу, и устойчивости по Ляпунову, но все это другая история, которой мы коснемся когда-нибудь в другой раз 🙂

BY Kantor.AI


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/kantor_ai/253

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

Export WhatsApp stickers to Telegram on Android

From the Files app, scroll down to Internal storage, and tap on WhatsApp. Once you’re there, go to Media and then WhatsApp Stickers. Don’t be surprised if you find a large number of files in that folder—it holds your personal collection of stickers and every one you’ve ever received. Even the bad ones.Tap the three dots in the top right corner of your screen to Select all. If you want to trim the fat and grab only the best of the best, this is the perfect time to do so: choose the ones you want to export by long-pressing one file to activate selection mode, and then tapping on the rest. Once you’re done, hit the Share button (that “less than”-like symbol at the top of your screen). If you have a big collection—more than 500 stickers, for example—it’s possible that nothing will happen when you tap the Share button. Be patient—your phone’s just struggling with a heavy load.On the menu that pops from the bottom of the screen, choose Telegram, and then select the chat named Saved messages. This is a chat only you can see, and it will serve as your sticker bank. Unlike WhatsApp, Telegram doesn’t store your favorite stickers in a quick-access reservoir right beside the typing field, but you’ll be able to snatch them out of your Saved messages chat and forward them to any of your Telegram contacts. This also means you won’t have a quick way to save incoming stickers like you did on WhatsApp, so you’ll have to forward them from one chat to the other.

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Kantor AI from us


Telegram Kantor.AI
FROM USA