Telegram Group & Telegram Channel
Однако внимательный читатель может заметить, что в формуле для L целых N слагаемых. Если в нашей обучающей выборке, например, миллион объектов, то значит ли это, что нам постоянно на каждом шаге нужно считать сумму из миллиона слагаемых? Конечно нет. Вы можете взять не всю выборку, а ее маленькую часть, например, 100 объектов или 10, и усреднить ошибку по ним. И градиент считать тоже по такой ошибке. Конечно это будет не такой точной оценкой средней ошибки, но тоже сойдет, а если на каждом шаге вы усредняете по новым случайно выбранным объектам - то этот случайный выбор нивелирует неточность оценки средней ошибки на каждом шаге. Такой подход называется стохастическим градиентным спуском (SGD, Stochastic Gradient Descent), а тот набор объектов, по которому вы усредняете ошибку на текущем шаге, называется пакетом или батчем (mini-batch). В предельном случае батч может состоять из одного объекта - т.е. вы просто каждый раз смотрите на ошибку на случайном объекте. И такой алгоритм будет работать на практике.

Идея SGD идет гораздо дальше линейных классификаторов - работая с оптимизацией любой большой суммы довольно однотипных слагаемых, вы можете также ограничиться случайным слагаемым или слагаемыми, просто менять их выбор на каждом шаге оптимизации. Тот же SGD применяется и в матричных разложениях, и в нейросетях и в разных уже древних методах обучения эмбеддингов типа word2vec. Поэтому принцип работы SGD очень важно понимать, если вы сколько-нибудь серьезно занимаетесь машинным обучением.

А в следующий раз мы поговорим о переобучении в линейных моделях, и чем случай классификации отличается от регрессии.
61👍38🥰27🔥13💩10👏1



tg-me.com/kantor_ai/257
Create:
Last Update:

Однако внимательный читатель может заметить, что в формуле для L целых N слагаемых. Если в нашей обучающей выборке, например, миллион объектов, то значит ли это, что нам постоянно на каждом шаге нужно считать сумму из миллиона слагаемых? Конечно нет. Вы можете взять не всю выборку, а ее маленькую часть, например, 100 объектов или 10, и усреднить ошибку по ним. И градиент считать тоже по такой ошибке. Конечно это будет не такой точной оценкой средней ошибки, но тоже сойдет, а если на каждом шаге вы усредняете по новым случайно выбранным объектам - то этот случайный выбор нивелирует неточность оценки средней ошибки на каждом шаге. Такой подход называется стохастическим градиентным спуском (SGD, Stochastic Gradient Descent), а тот набор объектов, по которому вы усредняете ошибку на текущем шаге, называется пакетом или батчем (mini-batch). В предельном случае батч может состоять из одного объекта - т.е. вы просто каждый раз смотрите на ошибку на случайном объекте. И такой алгоритм будет работать на практике.

Идея SGD идет гораздо дальше линейных классификаторов - работая с оптимизацией любой большой суммы довольно однотипных слагаемых, вы можете также ограничиться случайным слагаемым или слагаемыми, просто менять их выбор на каждом шаге оптимизации. Тот же SGD применяется и в матричных разложениях, и в нейросетях и в разных уже древних методах обучения эмбеддингов типа word2vec. Поэтому принцип работы SGD очень важно понимать, если вы сколько-нибудь серьезно занимаетесь машинным обучением.

А в следующий раз мы поговорим о переобучении в линейных моделях, и чем случай классификации отличается от регрессии.

BY Kantor.AI


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/kantor_ai/257

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

The STAR Market, as is implied by the name, is heavily geared toward smaller innovative tech companies, in particular those engaged in strategically important fields, such as biopharmaceuticals, 5G technology, semiconductors, and new energy. The STAR Market currently has 340 listed securities. The STAR Market is seen as important for China’s high-tech and emerging industries, providing a space for smaller companies to raise capital in China. This is especially significant for technology companies that may be viewed with suspicion on overseas stock exchanges.

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

Kantor AI from us


Telegram Kantor.AI
FROM USA