آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصهای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک
قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدلها معمولا مبتنی بر فاینتیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدلها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.
با اومدن DeepSeek-R1، روشهای کارآمد دیگهای هم برای افزایش توانایی استدلال در مدلها معرفی شد: * روش فقط یادگیری تقویتی (Pure RL) * روش فقط یادگیری باناظر (Pure SFT)
در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نامهای Accuracy و Format تعریف شدن. برای مثال، در پرامپتها و سوالهای کدنویسی، Accuracy Reward بر اساس تستکیسها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏
این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماههای آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.
روش دوم، فقط یادگیری باناظر (SFT) هست. دیپسیک یک سری مدل کوچکتر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدلها هم تنها با SFT قابلیت استدلال پیدا کردند.
البته، وقتی مدلهای کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدلهای بزرگتر (مثل DeepSeek-V3) میتونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدلهای کوچکتر بیشتر با Pure SFT به این توانایی میرسن.
آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصهای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک
قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدلها معمولا مبتنی بر فاینتیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدلها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.
با اومدن DeepSeek-R1، روشهای کارآمد دیگهای هم برای افزایش توانایی استدلال در مدلها معرفی شد: * روش فقط یادگیری تقویتی (Pure RL) * روش فقط یادگیری باناظر (Pure SFT)
در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نامهای Accuracy و Format تعریف شدن. برای مثال، در پرامپتها و سوالهای کدنویسی، Accuracy Reward بر اساس تستکیسها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏
این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماههای آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.
روش دوم، فقط یادگیری باناظر (SFT) هست. دیپسیک یک سری مدل کوچکتر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدلها هم تنها با SFT قابلیت استدلال پیدا کردند.
البته، وقتی مدلهای کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدلهای بزرگتر (مثل DeepSeek-V3) میتونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدلهای کوچکتر بیشتر با Pure SFT به این توانایی میرسن.
Telegram auto-delete message, expiring invites, and more
elegram is updating its messaging app with options for auto-deleting messages, expiring invite links, and new unlimited groups, the company shared in a blog post. Much like Signal, Telegram received a burst of new users in the confusion over WhatsApp’s privacy policy and now the company is adopting features that were already part of its competitors’ apps, features which offer more security and privacy. Auto-deleting messages were already possible in Telegram’s encrypted Secret Chats, but this new update for iOS and Android adds the option to make messages disappear in any kind of chat. Auto-delete can be enabled inside of chats, and set to delete either 24 hours or seven days after messages are sent. Auto-delete won’t remove every message though; if a message was sent before the feature was turned on, it’ll stick around. Telegram’s competitors have had similar features: WhatsApp introduced a feature in 2020 and Signal has had disappearing messages since at least 2016.
However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.